تحليل العناصر: تأثير كفاءة المشتتات على مؤشر الصعوبة وقوة التمييز لعناصر الاختيار المتعدد
Item analysis: the impact of distractor efficiency on the difficulty index and discrimination power of multiple-choice items

المجلة: BMC Medical Education، المجلد: 24، العدد: 1
DOI: https://doi.org/10.1186/s12909-024-05433-y
PMID: https://pubmed.ncbi.nlm.nih.gov/38658912
تاريخ النشر: 2024-04-24
المؤلف: Assad Ali Rezigalla وآخرون
الموضوع الرئيسي: المنهجيات النفسية والاختبار

نظرة عامة

تستكشف هذه الدراسة العلاقة بين كفاءة المشتتات (DE) وصعوبة الأسئلة (DIF) ومؤشرات التمييز (DIS) لأسئلة الاختيار من متعدد (MCQs) في امتحان نهائي لدورة مبادئ الأمراض. أجريت الدراسة مع 45 طالبًا في السنة الثانية، وشملت التحليل 60 سؤالًا من النوع A، مع تقييم مقاييس مثل كودر-ريتشاردسون 20 (KR-20)، DIF، DIS، وDE. أظهرت النتائج أن KR-20 كان 0.91، مع متوسط DIF يبلغ 37.5 (SD = 19.1)، حيث تم اعتبار 69.5% من العناصر ذات صعوبة مقبولة. كان متوسط DIS 0.46 (SD = 0.22)، مع 69.5% من العناصر تظهر تمييزًا ممتازًا.

تكشف النتائج عن وجود ارتباط سلبي معتدل كبير بين DE وDIF (p = 0.000، r = -0.548)، مما يشير إلى أن العناصر ذات المشتتات الفعالة تميل إلى أن تكون أكثر صعوبة. بالإضافة إلى ذلك، وُجد ارتباط سلبي ضعيف بين DE وDIS (p = 0.0476، r = -0.259)، مما يدل على أن المشتتات الفعالة مرتبطة بقوة تمييز أقل. تستنتج الدراسة أن DE تؤثر بشكل كبير على كل من DIF وDIS، مما يبرز التأثير المحتمل للمشتتات غير الوظيفية (NFD) على جودة العناصر. يوصي المؤلفون بمزيد من البحث عبر دورات متعددة وأحجام عينات أكبر لتعزيز فهم هذه العلاقات.

مقدمة

تسلط مقدمة هذه الورقة البحثية الضوء على أهمية أسئلة الاختيار من متعدد (MCQs) عالية الجودة كأدوات تقييم فعالة نظرًا لقدرتها على تغطية مجموعة واسعة من مجالات المعرفة. يتم إثبات صلاحية وموثوقية MCQs من خلال التخطيط الدقيق قبل البناء، بما في ذلك استخدام مخططات المحتوى، ويتم تقييمها بشكل أكبر من خلال تحليل العناصر (IA) بعد الامتحان. يستخدم IA معايير مختلفة مثل صيغة كودر-ريتشاردسون 20 (KR20)، مؤشر الصعوبة (DIF)، مؤشر التمييز (DIS)، وكفاءة المشتتات (DE) لتقييم جودة عناصر الامتحان. يُقترح توزيع مثالي لصعوبة العناصر لتحسين فعالية الامتحان، مع تخصيص نسب محددة لمستويات مختلفة من الصعوبة.

تحدد الورقة فجوة ملحوظة في الأدبيات فيما يتعلق بالعلاقة بين DE ومعايير تحليل العناصر الأخرى، خاصة تأثيرها على موثوقية الامتحان، DIS، وDIF. ترتبط المشتتات غير الوظيفية (NFDs)، التي تفشل في تشتيت انتباه الممتحنين بشكل فعال، بمشكلات في بناء العناصر وتصميم المناهج. تهدف الدراسة إلى التحقيق في كيفية تأثير DE على مؤشرات الصعوبة والتمييز لأسئلة MCQs، مما يوفر رؤى يمكن أن تعزز تدريب منشئي العناصر وتحسن ممارسات التقييم التعليمي. من المتوقع أن تستفيد النتائج الأكاديميين المعنيين بتصميم المناهج والتقييم التعليمي.

الطرق

تحدد قسم الطرق في الورقة البحثية التصميم التجريبي والتقنيات التحليلية المستخدمة للتحقيق في أسئلة البحث. استخدمت الدراسة نهجًا كميًا، مع دمج التحليلات الإحصائية لتقييم البيانات المجمعة من تجارب مختلفة. شملت المنهجيات المحددة تجارب مختبرية محكومة، حيث تم التلاعب بالمتغيرات بشكل منهجي لمراقبة تأثيراتها على النتائج ذات الصلة.

شمل جمع البيانات استخدام أدوات وبروتوكولات موحدة لضمان الموثوقية والصلاحية. تم إجراء التحليل باستخدام أدوات برمجية قادرة على إجراء اختبارات إحصائية معقدة، مثل تحليل الانحدار وANOVA، لتحديد الفروق والعلاقات المهمة بين المتغيرات. يبرز القسم أهمية القابلية للتكرار والشفافية في الطرق المستخدمة، مع توفير تفاصيل كافية للباحثين الآخرين لتكرار الدراسة.

النتائج

في الدراسة التي تفحص نتائج الامتحان النهائي لمبادئ الأمراض البشرية، شارك ما مجموعه 45 ممتحنًا. كان متوسط عمر الممتحنين 20.5 سنة (SD = 0.97)، مع متوسط GPA يبلغ 3.9 (SD = 0.59). تضمن الامتحان 59 عنصرًا، مع متوسط درجة الصف 40 (SD = 5.14)، وكانت الدرجات تتراوح من 25 إلى 57. كانت موثوقية الامتحان، المقاسة بواسطة صيغة كودر-ريتشاردسون 20 (KR20)، عالية عند 0.91. أظهر التحليل أن 72.9% من عناصر الامتحان كانت ذات صعوبة مقبولة، بينما تم تصنيف عنصرين فقط على أنهما سهلين.

أظهر تحليل إضافي لكفاءة المشتتات (DE) ومؤشر التمييز (DIS) أن 69.5% من العناصر أظهرت تمييزًا ممتازًا، مع متوسط DIS يبلغ 0.46 (SD = 0.22). وُجد ارتباط سلبي معتدل كبير بين DE ومؤشر الصعوبة (DIF) (P = 0.00، r = -0.548)، بالإضافة إلى ارتباط سلبي ضعيف كبير بين DE وDIS (P = 0.0476، r = -0.259). العناصر ذات DE الممتازة (22 من 59) أظهرت في الغالب صعوبة مقبولة (90.9%) وتمييزًا ممتازًا (72.7%). بالمقابل، تم تحديد عنصرين فقط على أنهما ذات DE ضعيفة، وكلاهما كان صعبًا وغير مميز.

المناقشة

يقدم قسم المناقشة في الدراسة تحليلًا شاملاً للخصائص النفسية لامتحان نهائي تم إجراؤه على طلاب السنة الثانية في كلية الطب بجامعة بيشة. استخدمت الدراسة تصميمًا مقطعيًا، حيث تم تقييم 45 طالبًا باستخدام تحليل عنصر موحد لامتحان من 60 سؤال اختيار من متعدد. تشير النتائج إلى موثوقية عالية للامتحان، مع درجة كودر-ريتشاردسون 20 (KR-20) تبلغ 0.91، والتي تعتبر مثالية للتقييمات ذات المخاطر العالية. وُجد أن متوسط مؤشر الصعوبة (DIF) هو 37.5، مما يشير إلى أن الغالبية العظمى من عناصر الامتحان (72.9%) كانت ذات صعوبة مقبولة، على الرغم من أن هذا كان أقل من المتوسطات المبلغ عنها سابقًا في دراسات مماثلة.

كشف التحليل عن وجود ارتباطات كبيرة بين كفاءة المشتتات (DE)، مؤشر الصعوبة (DIF)، ومؤشر التمييز (DIS). على وجه التحديد، وُجد ارتباط سلبي معتدل (P = 0.000، r = -0.548) بين DE وDIF، مما يشير إلى أن العناصر ذات المشتتات الفعالة تميل إلى أن تكون مرتبطة بمستويات صعوبة أقل. بالمقابل، وُجد ارتباط سلبي ضعيف (P = 0.0476، r = -0.259) بين DE وDIS، مما يشير إلى أن العناصر ذات المشتتات الفعالة قد لا تميز بشكل فعال بين المتفوقين والضعفاء. تبرز الدراسة أهمية تحسين جودة المشتتات لتعزيز معايير تحليل العناصر وتوصي بمزيد من البحث مع أحجام عينات أكبر للتحقق من هذه النتائج واستكشاف العلاقات بين DE وDIF وDIS بشكل أكثر قوة.

القيود

يتناول قسم قيود الدراسة عدة قيود قد تؤثر على تفسير وعمومية نتائج البحث. تشمل القيود الرئيسية حجم العينة المحدود، الذي قد لا يمثل بشكل كافٍ السكان الأوسع، مما قد يؤدي إلى نتائج متحيزة. بالإضافة إلى ذلك، فإن اعتماد الدراسة على بيانات ذاتية الإبلاغ يقدم إمكانية وجود تحيز في الاستجابة، حيث قد لا يكشف المشاركون بدقة عن سلوكياتهم أو تجاربهم.

علاوة على ذلك، قد يحتوي تصميم البحث على قيود جوهرية، مثل نقص البيانات الطولية، مما يحد من القدرة على استنتاج العلاقات السببية على مر الزمن. تشير هذه العوامل مجتمعة إلى أنه بينما تسهم النتائج في رؤى قيمة، يجب توخي الحذر عند استنتاج النتائج خارج السياق المدروس. يجب أن تهدف الأبحاث المستقبلية إلى معالجة هذه القيود من خلال استخدام عينات أكبر وأكثر تنوعًا ودمج منهجيات طولية.

Journal: BMC Medical Education, Volume: 24, Issue: 1
DOI: https://doi.org/10.1186/s12909-024-05433-y
PMID: https://pubmed.ncbi.nlm.nih.gov/38658912
Publication Date: 2024-04-24
Author(s): Assad Ali Rezigalla et al.
Primary Topic: Psychometric Methodologies and Testing

Overview

This study investigates the relationship between distractor efficiency (DE) and the difficulty (DIF) and discrimination indices (DIS) of multiple-choice questions (MCQs) in a final exam for a Principles of Diseases course. Conducted with 45 second-year students, the analysis included 60 type A MCQs, evaluating metrics such as Kuder-Richardson 20 (KR-20), DIF, DIS, and DE. The results indicated a KR-20 of 0.91, with a mean DIF of 37.5 (SD = 19.1), where 69.5% of items were deemed of acceptable difficulty. The mean DIS was 0.46 (SD = 0.22), with 69.5% of items exhibiting excellent discrimination.

The findings reveal a significant moderate negative correlation between DE and DIF (p = 0.000, r = -0.548), suggesting that items with efficient distractors tend to be more difficult. Additionally, a weak negative correlation was found between DE and DIS (p = 0.0476, r = -0.259), indicating that efficient distractors are associated with lower discrimination power. The study concludes that DE significantly impacts both DIF and DIS, highlighting the potential influence of non-functional distractors (NFD) on item quality. The authors recommend further research across multiple courses and larger sample sizes to enhance understanding of these relationships.

Introduction

The introduction of this research paper highlights the significance of high-quality multiple-choice questions (MCQs) as effective assessment tools due to their capacity to encompass a broad spectrum of knowledge domains. The validity and reliability of MCQs are established through careful pre-construction planning, including the use of content blueprints, and are further evaluated through item analysis (IA) post-examination. IA employs various parameters such as Kuder-Richardson Formula 20 (KR20), difficulty index (DIF), discriminating index (DIS), and distractor efficiency (DE) to assess the quality of exam items. The ideal distribution of item difficulty is suggested to optimize exam effectiveness, with specific percentages allocated to varying levels of difficulty.

The paper identifies a notable gap in the literature regarding the relationship between DE and other item analysis parameters, particularly its influence on exam reliability, DIS, and DIF. Non-functional distractors (NFDs), which fail to effectively distract examinees, are linked to issues in item construction and curriculum design. The study aims to investigate how DE affects the difficulty and discrimination indices of MCQs, thereby providing insights that could enhance the training of item constructors and improve educational assessment practices. The findings are expected to benefit academics involved in curriculum design and educational assessment.

Methods

The Methods section of the research paper outlines the experimental design and analytical techniques employed to investigate the research questions. The study utilized a quantitative approach, incorporating statistical analyses to evaluate the data collected from various experiments. Specific methodologies included controlled laboratory experiments, where variables were systematically manipulated to observe their effects on the outcomes of interest.

Data collection involved the use of standardized instruments and protocols to ensure reliability and validity. The analysis was conducted using software tools capable of performing complex statistical tests, such as regression analysis and ANOVA, to determine significant differences and relationships among the variables. The section emphasizes the importance of replicability and transparency in the methods used, providing sufficient detail for other researchers to replicate the study.

Results

In the study examining the final exam results for the principle of human diseases, a total of 45 examinees participated. The mean age of the examinees was 20.5 years (SD = 0.97), with a mean GPA of 3.9 (SD = 0.59). The exam comprised 59 items, with a mean class score of 40 (SD = 5.14), and scores ranged from 25 to 57. The reliability of the exam, measured by the Kuder-Richardson Formula 20 (KR20), was high at 0.91. The analysis revealed that 72.9% of the exam items were of acceptable difficulty, while only two items were classified as easy.

Further analysis of distractor efficiency (DE) and discrimination index (DIS) indicated that 69.5% of the items demonstrated excellent discrimination, with a mean DIS of 0.46 (SD = 0.22). A significant moderate negative correlation was found between DE and difficulty index (DIF) (P = 0.00, r = -0.548), as well as a significant weak negative correlation between DE and DIS (P = 0.0476, r = -0.259). Items with excellent DE (22 out of 59) predominantly exhibited acceptable difficulty (90.9%) and excellent discrimination (72.7%). Conversely, only two items were identified as having poor DE, both of which were difficult and non-discriminating.

Discussion

The discussion section of the study presents a comprehensive analysis of the psychometric properties of a final exam administered to second-year medical students at the College of Medicine, University of Bisha. The study employed a cross-sectional design, evaluating 45 students using a standardized item analysis of a 60-item multiple-choice exam. The findings indicate a high reliability of the exam, with a Kuder-Richardson Formula 20 (KR-20) score of 0.91, which is deemed ideal for high-stakes assessments. The average difficulty index (DIF) was found to be 37.5, suggesting that a majority of the exam items (72.9%) were of acceptable difficulty, although this was lower than previously reported averages in similar studies.

The analysis revealed significant correlations between distractor efficiency (DE), difficulty index (DIF), and discrimination index (DIS). Specifically, a moderate negative correlation (P = 0.000, r = -0.548) was observed between DE and DIF, indicating that items with efficient distractors tend to be associated with lower difficulty levels. Conversely, a weak negative correlation (P = 0.0476, r = -0.259) was noted between DE and DIS, suggesting that items with efficient distractors may not effectively discriminate between high and low achievers. The study highlights the importance of improving distractor quality to enhance item analysis parameters and recommends further research with larger sample sizes to validate these findings and explore the relationships among DE, DIF, and DIS more robustly.

Limitations

The section on study limitations addresses several constraints that may affect the interpretation and generalizability of the research findings. Key limitations include a restricted sample size, which may not adequately represent the broader population, potentially leading to biased results. Additionally, the study’s reliance on self-reported data introduces the possibility of response bias, as participants may not accurately disclose their behaviors or experiences.

Furthermore, the research design may have inherent limitations, such as a lack of longitudinal data, which restricts the ability to draw causal inferences over time. These factors collectively suggest that while the findings contribute valuable insights, caution should be exercised in extrapolating the results beyond the studied context. Future research should aim to address these limitations by employing larger, more diverse samples and incorporating longitudinal methodologies.