اعتبارات لاستخدام القيم المعقولة في التقييمات واسعة النطاق Considerations for the use of plausible values in large-scale assessments

المجلة: Large-scale Assessments in Education، المجلد: 12، العدد: 1
DOI: https://doi.org/10.1186/s40536-024-00213-y
تاريخ النشر: 2024-08-08
المؤلف: Paul A. Jewsbury وآخرون
الموضوع الرئيسي: تقنيات الاستدلال السببي المتقدمة

نظرة عامة

يتناول هذا القسم من ورقة البحث أهمية التقييمات واسعة النطاق كمصادر بيانات قيمة لإبلاغ السياسة التعليمية والممارسة. ويبرز أن مجموعات البيانات من هذه التقييمات متاحة للتحليل الثانوي، مما يسمح للباحثين بتكرار وتوسيع النتائج الحالية. ومن الميزات الرئيسية لهذه المجموعات البيانات تضمين قيم متعددة مُعَوضة للكفاءة، والتي تُعرف بالقيم المعقولة، مما يسهل استخدام طرق إحصائية تعتمد على الحالات الكاملة، مثل اختبارات t، في برامج الإحصاء الشائعة.

يعترف المؤلفون بالتحديات التي يواجهها الباحثون عند التعامل مع تعقيدات القيم المعقولة ومجموعات بيانات التقييمات واسعة النطاق، والتي يمكن أن تؤدي إلى سوء الفهم وسوء الاستخدام. لذلك، تهدف الورقة إلى توضيح مفهوم القيم المعقولة، والغرض منها في التقييمات واسعة النطاق، وتطبيقها المناسب في تحليل البيانات الثانوية. بالإضافة إلى ذلك، تتناول الأسئلة المتكررة من الباحثين الثانويين بشأن استخدام القيم المعقولة، بناءً على تجارب المؤلفين الاستشارية مع مستخدمي هذه القواعد البيانات.

مقدمة

تحدد المقدمة الغرض وهيكل التقييمات واسعة النطاق، التي تم تصميمها لتقييم نتائج التعليم على مستوى المجموعة بدلاً من الأداء الفردي. تشمل الأمثلة الرئيسية تقييم التقدم التعليمي الوطني (NAEP) والتقييمات الدولية مثل دراسة الاتجاهات في الرياضيات والعلوم الدولية (TIMSS) وبرنامج تقييم الطلاب الدوليين (PISA). تجمع هذه التقييمات بيانات ديموغرافية واسعة ومعلومات سياقية لتصنيف المشاركين وتحليل توزيعات الإنجاز عبر مجموعات مختلفة، مما يساهم في إبلاغ السياسة التعليمية والممارسة.

تهدف الورقة إلى توضيح استخدام القيم المعقولة – الدرجات المُعَوضة التي تمثل كفاءة المشاركين – خلال التحليلات الثانوية لبيانات التقييمات واسعة النطاق. وتبرز أهمية هذه القيم في توفير تقديرات دقيقة للإنجاز وتتناول سوء الفهم الشائع بشأن تطبيقها. ستفصل الأقسام التالية الأهداف والمنهجيات للتقييمات واسعة النطاق، والجوانب التقنية لتقدير الدرجات، والإرشادات لاستخدام القيم المعقولة بفعالية في البحث، مما يعزز في النهاية الشفافية وفائدة بيانات التقييمات واسعة النطاق لصانعي السياسات والباحثين.

النتائج

في قسم النتائج، تتناول الورقة التطبيق العملي للقيم المعقولة لرسم نتائج الإنجاز، مع تسليط الضوء على عدة أدوات إحصائية متاحة لهذا الغرض. بالنسبة لمستخدمي SAS أو SPSS، يُوصى باستخدام محلل IDB الخاص بـ IEA، بينما يمكن لمستخدمي R الاستفادة من حزمة EdSurvey للتقييمات الأمريكية والدولية، أو حزم RALSA وIntSvy للتقييمات الدولية واسعة النطاق. ومن الجدير بالذكر أن RALSA تحتوي على واجهة مستخدم رسومية، مما يجعلها أكثر سهولة لأولئك الذين لديهم خبرة محدودة في البرمجة. بالإضافة إلى ذلك، يُقترح استكشاف البيانات المدعومة من NCES كخيارات سهلة الاستخدام للوصول إلى البيانات التاريخية وتحليلها من التقييمات الرئيسية.

تناقش هذه القسم أيضًا المخاوف بشأن التحيز المحتمل في النتائج عند استخدام البيانات السياقية لتوليد القيم المعقولة، خاصة فيما يتعلق بالمقارنات الديموغرافية. توضح أن البيانات السياقية هي جزء لا يتجزأ من توليد القيم المعقولة، ولكن الغرض منها هو عكس توزيعات الكفاءة المقدرة بدقة من خلال نظرية استجابة العناصر (IRT) والانحدار الكامن. يؤكد المؤلفون أن دمج المعلومات السياقية لا يقدم تحيزًا تجاه البيانات أو الافتراضات الموجودة مسبقًا حول أداء المجموعات الديموغرافية، مما يضمن نزاهة التحليل.

المناقشة

تحدد قسم المناقشة من ورقة البحث أهداف وتصاميم التقييمات واسعة النطاق، مع التأكيد على غرضها في قياس وتقرير المعرفة والمهارات الجماعية لمجموعات المشاركين عبر مجالات مختلفة. على عكس التقييمات التي تعتمد على الدرجات الفردية، والتي تقدم تقارير درجات شخصية للقرارات ذات المخاطر العالية (مثل قبول الجامعات)، تركز التقييمات واسعة النطاق على توزيعات الكفاءة على مستوى المجموعة دون تغذية راجعة فردية. يتطلب هذا التمييز تصاميم تقييم فريدة تشمل أخذ عينات تمثيلية من المشاركين، وأخذ عينات من العناصر، وجمع البيانات السياقية لضمان تقارير دقيقة عبر مجموعات ديموغرافية متنوعة.

تشمل الجوانب الرئيسية للتقييمات واسعة النطاق استخدام أخذ عينات العناصر المصفوفة لتقليل عبء المشاركين مع تغطية نطاق محتوى واسع، وتطبيق نظرية استجابة العناصر (IRT) لتقدير الدرجات. تأخذ نماذج IRT في الاعتبار الاختلافات في صعوبة العناصر وكفاءة المشاركين، مما يسمح بتقديرات موثوقة على مستوى المجموعة على الرغم من التحديات التي تطرحها البيانات المفقودة بسبب تصميم العينة. بالإضافة إلى ذلك، تناقش الورقة أهمية طرق التعويض المتعددة والقيم المعقولة في معالجة الفقدان في المتغيرات الكامنة، مما يمكّن المستخدمين الثانويين من إجراء تحليلات تتماشى مع مقدرات الانحدار الكامن IRT. بشكل عام، تسلط القسم الضوء على التعقيدات والاعتبارات المنهجية المتأصلة في تصميم وتحليل التقييمات واسعة النطاق لضمان نتائج صالحة وقابلة للمقارنة عبر السكان.

Journal: Large-scale Assessments in Education, Volume: 12, Issue: 1
DOI: https://doi.org/10.1186/s40536-024-00213-y
Publication Date: 2024-08-08
Author(s): Paul A. Jewsbury et al.
Primary Topic: Advanced Causal Inference Techniques

Overview

This section of the research paper discusses the significance of large-scale assessments as valuable data sources for informing educational policy and practice. It highlights that datasets from these assessments are made available for secondary analysis, allowing researchers to replicate and extend existing findings. A key feature of these datasets is the inclusion of multiple imputed values for proficiency, referred to as plausible values, which facilitate the use of complete-case statistical methods, such as t-tests, in common statistical software.

The authors acknowledge the challenges researchers face when dealing with the complexities of plausible values and large-scale assessment datasets, which can lead to misunderstandings and misuse. Therefore, the paper aims to clarify the concept of plausible values, their purpose in large-scale assessments, and their appropriate application in secondary data analysis. Additionally, it addresses frequently asked questions from secondary researchers regarding the use of plausible values, based on the authors’ advisory experiences with users of these databases.

Introduction

The introduction outlines the purpose and structure of large-scale assessments, which are designed to evaluate group-level educational outcomes rather than individual performance. Key examples include the National Assessment of Educational Progress (NAEP) and international assessments such as the Trends in International Mathematics and Science Study (TIMSS) and the Programme for International Student Assessment (PISA). These assessments gather extensive demographic data and contextual information to classify participants and analyze achievement distributions across various groups, thereby informing educational policy and practice.

The paper aims to clarify the use of plausible values—imputed scores that represent participant proficiency—during secondary analyses of large-scale assessment data. It highlights the importance of these values in providing accurate estimates of achievement and addresses common misunderstandings regarding their application. The subsequent sections will detail the goals and methodologies of large-scale assessments, the technical aspects of score estimation, and guidelines for effectively utilizing plausible values in research, ultimately enhancing the transparency and utility of large-scale assessment data for policymakers and researchers.

Results

In the results section, the paper addresses the practical application of plausible values for plotting achievement results, highlighting several statistical tools available for this purpose. For users of SAS or SPSS, the IEA’s IDB Analyzer is recommended, while R users can utilize the EdSurvey package for U.S. and international assessments, or the RALSA and IntSvy packages for international large-scale assessments. Notably, RALSA features a graphical user interface, making it more accessible for those with limited coding experience. Additionally, the NCES-sponsored data explorers are suggested as user-friendly options for accessing and analyzing historical data from major assessments.

The section also discusses concerns regarding potential bias in results when using contextual data for generating plausible values, particularly in relation to demographic comparisons. It clarifies that while contextual data is integral to the generation of plausible values, its purpose is to accurately reflect proficiency distributions estimated through Item Response Theory (IRT) latent regression. The authors assert that the incorporation of contextual information does not introduce bias towards pre-existing data or assumptions about demographic group performance, thereby ensuring the integrity of the analysis.

Discussion

The discussion section of the research paper outlines the goals and designs of large-scale assessments, emphasizing their purpose in measuring and reporting the collective knowledge and skills of participant groups across various domains. Unlike individual-score assessments, which provide personal score reports for high-stakes decisions (e.g., college admissions), large-scale assessments focus on group-level proficiency distributions without individual feedback. This distinction necessitates unique assessment designs that include representative sampling of participants, item sampling, and the collection of contextual data to ensure accurate reporting across diverse demographic groups.

Key aspects of large-scale assessments include the use of matrix item sampling to reduce participant burden while still covering a broad content range, and the application of item response theory (IRT) for score estimation. IRT models account for differences in item difficulty and participant proficiency, allowing for reliable group-level estimates despite the challenges posed by missing data due to the sampling design. Additionally, the paper discusses the importance of multiple imputation methods and plausible values in addressing missingness in latent variables, enabling secondary users to conduct analyses consistent with IRT-latent regression estimators. Overall, the section highlights the complexities and methodological considerations inherent in designing and analyzing large-scale assessments to ensure valid and comparable results across populations.