DOI: https://doi.org/10.1145/3785022.3785035
تاريخ النشر: 2026-04-25
المؤلف: Eason Chen وآخرون
الموضوع الرئيسي: أنظمة التعليم الذكي والتعلم التكيفي
نظرة عامة
تستكشف هذه الدراسة التجريبية تقييم استجابات مدح المعلم من قبل المعلمين ذوي الخبرة (الخبراء) وغير المعلمين (المبتدئين) باستخدام واجهات دعم القرار المدعومة بالذكاء الاصطناعي مع أنماط تفسير متنوعة. تحدد الأبحاث أنماط الاعتماد البشري على الذكاء الاصطناعي، مصنفة أخطاء التفاعل إلى اعتماد مفرط (قبول اقتراحات غير صحيحة من الذكاء الاصطناعي) وعدم اعتماد (رفض اقتراحات صحيحة من الذكاء الاصطناعي)، مع الأخذ في الاعتبار أيضًا تكاليف الوقت كمؤشر على مستوى العملية. تشير النتائج إلى أنه بينما يعزز التعاون بين البشر والذكاء الاصطناعي الدقة مقارنة بالحكم البشري المستقل، فإنه باستمرار يقل عن خط الأساس للذكاء الاصطناعي فقط، مما يشير إلى أن المدخلات البشرية يمكن أن تقدم أخطاء إضافية. ومن الجدير بالذكر أن المبتدئين استفادوا أكثر من دعم الذكاء الاصطناعي، بينما غالبًا ما يتجاهل الخبراء النصائح الصحيحة من الذكاء الاصطناعي، مما يبرز تناقض الخبرة في اتخاذ القرارات التعليمية.
تقيم الدراسة أيضًا نوعين من أنماط التفسير: التفكير النصي والتسليط الضوئي المباشر. وُجد أن التفكير النصي يقلل من عدم الاعتماد عندما يكون الذكاء الاصطناعي صحيحًا ولكنه يزيد من الاعتماد المفرط عندما يكون غير صحيح، بينما كان للتسليط الضوئي المباشر تأثير ضئيل على سلوك المستخدم. لم تحسن أي من الطريقتين الدقة، وزادت كلتاهما من تكاليف الوقت. تؤكد النتائج على ضرورة وجود استراتيجيات تفسيرية متكيفة ومضبوطة بالثقة في أنظمة دعم القرار الموجهة للمعلمين التي توازن بشكل فعال بين الدقة والكفاءة والمساءلة. يدعو المؤلفون إلى إجراء أبحاث مستقبلية لاستكشاف استراتيجيات تفسير متكيفة تستند إلى تحليلات التعلم، بهدف تعزيز التعاون بين البشر والذكاء الاصطناعي والمساهمة في الدورة الأوسع لجمع البيانات وتحليلها وتفسيرها واتخاذ إجراءات مستنيرة في السياقات التعليمية.
مقدمة
تناقش مقدمة الورقة الدور الحاسم للمعلمين في اتخاذ الأحكام حول أداء الطلاب من خلال مهام مثل التقييم والتقدير والتعليقات. مع تعقيد البيئات التعليمية بشكل متزايد، يواجه المعلمون مطالب معرفية متزايدة، مما يتطلب طرق تقييم فعالة وعادلة. يبرز المؤلفون إمكانيات الذكاء الاصطناعي (AI) للمساعدة في هذه العمليات اتخاذ القرار، وخاصة من خلال الأساليب المعتمدة على الأدلة التي تبسط التقييم إلى فحوصات ثنائية، يمكن تجميعها في مقاييس الأداء. على الرغم من الفوائد المثبتة للذكاء الاصطناعي في مجالات مختلفة، هناك نقص ملحوظ في الأبحاث حول تطبيق نماذج اللغة الكبيرة (LLMs) في السياقات التعليمية، خاصة في مجال التدريس، حيث تكون المساءلة والخبرة التربوية ضرورية.
لمعالجة هذه الفجوة، تهدف الورقة إلى استكشاف كيف يمكن أن تعزز نماذج اللغة الكبيرة اتخاذ القرار في تقييم استجابات مدح المعلم. يطرح المؤلفون سؤالين بحثيين: (RQ1) مقارنة أداء المقيمين البشريين الذين يعملون بمفردهم مقابل أولئك الذين يتعاونون مع الذكاء الاصطناعي عند تقييم استجابات مدح المعلم، و(RQ2) فحص تأثير مستويات خبرة المعلم وأنماط تفسير الذكاء الاصطناعي على مقاييس الأداء البشري مثل الدقة والاعتماد على الذكاء الاصطناعي. تشير النتائج الأولية إلى أن تفسيرات التفكير النصي من الذكاء الاصطناعي تزيد من الاعتماد على التكنولوجيا، بينما يميل التعاون مع الذكاء الاصطناعي إلى استهلاك المزيد من الوقت. بالإضافة إلى ذلك، يستفيد المعلمون المبتدئون من اقتراحات الذكاء الاصطناعي، على الرغم من أنهم قد يعتمدون بشكل مفرط على النصائح غير الصحيحة، بينما غالبًا ما يتجاهل المعلمون ذوو الخبرة التوصيات الصحيحة من الذكاء الاصطناعي، مما يؤدي إلى عدم الاعتماد.
النتائج
يقدم قسم “النتائج” في ورقة البحث النتائج المستمدة من التجارب أو التحليلات التي تم إجراؤها. يوضح نتائج الدراسة، مع تسليط الضوء على النقاط البيانية الرئيسية، والتحليلات الإحصائية، وأي اتجاهات ملحوظة. عادةً ما تكون النتائج مصحوبة بأشكال وجداول ذات صلة توضح البيانات بصريًا، مما يسهل تفسير النتائج.
قد يناقش القسم أيضًا أهمية النتائج بالنسبة للفرضيات المطروحة في بداية الدراسة. غالبًا ما يتم الإبلاغ عن مقاييس مهمة، مثل قيم p أو فترات الثقة، للتحقق من صحة النتائج إحصائيًا. بشكل عام، يخدم هذا القسم لتقديم نظرة عامة واضحة وشاملة على الأدلة التجريبية التي تم جمعها خلال البحث، مما يمهد الطريق للنقاش والتفسير اللاحقين.
المناقشة
تسلط قسم المناقشة في ورقة البحث الضوء على الديناميات الدقيقة للتعاون بين البشر والذكاء الاصطناعي في السياقات التعليمية، مع التركيز بشكل خاص على فعالية التفسيرات التي ينتجها الذكاء الاصطناعي في مهام اتخاذ القرار. تشير النتائج إلى أنه بينما يمكن أن يعزز دعم الذكاء الاصطناعي الأداء، خاصة للمستخدمين المبتدئين، فإن الدقة العامة لفرق البشر والذكاء الاصطناعي لا تتجاوز تلك الخاصة بأنظمة الذكاء الاصطناعي فقط. يثير هذا أسئلة حاسمة حول ضرورة مشاركة البشر في اتخاذ القرارات التعليمية ويقترح أن الأبحاث المستقبلية يجب أن تستكشف إمكانيات أنظمة الذكاء الاصطناعي الجماعية لتحسين النتائج مع معالجة مخاوف المساءلة.
تكشف الدراسة أيضًا أن التفكير النصي يؤثر بشكل كبير على أنماط الاعتماد، حيث يقلل من عدم الاعتماد عندما يكون الذكاء الاصطناعي صحيحًا ولكنه يزيد من الاعتماد المفرط عندما تكون اقتراحات الذكاء الاصطناعي غير صحيحة. بالمقابل، لم يظهر التسليط الضوئي المباشر تأثيرًا كبيرًا على الاعتماد. ومن الجدير بالذكر أن اختلافات في الخبرة لوحظت، حيث أظهر المبتدئون ميلاً أكبر للثقة في الذكاء الاصطناعي، مما أدى إلى زيادة الدقة ولكن أيضًا إلى زيادة القابلية للاعتماد المفرط. على النقيض من ذلك، أظهر المعلمون ذوو الخبرة تشككًا، حيث يتجاهلون أحيانًا الاقتراحات الصحيحة من الذكاء الاصطناعي، مما أدى إلى أخطاء عدم الاعتماد. تؤكد هذه النتائج على الحاجة إلى استراتيجيات تفسير متكيفة تأخذ في الاعتبار مستويات الخبرة المختلفة والثقة بالنفس لدى المستخدمين لتحسين التعاون بين البشر والذكاء الاصطناعي.
بشكل عام، تمتد تداعيات هذا البحث إلى تطوير لوحات معلومات وأدوات مراقبة متكيفة لدعم القرار المدعوم بالذكاء الاصطناعي، مما يبرز أهمية تحقيق التوازن بين الثقة والتشكيك في البيئات التعليمية. تدعو الدراسة إلى استكشاف أعمق لتحليلات التعلم لإبلاغ تصميم أنظمة الذكاء الاصطناعي التي لا تعزز فقط اتخاذ القرار ولكن أيضًا تضمن المساءلة والكفاءة في السياقات التعليمية.
القيود
تقدم الدراسة قيودًا رئيسية تتعلق باستخدام دعم الذكاء الاصطناعي في مهام اتخاذ القرار. أولاً، قضى المشاركون في المهام المدعومة بالذكاء الاصطناعي وقتًا أكثر مما كان متوقعًا، على الأرجح بسبب الإعداد التجريبي الذي يشجع على الدقة. يثير هذا تساؤلات حول قابلية تطبيق النتائج في السيناريوهات الواقعية، حيث قد يواجه المعلمون قيودًا زمنية وعوامل تحفيزية متغيرة. يجب على الأبحاث المستقبلية استكشاف كيف تؤثر هذه الضغوط على التفاعلات بين البشر والذكاء الاصطناعي، خاصة فيما إذا كان المعلمون يفضلون توصيات الذكاء الاصطناعي على التقييمات الشاملة عندما يكونون تحت الضغط.
ثانيًا، كانت الأبحاث محصورة في مهمة اتخاذ قرار محددة – تقييم مدح المعلم – مما يشير إلى أن المهام التعليمية المختلفة، مثل تقييم المقالات أو تقييم الردود المفتوحة، قد تطرح تحديات مميزة تتعلق بتفسيرات الذكاء الاصطناعي والاعتماد على المستخدم. وبالتالي، تبرز الدراسة ضرورة إجراء تحقيقات أوسع في اتخاذ القرار المدعوم بالذكاء الاصطناعي عبر سياقات تعليمية متنوعة. يمكن أن توجه فهم أنماط الاعتماد على الذكاء الاصطناعي تطوير تصاميم واجهات محسنة، وطرق تفسير، وبروتوكولات تدريب، مما يعزز في النهاية التعاون بين البشر والذكاء الاصطناعي في البيئات التعليمية.
DOI: https://doi.org/10.1145/3785022.3785035
Publication Date: 2026-04-25
Author(s): Eason Chen et al.
Primary Topic: Intelligent Tutoring Systems and Adaptive Learning
Overview
This empirical study investigates the evaluation of tutor praise responses by experienced tutors (experts) and non-tutors (novices) using AI-assisted decision-support interfaces with varying explanation styles. The research identifies patterns of human-AI reliance, categorizing interaction errors into over-reliance (accepting incorrect AI suggestions) and under-reliance (rejecting correct AI suggestions), while also considering time costs as a process-level indicator. Results indicate that while human-AI collaboration enhances accuracy compared to independent human judgment, it consistently falls short of an AI-only baseline, suggesting that human input can introduce additional errors. Notably, novices benefited more from AI support, whereas experts often overrode correct AI advice, highlighting a paradox of expertise in educational decision-making.
The study further evaluates two explanation modalities: textual reasoning and inline highlighting. Textual reasoning was found to reduce under-reliance when the AI was correct but increased over-reliance when incorrect, while inline highlighting had minimal impact on user behavior. Neither modality improved accuracy, and both increased time costs. The findings emphasize the necessity for adaptive, trust-calibrated explanation strategies in tutor-facing decision support systems that effectively balance accuracy, efficiency, and accountability. The authors advocate for future research to explore adaptive explanation strategies rooted in learning analytics, aiming to enhance human-AI collaboration and contribute to the broader cycle of data collection, analysis, interpretation, and informed action in educational contexts.
Introduction
The introduction of the paper discusses the critical role of educators in making judgments about student performance through tasks such as grading, assessment, and feedback. As educational environments become increasingly complex, educators face heightened cognitive demands, necessitating efficient and fair evaluation methods. The authors highlight the potential of artificial intelligence (AI) to assist in these decision-making processes, particularly through evidence-centered approaches that simplify scoring into binary checks, which can be aggregated into performance metrics. Despite the proven benefits of AI in various domains, there is a notable lack of research on the application of Large Language Models (LLMs) in educational contexts, especially in tutoring, where accountability and pedagogical expertise are essential.
To address this gap, the paper aims to explore how LLMs can enhance decision-making in evaluating tutor responses. The authors pose two research questions: (RQ1) comparing the performance of human evaluators working alone versus in collaboration with AI when assessing tutor-praise responses, and (RQ2) examining the influence of tutor experience levels and AI explanation styles on human performance metrics such as accuracy and reliance on AI. Preliminary findings indicate that textual reasoning explanations from AI increase reliance on the technology, while collaboration with AI tends to consume more time. Additionally, novice tutors benefit from AI suggestions, although they may over-rely on incorrect advice, whereas experienced tutors often disregard correct AI recommendations, leading to under-reliance.
Results
The “Results” section of the research paper presents the findings derived from the conducted experiments or analyses. It details the outcomes of the study, highlighting key data points, statistical analyses, and any observed trends. The results are typically accompanied by relevant figures and tables that illustrate the data visually, allowing for easier interpretation of the findings.
The section may also discuss the significance of the results in relation to the hypotheses posed at the beginning of the study. Important metrics, such as p-values or confidence intervals, are often reported to validate the findings statistically. Overall, this section serves to provide a clear and comprehensive overview of the empirical evidence gathered during the research, setting the stage for subsequent discussion and interpretation.
Discussion
The discussion section of the research paper highlights the nuanced dynamics of human-AI collaboration in educational contexts, particularly focusing on the effectiveness of AI-generated explanations in decision-making tasks. The findings indicate that while AI assistance can enhance performance, particularly for novice users, the overall accuracy of human-AI teams does not surpass that of AI-only systems. This raises critical questions about the necessity of human involvement in educational decision-making and suggests that future research should explore the potential of ensemble AI systems to improve outcomes while addressing accountability concerns.
The study also reveals that text reasoning significantly influences reliance patterns, reducing under-reliance when AI is correct but increasing over-reliance when AI suggestions are incorrect. In contrast, inline highlighting did not demonstrate a significant effect on reliance. Notably, differences in expertise were observed, with novices exhibiting a greater tendency to trust AI, leading to increased accuracy but also heightened vulnerability to over-reliance. Conversely, experienced tutors displayed skepticism, sometimes overriding correct AI suggestions, which resulted in under-reliance errors. These findings underscore the need for adaptive explanation strategies that consider users’ varying levels of expertise and self-efficacy to optimize human-AI collaboration.
Overall, the implications of this research extend to the development of adaptive dashboards and monitoring tools for AI-assisted decision support, emphasizing the importance of balancing trust and skepticism in educational settings. The study advocates for a deeper exploration of learning analytics to inform the design of AI systems that not only enhance decision-making but also ensure accountability and efficiency in educational contexts.
Limitations
The study presents two primary limitations regarding the use of AI assistance in decision-making tasks. Firstly, participants engaged in AI-assisted tasks spent more time than anticipated, likely due to the experimental setting encouraging meticulousness. This raises questions about the applicability of findings in real-world scenarios, where educators may face time constraints and varying motivational factors. Future research should explore how such pressures affect human-AI interactions, particularly whether educators prioritize AI recommendations over thorough evaluations when under stress.
Secondly, the research was confined to a specific decision-making task—evaluating tutor praise—suggesting that different educational tasks, such as grading essays or assessing open-ended responses, may yield distinct challenges related to AI explanations and user reliance. Consequently, the study highlights the necessity for broader investigations into AI-assisted decision-making across various educational contexts. Understanding patterns of reliance on AI can guide the development of improved interface designs, explanation methods, and training protocols, ultimately enhancing collaboration between humans and AI in educational settings.
