الذكاء الاصطناعي مقابل التغذية الراجعة البشرية في محاكاة الواقع المختلط: مقارنة بين الإرشاد من قبل LLM والخبراء في تعليم المعلمين قبل الخدمة حول القضايا المثيرة للجدل
AI Versus Human Feedback in Mixed Reality Simulations: Comparing LLM and Expert Mentoring in Preservice Teacher Education on Controversial Issues

المجلة: International Journal of Artificial Intelligence in Education، المجلد: 35، العدد: 5
DOI: https://doi.org/10.1007/s40593-025-00484-8
تاريخ النشر: 2025-06-04
المؤلف: Thomas Nygren وآخرون
الموضوع الرئيسي: الألعاب التعليمية وت gamification

نظرة عامة

تستكشف هذه الدراسة دور الإرشاد الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي في البيئات المحاكاة لتعليم المعلمين، لا سيما في معالجة تحديات تدريس القضايا المثيرة للجدل. باستخدام نهج مختلط، تقارن الأبحاث بين التعليقات المقدمة من نماذج الذكاء الاصطناعي، وخاصة ChatGPT-4o وPerplexity، مقابل تلك المقدمة من خبراء بشريين عند توجيه المعلمين المستقبليين في محاكاة الواقع المختلط. تشير النتائج إلى أن الخبراء البشر يقدمون تعليقات أكثر دقة وشمولية، لا سيما في التعرف على الفرص التعليمية المفقودة وإدارة المناقشات الصفية.

بينما أظهرت نماذج الذكاء الاصطناعي فعالية في توليد تعليقات تتماشى مع رؤى البشر، إلا أنها واجهت صعوبة في تحديد عناصر المعرفة البيداغوجية ومعرفة المحتوى كما هو موضح في نظريات شولمان. تؤكد الدراسة على إمكانية الذكاء الاصطناعي في تعزيز تدريب المعلمين ولكنها تسلط الضوء أيضًا على ضرورة دمج تعليقات الذكاء الاصطناعي مع توجيه الخبراء للتنقل في تعقيدات التدريس في العالم الحقيقي. بشكل عام، تسهم هذه الأبحاث في فهم قدرات وقيود الذكاء الاصطناعي في السياقات التعليمية، داعية إلى نهج متوازن يستفيد من كل من الذكاء الاصطناعي والخبرة البشرية في تعليم المعلمين.

مقدمة

تسلط المقدمة الضوء على القضية الملحة للمعلومات المضللة كتهديد عالمي للديمقراطية، مؤكدة على الدور الحاسم للتفاعلات الصفية في التخفيف من هذا التحدي وتعزيز التفكير النقدي بين الطلاب. وتؤكد على ضرورة وجود استراتيجيات تُعد المعلمين المستقبليين للتعامل مع المواضيع المثيرة للجدل، مثل دعاية الحرب ونظريات المؤامرة، خلال تدريبهم. تشير الأدبيات الحالية إلى وجود فجوة في الدراسات المنهجية حول استخدام المحاكاة في تدريب المعلمين، على الرغم من الفوائد المحتملة لاستخدام تقنيات الذكاء الاصطناعي التوليدية لإنشاء سيناريوهات صفية واقعية.

تهدف الأبحاث إلى تطوير منصة محاكاة للواقع المختلط تستخدم الصور الرمزية المدعومة بالذكاء الاصطناعي لتعزيز تدريب المعلمين المستقبليين والحاليين في التعامل مع القضايا المثيرة للجدل. من خلال التحقيق في فعالية التعليقات التي تم إنشاؤها بواسطة الذكاء الاصطناعي مقارنة بتحليل الخبراء البشر، تسعى الدراسة إلى معالجة قيود أنظمة الذكاء الاصطناعي الحالية في تقديم دعم تعليمي دقيق. تركز الدراسة بشكل خاص على المواضيع الحساسة سياسيًا، مثل حرق القرآن ونظريات المؤامرة، لتقييم كيفية مساعدة الذكاء الاصطناعي التوليدي في إعداد المعلمين للتعامل مع الديناميات الصفية المعقدة. باستخدام إطار عمل لي شولمان النظري، تهدف الدراسة إلى سد فجوة حاسمة في الأدبيات بشأن دور الذكاء الاصطناعي في تعليم المعلمين، لا سيما في سياق تدريس القضايا الاجتماعية المثيرة للجدل.

الطرق

يستعرض قسم “المواد والطرق” تصميم التجربة والإجراءات المستخدمة في الدراسة. يوضح المواد المحددة المستخدمة، بما في ذلك أي مواد كيميائية، معدات، وعينات بيولوجية، لضمان إمكانية تكرار التجارب. تشمل المنهجية التقنيات المستخدمة لجمع البيانات، بما في ذلك أي تحليلات إحصائية تم إجراؤها لتفسير النتائج.

بالإضافة إلى ذلك، قد يصف القسم الظروف التجريبية، مثل درجة الحرارة، المدة، وأي ضوابط تم تنفيذها للتحقق من النتائج. يضمن هذا النهج الصارم أن تكون النتائج موثوقة ويمكن مقارنتها مع دراسات أخرى في هذا المجال، مما يساهم في قوة استنتاجات البحث بشكل عام.

النتائج

في قسم النتائج، تكشف الدراسة أن الخبراء البشر طبقوا عددًا أكبر من الرموز وأظهروا ممارسات ترميز متسقة، باستثناء المعرفة البيداغوجية العامة (GPK) خلال الجلسة الثانية. توضح البيانات المقدمة في الجدول 2 تكرارات ثلاث فئات ترميز استخدمها كل من الخبراء وأنظمة الذكاء الاصطناعي، بينما يوضح الجدول 3 موثوقية التقييم المتبادل المقابلة. من الجدير بالذكر أن أنظمة الذكاء الاصطناعي أظهرت موثوقية تقييم متبادل منخفضة، لا سيما في الجلسة الثانية، حيث أظهر أحد الخبراء (الخبير 2) تقريبًا عدم توافق مع ChatGPT-4o عبر معظم الفئات. أسفر تقييم إضافي باستخدام Claude 3.5 Sonnet عن نتائج مماثلة من حيث انخفاض موثوقية التقييم المتبادل.

لتحقيق المزيد من التحقيق في التباينات، تم تصنيف الحلقات بناءً على ما إذا كان هناك توافق أو عدم توافق بين الخبراء وأنظمة الذكاء الاصطناعي، كما هو موضح في الجدول 4. عندما تطابقت الترميزات بين الخبراء والذكاء الاصطناعي، كانت توافق تعليقاتهم الداعمة فقط 63%، 59%، و50% لمعرفه المحتوى (CK)، المعرفة البيداغوجية لمحتوى المعرفة (PCK)، وGPK، على التوالي. سلطت هذه التحليلات الضوء على قيود كبيرة في أداء أنظمة الذكاء الاصطناعي مقارنة بالخبراء البشر، مما دفع إلى فحص نوعي لحالات الاتفاق وعدم الاتفاق لفهم القضايا الأساسية بشكل أفضل.

المناقشة

تستكشف الدراسة فعالية التعليقات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي مقابل تعليقات الخبراء البشر في توجيه المعلمين المستقبليين خلال المحاكاة التي تركز على تدريس القضايا المثيرة للجدل. تؤكد على ضرورة تطوير المعلمين المستقبليين لممارسات تأملية بشأن المعرفة الأساسية واستراتيجيات التدريس، لا سيما في المواضيع الحساسة مثل نظريات المؤامرة والمعلومات المضللة. تستخدم الأبحاث نظرية التعلم الموقعي، مما يبرز أهمية بيئات التعلم السياقية، مثل المحاكاة مع الصور الرمزية المدعومة بالذكاء الاصطناعي، لتعزيز مهارات اتخاذ القرار وثقة المعلمين في التعامل مع المناقشات الصفية المعقدة.

تشير النتائج إلى أنه بينما يمكن للذكاء الاصطناعي تقديم تعليقات سريعة والمساعدة في بعض المهام البيداغوجية، إلا أنه يفتقر إلى الفهم الدقيق والقدرة على التكيف التي يتمتع بها الخبراء البشر، لا سيما في تقديم تعليقات نوعية مصممة لتلبية احتياجات التعلم الفردية. تؤكد الدراسة على إمكانية الذكاء الاصطناعي التوليدي، مثل ChatGPT-4، لدعم الممارسات التعليمية ولكنها تحذر أيضًا من قيوده، مثل عدم الدقة والتحيزات في التعليقات. يدعو المؤلفون إلى مزيد من الأبحاث التجريبية لاستكشاف دمج الذكاء الاصطناعي في تعليم المعلمين، مؤكدين على الحاجة إلى أدوات فعالة يمكن أن تساعد المعلمين في التنقل في تعقيدات التحديات التعليمية المعاصرة.

Journal: International Journal of Artificial Intelligence in Education, Volume: 35, Issue: 5
DOI: https://doi.org/10.1007/s40593-025-00484-8
Publication Date: 2025-06-04
Author(s): Thomas Nygren et al.
Primary Topic: Educational Games and Gamification

Overview

This study investigates the role of AI-generated mentoring in simulated environments for teacher education, particularly in addressing the challenges of teaching controversial issues. Employing a mixed-methods approach, the research compares the feedback provided by AI models, specifically ChatGPT-4o and Perplexity, against that from human experts when mentoring preservice teachers in mixed reality simulations. The findings indicate that human experts deliver more nuanced and comprehensive feedback, particularly in recognizing missed teaching opportunities and managing classroom discussions.

While the AI models demonstrated effectiveness in generating feedback consistent with human insights, they struggled to identify elements of pedagogical and content knowledge as outlined by Shulman’s theories. The study emphasizes the potential of AI to enhance teacher training but also highlights the necessity of integrating AI feedback with expert guidance to navigate the complexities of real-world teaching. Overall, this research contributes to the understanding of AI’s capabilities and limitations in educational contexts, advocating for a balanced approach that leverages both AI and human expertise in teacher education.

Introduction

The introduction highlights the pressing issue of misinformation as a global threat to democracy, emphasizing the critical role of classroom interactions in mitigating this challenge and fostering critical thinking among students. It underscores the necessity for strategies that prepare preservice teachers to address controversial topics, such as war propaganda and conspiracy theories, during their training. Current literature indicates a gap in systematic studies on the use of simulations for teacher training, despite the potential benefits of employing generative AI technologies to create realistic classroom scenarios.

The research aims to develop a mixed reality simulation platform utilizing AI-powered avatars to enhance the training of both preservice and in-service teachers in navigating controversial issues. By investigating the effectiveness of AI-generated feedback compared to human expert analysis, the study seeks to address the limitations of current AI systems in providing nuanced educational support. Specifically, it focuses on politically sensitive topics, such as Quran burnings and conspiracy theories, to evaluate how generative AI can assist in preparing educators for complex classroom dynamics. Utilizing Lee Shulman’s theoretical framework, the study aims to fill a critical gap in the literature regarding the role of AI in teacher education, particularly in the context of teaching controversial social issues.

Methods

The “Materials and Methods” section outlines the experimental design and procedures employed in the study. It details the specific materials used, including any reagents, equipment, and biological samples, ensuring reproducibility of the experiments. The methodology encompasses the techniques for data collection, including any statistical analyses performed to interpret the results.

Additionally, the section may describe the experimental conditions, such as temperature, duration, and any controls implemented to validate the findings. This rigorous approach ensures that the results are reliable and can be compared with other studies in the field, contributing to the overall robustness of the research conclusions.

Results

In the results section, the study reveals that human experts applied a greater number of codes and demonstrated consistent coding practices, with the exception of General Pedagogical Knowledge (GPK) during the second session. The data presented in Table 2 outlines the frequencies of three coding categories utilized by both experts and AI systems, while Table 3 details the corresponding inter-rater reliabilities. Notably, the AI systems exhibited low inter-rater reliability, particularly in the second session, with one expert (Expert 2) showing almost no agreement with ChatGPT-4o across most categories. An additional assessment using Claude 3.5 Sonnet yielded similar low inter-rater reliability results.

To further investigate the discrepancies, episodes were categorized based on whether there was agreement or disagreement between the experts and the AI systems, as shown in Table 4. When experts and AI matched in coding, the alignment of their supporting comments was only 63%, 59%, and 50% for Content Knowledge (CK), Pedagogical Content Knowledge (PCK), and GPK, respectively. This analysis highlighted significant limitations in the AI systems’ performance compared to human experts, prompting a qualitative examination of instances of agreement and disagreement to better understand the underlying issues.

Discussion

The study investigates the effectiveness of AI-generated feedback versus human expert feedback in mentoring preservice teachers during simulations focused on teaching controversial issues. It highlights the necessity for preservice teachers to develop reflective practices regarding essential content knowledge and pedagogical strategies, particularly in sensitive topics like conspiracy theories and misinformation. The research employs situated learning theory, emphasizing the importance of contextual learning environments, such as simulations with AI avatars, to enhance teachers’ decision-making skills and confidence in handling complex classroom discussions.

The findings indicate that while AI can provide rapid feedback and assist in certain pedagogical tasks, it lacks the nuanced understanding and adaptability of human experts, particularly in delivering qualitative feedback tailored to individual learning needs. The study underscores the potential of generative AI, like ChatGPT-4, to support educational practices but also cautions against its limitations, such as inaccuracies and biases in feedback. The authors advocate for further empirical research to explore the integration of AI in teacher education, emphasizing the need for effective tools that can help educators navigate the complexities of contemporary educational challenges.