DOI: https://doi.org/10.1186/s40468-026-00445-5
تاريخ النشر: 2026-03-26
المؤلف: Ali Derakhshan وآخرون
الموضوع الرئيسي: تقييم الطلاب والتغذية الراجعة
نظرة عامة
تستكشف هذه الدراسة تصورات معلمي اللغة الإنجليزية كلغة أجنبية (EFL) ذوي الخبرة بشأن الفرص والتحديات التي تقدمها الاختبارات المدفوعة بالذكاء الاصطناعي متعدد الوسائط في تعليم اللغة الثانية (L2). باستخدام نظرية القيمة المتوقعة (EVT) كإطار عمل، شملت الدراسة مقابلة مجموعة تركيز عبر الإنترنت مع عشرة معلمين للغة الإنجليزية كلغة أجنبية، وكشفت عن أربع فرص رئيسية: التقييم الشخصي، التغذية الراجعة الفورية، تحسين تقييم المهارات الإنتاجية، وزيادة الكفاءة والموثوقية. من ناحية أخرى، حدد المعلمون تحديات كبيرة، بما في ذلك القضايا المتعلقة بصلاحية البناء، والتحيز الخوارزمي، وصعوبات تفسير الدرجات، والحاجة إلى بنية تحتية تقنية قوية.
تؤكد النتائج أن دمج أدوات الذكاء الاصطناعي متعدد الوسائط في تقييم اللغة الثانية له وجهان، حيث يقدم فوائد وعيوب. بينما يمكن أن تعزز هذه التقنيات تنوع التقييم والشخصنة، فإنها أيضًا تعرض مخاطر التحيز وسوء التفسير. تقترح الدراسة أن يتم التعامل مع تنفيذ أدوات الذكاء الاصطناعي بحذر، مع مراعاة كل من مزاياها المحتملة وتحدياتها. تمتد الآثار إلى مختلف أصحاب المصلحة، بما في ذلك معلمي اللغة الإنجليزية كلغة أجنبية، وصانعي السياسات، وخبراء اختبار اللغة، مما يبرز الحاجة إلى التدريب في محو الأمية في الذكاء الاصطناعي وتطوير البنى التحتية الداعمة. بالإضافة إلى ذلك، تسهم الدراسة في الأطر النظرية في اختبار اللغة المدعوم بالحاسوب وقبول التكنولوجيا، مما يبرز أهمية معالجة التحديات المتصورة لتسهيل التبني الفعال للذكاء الاصطناعي في السياقات التعليمية.
مقدمة
تناقش مقدمة ورقة البحث التأثير التحويلي للذكاء الاصطناعي (AI) على تعليم اللغة والتقييم، مع تسليط الضوء على ظهور أنظمة الذكاء الاصطناعي متعدد الوسائط التي تدمج البيانات المرئية والسمعية والنصية. هذه التقنيات، مثل ChatGPT-4 V و Google Gemini، تخلق بيئات تعليمية غامرة تعزز الفهم والانخراط بينما تبسط تصميم التعليم. تشير الورقة إلى أن الذكاء الاصطناعي قد أحدث ثورة في تقييم اللغة من خلال أتمتة الدرجات والتغذية الراجعة، مما يحسن تقييم الأداء المكتوب والم spoken من خلال معالجة اللغة الطبيعية المتقدمة والتعرف على الكلام. وقد وسعت هذه الثورة تعريف الكفاءة اللغوية ليشمل جوانب كانت صعبة التقييم سابقًا، مثل الميزات النغمية والسلوك التواصلي التفاعلي.
على الرغم من التقدم، لا تزال المخاوف بشأن صلاحية البناء، والعدالة، والشفافية في أنظمة الدرجات المعتمدة على الذكاء الاصطناعي قائمة. تهدف الدراسة إلى سد فجوة في الأدبيات من خلال التحقيق في وجهات نظر معلمي اللغة الإنجليزية كلغة أجنبية (EFL) حول فوائد وتحديات الذكاء الاصطناعي متعدد الوسائط في اختبار اللغة، باستخدام نظرية القيمة المتوقعة (EVT) كإطار عمل. تفترض EVT أن الدافع للمشاركة في المهام يتأثر بالمعتقدات حول الأداء والقيمة المتصورة للمهمة. تسعى هذه الدراسة إلى استكشاف كيفية استجابة معلمي اللغة الإنجليزية كلغة أجنبية عاطفيًا وتقييمهم لدمج تقنيات الذكاء الاصطناعي في ممارسات التقييم الخاصة بهم، بهدف إبلاغ تطوير طرق اختبار مدعومة بالذكاء الاصطناعي عادلة وصحيحة من الناحية التربوية.
النتائج
حدد تحليل مقابلات مجموعة التركيز مع معلمي اللغة الإنجليزية كلغة أجنبية (EFL) عدة فرص وتحديات مرتبطة بتنفيذ اختبارات اللغة المدفوعة بالذكاء الاصطناعي متعدد الوسائط. من بين الفرص، أبرز المعلمون إمكانية الاختبار الشخصي التكيفي، الذي يسمح بتخصيص عناصر الاختبار في الوقت الفعلي لتلبية احتياجات المتعلمين الفردية، مما يعزز دقة القياس ويقلل من قلق الاختبار. بالإضافة إلى ذلك، تم التأكيد على القدرة على الحصول على تغذية راجعة فورية وتشخيصية، حيث أشار المعلمون إلى أن التقييمات المدفوعة بالذكاء الاصطناعي يمكن أن تقدم تقييمات فورية لمهارات اللغة المختلفة، وخاصة في الكتابة. علاوة على ذلك، تم التعرف على قدرة أدوات الذكاء الاصطناعي متعدد الوسائط على تقييم المهارات الإنتاجية، مثل الكلام والكتابة، كميزة كبيرة، حيث يمكن لهذه الأدوات تحليل ميزات الكلام وميكانيكا الكتابة بشكل فعال. أخيرًا، تم الإشارة إلى كفاءة وثبات وموثوقية الاختبارات المدفوعة بالذكاء الاصطناعي، حيث أكد المعلمون أن هذه الأدوات تقلل من التحيز البشري وتلتزم بمعايير الدرجات الموحدة.
من ناحية أخرى، تضمنت التحديات المحددة مخاوف بشأن صلاحية البناء، حيث جادل بعض المعلمين بأن أدوات الذكاء الاصطناعي قد تنتج معلومات غير ذات صلة بالبناء، مما يعقد قياس الكفاءة اللغوية، خاصة في التحدث. كما تم طرح قضايا التحيز، مع مخاوف من أن أدوات الذكاء الاصطناعي قد تفضل مجموعات سكانية معينة، وخاصة الناطقين الأصليين، مما يؤدي إلى درجات مشوهة. بالإضافة إلى ذلك، تم تسليط الضوء على تعقيد تفسير الدرجات، حيث يمكن أن تخفي الخوارزميات الأساسية لأدوات الذكاء الاصطناعي الشفافية في كيفية حساب الدرجات. أخيرًا، تم الإشارة إلى القيود التقنية والبنية التحتية كحواجز كبيرة، خاصة في سياقات EFL ذات الموارد المنخفضة، حيث يكون الوصول إلى التكنولوجيا والتدريب الضروريين غالبًا غير كافٍ. بشكل عام، تشير النتائج إلى أنه بينما يقدم دمج الذكاء الاصطناعي في تعليم اللغة الثانية فرصًا واعدة، فإنه يطرح أيضًا تحديات كبيرة يجب معالجتها لضمان التنفيذ الفعال.
المناقشة
تسلط قسم المناقشة في هذه الدراسة الضوء على تصورات معلمي اللغة الإنجليزية كلغة أجنبية (EFL) ذوي الخبرة بشأن الفرص والتحديات المرتبطة باختبارات اللغة الثانية المدفوعة بالذكاء الاصطناعي متعدد الوسائط. تكشف النتائج عن أربع فرص رئيسية: (1) الاختبار الشخصي التكيفي، الذي يتماشى مع القيمة المتصورة لأدوات الذكاء الاصطناعي ويعكس عنصر القيمة النفعية من نظرية القيمة المتوقعة (EVT)؛ (2) توفير تغذية راجعة فورية وتشخيصية، والتي تعززها القدرات متعددة الوسائط لأنظمة الذكاء الاصطناعي؛ (3) تحسين تقييم المهارات الإنتاجية، المدعوم بعمق التغذية الراجعة التي يمكن أن تقدمها هذه الأدوات؛ و (4) زيادة الكفاءة والثبات والموثوقية في التقييمات، مما يمكن أن يقلل من متطلبات الموارد للتقييمات واسعة النطاق.
من ناحية أخرى، تحدد الدراسة أربع تحديات: (1) المخاوف بشأن صلاحية البناء، حيث قد تركز أنظمة الذكاء الاصطناعي على إشارات نصية سطحية بدلاً من الكفاءة التواصلية الأعمق؛ (2) التحيز المحتمل وتشويه الدرجات بسبب قيود بيانات التدريب؛ (3) صعوبات في تفسير الدرجات التي ينتجها الذكاء الاصطناعي، مما يشير إلى الحاجة إلى تدريب أفضل للمعلمين؛ و (4) القيود التقنية والبنية التحتية التي قد تعيق دمج الذكاء الاصطناعي في اختبارات اللغة الثانية. تعكس هذه التحديات نقص النجاح المتوقع في اعتماد أدوات الذكاء الاصطناعي، كما نظرت إليه EVT، وتؤكد على ضرورة المزيد من الدعم والموارد لتسهيل التنفيذ الفعال في السياقات التعليمية.
القيود
تنشأ قيود هذه الدراسة بشكل أساسي من استخدامها للعينة الغرضية، مما يقيد القابلية للتعميم والتمثيل للنتائج. لتعزيز التنوع في وجهات النظر، ينبغي أن تأخذ الأبحاث المستقبلية في الاعتبار استخدام عينة ذات أقصى تنوع. بالإضافة إلى ذلك، يثير الاعتماد على مقابلة مجموعة تركيز واحدة مخاوف بشأن عمق الرؤى التي تم جمعها؛ وبالتالي، يُوصى بإدراج طرق جمع بيانات مكملة مثل الاستطلاعات، والملاحظات، والمذكرات.
تتمثل قيود أخرى في الطبيعة الزمنية للدراسة، التي تلتقط فقط لمحة عن تصورات معلمي اللغة الإنجليزية كلغة أجنبية (EFL) ذوي الخبرة بشأن أدوات الذكاء الاصطناعي متعدد الوسائط. الدراسات الطولية ضرورية لمراقبة كيفية تطور هذه التصورات مع تقدم التكنولوجيا. علاوة على ذلك، قد يحد التركيز على المعلمين ذوي الخبرة من قابلية تطبيق النتائج على المعلمين المبتدئين. ينبغي أن تشمل التحقيقات المستقبلية كلا المجموعتين لمقارنة وجهات نظرهم حول اختبار اللغة المدفوع بالذكاء الاصطناعي متعدد الوسائط. كما لم تأخذ الدراسة في الاعتبار دور محو الأمية في الذكاء الاصطناعي، مما يشير إلى الحاجة إلى أبحاث تقارن التصورات بناءً على مستويات مختلفة من الكفاءة في الذكاء الاصطناعي. يُشجع على استخدام تصاميم مختلطة الأساليب والدراسات عبر الثقافات لتوفير فهم أكثر شمولاً لتبني الذكاء الاصطناعي في سياقات اختبار اللغة. أخيرًا، يمكن أن تسهم المراجعات المنهجية حول اختبار اللغة المدعوم بالذكاء الاصطناعي في هذا المجال من البحث.
DOI: https://doi.org/10.1186/s40468-026-00445-5
Publication Date: 2026-03-26
Author(s): Ali Derakhshan et al.
Primary Topic: Student Assessment and Feedback
Overview
This study explores the perceptions of experienced English as a Foreign Language (EFL) teachers regarding the opportunities and challenges presented by multimodal AI-driven testing in second language (L2) education. Utilizing Expectancy-Value Theory (EVT) as a framework, the research involved an online focus group interview with ten EFL teachers, revealing four primary opportunities: personalized assessment, instant feedback, enhanced assessment of productive skills, and improved efficiency and reliability. Conversely, the teachers identified significant challenges, including issues related to construct validity, algorithmic bias, score interpretation difficulties, and the need for robust technical infrastructure.
The findings underscore that the integration of multimodal AI tools in L2 assessment is dual-faceted, offering both benefits and drawbacks. While these technologies can enhance assessment diversity and personalization, they also pose risks of bias and misinterpretation. The study suggests that the implementation of AI tools should be approached with caution, considering both their potential advantages and challenges. The implications extend to various stakeholders, including EFL teachers, policymakers, and language testing experts, emphasizing the need for training in AI literacy and the development of supportive infrastructures. Additionally, the study contributes to theoretical frameworks in computer-assisted language testing and technology acceptance, highlighting the importance of addressing perceived challenges to facilitate the effective adoption of AI in educational contexts.
Introduction
The introduction of the research paper discusses the transformative impact of Artificial Intelligence (AI) on language education and assessment, highlighting the emergence of multimodal AI systems that integrate visual, auditory, and textual data. These technologies, such as ChatGPT-4 V and Google Gemini, create immersive learning environments that enhance comprehension and engagement while streamlining instructional design. The paper notes that AI has revolutionized language assessment by automating scoring and feedback, improving the evaluation of both written and spoken performance through advanced natural language processing and speech recognition. This has broadened the definition of language proficiency to include previously difficult-to-assess aspects, such as prosodic features and interactive communicative behavior.
Despite the advancements, concerns regarding construct validity, fairness, and transparency in AI scoring systems persist. The study aims to fill a gap in the literature by investigating English as a Foreign Language (EFL) teachers’ perspectives on the benefits and challenges of multimodal AI in language testing, using Expectancy Value Theory (EVT) as a framework. EVT posits that motivation to engage in tasks is influenced by beliefs about performance and the perceived value of the task. This research seeks to explore how EFL teachers emotionally respond to and evaluate the integration of AI technologies in their assessment practices, ultimately aiming to inform the development of equitable and pedagogically sound AI-enhanced testing methods.
Results
The analysis of focus group interviews with English as a Foreign Language (EFL) teachers identified several opportunities and challenges associated with the implementation of multimodal AI-driven language testing. Among the opportunities, teachers highlighted the potential for adaptive-personalized testing, which allows for real-time tailoring of test items to individual learner needs, thereby enhancing measurement accuracy and reducing test anxiety. Additionally, the capacity for instant and diagnostic feedback was emphasized, with teachers noting that AI-driven assessments could provide immediate evaluations of various language skills, particularly in writing. Furthermore, the ability of multimodal AI tools to assess productive skills, such as speech and writing, was recognized as a significant advantage, as these tools can analyze speech features and writing mechanics effectively. Lastly, the efficiency, consistency, and reliability of AI-driven testing were noted, with teachers asserting that such tools minimize human bias and adhere to standardized scoring criteria.
Conversely, the challenges identified included concerns regarding construct validity, as some teachers argued that AI tools might yield construct-irrelevant information, complicating the measurement of language proficiency, especially in speaking. Issues of bias were also raised, with concerns that AI tools may favor certain demographic groups, particularly native speakers, leading to distorted scores. Additionally, the complexity of score interpretation was highlighted, as the underlying algorithms of AI tools can obscure the transparency of how scores are calculated. Finally, technical and infrastructure limitations were noted as significant barriers, particularly in low-resource EFL contexts, where access to necessary technology and training is often inadequate. Overall, the findings suggest that while the integration of AI in L2 education presents promising opportunities, it also poses considerable challenges that must be addressed to ensure effective implementation.
Discussion
The discussion section of this study highlights the perceptions of experienced EFL teachers regarding the opportunities and challenges associated with multimodal AI-driven L2 testing. The findings reveal four key opportunities: (1) adaptive-personalized testing, which aligns with the perceived value of AI tools and reflects the utility value element of Expectancy-Value Theory (EVT); (2) the provision of instant and diagnostic feedback, which is enhanced by the multimodal capabilities of AI systems; (3) improved assessment of productive skills, supported by the depth of feedback these tools can provide; and (4) increased efficiency, consistency, and reliability in assessments, which can reduce resource demands for large-scale evaluations.
Conversely, the study identifies four challenges: (1) concerns over construct validity, as AI systems may focus on superficial textual cues rather than deeper communicative competence; (2) potential bias and score distortion due to training data limitations; (3) difficulties in interpreting AI-generated scores, indicating a need for better training for educators; and (4) technical and infrastructure limitations that may hinder the integration of AI in L2 testing. These challenges reflect a lack of expected success in adopting AI tools, as theorized by EVT, and underscore the necessity for further support and resources to facilitate effective implementation in educational contexts.
Limitations
The limitations of this study primarily stem from its use of purposive sampling, which restricts the generalizability and representativeness of the findings. To enhance diversity in perspectives, future research should consider employing maximum-variation sampling. Additionally, the reliance on a single focus group interview raises concerns about the depth of insights gathered; thus, incorporating complementary data collection methods such as surveys, observations, and diaries is recommended.
Another limitation is the study’s temporal nature, capturing only a snapshot of experienced English as a Foreign Language (EFL) teachers’ perceptions of multimodal AI tools. Longitudinal studies are necessary to observe how these perceptions evolve with advancements in technology. Furthermore, the focus on experienced teachers may limit the applicability of the findings to novice educators. Future investigations should include both groups to compare their views on multimodal AI-driven language testing. The study also did not account for the role of AI literacy, suggesting a need for research that contrasts perceptions based on varying levels of AI proficiency. Mixed-methods designs and cross-cultural studies are encouraged to provide a more comprehensive understanding of AI adoption in language testing contexts. Lastly, systematic reviews on AI-mediated language testing could further contribute to this field of research.
