تعزيز تقييم الأقران باستخدام الذكاء الاصطناعي Enhancing peer assessment with artificial intelligence

المجلة: International Journal of Educational Technology in Higher Education، المجلد: 22، العدد: 1
DOI: https://doi.org/10.1186/s41239-024-00501-1
تاريخ النشر: 2025-01-20

تعزيز تقييم الأقران باستخدام الذكاء الاصطناعي

Keith J. Topping ® , Ed Gehringer (D, حسن خسرواي (D), سريليكا جوديباتي , كوشيك جادهاف و سوريا سوسارلا

*المراسلة:
k.j.topping@dundee.ac.uk
جامعة دندي، دندي DD1 4HN، اسكتلندا
جامعة RUDN، موسكو، الاتحاد الروسي
جامعة ولاية كارولينا الشمالية، رالي، NC، الولايات المتحدة الأمريكية
جامعة كوينزلاند، بريسبان، أستراليا

الملخص

تستعرض هذه الورقة البحثية الأبحاث والممارسات المتعلقة بتعزيز تقييم الأقران باستخدام الذكاء الاصطناعي. أهدافها هي تقديم هيكل الإطار النظري الذي يدعم الدراسة، تلخيص مراجعة شاملة للأدبيات التي توضح هذا الهيكل، وتقديم دراسة حالة توضح هذا الهيكل بشكل أكبر. يحتوي الإطار النظري على ستة مجالات: (i) تعيين مقيمي الأقران، (ii) تعزيز المراجعات الفردية، (iii) اشتقاق درجات/تعليقات الأقران، (iv) تحليل تعليقات الطلاب، (v) تسهيل إشراف المعلم و (vi) أنظمة تقييم الأقران. وجدت الغالبية العظمى من 79 ورقة في المراجعة أن الذكاء الاصطناعي حسّن تقييم الأقران. ومع ذلك، كان تركيز العديد من الأوراق على التنوع في الدرجات والتعليقات، والمنطق الضبابي وتحليل التعليقات بهدف تحقيق توازن في جودتها. كانت هناك أوراق قليلة نسبياً تركز على التعيين الآلي، والتقييم الآلي، والمعايرة، وفعالية العمل الجماعي والتعليقات الآلية، وهذه تستحق مزيدًا من البحث. تشير هذه الصورة إلى أن الذكاء الاصطناعي يحقق تقدمًا في تقييم الأقران، ولكن لا يزال هناك طريق طويل لنقطعه، خاصة في المجالات التي لم يتم البحث فيها بشكل كافٍ. تتضمن الورقة دراسة حالة لأداة تقييم الأقران RIPPLE، التي تستفيد من حكمة الطلاب، ورؤى من علوم التعلم والذكاء الاصطناعي لتمكين المعلمين الذين يعانون من ضيق الوقت من غمر طلابهم في تجارب تعلم عميقة وشخصية تعدهم بشكل فعال للعمل كمقيمين. بمجرد تدريبهم، يستخدمون مقياسًا شاملاً لتقييم موارد التعلم المقدمة من طلاب آخرين. وبالتالي، يخلقون مجموعات من موارد التعلم عالية الجودة التي يمكن استخدامها لتوصية محتوى مخصص للطلاب. تشرك RIPPLE الطلاب في ثلاث أنشطة متداخلة: الإنشاء، المراجعة والممارسة الشخصية، مما يولد العديد من أنواع الموارد. يتم تقديم تعليقات فورية مدفوعة بالذكاء الاصطناعي، ولكن يتم نصح الطلاب بتقييم ما إذا كانت دقيقة. تم تحديد الفرص والتحديات للباحثين والممارسين.

الكلمات الرئيسية: تقييم الأقران، الذكاء الاصطناعي، النظرية، مراجعة شاملة، دراسة حالة

المقدمة

تقييم الأقران هو ترتيب للمتعلمين للنظر وتحديد مستوى أو قيمة أو جودة منتج أو أداء متعلمين آخرين من نفس المستوى (Topping, 2023). قد يكون ذلك من خلال الدرجات أو النقاط أو العلامات، أو تعليقات مفصلة، أو كليهما. لقد ثبت أنه فعال (على سبيل المثال، من قبل Li et al., 2020a). يمنح المقيمين فرصة لتعميق فهمهم للمحتوى، وتعزيز الحكم التقييمي ومهارات الكتابة، والتعلم
لتقديم تعليقات بناءة. من ناحية أخرى، يمكن للمقيمين تلقي تعليقات شخصية وفي الوقت المناسب من مجموعة متنوعة من الأقران، مما يعزز تبادل وجهات النظر بشكل أكثر انفتاحًا وتبادلاً. علاوة على ذلك، يستفيد المعلمون من تقليل عبء العمل في تصحيح (أو “تقييم”) أعمال الطلاب.
ومع ذلك، هناك بعض المخاوف الشائعة المرتبطة باستخدام تقييم الأقران. قد لا يمتلك الطلاب العمق المطلوب من الفهم لتقييم أعمال أقرانهم بشكل كافٍ، مما قد يؤثر على دقة وموضوعية التقييمات. هناك احتمال للتحيز والمحسوبية، وتباين في معايير التقييم، وعدم اتساق جودة التعليقات، وعدم تساوي مشاركة المشاركين، والضغط والقلق المحتمل، ونقص التدريب في كيفية تقديم تعليقات بناءة. بالإضافة إلى ذلك، يصبح تقييم الأقران صعب الإدارة في الفصول الدراسية الكبيرة جدًا. هل يمكن حل أي من هذه المشكلات باستخدام الذكاء الاصطناعي؟ هل يمكن أن يقدم الذكاء الاصطناعي دعماً لتقييماتهم الأولية؟ هل يمكن أن يقدم الذكاء الاصطناعي معايرة لتقييماتهم الأولية لمواجهة المحسوبية أو تحقيق التوازن في عدم الاتساق؟ هل يمكن أن يقدم الذكاء الاصطناعي دعمًا محايدًا لمواجهة الضغط والقلق؟
الذكاء الاصطناعي (AI) هو قدرة الكمبيوتر (أو الروبوت الذي يتحكم فيه الكمبيوتر) على أداء المهام التي كانت تُنجز عادةً بواسطة البشر لأنها (كانت) تتطلب الذكاء البشري (مثل التفكير، التعلم والمحادثة) أو تتضمن بيانات تتجاوز نطاق ما يمكن للبشر تحليله (Topping, 2024). لقد ثبت أن الذكاء الاصطناعي فعال في التعليم (على سبيل المثال، من قبل Ouyang et al., 2022) على سبيل المثال، في التقييم التلقائي وتقديم توصيات الموارد بناءً على خصائص الطلاب. لقد حول التقدم السريع في الذكاء الاصطناعي التوليدي، الذي تمثله ChatGPT من OpenAI، تفاعل المستخدمين مع التكنولوجيا، سواء للأفضل أو للأسوأ. إن استخدامه المتزايد يعود إلى قدرته على الاستجابة لمجموعة متنوعة من المهام. عند إعطائه المحفز الصحيح، يمكنه إنتاج مخرجات لكتابة المقالات، وبرمجة الكمبيوتر، وتطوير حلول خطوة بخطوة لمجموعة من المشكلات، وحتى تأليف الموسيقى في أنواع مختلفة. لقد أدى إمكانات الذكاء الاصطناعي التوليدي إلى البحث في كيفية إقامة تعاون بين البشر والذكاء الاصطناعي (على سبيل المثال، Hwang et al., 2020; Siemens et al., 2022) لدعم وتعزيز تعلم الطلاب. يتم تطوير تقنيات أكثر تطورًا بينما نتحدث.
أهداف هذه الورقة هي أولاً تقديم إطار نظري حول كيفية معالجة الذكاء الاصطناعي للتحديات في ستة مجالات إجرائية رئيسية لتقييم الأقران. ثانيًا، نقوم بإجراء مراجعة سريعة للأدبيات حول الذكاء الاصطناعي في تقييم الأقران مع الإشارة إلى هذه المجالات الستة. ثالثًا، نقدم دراسة حالة توضح تطبيق نظام تقييم الأقران المدعوم بالذكاء الاصطناعي في خمسة من المجالات الستة للإطار. رابعًا، تختتم الورقة بمناقشة الفرص والتحديات واحتياجات البحث المستقبلية للإدماج الفعال للذكاء الاصطناعي في تقييم الأقران، فضلاً عن الآثار المترتبة على الممارسين.
تم استكشاف الجمع بين تقييم الأقران والذكاء الاصطناعي إلى حد ما في المراجعات السابقة. وجدنا سبع مراجعات ذات صلة ظاهريًا، لكن معظمها ركز على التكنولوجيا الرقمية التي تدعم التعلم في تقييم الأقران بدلاً من الذكاء الاصطناعي (على سبيل المثال، Fu et al., 2019; Zhang et al., 2020; Craig & Kay, 2021; Helden et al., 2023). ركزت Mendoza et al. (2020) أكثر على الذكاء الاصطناعي في تقييم الأقران، لكن تم استخدام الذكاء الاصطناعي بشكل رئيسي في عملية البحث وكانت الورقة تتعلق في الغالب بالمقاييس وكيف يمكن تحسينها باستخدام الذكاء الاصطناعي. استعرض Ocampo وPanadero (2023) الخصائص والميزات، والتعلم، وتعليقات التغذية الراجعة وميزات التفاعل الاجتماعي لمنصات تقييم الأقران عبر الإنترنت، لكن هذا لم يكن عن الذكاء الاصطناعي في حد ذاته. تم تقديم مراجعة شاملة لـ 27 ورقة حول دور
تحليلات التعلم في تحسين تقييم الأقران من قبل Misiejuk وWasson (2023)، الذين حددوا ثلاثة أدوار رئيسية: تعزيز أدوات البرمجيات، وتوليد تعليقات آلية وتصويرات. تم رسم أربعة مجالات تطبيق رئيسية: تفاعل الطلاب، وخصائص التعليقات، والمقارنة والتصميم. تتجاوز المراجعة السريعة في هذه الدراسة ذلك من خلال تناول جميع جوانب الذكاء الاصطناعي في تقييم الأقران والإشارة إلى التدخلات بدلاً من مجرد رسم خريطة للمجال.

إطار نظري لفرص الذكاء الاصطناعي في تقييم الأقران

الإطار (الشكل 1) يعتمد على تحليل الأدبيات وفحص نقدي للفجوات في الاستخدام الحالي للذكاء الاصطناعي في تقييم الأقران. يتم تقديم وصف قصير لكل مجال رئيسي ضمن الإطار أدناه.

تعيين مقيمي الأقران

يمكن أن يساعد الذكاء الاصطناعي من خلال تحليل أداء المقيمين السابق، وخبراتهم، وتحيزاتهم للتنبؤ بموثوقية وجودة المساهمات المستقبلية. بالمثل، من خلال تقديم تعليقات للمقيمين، يمكن أن يشير إلى المجالات التي يحتاج فيها المقيمون إلى تركيز جهودهم للتغلب على مجالات القصور. يمكنه أيضًا تسهيل إنشاء فرق متوازنة، مما يزيد من احتمالية إجراء مراجعة أكثر شمولاً من خلال مطابقة عمل المقيمين مع نقاط قوة المقيمين.

تعزيز المراجعات الفردية

تقدم جودة مراجعات الأقران رؤى حاسمة وتعزز فهمًا أعمق لكل من المقيمين والمقيمين. دور الذكاء الاصطناعي في هذه العملية متعدد الأوجه. من خلال الاستفادة من الخوارزميات المتقدمة وتقنيات التعلم الآلي، يمكن للذكاء الاصطناعي توجيه الطلاب في تطوير المهارات اللازمة ليصبحوا مقيمين متمكنين. علاوة على ذلك، يمكن للذكاء الاصطناعي تحليل جودة كل مراجعة بشكل موضوعي، مع تحديد نقاط القوة ومجالات التحسين. يسهل ذلك تقديم ملاحظات فورية ومخصصة للمقيمين، مما يعزز الممارسات الإيجابية ويصحح أي أخطاء. إن تضمين التقييم القائم على الذكاء الاصطناعي بالتعاون مع الطلاب يفتح الباب أمام نموذج تقييم هجين.
الشكل 1 إطار عمل حول قدرة الذكاء الاصطناعي على تعزيز تقييم الأقران (استنادًا إلى دارفيشي وآخرون، 2022أ)
توجيه انتباه المراجعين إلى مجالات الأهمية، وتشجيعهم على تقديم ملاحظات وفيرة، ودمج التقييم التقليدي والرقمي لتعزيز المرونة والوصول – من المرجح أن يكون أكثر تكوينًا، وتكرارًا، ومصممًا بالتعاون مع الطلاب.

اشتقاق درجات/تعليقات الأقران

الدرجات المعينة تؤثر بشكل مباشر على الشعور بالعدالة والمصداقية في عملية التقييم، وهي مهمة للحفاظ على الدافع. ومع ذلك، عندما يشارك عدة مقيمين، يمكن أن تؤدي مجموعة واسعة من الدرجات إلى صعوبة في مهمة تحديد الدرجة النهائية. تكمن إمكانيات الذكاء الاصطناعي هنا في قدرته على تجميع وتحليل الدرجات والتعليقات النصية المتنوعة من عدة مقيمين بطريقة غير متحيزة ومتسقة. علاوة على ذلك، يمكن للذكاء الاصطناعي تقييم جودة مراجعات المقيمين، مما يوفر تقييمًا ميتا (تقييم جودة التقييم) يساعد ليس فقط في تقييم المقيمين بناءً على أدائهم ولكن أيضًا يرفع من مستوى المراجعة.

تحليل ملاحظات الطلاب

يجب أن يتم استلام التعليقات وفهمها والعمل بها من قبل المشاركين. إنها توفر الفرصة للتفكير والتعلم من التقييم المستلم. تمتلك الذكاء الاصطناعي القدرة على تلخيص وتخصيص التعليقات بطريقة واضحة وقابلة للتنفيذ. بدلاً من تقديم تعليقات عامة، فإنه يستجيب لخصائص العنصر الفردي الذي سيتم تقييمه. يمكنه أيضًا أخذ كمية كبيرة من التعليقات من مراجعين متعددين وتكثيفها إلى ملخص يمكن للمؤلف استيعابه بسهولة. علاوة على ذلك، يمكن أن يدعم نظام تعليقات شفاف ومبسط يشجع الطلاب على التفاعل مع تقييماتهم بشكل نقدي، وتقييم ما إذا كان يجب عليهم العمل بناءً على عنصر من التعليقات.

تسهيل إشراف المدرب

يمكن أن تدعم الذكاء الاصطناعي إشراف المعلمين على عملية تقييم الأقران من خلال توفير لوحة تحكم تحتوي على تحليلات، تبرز الاتجاهات، وت flag القضايا المحتملة وتقترح مجالات للتحسين. يمكن أن يمكّن هذا المعلمين من توجيه عملية التقييم بشكل أكثر فعالية، مما يضمن توافقها مع الأهداف والمعايير التعليمية. بالإضافة إلى ذلك، يمكن للذكاء الاصطناعي تحديد المراجعات التي تنحرف عن المعايير المعمول بها أو تظهر علامات على التحيز بسرعة، مما يسهل التدخل الفوري. لا تساعد هذه القدرة فقط في الحفاظ على جودة وموضوعية التقييمات، بل تحمي أيضًا القيمة التعليمية الكامنة في نظام مراجعة الأقران.

أنظمة تقييم الأقران

تعتبر الموثوقية أمرًا أساسيًا في تقييم الأقران، سواء من منظور الذين يتم تقييمهم أو المقيمين. من خلال استخدام خوارزميات متطورة وتحليل البيانات، يمكن للذكاء الاصطناعي ضمان تطبيق معايير التقييم بشكل متسق عبر جميع التقييمات، مما يوفر ملاحظات لكل من المقيمين والمقيمين بشأن مصداقية الملاحظات والحاجة إلى تحسين جودة الملاحظات. علاوة على ذلك، فإن قدرة الذكاء الاصطناعي على التعامل مع مجموعات بيانات كبيرة بكفاءة تمكن من تطوير تقييمات أكثر دقة وشمولية.
نماذج التقييم. يمكن أن تأخذ هذه النماذج في الاعتبار مجموعة أوسع من العوامل مقارنةً بالطرق التقليدية.
ستتم إضاءة هذه الجوانب النظرية بشكل أكبر مع تقدمنا في بقية الورقة. الآن ننتقل إلى مراجعة سريعة للنطاق.

مراجعة سريعة للنطاق

المنهجية

تم اختيار Google Scholar كقاعدة البيانات الوحيدة لهذه المراجعة السريعة لأن الدراسات السابقة أظهرت أنها تولد أكبر عدد من النتائج. كان استخدام قواعد بيانات أخرى غير فعال من حيث التكلفة لمراجعة سريعة. تم البحث على مدى فترة طويلة حتى سبتمبر 2023. تم إدخال مصطلحات البحث “تقييم الأقران” و”الذكاء الاصطناعي”. هناك مرادفات، لكن تم الشعور أنه لمراجعة سريعة، لن تضيف هذه المرادفات قيمة. كانت النتائج الأولية 6930. تم استخراجها حتى النقطة التي لم يكن فيها 10 صفحات متتالية تحتوي على نتائج ذات صلة، مما أسفر عن 1730 نتيجة ثانوية. (كامبوس وآخرون، 2024، وجدوا أن يمكن استرجاع جميع الملخصات ذات الصلة ضمن مجموعة بيانات معينة باستخدام قواعد التوقف الاستدلالية مثل إيقاف عملية الفحص بعد تصنيف تم تقييم عناوين وملخصات هذه السجلات من قبل فريق. كانت المعايير للإدراج اللاحق هي أن الورقة يجب أن: تشير إلى الذكاء الاصطناعي الحقيقي بدلاً من أي شكل آخر من أشكال التكنولوجيا الرقمية، تشير إلى التعليم العالي، أن تكون قد نُشرت باللغة الإنجليزية في السنوات العشر الماضية، وأن تتضمن بيانات كمية و/أو نوعية تدعم استنتاجاتها. كانت أي شكل من أشكال البيانات الكمية أو النوعية مقبولة بشرط أن تكون ناتجة عن محاولة لتقييم الطريقة أو دراسة حالة شاملة. لم تكن الأمثلة القصيرة للبيانات التوضيحية مقبولة.
أدى ذلك إلى اختيار 172 نتيجة ثانوية للإدراج المحتمل. تم قراءة النص الكامل لهذه الأوراق وتم اختيار 79 ورقة (نتائج رابعة) للإدراج النهائي التي استوفت بالكامل معايير الإدراج. تم ترميز هذه الأوراق بواسطة مقيم خبير واحد ذو خبرة كبيرة في المراجعات المنهجية والتحليلات التلوية، وهو ما اعتُبر مقبولاً لمراجعة استكشافية. تم الترميز في المجالات الستة للإطار النظري: تعيين المقيمين الأقران (4 أوراق)، تعزيز المراجعات الفردية (7)، اشتقاق درجات/تعليقات الأقران (35)، تحليل تعليقات الطلاب (19)، تسهيل إشراف المعلم (4) وأنظمة تقييم الأقران (10). ضمن اثنين من هذه المجالات، تم ترميز فئات فرعية إضافية ناتجة استقرائياً من محتوى الفئة بواسطة نفس المقيم الخبير، إلى: اشتقاق درجات/تعليقات الأقران (التقييم الآلي 4، تنوع الدرجات والتعليقات 7، المعايرة 5، المنطق الضبابي واتخاذ القرار 8، فعالية العمل الجماعي 4، الدورات المفتوحة عبر الإنترنت 4، التقارير الاستراتيجية والخارجة عن السيطرة 3) وتحليل تعليقات الطلاب (تحليل التعليقات 14، التعليقات الآلية 3 والحكم المقارن التكيفي 2).

النتائج

تعيين المقيمين الأقران

يرغب المعلمون في تعيين مقيمين مؤهلين لتقييم العمل المعني. طريقة بدائية للتعامل مع هذا هي تعيين أكثر من مقيم واحد بشكل عشوائي لكل قطعة عمل، ولكن إكمال تقييمات الأقران المتعددة يزيد من عبء العمل على الطلاب ويترك سؤال كيفية وزن التقييمات المختلفة لنفس قطعة العمل. فقط أربع أوراق ركزت على تعيين المقيمين من الأقران. اقترح ماساكي وآخرون (2019)
نهج قائم على نظرية استجابة العناصر وبرمجة الأعداد الصحيحة لتعيين المقيمين الأقران، لكنه لم يكن أكثر فعالية من التخصيص العشوائي وأوصى باستخدام مقيمين إضافيين من خارج المجموعة. تم تجربة نظام للكشف عن التواطؤ بعد الحدث من قبل وانغ وآخرون (2019أ). نظرت ورقتان فقط في نظام شامل للتعيين الذكي للمقيمين. كان لدى أنايا وآخرون (2019) نظام لتعيين المقيمين الأقران وفقًا للشبكات الاجتماعية، والذي كان أكثر فعالية من التخصيص العشوائي. بعد تقسيم الطلاب إلى أربع مجموعات حسب القدرة، وجد زونغ وشون (2023) أن المطابقة حسب القدرة المماثلة كانت الأكثر فعالية وأكثر فعالية من التخصيص العشوائي، باستثناء الطلاب ذوي القدرة المنخفضة.

تعزيز المراجعات الفردية

خمسة أوراق ( ) ركزت على تحسين طبيعة التعليقات المفصلة من الأقران واثنين مركّز على اكتشاف المشكلات (7 في المجموع، ). من بين الخمسة الأوائل، استكشف أربعة طبيعة جوانب مختلفة من مراجعات الطلاب، بينما سعى اثنان إلى أتمتة تحليل تعليقات الطلاب المفصلة بالكامل. طور سارينن وآخرون (2019) أداة للطلاب لإنشاء أسئلة، ووجدوا أن مخرجاتها مشابهة لتلك التي يقدمها المعلمون، لكن كان من الصعب تكرار ذلك عبر المواد الدراسية. تم تصميم أداة لاكتشاف الحجج في التعليقات المفصلة بواسطة هوا وآخرون (2019)، والتي أطلق عليها “استخراج الحجج”. استخدم زينجل وآخرون (2019) التعلم الآلي لاكتشاف الاقتراحات في تعليقات الطلاب، ووجدوا أن طريقة تتضمن الشبكات العصبية كانت أكثر فعالية من طرق معالجة اللغة الطبيعية القائمة على القواعد. سيسمح ذلك بتحليل مراجعات المسودة للكشف عن وجود اقتراحات قبل تسليم المراجعة. تم إنتاج خوارزمية لأتمتة تقييم تعليقات الطلاب المفصلة بواسطة وي وآخرون (2020). إن إخفاء الهوية عن البيانات هو مشكلة مهمة، لكنها غير مرتبطة باستخدام الذكاء الاصطناعي، لأنه إذا كان الذكاء الاصطناعي هو الوحيد الذي يقرأ مراجعة، فلا داعي لإخفاء هويتها. وبالمثل، صمم كاسترو وآخرون (2023) برنامجًا يقوم تلقائيًا بتصنيف تعليقات التغذية الراجعة إلى فئات، مثل “اقتراحات للتحسين” و”عوامل بين شخصية”. درس المؤلفون عدة خوارزميات لإجراء هذا التصنيف، ووجدوا أن النتائج كانت جيدة مثل تحليل المعلم. ومع ذلك، فإن مثل هذا التصنيف لن يساعد في تحديد أي المراجعات كانت موثوقة.
ركزت ورقتان على اكتشاف المشكلات. استخدم شياو وآخرون (2020a) طرق تصنيف النصوص باستخدام التعلم الآلي وطوروا خوارزمية تعتمد على معالجة اللغة الطبيعية لاكتشاف بيانات المشكلة في تعليقات المراجعة، والتي انتقلت بفعالية من فصول الحوسبة إلى فصل الكتابة. تم تحليل طبيعة الفائدة، والتي قد تختلف من طالب لآخر. حاول المؤلفون مثل هذه المهمة على بعض النماذج بما في ذلك مصنف الانحدار اللوجستي، مصنف الغابة العشوائية، مصنف بايزي المتعدد الحدود ومصنف آلة الدعم، باستخدام مجموعة بيانات من نظام إكسبيرتيزا. تم اقتراح خوارزمية جديدة من قبل شياو وآخرون (2020b) والتي قدمت تقييمًا آليًا دقيقًا، وتحديد نقاط الضعف في مراجعات الأقران وحددت أيضًا نقاط الضعف لدى المراجع. تم تقييم الخوارزمية على 200 طالب ينتجون 1,714 درجة. وجد المؤلفون أن التدهور يعتمد على مدى بُعد الموضوع الآخر عن الموضوع الأصلي.

اشتقاق درجات/تعليقات الأقران

كانت هذه أكبر منطقة من بين الست، تحتوي على 35 ( ) من الأوراق. تم ترميزها بشكل استقرائي إلى فئات فرعية: التقييم الآلي ( 4 أوراق)، تنوع
الدرجات والتعليقات ( 7 أوراق)، المعايرة ( 5 أوراق)، المنطق الضبابي واتخاذ القرار (8)، فعالية العمل الجماعي (4)، الدورات المفتوحة عبر الإنترنت (4) والتقارير الاستراتيجية وغير التقليدية (3).
التقييم الآلي كان موضوع التقييم الآلي يحتوي على أربع أوراق ( ). وصف كاليلا (2009) خوارزمية تقييم آلي (أساسًا نظام سمعة يعتمد على المعادلات الخطية) والتي أدت بشكل جيد على الرغم من أن الطلاب كانوا في مستويات مختلفة. قامت الخوارزمية بحساب عوامل المصداقية لكل طالب بناءً على الدرجات التي منحها طلاب آخرون، ثم صححت الدرجات المعطاة من خلال وضع وزن أكبر على الطلاب ذوي القيمة العالية للمصداقية. تمت مقارنة الدرجات التي تم إنشاؤها يدويًا بتلك التي تم حسابها باستخدام الخوارزمية وكانت مرتبطة بشكل جيد. كما أشار وانغ (2019b)، يمكن أن يتأثر التقييم العددي بفهم المقيمين المتحيز للمقياس بناءً على خلفيتهم الثقافية. يمكن أن يقلل إضافة نظام تقييم الأقران العددي مع تعليقات الأقران من تحيز المقيمين. اقترح وانغ وآخرون نموذج معالجة لغة طبيعية (1) يعالج تعليقات الأقران حول سلوكيات العمل الجماعي للزملاء؛ و(2) يحول التعليقات إلى أرقام تسمح بالحساب. تم تقييم النتائج في بيانات CATME وصادقت النظام.
تم اقتراح نهج لتقييم استجابات الطلاب تلقائيًا وتقييم دقة نتائج تقييم الأقران بواسطة هوانغ وآخرون (2022)، عبر نموذج فضاء المتجهات والاستخراج الدلالي لمعالجة وتقييم استجابات الطلاب. عندما أدرك الطلاب أن استجابات تقييم الأقران الخاصة بهم كانت تؤخذ بعين الاعتبار من قبل النظام، كانت لديهم مواقف أكثر إيجابية تجاه الأنشطة. أظهر متوسط خمس درجات تقييم أقران لكل طالب تغييرات إيجابية ملحوظة في المجموعة التجريبية مقارنة بالمجموعة الضابطة وكان متماشيًا بشكل وثيق مع التقييمات البشرية. استخدم هيرنانديز-غونزاليس وهيريرا (2023) نموذجًا بيزيًا رسوميًا احتماليًا (PGM) لتقدير درجة لكل اختبار ونمذجة عملية تقييم الأقران (مع الأخذ في الاعتبار درجة الدقة والتحيز في تقييم الأقران) وتقنية اختيار لتوجيه المعلمين في اتخاذ القرار بشأن أي الواجبات يجب تقييمها يدويًا في حالة عدم اليقين بشأن درجة الذكاء الاصطناعي. يمكن للمعلم أن يقرر عدد الاختبارات التي يجب تقييمها بناءً على معاييره الخاصة لعدم اليقين المقبول. قام المؤلفون بالتحقق من صحة الطريقة باستخدام بيانات تم إنشاؤها بشكل اصطناعي وبيانات حقيقية.
تنوع الدرجات والتعليقات كانت هذه الفئة الفرعية تحتوي على سبع أوراق (9%). لاحظ بابيك وآخرون (2020) أن القليل من الأبحاث قد أُجريت حول كيفية تأثير هياكل الشبكات المختلفة على قدرة النظام على تقييم جودة القطع الفنية التي تم تقييمها بدقة. يمكن أن تؤثر خاصيتان من خصائص الشبكة – “التشتت” و”التبادلية” – بالفعل على دقة التقييم. استخدم المؤلفون BayesRank – نهج بايزي لتصنيف تقييم الأقران. كانت بنية شبكة مراجعة الأقران تحدد أي المراجعين يقيمون أي القطع الفنية. كان كل تقييم يعتمد على جودة القطعة الفنية وكفاءة المراجع. قام رشيد وآخرون (2021) بتحليل المعايير لمعرفة الميزات التي تعزز كتابة مراجعات ذات جودة. تم اعتبار نزاهة القياس كشرط لتوقع الأقران من قبل بوريل وشوينبيك (2021). (توقع الأقران، أو استنباط المعلومات دون تحقق، هو نموذج لتصميم آليات تستنبط تقارير حول أسئلة أو مهام في بيئات حيث لا توجد حقيقة أرضية – وبالتالي لا توجد إمكانية للتحقق العشوائي). قاموا بإجراء تجارب حسابية، سواء باستخدام نموذج قائم على الوكلاء أو باستخدام بيانات حقيقية، لتقييم آليات توقع الأقران تجريبيًا، ووجدوا أن آليات توقع الأقران فشلت إلى حد كبير في إظهار نزاهة قياس كبيرة. كانت الآليات الأفضل أداءً من حيث نزاهة القياس
ومع ذلك، كانت عرضة للغاية للتقارير الاستراتيجية (أي، المراجعة بأهداف غير التقييم في الاعتبار أو التلاعب بالنظام لتحسين درجة الفرد على حساب زملائه).
تم الإشارة إلى الموثوقية (أي، الاتساق في التقييمات عبر الأقران) والصلاحية (أي، اتساق تقييمات الأقران مع تقييمات المعلمين أو الخبراء) كعوامل رئيسية في تقييم الأقران من قبل شياو وآخرون (2023). درس المؤلفون المتغيرات التي أثرت على توقع هذه العوامل باستخدام مجموعة بيانات كبيرة عبر سياقات متعددة. بينما أظهر متوسط عدد المقيمين لكل عنصر تم تقييمه تأثيرات سلبية باستمرار على الموثوقية، كان تأثيره على الصلاحية إيجابيًا ومباشرًا. أنتج عدد أكبر من تقييمات الأقران تقييمًا متوسطًا أقل تحيزًا وبالتالي صلاحية أعلى. كان عدد الواجبات التي تم تقييمها مرتبطًا إيجابيًا بالصلاحية، ولكن ليس بالموثوقية.
تناولت أوراق أخرى قضايا فردية. تم معالجة عدم الاتساق في التقييم/التعليقات في التقييم من الأقران للأنشطة المفتوحة من قبل ريكو-خوان وآخرين (2019) باستخدام التعلم الآلي. تم اختبار نهجين مختلفين مع خوارزميات مختلفة. أظهرت التجارب التي أجريت مع أربع مجموعات من الطلاب ونوعين من الأنشطة أن النهج المقترح يمكن أن ينتج نتائج موثوقة. طور بوايبي وآخرون (2021) منصة تقييم من الأقران تسمى UX Factor، والتي تهدف إلى وصف سلوك المراجعين من الأقران عند مقارنة منتجين في وقت واحد واتساق نماذج الترتيب المستخدمة لتجميع هذه المراجعات. في دورة تضم 133 طالبًا عبر ثلاثة مشاريع تصميم، وُجد أن النظام فعال في الحصول على تعليقات عالية الجودة. تم التحقيق في التعلم القائم على المشكلة في المجموعات من قبل بابل وآخرين (2021)، وخاصة المساهمة الفردية لكل طالب في أداء المجموعة. قدمت هذه الورقة سبعة أدوات مختلفة، وميزاتها ووظائفها. لتقييم ومقارنة هذه الأدوات، تم تقديم بعض المعايير ووصفها، بناءً على تعريفات القابلية للاستخدام وتجربة المستخدم.
ركزت خمس أوراق على المعايرة. في سياق تقييم الأقران، المعايرة هي عملية يقوم من خلالها الطلاب بتقييم نماذج نموذجية قبل تقييم الأعمال الطلابية التي تم تكليفهم بمراجعتها. تستخدم بعض الأنظمة درجة المعايرة الخاصة بالطالب لوزن مراجعات ذلك الطالب عند حساب درجات الأقران. تتطلب أنظمة أخرى من الطالب الاستمرار في تقييم النماذج النموذجية حتى يحصل على درجة معايرة “ناجحة”. تصف الورقة الأولى مثل هذه المعايرة مراجعة الأقران المعايرة، التي نشأت في أواخر التسعينيات (راسل، 2013) ولكنها كانت تركز على تقييم الأعمال الطلابية في مواضيع معينة، مثل الكيمياء أو البيولوجيا. في ورقة مبكرة، ابتكر هامر وآخرون (2005) نظام سمعة لمعايرة الدرجات تلقائيًا في تقييم الأقران. تناولت القضية المتعلقة بموثوقية الدرجات وقدمت تقنية جديدة لتقليل تأثير “المراجعات المارقة”. اقترحت المحاكاة أن الطريقة كانت فعالة في مجموعة واسعة من الظروف. وصف تشو وشون (2007) SWoRD (الكتابة المعززة وإعادة الكتابة في التخصص)، وهو نظام مراجعة أقران متبادل قائم على الويب. تضمنت SWoRD خوارزميات تحسب دقة مراجعة المراجعين الفرديين وكانت فعالة في تحسين جودة الكتابة. تم اقتراح نظام سمعة يعمل بشكل مشابه من قبل لاو وآخرين (2007). لم يبدو أن أي من هؤلاء المؤلفين كان على علم بمساهمة هامر وآخرين (2005). استخدم نايت وآخرون (2019) SPARKPlus وفحصوا بيانات من مهمة مرجعية في تقييم الأقران (تشمل 500 طالب في كل فصل دراسي على مدى أربعة فصول دراسية). الطلاب الذين أكملوا المهمة المرجعية أدوا بشكل أفضل، وكان هناك علاقة بين أداء المهمة المرجعية وأداء التقييم الذاتي.
ومع ذلك، لا يبدو أن المعايرة منطقة شعبية للبحث الحالي، على الرغم من أنها مهمة بوضوح في تدريب المراجعين.
المنطق الضبابي واتخاذ القرار المنطق الضبابي هو إطار رياضي يُستخدم غالبًا بالاشتراك مع الذكاء الاصطناعي وهو نهج لمعالجة المتغيرات بناءً على “درجات الحقيقة” بدلاً من “صحيح أو خطأ” المعتادة (1 أو 0) في الكمبيوتر الحديث. يسمح بمعالجة قيم الحقيقة المحتملة المتعددة بالنسبة لنفس المتغير، وهو مناسب بشكل خاص للغة. يحاول المنطق الضبابي حل المشكلات مع طيف مفتوح وغير دقيق من البيانات والحدس مما يجعل من الممكن الحصول على مجموعة من الاستنتاجات الدقيقة. كانت هناك ثماني أوراق ( ) في هذه الفئة الفرعية، على الرغم من أنه لم يبدو أن هناك أوراق حديثة عن المنطق الضبابي.
كانت أربع أوراق تتعلق بعدم دقة الكلمات. وبالتالي، استخدم تشاي وتاي (2014) الحوسبة الإدراكية (Per-C). تم تحويل المصطلحات اللغوية المقدمة من قبل المقيمين لتقييم معايير مثل الثقة، الوضوح، إلخ. إلى مجموعات ضبابية من النوع 2. مثلت بصمة عدم اليقين تباين المعاني للمصطلحات اللغوية كما تم تقييمها من قبل خبراء مختلفين. تم رسم خريطة لمجموعة الرموز للمصطلحات إلى مجموعاتها الضبابية. قامت تقليل النوع بإزالة الضبابية من الناتج الضبابي المجمع إلى درجة دقيقة باستخدام طريقة كارنيك-ميندل. تم الإبلاغ عن دراسات حالة. لاحقًا، اقترح تشاي وآخرون (2015) منهجية جديدة لتقييم الأقران الضبابية؛ وهو مزيج من الحوسبة الإدراكية (Per-C) وخوارزمية ترتيب ضبابية تأخذ في الاعتبار الغموض وعدم الدقة للكلمات. عكست مؤشرات الأداء مساهمة الطالب في مجموعة ومن ثم رتبت الطالب وفقًا لذلك. تم الإبلاغ عن دراسة حالة. تم تقديم خوارزمية لحساب درجات تقييم الفيفا باستخدام Per-C من قبل مادان وآخرين (2015). كانت دقة الإجابات، ووضوح المفاهيم، والثقة، والعفوية، والكفاءة اللغوية، والمظهر، وآداب السلوك، والتعامل مع الضغط هي القضايا التي تم تناولها. تم اختبار النظام الضبابي لتقييم درجات تقييم الفيفا (الامتحان الشفوي) لتسعة طلاب. اقترح راو وآخرون (2017) طريقة لتقييم أداء الطلاب باستخدام نظام استدلال ضبابي (FIS) لتحليل الشبكات (NA). كانت معايير الدرجات متوافقة مع معايير بلوم. تم تحويل المدخلات الخمسة التي تحدد، تفهم، تطبق، تحلل وتصمم/تخلق إلى ضبابية باستخدام نظام استدلال ضبابي مانداني. تم تقديم النتائج لمجموعة تجريبية، ولكن لم يكن هناك مجموعة ضابطة أو مقارنة مع نماذج أخرى.
كانت أربع أوراق أخرى تتعلق بالدرجات الضبابية. وبالتالي، قدم نغو وآخرون (1995) ورقة مبكرة جدًا حول نظام مراجعة الأقران عبر الإنترنت يسمى ‘Peers’ الذي سمح للمقيمين بتحديد الأوزان لمعايير التقييم المختلفة ثم استخدم نظرية القرار الضبابي لتحديد الأوزان النهائية للتقييم لكل من الجوانب. قام كل طالب بتقييم طالبين آخرين وتم أيضًا تقييم الواجبات من قبل المعلمين. كان جميع الطلاب وموظفي التدريس مشاركين في تحديد المعايير التي سيتم استخدامها في التقييم، والوزن الذي سيتم إرفاقه بكل معيار. قام النظام تلقائيًا بحساب الأوزان النهائية للمعايير باستخدام نظرية القرار الضبابي. قدمت الورقة أيضًا بيانات حول موثوقية تقييم الأقران وحددت ردود فعل الطلاب والموظفين على تقديمه. اقترح كابوانو وآخرون (2017) نموذجًا جديدًا لتقييم الأقران الترتيبي بناءً على مبادئ اتخاذ القرار الجماعي الضبابي. طُلب من كل طالب ترتيب بعض التقديمات العشوائية من الأفضل إلى الأسوأ وتحديد، مع مجموعة من التسميات البديهية، إلى أي مدى كانت كل تقديم أفضل من التالي في الترتيب. ثم تم تحويل الترتيبات إلى علاقات تفضيل ضبابية، وتم توسيعها لتقدير القيم المفقودة وتجميعها. تم استخدام العلاقة المجمعّة بعد ذلك لتوليد ترتيب عالمي بين
التقديمات وتقدير درجاتها المطلقة. أظهرت النتائج التجريبية أداءً أفضل مقارنةً بتقنيات تقييم الأقران الأخرى. تم اقتراح نهج قائم على الضبابية يهدف إلى تعزيز الصلاحية والموثوقية من قبل العلوي وآخرين (2018). قدم المؤلفون أمثلة توضيحية. تم تقديم تطبيق استبيان قائم على الأعداد الضبابية من قبل جوناس وآخرين (2018) من أجل تعزيز موثوقية التقييمات من الأقران. كانت دالة العضوية للعدد الضبابي تتكون من دالة عضوية سيغمويدية متزايدة ومتناقصة مرتبطة بمشغل تقاطع دومبي. سمح ذلك للمراجعين من الأقران بالتعبير عن عدم يقينهم وتباين أداء الشخص الذي تم مراجعته بطريقة كمية. تم تقديم دراسة حالة.
فعالية العمل الجماعي أربع أوراق ( ) تركزت على الذكاء الاصطناعي لتحديد وإدارة فعالية الفريق. عرّف بتكوفك وآخرون (2012) ممارسات العمل الجماعي على أنها القدرات: (ط) التعلم وتطبيق عمليات هندسة البرمجيات بشكل فعال في بيئة العمل الجماعي، و (2) العمل كفريق لتطوير منتجات برمجية مرضية. قدم المؤلفون نهجًا يعتمد على: (أ) استخراج بيانات نشاط الفريق الطلابي الموضوعية والكمية فقط خلال مشروعهم؛ (ب) ربط هذه البيانات بملاحظات مستقلة ذات صلة وتقييم فعالية الفريق الطلابي؛ و (ج) تطبيق نهج تعلم الآلة (تصنيف الغابة العشوائية) لإنشاء نماذج، وعوامل مرتبة وقواعد يمكن أن تفسر (على سبيل المثال، تقييم) وكذلك تتنبأ بفعالية العمل الجماعي للطلاب. شاركت ثلاث جامعات في بلدين في التقييم.
تم الإبلاغ عن تطبيق الأداة عبر الإنترنت SPARKPlus (مجموعة موارد التقييم الذاتي والتقييم المتبادل) https://sparkplus.com.au) من قبل وو وآخرون (2010)، مع مجموعة من معايير التقييم لمشاريع البحث الجماعية ( ) . شاركت سبعة وثلاثون مجموعة. حاولت بعض المجموعات التلاعب بـ SPARKPlus بحيث يحصل كل عضو في الفريق على نفس الدرجة، حيث اعتقدوا أنه جهاز تقييم نهائي. استخدم ششيفان وجليلي (2020) أيضًا SPARKPlus مع المجموعات. تم تخصيص درجات التقييم المتبادل بشكل فردي بالنسبة إلى متوسط درجة التقييم المتبادل للمجموعة التي منحها المعلم. تم مقارنة النتائج من التقييمات السابقة واللاحقة وتم تحسين تقدير الطلاب لجوانب العمل الجماعي في الدورات. تم التحقيق في التقييم التلقائي للعمل الجماعي من قبل أهوجا وآخرون (2020أ)، الذين حاولوا تحديد (أ) ما إذا كانت هناك أي خصائص مشتركة لسلوكيات المناقشة عبر الإنترنت التي أظهرها أعضاء الفريق الطلابي ذوو الأداء العالي مقابل غير ذوي الأداء العالي، و (ب) ما إذا كان أعضاء الفريق الطلابي ذوو الأداء العالي مقابل غير ذوي الأداء العالي يشتركون في أي سمات خارجية للعمل الجماعي. وجد المؤلفون أن ميزات تواصل أعضاء الفريق التي تنبأت بأفضل أداء لأعضاء الفريق كانت طول الجملة وعدد الكلمات التي ساهمت في مناقشة الفريق.
الدورات التعليمية المفتوحة عبر الإنترنت (MOOCs) كانت هناك أربع أوراق ( ) كانت معنية بالكامل بالدورات التعليمية المفتوحة عبر الإنترنت، وهي سياق خاص جدًا بحيث تم تجميع الأوراق معًا. أبلغ كولكارني وآخرون (2013) عن فصول دراسية كبيرة عبر الإنترنت حيث أظهر التقييم المتبادل تطابقًا عاليًا مع تقييمات الموظفين. تم إجراء ثلاث تجارب لتحسين دقة التقييم. زادت إعطاء الطلاب ملاحظات حول تحيزاتهم في التقييم من الدقة. قدمت مقتطفات قصيرة من الملاحظات مزيدًا من الملاحظات النوعية من الأقران. تم تقديم نهج قائم على البيانات يبرز العناصر ذات التباين العالي للتحسين. كانت المعايير التي استخدمت هيكل جملة متوازي، وصياغة غير غامضة وأبعاد محددة جيدًا ذات تباين أقل. تم تطوير خوارزميات لتقدير وتصحيح تحيزات المقيّمين وموثوقياتهم من قبل بيش وآخرون (2013)، مما أظهر تحسينًا كبيرًا في دقة التقييم المتبادل
على بيانات حقيقية مع 63,199 درجة تقييم متبادل. ربطوا تحيزات المقيّمين وموثوقياتهم بعوامل طلابية أخرى مثل انخراط الطلاب وأدائهم بالإضافة إلى أسلوب التعليق. تم تنفيذ نظام ذكاء اصطناعي لدورة MOOC معتمدة لمعالجة كل من النطاق والتأييد من قبل جوينر (2018). حقق الطلاب في الدورة عبر الإنترنت نتائج تعلم قابلة للمقارنة، وأبلغوا عن تجربة طلابية أكثر إيجابية وحددوا مشاكل البرمجة المجهزة بالذكاء الاصطناعي كأهم مساهم في تجاربهم. قدم سياروني وتيمبريني (2020) نظامًا قائمًا على الويب يحاكي فصل MOOC. سمح ذلك للمعلمين بتجربة استراتيجيات بيداغوجية مختلفة بناءً على التقييم المتبادل. كان بإمكان المعلم مراقبة ديناميات MOOC المحاكي، بناءً على نسخة معدلة من خوارزمية K-NN. أنتجت التجربة الأولى للنظام نتائج واعدة.
التقارير الاستراتيجية والاحتيالية كانت هذه الفئة الفرعية تحتوي على ثلاث أوراق ( )، كان لدى اثنتين منها أوجه تشابه. استخدم كومار وآخرون (2020) أداة ورشة العمل في مودل للتقييم المتبادل المجهول والمقارنة مع تقييم المعلم عبر 14 حرمًا جامعيًا. تعتبر ورش العمل في مودل أداة تقييم متبادل أساسية جدًا، حيث لا تقدم أكثر من وسيلة للطلاب والمعلمين لمشاهدة المراجعات التي قام بها أقران الطلاب، وبالتالي فهي ليست مدعومة بالذكاء الاصطناعي. تم العثور على موثوقية بنسبة 80%. تم اعتبار السلوك الاستراتيجي في التقييم المتبادل من قبل ستيلماخ وآخرون (2021)، خاصة عندما كان الأقران في منافسة مع بعضهم البعض. في الحالة الأخيرة، قد يتم تحفيز المقيّمين للإبلاغ عن تقييمات غير صحيحة من أجل تحسين وضعهم النهائي. قدم المؤلفون نموذجًا إحصائيًا لتحديد مثل هذه القيم الشاذة التي كانت لديها قوة كشف قوية. وبالمثل، استخدم باديا وبوبسكو (2022) نهجًا هجينًا للتخفيف من سلوك المراجعة الاحتيالية، سواء بسبب الكسل أو الخبث أو الانتقام أو عدم الأمانة. تم اقتراح آلية تجمع بين التسمية التلقائية للمراجعات المشبوهة مع التحليل اليدوي للمحتوى من قبل المعلم. بالإضافة إلى ذلك، تم عرض مطالبات مخصصة للطلاب، تقدم توصيات محددة لمراجعة المراجعات المحتملة الاحتيالية. تم الإبلاغ عن نتائج دراسة تجريبية.

تحليل ملاحظات الطلاب

كانت هذه المنطقة تحتوي على 19 ورقة ( ). كانت معظم هذه الأوراق تتعلق بتحليل الملاحظات (14 ورقة)، عمومًا بعد الحدث ولكن أحيانًا مع رؤية للتنبؤ بالملاحظات المستقبلية. كانت الفئات الفرعية الأصغر بكثير تتعلق بالتغذية الراجعة الآلية (3 أوراق) والحكم المقارن التكيفي (2 ورقة).
تحليل الملاحظات أبلغت أربع عشرة ورقة (18%) عن تحليل ملاحظات الطلاب. ركز أربعة منها على دقة المراجعة. ناقش ناكاياما وآخرون (2020) أفضل عدد من الأقران لتقديم تقييمات لبعضهم البعض، مرتبطًا بكفاءة الطالب وقدرته على التقييم. تم التحكم في عدد الأقران المعينين لنفس وظيفة التقييم من ثلاثة إلى 50 في ست خطوات باستخدام مقياس من 10 نقاط. انخفضت جميع معلمات النماذج تدريجيًا مع عدد الأقران. تم تطوير خوارزمية متعددة الأبعاد لمراقبة الجودة للتقييمات المتبادلة ومعلومات النص من قبل لي وآخرون (2020ب). تم دمج سلوك المستخدم، ومعلومات نص التعليق وعناصر أخرى معًا. كانت الإطار نموذجًا خطيًا لوغاريتميًا يؤدي إلى خوارزمية انحدار تدرجي. عند مقارنتها بالخوارزميات التقليدية، كان أداء النموذج أفضل. وصف باديا وبوبسكو (2020) LearnEval وطبقوه على سيناريوهات التعلم القائم على المشاريع. تم نمذجة كل طالب بناءً على الكفاءة والانخراط وقدرات التقييم. تم دمج وحدة درجات
تتضمن التصور. ومع ذلك، كان التقييم فقط من خلال تصورات الطلاب. استخدم هوانغ وآخرون (2023) ثلاثة أنظمة مختلفة لتحليل تعليقات الأقران، مصنفة تعليقات الأقران من حيث المحتوى المعرفي والحالة العاطفية. كان لنموذج تمثيلات المحولات ثنائية الاتجاه (BERT) أفضل النتائج وحسن التغذية الراجعة مع تقليل كبير في إرهاق الطلاب. عانى الأفراد الذين تلقوا ملاحظات أكثر اقتراحًا من انخفاض أكبر في الإرهاق العاطفي. على العكس من ذلك، عند تلقي ملاحظات أكثر سلبية و/أو تعزيز دون توجيه، كان المتعلمون يميلون إلى تجربة تجربة عاطفية أسوأ وأظهروا سلوك تعلم ذاتي أسوأ.
ركزت ثمانية أوراق على فائدة المراجعة واكتشاف المشكلات. طور شياو و ليتمن (2010) نظامًا لتحديد موقع المشكلة تلقائيًا في التعليقات من الأقران. تم استخدام ميزات التعبير العادي، ميزات معجم المجال، الميزات النحوية وميزات النافذة المتداخلة. تفوق النموذج بشكل كبير على الأساسيات. كانت الميزات الهيكلية، أحادية المراجعة والبيانات الوصفية مفيدة في التنبؤ تلقائيًا بفائدة مراجعة الأقران وفقًا لشياو و ليتمن (2011). ثم طبق شياو وآخرون (2012) مزيجًا من التنقيب عن البيانات ومعالجة اللغة الطبيعية لاكتشاف نقص العناصر المفيدة في تعليقات الأقران تلقائيًا. ثم تم بناء نموذج باستخدام ويكا لاكتشاف ميزات التعليقات المستهدفة (مثل معلومات الموقع والحلول المحددة). تم ترميز المراجعات تلقائيًا لهذه الميزات. كانت التعليقات المفيدة في سياق عاطفي إيجابية ومحفزة ومشجعة وفقًا لسلمي وآخرون (2014)، بينما كانت التعليقات غير المفيدة سلبية وتتنمر وتقلل من القيمة. اقترحوا نهجًا باستخدام تقنيات معالجة اللغة الطبيعية وتعلم الآلة للتنبؤ بفائدة التعليقات العاطفية المقدمة للمتعلمين بناءً على محتوى التعليق وحالة المتعلم العاطفية. قدم خوارزمية بايز الساذجة أفضل أداء. وفقًا لرشيد وآخرون (2022)، كانت التعليقات الجيدة تركز على اكتشاف المشكلات، وتقديم الاقتراحات أو الإشارة إلى الأماكن التي تحتاج إلى تغييرات. وجدوا أن الطلاب من المحتمل أن يجدوا مراجعة مفيدة إذا تم تقديم اقتراح مع المشكلة المحددة. تم السعي أيضًا لاكتشاف المشكلات في المراجعات من قبل شياو وآخرون (2022). جربوا عدة نماذج من تعلم الآلة والشبكات العصبية، ووجدوا أن خوارزميتهم الجديدة المقترحة كانت فعالة مثل أو أكثر كفاءة. صمم ساكاردى وآخرون (2023) نظامًا لتحديد مشكلات العمل الجماعي للطلاب والذي تناول التعليقات حول العمل الجماعي، بدلاً من التعليقات على منتج تم إنتاجه بواسطة فرد أو فريق. كان E-Mate وكيلًا افتراضيًا يتضمن التصور الذي قدم تعليقات أولية على التقييم. تم التحقيق في التقييم الآلي لفائدة المراجعة من قبل ليو وآخرون (2023)، بمساعدة نماذج التعلم العميق وتقنيات معالجة اللغة الطبيعية. قيمت الدراسة أداء التدريب الذاتي في التنبؤ بفائدة مراجعات الأقران. أيضًا، تم اقتراح إطار متقدم للتدريب الذاتي من خلال تخصيص تقطير المعرفة وإدخال الضوضاء لتحسين أداء النموذج بشكل أكبر.
اهتمت ورقتان بجودة التعليقات المفصلة. اختبر باتشان وآخرون (2016) نموذجًا نظريًا محدثًا يتضمن مجموعة واسعة من الميزات واعتبروا ليس فقط احتمال تنفيذ الطلاب لتعليق ما ولكن أيضًا جودة مراجعاتهم. قاموا بتحليل 7500 تعليق على التعليقات وتم ترميز كل تعليق لوجود الثناء، ووصف المشكلة، وحل مقترح، وموقع، وتركيز (أي، نثر منخفض، نثر مرتفع، جوهر)، وجودة التنفيذ والمراجعة. فقط ميزتان من التعليقات
زادت من احتمال تنفيذ الطلاب (الثناء العام والموقع)، بينما قللت عدة ميزات من ذلك (الثناء المخفف، الحلول والتعليقات ذات النثر العالي). ثم تمت مقارنة ثلاثة شروط من قبل باتشان وآخرون (2017): فقط مسؤولية التقييم، فقط مسؤولية التعليقات، أو كل من مسؤولية التقييم والتعليقات. تم ترميز تقييمات الأقران وتعليقات الأقران. كان بناء تعليقات مفيدة له تأثير واسع على تقييم الأقران وكانت التقييمات المتسقة مستندة إلى هذا التعليق. يجب ملاحظة أن هناك خطًا رفيعًا بين تحليل التعليقات (في هذا القسم) وتعزيز المراجعات الفردية. إذا كان تحليل التعليقات فوريًا، وكان المراجعون يمكنهم رؤيته قبل تقديم مراجعة، فإنه يمكن أن يساعد المراجعين في تحسين مراجعاتهم. قد يعتبر هذا استخدامًا “تكوينيًا” لتحليل التعليقات. إذا تم تقديمه بدلاً من ذلك للمدرس كوسيلة لتقييم فعالية المراجع، فإنه يتم استخدامه “تراكميًا” لتحليل التعليقات.
التعليقات الآلية عدد قليل من الأوراق ( ) ركزت على التعليقات الآلية حقًا، ولم يكن هناك أي منها من أصل حديث. تم وصف نظام لتقييم والإبلاغ عن وجود الحلول في التعليقات على مستوى الجملة من قبل نغوين وآخرون (2016). تم تحفيز تعليقات أفضل بدقة أعلى مما أدى إلى حلول أفضل. باستخدام بيانات من Expertiza وكتابة وإعادة كتابة مدعومة في التخصص (SWoRD) (تطبيقين تعليميين تعاونيين عبر الإنترنت)، تمت مناقشة المراجعات أو مراجعات المراجعات من قبل راماشاندران وآخرون (2017). قاموا بتقييم جودة التعليقات التي حفزت مزيدًا من تطوير التعليقات. حقق النموذج مكاسب من الأساسيات. بالمثل، طور نغوين وآخرون (2017) نظامًا قدم تلقائيًا تعليقات تكوينية على تعليقات الطلاب، مما عزز جودة التعليقات وجعلها أكثر تحديدًا.
الحكم المقارن التكيفي (ACJ) كان هناك ورقتان في هذه الفئة الفرعية . استكشف ديموناكوس وباربر (2019) ACJ كوسيلة لتقييم الأقران. ACJ هو بروتوكول تقييم حيث يقارن المقيم بين اثنين من المنتجات ويختار “فائزًا”. يسمح الحكم المتكرر وخوارزمية الفرز باشتقاق الدرجات من ترتيب النصوص. يمكن إضافة التعليقات إلى كل نص. في هذه الحالة الدراسية، قدم كل طالب تعليقات لعشرة آخرين. كان الطلاب غير متسقين مع بعضهم البعض ومع تقييم الموظفين. تم التوصية بنظام تقييم هرمي وإرشادات تعليقات واضحة. تم أيضًا تجربة ACJ من قبل إليسون (2023) – متجنبًا المعايير ولكن مشجعًا التقييم من خلال مقارنة قطع العمل المختلفة. ومع ذلك، لم يتم قياس التحسينات في التحصيل.

تسهيل إشراف المعلم

تناولت أربع أوراق مجموعة متنوعة من المواضيع. تم تعريف “الركوب المجاني” من قبل تشيو وآخرون (2020) على أنه استغلال عمل الآخرين أو أخذ الفضل في العمل الذي قام به الآخرون دون المساهمة في مشروع جماعي. تم تصميم نظام تقييم عبر الإنترنت للدرجات الفردية (OASIS) لتقليل تصورات الطلاب عن الركوب المجاني، بما في ذلك: الالتزام التعاقدي، مناقشة الفريق، تقييم الأقران الوسيط لمساهمة كل عضو، فرص مراجعة التقييم، مشاركة المعلم المشروطة والاستئناف النهائي. شارك الطلاب في الهند وهونغ كونغ. جاءت النتائج السلبية من المجموعات الأكبر، وانخفاض المراقبة الفردية للأفراد واختلافات الكفاءة الأكبر بين الأعضاء. عانى الطلاب الذين قيموا المشاريع الجماعية أكثر من الآخرين من عدد أقل من الركاب المجانيين. تم وصف أداة تسمى PuzzleMe من قبل وانغ وآخرون (2021)، والتي
قدمت اختبار الأقران المباشر ومراجعة كود الأقران المباشرة. يمكن أن يحسن اختبار الأقران المباشر من قوة كود الطلاب من خلال السماح لهم بإنشاء ومشاركة اختبارات خفيفة الوزن مع الأقران. يمكن أن تحسن مراجعة كود الأقران المباشرة من فهم الكود من خلال تجميع الطلاب بذكاء لتعظيم مراجعات الكود ذات المعنى. ومع ذلك، كانت التقييمات قصيرة جدًا. وصف خسروي وآخرون (2021) مصادر المتعلمين، عبر نظام تكيفي يسمى RiPPLE، الذي تم استخدامه في أكثر من 50 دورة مع أكثر من 12000 طالب. قدمت الورقة تأملات مستندة إلى البيانات والدروس المستفادة. ركز دهل وآخرون (2022) على إيجاد تعيين للمقيمين إلى التقديمات التي تعظم خبرة المقيمين مع مراعاة قيود عدم الاستراتيجية. تم تطوير عدة خوارزميات زمنية متعددة الحدود لتعيين غير استراتيجي مع ضمانات جودة التعيين وتم تجربتها بنجاح.

أنظمة تقييم الأقران

ينصح القراء المهتمون بهذا الموضوع (10 أوراق، ) أيضًا بالاطلاع على أوكامبو وباناديرو (2023)، الذين يراجعون عددًا كبيرًا من أنظمة تقييم الأقران بما في ذلك العديد من الأنظمة المعروفة. ومع ذلك، لم يكن لدى العديد من هذه الأنظمة مكونات ذكاء اصطناعي.
أبلغت ست أوراق عن أنظمة تحمل أسماء مختصرة جذابة. قدم وانغ وآخرون (2012) EduPCR، حيث قام الطلاب بمراجعة برامج كتبها طلاب آخرون. قام المعلمون بتقييم ومنح درجات للطلاب بناءً على أدائهم في الكتابة والمراجعة وتنقيح البرامج والتزامهم بعملية مراجعة الأقران. عند استخدامها في دورتين، كانت هناك تحسينات ملحوظة في التحصيل. كانت تصورات الطلاب أيضًا إيجابية. تم الإبلاغ عن استخدام أداة Peergrade من قبل شارما وبوتي (2018)، حيث كانت العملية الكاملة لتقديم الواجبات من قبل المتعلمين، وتقييم الأقران، والتعليقات للأقران، والمراجعات وتقارير التقييم للمعلم مؤتمتة بالكامل. أظهرت تصورات الطلاب أن من المتعلمين اتفقوا على أن التعليقات المقدمة من أقرانهم كانت مفيدة. تم تقديم أداة IPAC من قبل غارسيا-سوتو (2019)، والتي تضمنت: معايير تقييم قابلة للتخصيص، مجموعة من التعليقات للطلاب، وصول سهل من قبل الطلاب (التكامل مع مودل) والتعليقات كانت مجهولة. تم استخدام برنامج IPAC من قبل دورات مختلفة. اقترح هي وآخرون (2019) نموذج تشخيص معرفي جديد يسمى إطار تشخيص تقييم الأقران (PACDF) – نموذج رسومي احتمالي يميز ليس فقط العلاقات بين الدرجات الحقيقية والدرجات التي منحها تقييم الأقران، ولكن أيضًا العلاقة بين كفاءة مهارات الممتحنين وإتقان المشكلة. ثم تنبأ خوارزمية أخذ العينات بأداء الممتحنين. اعتمد المؤلفون خوارزمية أخذ عينات سلسلة ماركوف مونت كارلو لتقدير معلمات النموذج. تظهر النتائج التجريبية أن PACDF يمكن أن يفسر ويحلل كفاءات مهارات الممتحنين بشكل كمي. ناقش رافيكيران (2020) أيضًا أدوات التقييم التلقائي وتقييم الأقران (Peer Grader وPeer Studio) للتعامل مع المراجعات غير المنضبطة وتحسين مراجعة الأقران باستخدام معالجة اللغة الطبيعية. ومع ذلك، كانت التقييمات ضعيفة. تم تقديم G-PAT، أداة لدعم المشاريع الجماعية، من قبل تيي وآخرون (2021). تم استخدام نهج خدمات الويب بحيث يمكن للطلاب والمعلمين الوصول إلى الخدمة من أي مكان وفي أي وقت. كان بإمكان الطلاب تخصيص السؤال كما يحبون. كانت تصورات الطلاب إيجابية جدًا.
أبلغت الأوراق الأربعة المتبقية عن جوانب مختلفة. وبالتالي، أبلغ هسيا وآخرون (2016) عن تقييم الأقران في دروس الرقص. تم تطوير نظام تغذية راجعة عبر الإنترنت لمقارنة آثار أوضاع مختلفة من التغذية الراجعة عبر الإنترنت على مهارات الرقص لدى الطلاب
الأداء، الدافع للتعلم، الكفاءة الذاتية، جودة مراجعة الأقران، صحة تقييم الأقران وسلوكيات التعلم عبر الإنترنت. تم إجراء تجربة لمدة 12 أسبوعًا مقارنة بين مقاطع الفيديو مع تعليقات الأقران، ومقاطع الفيديو مع تقييمات الأقران ومقاطع الفيديو مع تقييمات الأقران بالإضافة إلى تعليقات الأقران. قدمت المجموعة الأخيرة تعليقات أفضل وكانت الأكثر توافقًا مع درجات المعلم. في النظام المقترح من قبل ثاميزكانال وكومار (2020)، تم إجراء المعالجة المسبقة وإزالة الضوضاء بمساعدة التصفية، والتطبيع والضغط. ثم تم نشر التقسيم الداخلي والخارجي. تم تحديد حرف في ورقة الإجابة بواسطة الشبكات العصبية التلافيفية. تم تقييم الإجابات بواسطة شبكة عصبية بسيطة. كانت تجربة مقارنة أنواع الاختبارات لصالح النظام الجديد.
طبق أهويا وآخرون (2020ب) خوارزميات تعلم الآلة المختلفة على بيانات من نظام CATME بشأن تفاعلات طلاب السنة الأولى في الكلية باستخدام منصة رسائل عند التعاون عبر الإنترنت في مشروع جماعي، سعيًا للتنبؤ بمقاييس أداء أعضاء الفريق. تم استخدام مجموعة واسعة من الخوارزميات. يمكن أن تميز الرسائل النصية لتبادلات أعضاء الفريق عبر الإنترنت بين الأعضاء ذوي الأداء العالي وغير ذوي الأداء العالي. يمكن أن تستفيد تحليل تفاعلات تقييم الأقران والظواهر من تحليل الشبكات الاجتماعية وفقًا لدجيل وآخرون (2021). طبقوا طريقة قائمة على الرسم البياني على مجموعة بيانات تم جمعها خلال الدورات الدراسية في الفصل الدراسي التي تدمج منصة تقييم الأقران. طور الطلاب ميلاً إيجابيًا نحو اعتماد عملية تقييم الأقران وشاركوا تدريجيًا بأدوار متوازنة جيدًا، على الرغم من أنهم اختاروا في البداية أن يتم تقييمهم بشكل أساسي من قبل المعلمين وأكثر احتمالًا من قبل الأقران الذين يعرفونهم.
الآن نقدم دراسة حالة تتماشى مع مجالات الإطار النظري ومع مجالات المراجعة الشاملة (على الرغم من أنها تتناول فقط خمسة من المجالات الستة).

دراسة حالة

هنا نقدم دراسة حالة باستخدام أداة تسمى RiPPLE (خسروي وآخرون، 2019) التي تحول تعلم الطلاب إلى رحلة نشطة وشخصية واجتماعية. في جوهرها، تمكّن RiPPLE المعلمين والطلاب من تنسيق ثروة من المواد التعليمية عالية الجودة بشكل تعاوني. ثم تخدم هذه الموارد لتخصيص توصيات المحتوى للطلاب، بما يتماشى مع مستويات إتقانهم الفردية. من خلال RiPPLE، لا يكون الطلاب مجرد متلقين سلبيين للمعلومات ولكنهم مبدعون نشطون، يصقلون المهارات الحيوية في إنشاء المحتوى، والتحليل النقدي، والتواصل الفعال ضمن مجتمع داعم. من ناحية أخرى، يجد المعلمون وسيلة قابلة للتوسع لإثراء دوراتهم بمواد ممارسة متنوعة، مما يقلل بشكل كبير من الوقت التقليدي المطلوب. أخيرًا، تستفيد الأقسام الأكاديمية من تقديم تجارب تعليمية مخصصة بتكاليف منخفضة. في صميم تحقيق هذه الأهداف الطموحة، كما هو موضح في الشكل 2، هي الأنشطة الديناميكية والمترابطة لإنشاء المحتوى، ومراجعة الأقران، وجلسات الممارسة الشخصية – كل منها منسق بعناية من قبل المعلمين ومعزز برؤى مدفوعة بالذكاء الاصطناعي وتعليقات في الوقت الحقيقي.
لتحقيق هذه الأهداف، كما هو موضح في الشكل 2، تشرك RIPPLE الطلاب في ثلاث أنشطة متداخلة من الإنشاء والمراجعة والممارسة الشخصية. يتم إجراء هذه الأنشطة تحت إشراف المعلمين، مكملة بتعليقات في الوقت الحقيقي مدفوعة بالذكاء الاصطناعي وتعليمات شخصية. يتم توضيح كل منها بالتفصيل أدناه.
الشكل 2 نظرة عامة على منصة RiPPLE

الإنشاء

تشارك RiPPLE بنشاط الطلاب في إنشاء موارد دراسية متنوعة ومبتكرة، وهي عملية تُعرف أيضًا باسم مصادر المتعلمين (خسروي وآخرون، 2023). تمكّن الطلاب من اتخاذ دور نشط في تعلمهم وتعزز فهمًا أعمق للموضوع حيث يساهمون في الموارد التعليمية المتاحة لأقرانهم. تدعم المنصة إنشاء مجموعة واسعة من أنواع الموارد مثل أسئلة الاختيار من متعدد، والأمثلة المحلولة، وبطاقات الذاكرة، والنقاط الساخنة، بالإضافة إلى أسئلة الإجابة القصيرة والطويلة. تسمح هذه التنوعات للطلاب بالتفاعل مع المحتوى بأشكال مختلفة، مما يعزز ثراء الموارد المتاحة على المنصة ويساعد في تلبية تفضيلات التعلم المختلفة.
تمت دراسة مفهوم مصادر المتعلمين بشكل جيد في الأدبيات كنهج يمكّن الطلاب من إنتاج مواد تعليمية عالية الجودة. أظهرت الدراسات السابقة، بما في ذلك تلك التي أجراها عبدي وآخرون (2021)، أنه عندما يُطلب من الطلاب إنشاء موارد تعليمية، فإنهم غالبًا ما ينتجون محتوى يلبي معايير صارمة من الحكم والإحصاء، مما يبرز قدرة الطلاب على المساهمة بشكل ذي مغزى في بيئة تعلمهم وإنتاج موارد ليست فقط مفيدة لأقرانهم ولكن أيضًا تتماشى مع المعايير الأكاديمية. علاوة على ذلك، تم ربط إنشاء موارد دراسية بتحسين الفهم والاحتفاظ بالمحتوى. عندما يشارك الطلاب في عملية إنشاء موارد دراسية، يجب عليهم الانخراط بعمق مع المادة، مما يؤدي إلى تحسين الاستيعاب والفهم. تشجع هذه العملية التعليمية النشطة على التفكير النقدي، وتسمح للطلاب باستكشاف المحتوى من زوايا مختلفة لتعزيز فهمهم للموضوع.

المراجعة

تعد عملية تقييم الأقران جزءًا لا يتجزأ من التحقق من صحة وتعزيز الموارد التعليمية التي أنشأها الطلاب ضمن منصة RiPPLE. عند الإنشاء
من خلال الموارد التي يقدمها الطلاب، تخضع هذه المواد لآلية مراجعة من قبل الأقران حيث يقوم الأقران بتقييم جودة المحتوى وملاءمته. تعزز عملية تقييم الأقران بيئة تعليمية تعاونية، حيث يتعلم الطلاب تطبيق المعايير الأكاديمية في سياق عملي، مما يعزز تعلمهم لمحتوى الدورة.
بمجرد الانتهاء من تقييم الأقران، يتم الموافقة على الموارد التي تعتبر تلبي أو تتجاوز المعايير المحددة ودمجها في مستودع مركزي. يعمل هذا المستودع كمجموعة مختارة من مواد الدراسة المتاحة لجميع الطلاب، مما يثري تجربة التعلم العامة. وعلى العكس، يتم إرجاع الموارد التي تم تحديدها على أنها تفتقر إلى الفعالية إلى مؤلفيها الأصليين، مصحوبة بتعليقات بناءة. تعتبر هذه التعليقات ضرورية في توجيه المؤلفين خلال عملية مراجعة وتحسين أعمالهم، وبعد ذلك يتم تشجيعهم على إعادة تقديم مواردهم المحسنة لجولة أخرى من التقييم. من خلال إشراك الطلاب في كل من إنشاء وتقييم مواد التعلم، يصبحون مشاركين نشطين في نظام تعليمي ديناميكي يركز على التعاون بين الأقران، والتعليقات المستمرة، والتنقيح المتكرر للمعرفة.

ممارسة مخصصة

بينما يشارك الطلاب بنشاط مع موارد التعلم المعتمدة، يقوم خوارزمية الذكاء الاصطناعي في RiPPLE بتقييم إتقانهم عبر مواضيع الدورة المختلفة بشكل مستمر. تعتبر هذه العملية مكونًا حاسمًا في محرك التعلم التكيفي للمنصة، الذي يستفيد من البيانات المجمعة لحساب مستوى معرفة كل طالب في كل موضوع دورة ليتمكن من تخصيص التجربة التعليمية لكل طالب وتوصية موارد التعلم المستهدفة التي تتماشى بشكل خاص مع احتياجاتهم التعليمية الفردية وفهمهم الحالي. لا تساعد هذه الطريقة فقط في تعزيز المعرفة الأساسية ولكنها تسهل أيضًا التعلم الأكثر فعالية من خلال توجيه الطلاب عبر المحتوى الأكثر صلة بتطورهم الأكاديمي في أي وقت معين (عبدي وآخرون، 2020).

مراقبة المعلم

لتحسين موثوقية ودقة عملية مراجعة الأقران، تتضمن RiPPLE خوارزمية فحص عشوائي بالذكاء الاصطناعي. تلعب هذه الطريقة دورًا حاسمًا في ضمان أن تكون تقييمات الأقران متسقة وأن تظل جودة الموارد التي أنشأها الطلاب عالية. على وجه التحديد، تم تصميم خوارزمية الذكاء الاصطناعي لتحديد الموارد التي تم الإشارة إليها على أنها غير مناسبة أو التي تظهر درجة عالية من التباين في تقييمات الأقران. هذه هي الموارد الأكثر احتمالاً للاستفادة من مزيد من التدقيق والحكم الخبير. تتيح هذه العملية للمعلمين التركيز بشكل مثالي على مراجعة الموارد التي تحتاج إلى اهتمامهم، بدلاً من قضاء الوقت على المواد التي تم تقييمها بالفعل بشكل متسق على أنها عالية الجودة من قبل الأقران (دارفيشي وآخرون، 2022أ). يمثل هذا الجمع بين الإشراف المدفوع بالذكاء الاصطناعي والتدخل الخبير مكونًا حاسمًا في استراتيجية RiPPLE لتحقيق التوازن بين قابلية توسيع تقييم الأقران مع الحفاظ على نزاهة مواد التعلم داخل المنصة، مما يضمن أن يكون لدى الطلاب وصول إلى موارد موثوقة وعالية الجودة. علاوة على ذلك، يعزز القيمة التعليمية لعملية مراجعة الأقران. يدرك الطلاب أن أعمالهم قد تخضع لمزيد من التدقيق من قبل كل من الذكاء الاصطناعي ومعلميهم، مما يمكن أن يحفزهم على الانخراط بشكل أعمق مع المادة وإنتاج موارد عالية الجودة.

ملخص

المساعدة أثناء مرحلة الإنشاء، يتم دمج الذكاء الاصطناعي التوليدي بسلاسة في المنصة لتقديم تعليقات فورية على الموارد المقدمة من الطلاب. تتضمن آلية التعليقات المدفوعة بالذكاء الاصطناعي ملخصًا شاملاً يفسر الهدف الرئيسي من المورد، مما يضمن توافق المحتوى مع النتائج التعليمية المقصودة. بالإضافة إلى ذلك، تسلط التعليقات الضوء على نقاط القوة في المورد، معترفًا بالعناصر المنفذة بشكل جيد التي تساهم في التعلم الفعال بالإضافة إلى اقتراحات لمجالات محددة للتحسين، مقدمة توصيات قابلة للتنفيذ يمكن أن تعزز فعالية المحتوى ووضوحه بشكل عام. في مرحلة المراجعة، يتم استخدام الذكاء الاصطناعي التوليدي مرة أخرى لتقديم تعليقات بناءة في الوقت الحقيقي، مصممة لتحديد المجالات المحتملة التي يمكن تعزيز المراجعة فيها، مثل تقديم تحليل أكثر تفصيلًا، أو تقديم تبريرات أوضح، أو اقتراح وجهات نظر بديلة. بالنسبة للممارسة المخصصة، تقوم خوارزميات الذكاء الاصطناعي في RiPPLE بتقييم قدرات الطلاب في كل موضوع دورة، موصية بالموارد الأكثر ملاءمة لمستوى معرفتهم الحالي.

تم اعتماد RiPPLE في أكثر من 250 عرضًا دراسيًا عبر مجموعة من التخصصات بما في ذلك الطب، والصيدلة، وعلم النفس، والتعليم، والأعمال، وتكنولوجيا المعلومات، والعلوم الحيوية. أنشأ أكثر من 50,000 طالب أكثر من 175,000 مورد تعليمي وأكثر من 680,000 تقييم من الأقران لتقييم جودة هذه الموارد. تم استخدام محرك RiPPLE التكيفي لتوصية بأكثر من ثلاثة ملايين مورد مخصص للطلاب. في الأقسام أدناه، نناقش كيف تستفيد RiPPLE من خمسة من المجالات الستة الموضحة في إطار العمل المقترح لدينا (حيث إنها نفسها نظام تقييم الأقران).

تعيين مقيمي الأقران

في RiPPLE، تم تصميم عملية تقييم الأقران بعناية لضمان العدالة والجودة في تقييم الموارد التي أنشأها الطلاب. يعمل النظام بموجب بروتوكول مزدوج التعمية، مما يعني أن كل من منشئي الموارد ومقيميها يظلون مجهولين لبعضهم البعض. يعتمد ترتيب الموارد للتقييم على وقت تقديمها، حيث تتلقى التقديمات السابقة الأولوية في قائمة المراجعة. عدد المقيمين المعينين لكل مورد مرن ويحدده معلم الدورة. يقومون بتحديد نطاق يحدد الحد الأدنى والحد الأقصى لعدد المقيمين المطلوبين. عندما يتفق المقيمون على جودة مورد ما، يتم اتخاذ القرار بعد الوصول إلى الحد الأدنى من التقييمات. ومع ذلك، في حالات الاختلاف بين المقيمين، قد يمدد النظام العملية حتى الحد الأقصى من المراجعات المحددة من قبل المعلم قبل الوصول إلى قرار.
مكون رئيسي في هذه العملية هو استخدام خوارزميات التعلم الآلي المتقدمة مثل نهج انتشار الثقة القائم على الرسم البياني (دارفيشي وآخرون، 2021) لقياس موثوقية تقييمات كل مقيم. يهدف النظام إلى تضمين مقيم واحد على الأقل يعتبر موثوقًا في المزيج لتقييم كل مورد. يعزز هذا مصداقية ودقة عملية مراجعة الأقران، مما يضمن تقييم كل مورد بتوازن بين وجهات نظر متنوعة وحكم خبير. من خلال هذه الآليات، لا تحافظ RiPPLE فقط على نزاهة عملية تقييم الأقران ولكنها أيضًا تشرك الطلاب بنشاط في التقييم النقدي، مما يعزز التفاعل والفهم الأعمق.

مراجعات فردية

تُبنى المراجعات الفردية ضمن RiPPLE على أساس معيار شامل (انظر الشكل 3)، مصمم لتقييم أبعاد مختلفة من جودة الموارد. يتضمن المعيار معايير متعددة، كل منها مرتبط بشكل خاص بطبيعة المورد الذي يتم مراجعته. على سبيل المثال، في حالة الأسئلة متعددة الخيارات، يقيم أحد المعايير جودة وملاءمة الخيارات المقدمة، بينما في الأمثلة المحلولة، يفحص المعيار وضوح وشمولية الخطوات الوسيطة. تم تصميم هذه المعايير بعناية لضمان تقييم شامل لكل نوع من الموارد، مع معالجة الجوانب الفريدة لشكلها وغرضها. بعد تطبيق المعايير، يشارك الطلاب في عملية تغذية راجعة من الأقران، والتي تتضمن تحديد وتوضيح الجوانب الإيجابية للمورد، واقتراح مجالات للتحسين وتقديم أي تعليقات إضافية قد تعزز من قيمة المورد. عند الانتهاء من التغذية الراجعة، يقوم الطلاب بإصدار حكم على الجودة العامة للمورد. هذا التقييم حاسم في تحديد ما إذا كان يجب الموافقة على استخدام المورد أو رفضه. بالإضافة إلى ذلك، يُطلب من الطلاب تقييم ثقتهم في تقييمهم، مما يوفر نظرة ثاقبة على مهاراتهم في التقييم الذاتي وفهمهم لمعايير المراجعة.
دمج الذكاء الاصطناعي التوليدي في نظام Feedback RiPPLE قد عزز من عملية المراجعة من خلال دمج تقنية الذكاء الاصطناعي التوليدي. يساعد هذا الطلاب في صياغة تعليقاتهم على أقرانهم. ويقدم ردود فعل فورية وبناءة على المراجعات المقدمة، ورؤى حول المجالات التي تحتاج إلى تحسين واستراتيجيات لتعزيز جودة تقييمات الأقران. يهدف هذا التعليق إلى إثراء تجربة التعلم وضمان
الشكل 3: نموذج التقييم والتعليقات المستخدم لتقييم الأقران في RiPPLE
معيار أعلى لمراجعة الأقران من خلال تقديم رؤى موضوعية إضافية. يوضح الشكل 4 مثالاً على نوع التعليقات المقدمة من الذكاء الاصطناعي التوليدي. يبرز القسم العلوي من مكون تعليقات الذكاء الاصطناعي أن “التعليقات المقدمة أدناه هي مجرد دليل وقد تكون غير دقيقة. يرجى استخدام معرفتك في المجال لتقييم ما إذا كانت التعليقات صحيحة.” تعمل هذه العبارة كتذكير للطلاب حول إمكانية وجود أخطاء، وغالبًا ما يُشار إليها باسم ‘الهلاوس’، في ردود النماذج الكبيرة. إنها تؤكد على ضرورة أن يطبق الطلاب حكمهم التقييمي الخاص بالتزامن مع تعليقات الذكاء الاصطناعي. يتبع هذا القسم تقديم الذكاء الاصطناعي لنفسه، مع تقديم اقتراحات للتحسين. بالإضافة إلى ذلك، يوفر مساحة للطلاب لتقييم التعليقات بشكل كمي ونوعي.
لقد تم استخدام ميزة التعليقات المدعومة بالذكاء الاصطناعي على تعليقات الأقران لمدة فصل دراسي واحد وقد جمعت 4,553 تقييمًا. وقد حققت متوسط تقييم مشرف يبلغ 4.4 من 5، مع وجود من الطلاب الذين منحوا تصنيفًا من 4 أو 5 نجوم، مما يكشف عن فائدته الكبيرة بين الغالبية. ومع ذلك، من المستخدمين أعربوا عن حيادهم بتقييم 3 نجوم، بينما وجدوه أقل فائدة، حيث منحوا تقييمًا من نجمة أو نجمتين. التعليقات الإيجابية، مثل ملاحظة أحد الطلاب: “كانت هذه الملاحظات مفيدة جدًا لأنها أعطتني الإجابة التي كنت أبحث عنها ولكن لم أعرف كيف أعبر عنها بالكلمات”، تبرز قدرة الذكاء الاصطناعي في مساعدة الطلاب على التعبير عن أفكارهم بشكل أكثر فعالية. كان أحد التعليقات المحايدة التي حصلت على 3 نجوم: “النقطة الثانية ستكون جيدة لتحسين ملاحظتي وجعلها أكثر تحديدًا. أعتقد أن الذكاء الاصطناعي لم يفهم تمامًا النقاط 1 و 3، حيث
الشكل 4 واجهة تغذية راجعة الذكاء الاصطناعي على تغذية راجعة الأقران في RiPPLE
“أشعر أنني أوضحت هذه النقاط في ملاحظتي.” هذا يعكس وجهة نظر متوازنة حيث يتمكن الطلاب من تمييز فائدة بعض جوانب الملاحظات بينما يقومون بتقييم جوانب أخرى بشكل نقدي. عينة من الملاحظات السلبية: “كانت الاقتراحات للتحسين بنفس صياغة ردي دون أي تفسير لسبب الحاجة إلى هذا التحسين” تبرز الحالات التي تم فيها اعتبار الملاحظات مكررة أو غير مفيدة. هذه المنظورات المتنوعة تسلط الضوء على كل من نقاط القوة ومجالات التحسين المحتملة لهذه الميزة.

اشتقاق درجات/تعليقات الأقران

تقوم RiPPLE بتعيين كل مورد للتقييم إلى عدة مراجعين (مشرفين)، مما يتطلب نهج توافق من خلال دمج القرارات التي اتخذها عدة أشخاص نحو قرار نهائي دقيق. في تقييم جودة تقديمات الطلاب بناءً على الدرجات من عدة مقيمين، قمنا بتحليل 18 نموذج استدلال عبر خمس فئات معروفة من نهج التوافق على البيانات التي تم جمعها عبر RiPPLE (دارفيشي وآخرون، 2022أ). استخدم الأول إحصائيات ملخصة مثل المتوسط أو الوسيط (على سبيل المثال، بورش وهامر، 2018). استند الثاني إلى الأداء التاريخي أو بيانات التقييم الذاتي لتقدير كفاءة الطلاب، وهي طريقة توجد غالبًا في الأنظمة التعليمية التكيفية. طبق الثالث تقنيات توافق احتمالية، حيث تم تقييم موثوقية الطلاب بناءً على مراجعاتهم السابقة، وهي استراتيجية فعالة في أنظمة جمع المعلومات من الحشود (على سبيل المثال، رايكر وآخرون، 2010). استخدم الرابع تحليل النص لتحديد موثوقية المراجعة بناءً على التعليقات المقدمة، وهي تقنية استخدمت بنجاح في تحديد المراجعات الموثوقة (على سبيل المثال، كيم وآخرون، 2006). دمج الخامس طرقًا من الأربعة السابقة، تم اختيارها لفعاليتها المثبتة في نهج التوافق الجماعي. كشفت نتائجنا المستندة إلى بيانات تم جمعها من 2,141 طالبًا جامعيًا عبر خمس دورات في إنشاء 12,803 مورد و77,297 مراجعة زميلة أن جودة المراجعة كانت متغيرة بشكل كبير، مع ميل الطلاب لتقييم التقديمات بشكل مبالغ فيه. وبالتالي، فإن المقاييس الإحصائية البسيطة مثل المتوسط والوسيط غير كافية لتحديد الموارد ذات الجودة المنخفضة. أشارت النتائج إلى أن دمج طرق تحليل احتمالية متقدمة وتحليل النص لتقييم موثوقية المراجعين وجودة المراجعة قد عزز الأداء. ومع ذلك، كان هناك حاجة واضحة لاستمرار إشراف المعلمين والتدريب لمساعدة الطلاب في صياغة مراجعات فعالة وموثوقة (دارفيشي وآخرون، 2022أ).
تستخدم RiPPLE نهج انتشار الثقة القائم على الرسوم البيانية (دارفيشي وآخرون، 2021) لاستنتاج موثوقية تقييم كل مشرف. يتم تحديد القرار النهائي بشأن المورد من خلال حساب متوسط مرجح للتقييمات المقدمة من المقيمين الأقران. توضح الشكل 5 كيف يتم التواصل بشأن التقييمات والنتائج المستنتجة لكل من المؤلفين والمشرفين. تبدأ العملية بدعوة المؤلفين والمشرفين لتقييم فائدة التعليقات التي تم تلقيها من كل مراجعة. ثم يُطلب منهم الإشارة إلى ما إذا كانوا يتفقون أو يختلفون مع النتيجة المستنتجة وتقديم أي تعليقات إضافية. وفقًا لبيانات المنصة، فقط من الردود المقدمة من المستخدمين التي تم الطعن فيها في النتيجة المستنتجة (دارفيشي وآخرون، 2022ب)، مما يشير إلى مستوى عالٍ من الثقة والدقة في عملية اتخاذ القرار في النظام.

إشراف المدرب

تم تصميم RiPPLE مع مبدأ رئيسي في الاعتبار، وهو تمكين المعلمين من التحليلات والرؤى القابلة للتنفيذ ومساعدتهم على تحقيق أقصى استفادة من استخدامهم الفعال لـ
  1. يرجى التصويت على فائدة كل تعديل
الشكل 5 واجهة RiPPLE تعرض المراجعات والنتائج وطلب التعليقات
وقت محدود. يتجلى ذلك في صفحة هبوط المعلم (الشكل 6). يعرض القسم العلوي من هذه الصفحة مجموعة من الإحصائيات، مما يوفر رؤى حول الأنشطة العامة وأنشطة الأسبوع السابق. يتضمن ذلك بيانات عن جلسات الدراسة، وعدد الموارد التي تم إنشاؤها، وتقييمها، والرد عليها. ثم تسلط الصفحة الضوء على حالة إكمال أحدث جولة تقييم، جنبًا إلى جنب مع التحديثات الأسبوعية حول إنجازات الطلاب وأكثر الموارد شعبية. لتحسين وقت المعلم، يوجد قسم في RiPPLE يسمى ‘الإجراءات المقترحة.’ يقدم هذا القسم أربعة أنواع رئيسية من التوصيات التي تنبه المعلمين إلى (1) فحص الموارد المميزة التي تكون مفيدة للغاية، (2) مراجعة التقييمات المميزة على أنها غير فعالة، (3) مراجعة الطلاب الذين يعانون من أداء ضعيف بشكل كبير، و(4) تذكير الطلاب الذين لم يكملوا المهام للقيام بذلك. يتضمن أسفل الصفحة صندوق أدوات تحليلي يوفر إجابات على قائمة من الأسئلة المتعلقة بأداء الطلاب ومشاركتهم. بالنسبة لكل من الأسئلة، يمكن للمعلمين تحديد تاريخ البدء والانتهاء للبيانات المبلغ عنها لرؤية الاتجاهات على مستوى الصف أو على مستوى الفرد باستخدام أنواع مختلفة من التصوير (مثل، الرسوم البيانية العمودية، ومخططات الصندوق).
تظهر الشكل 7 الواجهة المستخدمة لفحص الموارد التي قد تكون غير صحيحة أو غير فعالة. بشكل عام، تستخدم مزيجًا من المقاييس التي تركز على الإنسان (مثل الفجوات الكبيرة في المراجعات أو نسبة عالية من التصويتات السلبية مقارنة بالتصويتات الإيجابية) والمقاييس التي تركز على البيانات (مثل عناصر التقييم ذات مؤشر تمييز منخفض أو خيارات خاطئة حيث يختلف الجواب الأكثر اختيارًا عن الجواب المقصود من المؤلف). تصنف هذه المقاييس الموارد إلى أولوية مراجعة عالية أو متوسطة أو منخفضة أو بدون أولوية مراجعة. لمساعدة المعلمين في فهم سبب وضع علامة على مورد ما
الشكل 6 صفحة الهبوط للمدرب في RiPPLE
الشكل 7 واجهة تعرض الموارد ذات الأولوية العالية للمراجعة في RiPPLE
تقدم RiPPLE مقارنات سواء من حيث القيم المطلقة أو النسبية، كما يتضح من عبارات مثل: “مستوى الاختلاف في تقييمات الطلاب لبعضهم البعض لهذا المورد هو 2.8 مرة من متوسط الدورة”. حتى الآن، قام المعلمون بالتصرف بناءً على 11,681 موردًا تم الإشارة إليه للتفتيش. من بين هذه الموارد، كان لدى 10,463 موردًا نتائجهم.
تمت مراجعتها، مما يظهر خوارزمية التحقق العشوائي الفعالية في تحديد الموارد التي تتطلب إشراف المعلم.
تُظهر الشكل 8 واجهة RiPPLE لاستكشاف تعليقات الأقران، مما يوفر للمدرسين أداة قوية لإدارة وتقييم مراجعات الأقران. تتيح هذه الواجهة للمدرسين تحديد نطاق زمني والبحث عن التعليقات بناءً على عدد الكلمات ومواضيع محددة. علاوة على ذلك، من خلال الاستفادة من التقنيات الموضحة من قبل دارفيشي وآخرين (2022ب)، يمكن للمدرسين تطبيق خوارزميات التعلم الآلي لتحديد المراجعات التي تفتقر إلى الاقتراحات البناءة، مما قد يؤدي إلى تصنيفها على أنها غير فعالة. بمجرد اختيار مجموعة من المراجعات، يكون لدى المدرسين عدة خيارات قابلة للتنفيذ: يمكنهم التصويت لصالح مراجعة للاعتراف بجودتها، أو التصويت ضدها مع تقديم ملاحظات حول نقاط ضعفها، أو إزالة المراجعة تمامًا – مما يضمن عدم تأثيرها على القرار النهائي وعدم احتسابها ضمن متطلبات تقييم المراجع – أو ببساطة تجاهلها، وبالتالي استبعادها من عمليات البحث المستقبلية. حتى الآن، اتخذ المدرسون إجراءات بشأن 19,301 حالة من تعليقات الأقران، مع حدوث الإجراء الأكثر تكرارًا في من الحالات، يتمثل في إزالة التعليقات غير الفعالة.

ملخص دراسة الحالة

توضح دراسة حالة RiPPLE الاستخدام الفعال للتعلم الآلي المتقدم والذكاء الاصطناعي لتحسين عملية التقييم من قبل الأقران ضمن الأطر التعليمية. تلخص الجدول 1 الأساليب المختلفة التي تم مناقشتها في دراسة الحالة، مقسمة حسب مجالات الإطار المختلفة.
من خلال استخدام نشر الثقة القائم على الرسوم البيانية، يضمن RiPPLE موثوقية المقيمين، مما يعزز مصداقية ودقة المراجعات من الأقران مع رؤى متنوعة وخبيرة. تعمل المنصة على تحسين عمليات المراجعة الفردية من خلال دمج الذكاء الاصطناعي التوليدي للحصول على تعليقات فورية وبناءة، مع السماح أيضًا بتقييم نقدي لهذه التعليقات. لتعيين الدرجات والتعليقات، يعتمد RiPPLE نهج الإجماع بين المشرفين، مستندًا إلى نموذج ثقة متطور لاستنتاج الموثوقية واتخاذ قرارات متوازنة. يتم تسهيل إشراف المعلمين من خلال توصيات مستهدفة في قسم “الإجراءات المقترحة” وواجهة استكشاف شاملة لتعليقات الأقران، مما يمكّن المعلمين من إدارة جودة المراجعة ومشاركة الطلاب بشكل فعال.
الشكل 8 واجهة لفحص وتعديل تعليقات الأقران في RiPPLE
الجدول 1 ملخص الأمثلة من Ripple في مجالات الإطار
منطقة الإطار أمثلة من RiPPLE
تعيين المقيمين الأقران تقييم موثوقية المقيمين باستخدام التعلم الآلي المتقدم، بما في ذلك انتشار الثقة القائم على الرسوم البيانية، يعزز مصداقية ودقة عملية المراجعة من قبل الأقران.
تعزيز المراجعات الفردية تدمج RiPPLE الذكاء الاصطناعي التوليدي لتعزيز التغذية الراجعة من الأقران، حيث تقدم اقتراحات فورية وبناءة للتحسين. يقدم وكيل التغذية الراجعة بالذكاء الاصطناعي نفسه، ويقترح تحسينات، وينبه الطلاب بشأن الأخطاء المحتملة، ويمنح الطلاب القدرة على تقديم ملاحظات حول مدى فائدة ذلك.
اشتقاق درجات/تعليقات الأقران يتطلب RiPPLE توافقًا بين عدة مشرفين لإنهاء تقييمات الموارد. حاليًا، يستخدم RiPPLE نهج انتشار الثقة القائم على الرسوم البيانية (Darvishi et al.، 2021) الذي يستنتج موثوقية كل مشرف. يتم اشتقاق القرار النهائي من متوسط مرجح للتقييمات المقدمة من المقيمين الأقران.
تسهيل إشراف المدربين قسم “الإجراءات المقترحة” يقدم توصيات للمدرسين لفحص الموارد المميزة، ومراجعة التقييمات غير الفعالة، وتحديد الطلاب ذوي الأداء الضعيف، وتذكير الطلاب بالمهام غير المكتملة. واجهة استكشاف تعليقات الأقران تتيح تحليلًا مفصلًا للتعليقات، وتقدم أدوات للتصويت على التقييمات الجيدة، والتصويت ضد أو إزالة التعليقات غير الفعالة، وتصنيف التقييمات من أجل الكفاءة، مع مشاركة كبيرة من المدرسين في إدارة جودة تعليقات الأقران.
الجدول 2 عدد الأوراق في المجالات والفئات الفرعية
منطقة عدد الأوراق فئة فرعية عدد أوراق الفئة الفرعية
تعيين المقيمين الأقران ٤
تعزيز المراجعات الفردية ٧
اشتقاق درجات/تعليقات الأقران ٣٥ التقييم الآلي ٤
تنوع الدرجات والتعليقات ٧
معايرة ٥
المنطق الضبابي واتخاذ القرار ٨
فعالية العمل الجماعي ٤
الدورات التعليمية المفتوحة عبر الإنترنت ٤
التقارير الاستراتيجية والخارجة عن السيطرة ٣
تحليل ملاحظات الطلاب 19 تحليل التعليقات 14
التعليقات الآلية ٣
الحكم المقارن التكيفي 2
تسهيل إشراف المدربين ٤
أنظمة تقييم الأقران 10
إجمالي 79

مناقشة وتفسير ملخص الورقة بالكامل

تقترح هذه الورقة إطارًا نظريًا للذكاء الاصطناعي في التقييم من قبل الأقران مع ستة مجالات: تعيين المقيمين من الأقران، تعزيز المراجعات الفردية، اشتقاق درجات/تعليقات الأقران، تحليل تعليقات الطلاب، تسهيل إشراف المعلم، وأنظمة التقييم من قبل الأقران. ثم خدمت هذه المجالات الستة كهيكل تنظيمي للمراجعة السريعة التالية، التي تم تقسيم بعض مجالاتها إلى فئات فرعية (الجدول 2 أدناه يلخص ذلك). تلتها دراسة حالة أضاءت خمسة من المجالات الستة بشكل أكبر. وجدت الغالبية العظمى من الأوراق الـ 79 في المراجعة أن الذكاء الاصطناعي قد حسن التقييم من قبل الأقران. فقط ورقتان
وجدت نتائج الذكاء الاصطناعي إما جيدة مثل أو أسوأ من نتائج غير الذكاء الاصطناعي. بالطبع، قد يكون هذا متوقعًا نظرًا لتحيز النشر ولا يعكس بالضرورة ما سيختبره الممارسون عند التنفيذ في فصولهم الدراسية.
في المجالات، كانت عملية اشتقاق درجات/تعليقات الأقران هي الأكثر ازدحامًا. ومع ذلك، ركزت معظم الأوراق على التعامل مع التنوع في الدرجات والتعليقات أو مع تطبيقات المنطق الضبابي. داخل كل مجال، يمكن استخلاص النقاط الرئيسية من النص. في تنوع الدرجات والتعليقات، على سبيل المثال، نجد أن الذكاء الاصطناعي يمكنه تحديد نقاط الضعف في المراجعة والمراجع، وتحديد بيانات المشكلة في التقييمات من الأقران وتحليل طبيعة مساعدة الأقران. يمكنه أيضًا التعامل مع التقارير الاستراتيجية من خلال مقارنة تقييمات الأقران من أكثر من مراجع واحد لتحديد ما إذا كان أي تقييم هو نقطة شاذة. يمكن للذكاء الاصطناعي أن يزن تأثير عدد المقيمين من الأقران، حيث أن العدد الأكبر يقلل من الموثوقية ولكنه يزيد من الصلاحية، بغض النظر عن عبء الجهد على الطلاب. يمكن للذكاء الاصطناعي أيضًا استكشاف تقييم العناصر المفتوحة للحصول على موثوقية أعلى.
يبدو أن التقييم الآلي، والمعايرة، وفعالية الفريق كانت مجالات غير مدروسة بشكل كافٍ. وبالمثل، في ثاني أكبر مجال وهو تحليل ملاحظات الطلاب، كان التركيز بشكل كبير على تحليل الملاحظات بهدف تحقيق توازن في جودتها، بينما كانت هناك عدد قليل جداً من الأوراق البحثية حول الملاحظات الآلية الحقيقية. تحسين عملية التقييم وتعزيز المراجعات الفردية كانا في المرتبة التالية. كانت فئة تعيين المقيمين الأقران وتسهيل إشراف المعلمين متساوية في كونها الأقل كثافة. تشير هذه الصورة إلى أن الذكاء الاصطناعي يحقق تقدمًا في تقييم الأقران، ولكن لا يزال هناك طريق طويل لنقطعه، خاصة فيما يتعلق بالتعيين الآلي والتقييم الآلي. كما أن المعايرة وفعالية العمل الجماعي تستحقان مزيدًا من البحث.
بالإشارة إلى دراسة الحالة باستخدام أداة RIPPLE، فإن ذلك يمكّن المعلمين من التعاون مع طلابهم لإنشاء مجموعات من موارد التعلم عالية الجودة، حيث يتم تقييم كل منها من قبل الأقران وتستخدم لتوصية محتوى مخصص للطلاب بناءً على مستوى إتقانهم. تشرك RIPPLE الطلاب في ثلاثة أنشطة متداخلة: الإنشاء، المراجعة والممارسة المخصصة. تنتج مجموعة متنوعة من أنواع الموارد، بما في ذلك أسئلة الاختيار من متعدد، أمثلة محلولة، بطاقات تعليمية، نقاط ساخنة، وأسئلة قصيرة وطويلة. يتم هيكلة تقييمات الأقران حول مقياس شامل. تُجرى جميع الأنشطة تحت إشراف المعلمين، مدعومة بتعليقات فورية مدفوعة بالذكاء الاصطناعي وتعليمات مخصصة. يركز مكون تعليقات الذكاء الاصطناعي على أن التعليقات المقدمة هي مجرد دليل وقد تكون غير دقيقة، ويطلب من الطلاب تقييم ما إذا كانت التعليقات صحيحة.

نقاط القوة والقيود

إطارنا النظري المكون من ستة مجالات ليس بالطبع الإطار الوحيد الممكن. علاوة على ذلك، على الرغم من محاولاتنا لاستبعاد الأوراق التي تقتصر على الإبلاغ عن التكنولوجيا الرقمية البسيطة لصالح تلك التي تتناول الذكاء الاصطناعي، لم يكن الحد الفاصل دائمًا واضحًا وقد يكون التفسير الذاتي قد لعب دورًا. لقد بحثنا فقط في قاعدة بيانات واحدة (على الرغم من أننا اعتبرنا ذلك كافيًا لمراجعة نطاقية) واستخدمنا فقط مُشَفِّرًا واحدًا (على الرغم من أن لديه خبرة واسعة في هذا المجال). كان حجم العينة بالمعنى التقليدي متنوعًا بشكل كبير، من 55 إلى أكثر من 1,000. ومع ذلك، أبلغت بعض الدراسات عن عدد تعليقات التغذية الراجعة (حتى 408,000) أو درجات الأقران (حتى 63,200) التي تم تحليلها أو عدد الطلاب المشاركين على مدى عدة سنوات من التنفيذ (حتى 12,000). قد يكون عدد الطلاب في الدورات الدراسية المفتوحة عبر الإنترنت كبيرًا جدًا. كانت دراسات الحالة أيضًا شائعة، وعلى الرغم من أنها قد تكون
تحتاج الدراسات الأكبر شبه التجريبية إلى أن تكون أكثر توضيحًا. كانت العينات في الغالب من قبيل التيسير.
بعض الأوراق أبلغت فقط عن تصورات الطلاب، لكن معظمها كان لديها بيانات أكثر موضوعية وبعضها كان يحتوي على كليهما. ومع ذلك، فإن العديد من الدراسات أبلغت فقط عن تطبيق الذكاء الاصطناعي على موضوع أو دورة واحدة، وكانت فائدته في مواضيع أو دورات أخرى غير معروفة (على الرغم من أن بعض الدراسات استكشفت الانتقال إلى مواضيع أخرى). جاءت الغالبية العظمى من الدراسات من دول غربية ناطقة باللغة الإنجليزية (نتيجة لتقييد الاستطلاع بالأوراق المكتوبة باللغة الإنجليزية)، مع تمثيل جيد للصين وتايوان، ولكن عدد قليل نسبيًا من دول أو ثقافات أخرى، لذا فإن قابلية التطبيق الأوسع في دول أخرى غير مؤكدة. قد تؤثر الاختلافات الثقافية على قابلية تطبيق الذكاء الاصطناعي في مناطق أخرى. على سبيل المثال، قد يتم استقبال الذكاء الاصطناعي بشكل أفضل في الصين، حيث كان هناك تقليديًا تركيز أقل على الطلاب في استجواب المعلم.
العديد من هذه الدراسات قارنت فترات التدخل بفترات الأساس لنفس المجموعة، وكانت مجموعات التحكم موجودة في بعض الحالات ولكنها كانت نادرة نسبيًا. تقريبًا لا توجد دراسات تناولت مسألة المتابعة على المدى الطويل – هل استمرت أي مكاسب معرفية أو تحصيلية، خاصة عندما لم يعد تقييم الأقران المدعوم بالذكاء الاصطناعي قيد التشغيل؟ أم كان هناك تأثير إيجابي عام من التعرض الأول للذكاء الاصطناعي، حيث قد يبدأ الطلاب في تجربته بنجاح من تلقاء أنفسهم؟ بالطبع كان بإمكاننا أن نضع معايير إدراج أكثر صرامة، ونقدم مراجعة لعدد صغير من الأوراق، لكننا شعرنا أن ذلك لن يفي حق المجال. مسألة التحيز المحتمل في النشر مهمة أيضًا، حيث أنه بغض النظر عن جودة التنفيذ، قد لا يجد الممارسون نتائج الأبحاث المنشورة تعكس الواقع.

الفرص والتحديات للباحثين والممارسين للباحثين

لقد أشرنا أعلاه إلى أن التعيين الآلي، والتقييم الآلي، والمعايرة، وفعالية العمل الجماعي تستحق مزيدًا من البحث. على سبيل المثال، فيما يتعلق بالتقييم الآلي، بالإضافة إلى الدرجات و/أو تقديم الملاحظات حول جودة ملاحظات كل مقيم في بيئة جماعية من أجل وزن التقييمات اللاحقة (مثل، كاليللا، 2009؛ هوانغ وآخرون، 2022)، هل يمكن أن يتم إرجاع هذه الدرجات/الملاحظات إلى المقيمين بشكل منتظم، حتى يتمكنوا من رؤية زيادة كفاءتهم وآمل أن يتم تحفيزهم ليصبحوا مقيمين أفضل بشكل مستمر؟ من المهم أن لا تؤدي غموض الذكاء الاصطناعي إلى disengagement الطلاب من المشاركة النشطة في تطوير مستقبلهم. فيما يتعلق بالمنهجية، يجب أن تكون دراسات الحالة مصحوبة بدراسات بحجم عينة أكبر (كان الوسيط حوالي تم جمع البيانات على مقاييس موضوعية بالإضافة إلى التصورات لتوفير مثلثية مصادر البيانات، واستخدام مجموعات التحكم كلما كان ذلك ممكنًا للقضاء على إمكانية تأثيرات هاوثورن، وتم تضمين المتابعة في تصميم البحث لاستكشاف النقل والتعميم سواء كان إيجابيًا أو سلبيًا، وتم التحقيق في النقل عبر الموضوعات نظرًا لأن العديد من الدراسات كانت محددة بالموضوع، وتم التحقيق في النقل عبر البلدان نظرًا للاختلافات الثقافية المحتملة.
قد تحتاج الدراسات المستقبلية إلى استخدام طرق متعددة لتقييم جوانب مختلفة من واجهة الذكاء الاصطناعي/ التقييم من الأقران. على سبيل المثال، استخدم لين وآخرون (2024) نهجًا من أربع خطوات لاكتشاف الموثوقية: تم استخدام الشبكات العصبية التلافيفية المتكررة (RCNN) لاكتشاف اتساق الدرجات، وتم استخدام تمثيلات الترميز ثنائية الاتجاه من المحولات (BERT) لاكتشاف أصالة النص، وتم استخدام الذاكرة طويلة وقصيرة المدى (LSTM) لـ
تم استخدامه للكشف عن اتساق النصوص وتقييم الدرجات بشكل آلي، وتم تصميمه باستخدام نموذج BERT-RCNN. ومن المهم أيضًا أن نتذكر أن الذكاء الاصطناعي التوليدي له مخاطره. على سبيل المثال، قام أوفييدو-تريسبالاسيوس وآخرون (2023) بتحليل النصائح المتعلقة بالسلامة من ChatGPT وأثاروا مخاوف من سوء الاستخدام. بدا أن ChatGPT لا يفضل المحتويات بناءً على دقتها أو موثوقيتها. كانت الفئات ذات مستوى القراءة والكتابة والتعليم المنخفض في خطر أكبر من استهلاك محتوى غير موثوق.

للممارسين

تظهر تطبيقات جديدة ومتطورة بشكل أفضل يومًا بعد يوم، وهو ما يثير حماس الممارسين ولكنه أيضًا يسبب ارتباكًا هائلًا. كيف يمكنهم مواكبة ذلك؟ يحتاج الممارسون إلى التركيز على التطبيقات التي تم إثبات تأثيراتها من خلال نتائج أبحاث موثوقة، مما يعني على الأرجح أن التطبيقات الجديدة جدًا لن يكون لديها الوقت لتوليد مثل هذه الأبحاث. يجب فحص الإعلانات بعناية كبيرة. يجب قبول توصيات الكلام الشفهي فقط من الزملاء الذين لديهم تاريخ كبير من التنفيذ الفعلي. على سبيل المثال، قدم لين (2022) IdiomsTube (https://www.idiomstube.com)، وهو أداة لتعلم اللغة لتسهيل تعلم التعبيرات الاصطلاحية الإنجليزية من مقاطع فيديو يوتيوب. يقوم هذا تلقائيًا: (1) بتقييم معدل الكلام ومستوى الصعوبة اللغوية لأي فيديو يختاره المتعلم مع ترجمة إنجليزية، (2) بإنشاء مجموعة من المهام لبناء المفردات والمراجعة (مثل، ملء الفراغات، لعبة تهجئة الشنق، النطق، بطاقات الفلاش)، و(3) بتوصية مقاطع فيديو يوتيوب بناءً على تقدم التعلم الفردي للمتعلمين. يتم الآن استبدال كاشفات الانتحال لكتابة الطلاب بجيل جديد من كاشفات الذكاء الاصطناعي التي قد تتغلب على بعض التأثيرات الضارة المحتملة للذكاء الاصطناعي (مثل، رومي، المصممة لاكتشاف استخدام أدوات مثل ChatGPT في كتابة مقالات الطلاب – https://www.rumiessay. com)، على الرغم من أنها قد تحتوي على أخطاء ومشاكل ذاتية. نأمل أن تعطي هذه الورقة للممارسين لمحة عامة عن المجال المتطور بسرعة والذي سيساعدهم على البقاء فوق الماء.

الخاتمة

بينما يتمتع الذكاء الاصطناعي بوضوح بمزايا، هناك أيضًا عيوب، واحدة منها هي نقص الشفافية. لا يمكن لمعظم تطبيقات الذكاء الاصطناعي شرح كيفية وصولها إلى قرار. حتى الخبير لا يمكنه شرح كيفية إنتاج مخرجاته. وبالتالي، يبدو أن موثوقيتها دائمًا موضع تساؤل. مع تطور الذكاء الاصطناعي، من المحتمل أن تتحسن جودته بشكل عام، لكن ذلك لا يعني أنه قد تحسن في أي تطبيق يتم نشره. عادةً ما يكون لدى المؤسسات التعليمية وقت طويل للتكيف، لذا قد يجد العديد من المعلمين أنفسهم يستخدمون ذكاءً اصطناعيًا قديمًا. ومع ذلك، تُظهر هذه الورقة أن الذكاء الاصطناعي في التقييم من الأقران قد حقق بالفعل الكثير (على سبيل المثال، في تنوع الدرجات/التعليقات) ولديه إمكانات مستقبلية هائلة (خصوصًا إذا أصبحت المجالات المهملة حاليًا مثل الواجبات الآلية، التقييم الآلي والمعايرة محور المزيد من الأبحاث). بشكل عام، يبدو أن الذكاء الاصطناعي يمكن أن ينتج نتائج جيدة مثل الطلاب والمعلمين الحقيقيين، على الأقل في الدراسات البحثية. سواء كان هذا هو الحال في كل تطبيق عملي هو مسألة أخرى. الهدف من تقييم الأقران هو تمكين التقييم التكويني و/أو التلخيصي بأقصى قدر من الموثوقية مثل تقييم المعلم مع تطوير مهارات التفكير التأملي والنقدي لدى المشاركين. من الواضح أن السؤال الرئيسي هو ما إذا كان إدخال الذكاء الاصطناعي يعزز هذه الأهداف.
يبدو أن الكثير من الأبحاث أكثر اهتمامًا بتوفير الوقت للمعلم بدلاً من القيمة المضافة. لا يزال هناك الكثير من العمل البحثي الذي يتعين القيام به.

الشكر والتقدير

لا ينطبق.

مساهمة المؤلف

كان توبين الكاتب الرئيسي للمقدمة والخاتمة، وكان جيرينجر وفريقه مسؤولين بشكل رئيسي عن مراجعة النطاق، وكان خسروي الكاتب الرئيسي لدراسة الحالة. ثم تمت مراجعة جميع الأقسام من قبل جميع المؤلفين لضمان الاتفاق التوافقي على النص.

التمويل

لم تتلق هذه البحث أي تمويل خارجي.

توفر البيانات والمواد

المقالات المشار إليها في هذه الورقة متاحة جميعها مجانًا في المجال العام.

الإعلانات

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.
تاريخ الاستلام: 2 يناير 2024 تاريخ القبول: 10 أكتوبر 2024
تاريخ النشر على الإنترنت: 21 يناير 2025

References

References in the scoping review asterisked *

Abdi, S., Khosravi, H., Sadiq, S., & Demartini, G. (2021). Evaluating the quality of learning resources: A learnersourcing approach. IEEE Transactions on Learning Technologies, 14(1), 81-92. https://doi.org/10.1109/TLT.2021.3058644
Abdi, S., Khosravi, H., Sadiq, S., & Gasevic, D. (2020). Complementing educational recommender systems with open learner models. In Proceedings of the Tenth International Conference on Learning Analytics & Knowledge (pp. 360-365). https://doi.org/10.1145/3375462.3375520
*Ahuja, R., Khan, D., Symonette, D., Pan, S., Stacey, S., & Engel, D. (2020a). Towards the automatic assessment of student teamwork. In Companion Proceedings of the 2020 ACM International Conference on Supporting Group Work (pp. 143-146). https://doi.org/10.1145/3323994.3369894
*Ahuja, R., Khan, D., Tahir, S., Wang, M., Symonette, D., Pan, S., & Engel, D. (2020b). Machine learning and student performance in teams. In: Bittencourt, I., Cukurova, M., Muldner, K., Luckin, R., Millán, E. (Eds.) Artificial Intelligence in Education. AIED 2020. Lecture Notes in Computer Science, 12164. Springer, Cham. https://doi.org/10.1007/978-3-030-52240-7_55
*Anaya, A. R., Luque, M., Letón, E., & Hernández-del-Olmo, F. (2019). Automatic assignment of reviewers in an online peer assessment task based on social interactions. Expert Systems, 36, e12405. https://doi.org/10.1111/exsy. 12405
*Babik, D., Stevens, S. P., Waters, A., & Tinapple, D. (2020). The effects of dispersion and reciprocity on assessment fidelity in peer-review systems: A simulation study. IEEE Transactions on Learning Technologies, 13(3), 580-592. https://doi. org/10.1109/TLT.2020.2971495
*Babo, R., Rocha, J., Fitas, R., Suhonen, J., & Tukiainen, M. (2021). Self and peer e-assessment: A study on software usability. International Journal of Information and Communication Technology Education (IJICTE), 17(3), 68-85. https://doi.org/ 10.4018/IJICTE.20210701.oa5
*Badea, G., & Popescu, E. (2020). Supporting students by integrating an open learner model in a peer assessment platform. In: Kumar, V., & Troussas, C. (Eds.) Intelligent Tutoring Systems. ITS 2020. Lecture Notes in Computer Science, 12149. Springer, Cham. https://doi.org/10.1007/978-3-030-49663-0_14
*Badea, G., & Popescu, E. (2022). A hybrid approach for mitigating learners’ rogue review behavior in peer assessment. In: Crossley, S., & Popescu, E. (Eds.) Intelligent Tutoring Systems. ITS 2022. Lecture Notes in Computer Science, 13284. Springer, Cham. https://doi.org/10.1007/978-3-031-09680-8_3
*Bawabe, S., Wilson, L., Zhou, T., Marks, E., & Huang, J. (2021). The UX factor: Using comparative peer review to evaluate designs through user preferences. Proceedings of the ACM on Human-Computer Interaction, 5 (CSCW2), Article No: 476, 1-23. https://doi.org/10.1145/3479863
*Burrell, N., & Schoenebeck, G. (2021). Measurement integrity in peer prediction: A peer assessment case study. In Proceedings of the 24th ACM Conference on Economics and Computation 369-389. https://doi.org/10.1145/3580507. 3597744
*Campos, D. G., et al. (2024). Screening smarter, not harder: A comparative analysis of machine learning screening algorithms and heuristic stopping criteria for systematic reviews in educational research. Educational Psychology Review. https://doi.org/10.1007/s10648-024-09862-5
*Capuano, N., Loia, V., & Orciuoli, F. (2017). A fuzzy group decision making model for ordinal peer assessment. IEEE Transactions on Learning Technologies, 10(2), 247-259. https://doi.org/10.1109/TLT.2016.2565476
*Castro, M. S. O., Mello, R. F., Fiorentino, G., Viberg, O., Spikol, D., Baars, M., & Gašević, D. (2023). Understanding peer feedback contributions using natural language processing. In:Viberg, O., Jivet, I., Muñoz-Merino, P., Perifanou, M.,
Papathoma, T. (Eds.), Responsive and Sustainable Educational Futures. EC-TEL 2023. Lecture Notes in Computer Science, vol 14200. Springer, Cham. https://doi.org/10.1007/978-3-031-42682-7_27
*Chai, K. C., & Tay, K. M. (2014). A perceptual computing-based approach for peer assessment. In 9th International Conference on System of Systems Engineering (SOSE), Glenelg, SA, Australia, 60-165. https://doi.org/10.1109/SYSOSE.2014. 6892481.
*Chai, K. C., Tay, K. M., & Lim, C. P. (2015). A new fuzzy peer assessment methodology for cooperative learning of students. Applied Soft Computing, 32, 468-480. https://doi.org/10.1016/j.asoc.2015.03.056
*Chiu, M. M., Woo, C. K., Shiu, A., Liu, Y., & Luo, B. X. (2020). Reducing costly free-rider effects via OASIS. International Journal of Comparative Education and Development, 22(1), 30-48. https://doi.org/10.1108/IJCED-07-2019-0041
*Cho, K., & Schunn, C. D. (2007). Scaffolded writing and rewriting in the discipline: A web-based reciprocal peer review system. Computers & Education, 48(3), 409-426. https://doi.org/10.1016/j.compedu.2005.02.004
Craig, C. D., & Kay, R. (2021). Examining peer assessment in online learning for higher education – A systematic review of the literature. Proceedings of ICERI2021 Conference, 8th-9th November 2021.
Darvishi, A., Khosravi, H., Rahimi, A., Sadiq, S., & Gašević, D. (2022a). Assessing the quality of student-generated content at scale: A comparative analysis of peer-review models. IEEE Transactions on Learning Technologies, 16(1), 106-120. https://doi.org/10.1109/TLT.2022.3229022
Darvishi, A., Khosravi, H., & Sadiq, S. (2021). Employing peer review to evaluate the quality of student generated content at scale: A trust propagation approach. In Proceedings of the Eighth ACM Conference on Learning@ Scale (pp. 139-150). https://doi.org/10.1145/3491140.3528286
*Darvishi, A., Khosravi, H., Sadiq, S., & Gašević, D. (2022b). Incorporating AI and learning analytics to build trustworthy peer assessment systems. British Journal of Educational Technology, 53(4), 844-875. https://doi.org/10.1111/bjet. 13233
*Demonacos, C., Ellis, S., & Barber, J. (2019). Student peer assessment using Adaptive Comparative Judgment: Grading accuracy versus quality of feedback. Practitioner Research in Higher Education, 12(1), 50-59.
*Dhull, K., Jecmen, S., Kothari, P., & Shah, N. B. (2022). Strategyproofing peer assessment via partitioning: The price in terms of evaluators’ expertise. In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing, 10(1), 53-63. https://doi.org/10.1609/hcomp.v10i1.21987
*Djelil, F., Brisson, L., Charbey, R., Bothorel, C., Gilliot, J. M., & Ruffieux, P. (2021). Analysing peer assessment interactions and their temporal dynamics using a graphlet-based method. In: De Laet, T., Klemke, R., Alario-Hoyos, C., Hilliger, I., & Ortega-Arranz, A. (Eds.), Technology-Enhanced Learning for a Free, Safe, and Sustainable World. EC-TEL 2021. Lecture Notes in Computer Science, 12884. Springer, Cham. https://doi.org/10.1007/978-3-030-86436-1_7
*EI Alaoui, M., El Yassini, K., & Ben-Azza, H. (2018). Enhancing MOOCs peer reviews validity and reliability by a fuzzy coherence measure. In Proceedings of the 3rd International Conference on Smart City Applications, 2018, Article No.: 57, 1-5. https://doi.org/10.1145/3286606.3286834
*Ellison, C. (2023). Effects of adaptive comparative judgement on student engagement with peer formative feedback. Practitioner Research in Higher Education, 15(1), 24-35.
*Fu, Q. K., Lin, C. J., & Hwang, G. J. (2019). Research trends and applications of technology-supported peer assessment: A review of selected journal publications from 2007 to 2016. Journal of Computers in Education, 6, 191-213. https:// doi.org/10.1007/s40692-019-00131-x
*Garcia-Souto, M. P. (2019). Making assessment of group work fairer and more insightful for students and time-efficient for staff with the new IPAC software. In INTED2019 Proceedings (pp. 8636-8641), IATED, Valencia, Spain. https://doi. org/10.21125/inted.2019.2154
*Hamer, J., Kell, C., & Spence, F. (2005). Peer assessment using Aropä. Ninth Australasian Computing Education Conference (ACE2007), Ballarat, Victoria, Australia, February 2007. https://www.academia.edu/2878638/Peer_assessment_ using_arop%C3%A4?auto=download&email_work_card=download
*He, Y., Hu, X., & Sun, G. (2019). A cognitive diagnosis framework based on peer assessment. In Proceedings of the ACM Turing Celebration Conference-China, Article No: 78, 1-6. New York, NY. Association for Computing Machinery. https://doi.org/10.1145/3321408.3322850
Helden, G. V., Van Der Werf, V., Saunders-Smits, G. N., & Specht, M. M. (2023). The use of digital peer assessment in higher education – An umbrella review of literature. IEEE Access, 11, 22948-22960. https://doi.org/10.1109/ACCESS.2023. 3252914
*Hernández-González, J., & Herrera, P. J. (2023). On the supervision of peer assessment tasks: An efficient instructor guidance technique. in IEEE Transactions on Learning Technologies, https://doi.org/10.1109/TLT.2023.3319733.
*Hoang, L. P., Le, H. T., Van Tran, H., Phan, T. C., Vo, D. M., Le, P. A., & Pong-Inwong, C. (2022). Does evaluating peer assessment accuracy and taking it into account in calculating assessor’s final score enhance online peer assessment quality? Education and Information Technologies, 27, 4007-4035. https://doi.org/10.1007/s10639-021-10763-1
*Hsia, L. H., Huang, I., & Hwang, G. J. (2016). Effects of different online peer-feedback approaches on students’ performance skills, motivation and self-efficacy in a dance course. Computers & Education, 96, 55-71. https://doi.org/10. 1016/j.compedu.2016.02.004
Hua, X., Nikolov, M., Badugu, N., & Wang, L. (2019). Argument mining for understanding peer reviews. arXiv:1903.10104. https://doi.org/10.48550/arXiv.1903.10104
*Huang, C., Tu, Y., Han, Z., Jiang, F., Wu, F., & Jiang, Y. (2023). Examining the relationship between peer feedback classified by deep learning and online learning burnout. Computers & Education, 207, 104910. https://doi.org/10.1016/j. compedu.2023.104910
Hwang, G. J., Xie, H., Wah, B. W., & Gašević, D. (2020). Vision, challenges, roles and research issues of Artificial Intelligence in Education. Computers and Education: Artificial Intelligence, 1, 100001. https://doi.org/10.1016/j.caeai.2020. 100001
*Jónás, T., Tóth, Z. E., & Árva, G. (2018). Applying a fuzzy questionnaire in a peer review process. Total Quality Management & Business Excellence, 29(9-10), 1228-1245. https://doi.org/10.1080/14783363.2018.1487616
*Joyner, D. (2018). Intelligent evaluation and feedback in support of a credit-bearing MOOC. In Artificial Intelligence in Education: 19th International Conference, AIED 2018, London, UK, June 27-30, 2018, Proceedings, Part II 19 (166-170). Springer International Publishing. https://doi.org/10.1007/978-3-319-93846-2_30
*Kalella, T., Lehtonen, T., Luostarinen, P., Riitahuhta, A., & Lanz, M. (2009). Introduction and evaluation of the peer evaluation tool. New Pedagogy, 287-292
Khosravi, H., Kitto, K., & Williams, J. J. (2019). RiPPLE: A crowdsourced adaptive platform for recommendation of learning activities. Journal of Learning Analytics, 6(3), 91-105. https://doi.org/10.18608/jla.2019.63.12
Khosravi, H., Demartini, G., Sadiq, S., & Gasevic, D. (2021). Charting the design and analytics agenda of learnersourcing systems. In LAK21: 11th International Learning Analytics and Knowledge Conference, 32-42. https://doi.org/10. 1145/3448139.3448143
Khosravi, H., Denny, P., Moore, S., & Stamper, J. (2023). Learnersourcing in the age of AI: Student, educator and machine partnerships for content creation. Computers and Education: Artificial Intelligence, 5, 100151. https:// doi.org/10.1016/j.caeai.2023.100151
Kim, S. M., Pantel, P., Chklovski, T., & Pennacchiotti, M. (2006). Automatically assessing review helpfulness. In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (pp. 423-430).
*Knight, S., Leigh, A., Davila, Y. C., Martin, L. J., & Krix, D. W. (2019). Calibrating assessment literacy through benchmarking tasks. Assessment and Evaluation in Higher Education, 44(8), 1121-1132. http://hdl.handle.net/10453/ 130201
*Kulkarni, C., Wei, K. P., Le, H., Chia, D., Papadopoulos, K., Cheng, J., Koller, D., & Klemmer, S. R. (2013). Peer and self assessment in massive online classes. ACM Transactions on Computer-Human Interaction., 20(6), 331-31. https:// doi.org/10.1145/2505057
*Kumar, K., Sharma, B., Khan, G. J., Nusair, S., & Raghuwaiya, K. (2020). An exploration on effectiveness of anonymous peer assessment strategy in online formative assessments. In 2020 IEEE Frontiers in Education Conference (FIE), Uppsala, Sweden. 1-5. IEEE. https://doi.org/10.1109/FIE44824.2020.9274162.
*Lauw, H. W., Lim, E. P., & Wang, K. (2007). Summarizing review scores of “unequal” reviewers. In Proceedings of the 2007 SIAM International Conference on Data Mining (pp. 539-544). Society for Industrial and Applied Mathematics. https://doi.org/10.1137/1.9781611972771.58
Li, H. L., Xiong, Y., Hunter, C. V., Xiuyan Guo, X. Y., & Tywoniw, R. (2020a). Does peer assessment promote student learning? A meta-analysis. Assessment & Evaluation in Higher Education, 45(2), 193-211. https://doi.org/10.1080/ 02602938.2019.1620679
*Li, P., Yin, Z., & Li, F. (2020). Quality control method for peer assessment system based on multi-dimensional information. In: Wang, G., Lin, X., Hendler, J., Song, W., Xu, Z., & Liu, G. (Eds.), Web Information Systems and Applications. WISA 2020. Lecture Notes in Computer Science, 12432. Springer, Cham. https://doi.org/10.1007/978-3-030-60029-7_17
Lin, P. (2022). Developing an intelligent tool for computer-assisted formulaic language learning from YouTube videos. ReCALL, 34(2), 185-200. https://doi.org/10.1017/S0958344021000252
Lin, Z., Yan, H. B., & Zhao, L. (2024). Exploring an effective automated grading model with reliability detection for largescale online peer assessment. Journal of Computer Assisted Learning. https://doi.org/10.1111/jcal. 12970
*Liu, C., Doshi, D., Bhargava, M., Shang, R., Cui, J., Xu, D., & Gehringer, E. (2023). Labels are not necessary: Assessing peerreview helpfulness using domain adaptation based on self-training. In Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2023) 173-183. https://doi.org/10.18653/v1/2023.bea-1.15
*Madan, M., & Madan, P. (2015). Fuzzy viva assessment process through perceptual computing. In 2015 Annual IEEE India Conference (INDICON), New Delhi, India, 1-6. IEEE. https://doi.org/10.1109/INDICON.2015.7443831.
*Masaki , U., Nguyen, D. T., & Ueno, M. (2019). Maximizing accuracy of group peer assessment using item response theory and integer programming. The Japanese Society for Artificial Intelligence, 33. https://doi.org/10.11517/pjsai.JSAI2 019.0_4H2E503
Mendoza, L. B., Ortega, M. P., Hormaza, J. M., Soto, S. V. (2020). Trends the use of artificial intelligence techniques for peer assessment. ICEMIS’20: Proceedings of the 6th International Conference on Engineering & MIS 2020, September 2020. Article No.: 101, Pages 1-7. https://doi.org/10.1145/3410352.3410837
Misiejuk, K., & Wasson, B. (2023). Learning analytics for peer assessment: A scoping review. In: Noroozi, O., & De Wever, B. (Eds.), The Power of Peer Learning. Springer, Champaign, IL. https://doi.org/10.1007/978-3-031-29411-2_2
*Nakayama, M., Sciarrone, F., Uto, M., &Temperini, M. (2020). Impact of the number of peers on a mutual assessment as learner’s performance in a simulated MOOC environment using the IRT model. 2020 24th International Conference Information Visualisation (IV). Melbourne, Australia, 2020, 486-490. https://doi.org/10.1109/IV51561.2020.00084
*Ngu, A. H., Shepherd, J., & Magin, D. (1995). Engineering the “Peers” system: The development of a computer-assisted approach to peer assessment. Research and Development in Higher Education, 18, 582-587.
*Nguyen, H., Xiong, W., & Litman, D. (2016). Instant feedback for increasing the presence of solutions in peer reviews. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, San Diego, California. 6-10.
*Nguyen, H., Xiong, W., & Litman, D. (2017). Iterative design and classroom evaluation of automated formative feedback for improving peer feedback localization. International Journal of Artificial Intelligence in Education, 27, 582-622. https://doi.org/10.1007/s40593-016-0136-6
Ocampo, J. C. G., & Panadero, E. (2023). Web-based peer assessment platforms: What educational features influence learning, feedback and social interaction? In: O. Noroozi and B. de Wever (Eds.), The Power of Peer Learning. Champaign, IL: Springer. https://doi.org/10.1007/978-3-031-29411-2_8
Oviedo-Trespalacios, O., Peden, A. E., Cole-Hunter, T., Costantini, A., Haghani, M., Rod, J. E., Kelly, S., Torkamaan, H., Tariq, A., Newton, J. D. A., Gallagher, T., Steinert, S., Filtness, A. J., & Reniers, G. (2023). The risks of using ChatGPT to obtain common safety-related information and advice. Safety Science, 167, 106244. https://doi.org/10.1016/j.ssci.2023. 106244
Ouyang, F., Zheng, L., & Jiao, P. (2022). Artificial intelligence in online higher education: A systematic review of empirical research from 2011 to 2020. Education and Information Technologies, 27(6), 7893-7925. https://doi.org/10.1007/ s10639-022-10925-9
*Patchan, M. M., Schunn, C. D., & Clark, R. J. (2017). Accountability in peer assessment: Examining the effects of reviewing grades on peer ratings and peer feedback. Studies in Higher Education, 43(12), 2263-2278. https://doi.org/10.1080/ 03075079.2017.1320374
*Patchan, M. M., Schunn, C. D., & Correnti, R. J. (2016). The nature of feedback: How peer feedback features affect students’ implementation rate and quality of revisions. Journal of Educational Psychology, 108(8), 1098. https://doi.org/10. 1037/edu0000103
*Petkovic, D., Okada, K., Sosnick, M., Iyer, A., Zhu, S., Todtenhoefer, R., & Huang, S. (2012). A machine learning approach for assessment and prediction of teamwork effectiveness in software engineering education. In 2012 Frontiers in Education Conference Proceedings, Seattle, WA. 1-3. IEEE. https://doi.org/10.1109/FIE.2012.6462205.
*Piech, C., Huang, J., Chen, Z., Do, C., Ng, A., & Koller, D. (2013). Tuned models of peer assessment in MOOCs. arXiv preprint arXiv:1307.2579. https://doi.org/10.48550/arXiv.1307.2579
Purchase, H., & Hamer, J. (2018). Peer-review in practice: Eight years of Aropä. Assessment & Evaluation in Higher Education, 43(7), 1146-1165. https://doi.org/10.1080/02602938.2018.1435776
*Ramachandran, L., Gehringer, E. F., & Yadav, R. K. (2017). Automated assessment of the quality of peer reviews using natural language processing techniques. International Journal of Artificial Intelligence in Education, 27, 534-581. https:// doi.org/10.1007/s40593-016-0132-x
*Rao, D. H., Mangalwede, S. R., & Deshmukh, V. B. (2017). Student performance evaluation model based on scoring rubric tool for network analysis subject using fuzzy logic. In 2017 International Conference on Electrical, Electronics, Communication, Computer, and Optimization Techniques (ICEECCOT), Mysuru, India (pp. 1-5). IEEE. https://doi.org/10. 1109/ICEECCOT.2017.8284623.
*Rashid, M. P., Gehringer, E. F., Young, M., Doshi, D., Jia, Q., & Xiao, Y. (2021). Peer assessment rubric analyzer: An NLP approach to analyzing rubric items for better peer-review. 2021 19th International Conference on Information Technology Based Higher Education and Training (ITHET), Sydney, Australia, 2021, 1-9. https://doi.org/10.1109/ITHET 50392.2021.9759679.
*Rashid, M. P., Xiao, Y., & Gehringer, E. F. (2022). Going beyond” Good Job”: Analyzing helpful feedback from the student’s perspective. Paper presented at the International Conference on Educational Data Mining (EDM) (15th, Durham, United Kingdom, Jul 24-27, 2022). ERIC Number: ED624053.
*Ravikiran, M. (2020). Systematic review of approaches to improve peer assessment at scale. arXiv preprint arXiv:2001. 10617. https://doi.org/10.48550/arXiv.2001.10617
Raykar, V. C., Yu, S., Zhao, L. H., Valadez, G. H., Florin, C., Bogoni, L., & Moy, L. (2010). Learning from crowds. Journal of Machine Learning Research, 11(4), 1297-1322.
*Rico-Juan, J. R., Gallego, A. J., & Calvo-Zaragoza, J. (2019). Automatic detection of inconsistencies between numerical scores and textual feedback in peer-assessment processes with machine learning. Computers & Education, 140, 103609. https://doi.org/10.1016/j.compedu.2019.103609
*Russell, A. R. (2013). The evolution of Calibrated Peer Review. Trajectories of Chemistry Education Innovation and Reform, Chapter 9, pp 129-143. American Chemical Society Symposium Series, Vol. 1145. https://doi.org/10.1021/bk-20131145.ch009
*Saarinen, S., Krishnamurthi, S., Fisler, K., & Tunnell Wilson, P. (2019). Harnessing the wisdom of the classes: Classsourcing and machine learning for assessment instrument generation. In Proceedings of the 50th ACM Technical Symposium on Computer Science Education, 606-612. https://doi.org/10.1145/3287324.3287504
*Saccardi, I., Veth, D., & Masthoff, J. (2023). Identifying students’ group work problems: Design and field studies of a supportive peer assessment. Interacting with Computers. https://doi.org/10.1093/iwc/iwad044
*Sciarrone, F., & Temperini, M. (2020). A web-based system to support teaching analytics in a MOOC’s simulation environment. In 2020 24th International Conference Information Visualisation (IV), Melbourne, Australia (491-495). IEEE. https://doi.org/10.1109/IV51561.2020.00085.
*Selmi, M., Hage, H., & Aïmeur, E. (2014). Opinion Mining for predicting peer affective feedback helpfulness. In International Conference on Knowledge Management and Information Sharing, 2, 419-425. SCITEPRESS. https://doi.org/10. 5220/0005158704190425
*Sharma, D., & Potey, M. (2018). Effective learning through peer assessment using Peergrade tool. In 2018 IEEE Tenth International Conference on Technology for Education (T4E), Chennai, India, 114-117. IEEE. https://doi.org/10.1109/ T4E.2018.00031.
*Shishavan, H. B., & Jalili, M. (2020). Responding to student feedback: Individualising teamwork scores based on peer assessment. International Journal of Educational Research Open, 1, 100019. https://doi.org/10.1016/j.ijedro.2020. 100019
*Siemens, G., Marmolejo-Ramos, F., Gabriel, F., Medeiros, K., Marrone, R., Joksimovic, S., & de Laat, M. (2022). Human and artificial cognition. Computers and Education: Artificial Intelligence, 3, 100107. https://doi.org/10.1016/j.caeai.2022. 100107
*Stelmakh, I., Shah, N. B., & Singh, A. (2021). Catch me if I can: Detecting strategic behaviour in peer assessment. In Proceedings of the AAAI Conference on Artificial Intelligence, 35(6), 4794-4802. https://doi.org/10.1609/aaai.v35i6.16611
*Thamizhkkanal, M. R., & Ambeth Kumar, V. D. (2020). A neural based approach to evaluate an answer script. In: Hemanth, D., Kumar, V., Malathi, S., Castillo, O., & Patrut, B. (Eds.) Emerging Trends in Computing and Expert Technology. COMET 2019. Lecture Notes on Data Engineering and Communications Technologies, vol 35. Springer, Cham. https://doi. org/10.1007/978-3-030-32150-5_122
*Tiew, H. B., Chua, F. F., & Chan, G. Y. (2021). G-PAT: A group peer assessment tool to support group projects. In 2021 7th International Conference on Research and Innovation in Information Systems (ICRIIS), Johor Bahru, Malaysia, 1-6. https://doi.org/10.1109/ICRIIS53035.2021.9617037.
Topping, K. J. (2023). Peer- and self-assessment. In: volume 9, Assessment and Accountability, Ed. T. Hopfenbeck. (pp. 79-88). In: Tierney, R. J., Rizvi, F., & K. Erkican, K. (Eds.), International Encyclopaedia of Education (fourth edition, volume 13). Oxford: Elsevier. https://doi.org/10.1016/B978-0-12-818630-5.09021-7
Topping, K. J. (2024). Improving thinking about thinking in the classroom: What works for enhancing metacognition. Routledge.
*Wang, A. Y., Chen, Y., Chung, J. J. Y., Brooks, C., & Oney, S. (2021). PuzzleMe: Leveraging peer assessment for in-class programming exercises. Proceedings of the ACM on Human-Computer Interaction, 5, Issue CSCW2, Article No: 415, 1-24. https://doi.org/10.1145/3479559
*Wang, Y., Li, H., Feng, Y., Jiang, Y., & Liu, Y. (2012). Assessment of programming language learning based on peer code review model: Implementation and experience report. Computers & Education, 59(2), 412-422. https://doi.org/10. 1016/j.compedu.2012.01.007
*Wang, Y. Q., Liu, B. Y., Zhang, K., Jiang, Y. S., & Sun, F. Q. (2019a). Reviewer assignment strategy of peer assessment: Towards managing collusion in self-assignment. Proceedings of the 2nd International Conference on Social Science, Public Health and Education (SSPHE 2018). https://doi.org/10.2991/ssphe-18.2019.75
*Wang, R., Wei, S., Ohland, M. W., & Ferguson, D. M. (2019b). Natural language processing system for self-reflection and peer-evaluation. In the Fourth North American International Conference on Industrial Engineering and Operations Management, Toronto, Canada, October 23-25, 2019 (pp. 229-238).
*Wei, S., Wang, R., Ohland, M. W., & Nanda, G. (2020). Automating anonymous processing of peer evaluation comments. In 2020 ASEE Virtual Annual Conference Content Access. https://doi.org/10.18260/1-2–35615
*Wu, C., Chanda, E., & Willison, J. (2010). SPARKPlus for self-and peer assessment on group-based honours’ research projects. The Education Research Group of Adelaide (ERGA) conference 2010: The Changing Face of Education, 24-25 September, 2010. https://hdl.handle.net/2440/61612
*Xiao, Y., Y., Gao, Y., Yue, C. H., & Gehringer, E. (2022). Estimating student grades through peer assessment as a crowdsourcing calibration problem. 20th International Conference on Information Technology Based Higher Education and Training (ITHET), Antalya, Turkey, 2022, pp. 1-9, https://doi.org/10.1109/ITHET56107.2022.10031993.
*Xiao, Y., Zingle, G., Jia, Q., Akbar, S., Song, Y., Dong, M., & Gehringer, E. (2020a). Problem detection in peer assessments between subjects by effective transfer learning and active learning. The International Conference on Educational Data Mining (EDM) (13th, Online, Jul 10-13, 2020). ERIC Number: ED608055
*Xiao, Y., Zingle, G., Jia, Q., Shah, H. R., Zhang, Y., Li, T., & Gehringer, E. F. (2020b). Detecting problem statements in peer assessments. arXiv preprint arXiv:2006.04532. https://doi.org/10.48550/arXiv.2006.04532
Xiong, W., & Litman, D. (2010). Identifying problem localization in peer-review feedback. In V. Aleven, J. Kay, & J. Mostow (Eds.), Intelligent tutoring systems. ITS 2010. Lecture notes in computer science, 6095. Berlin: Springer. https://doi.org/ 10.1007/978-3-642-13437-1_93
*Xiong, W., & Litman, D. (2011). Automatically predicting peer-review helpfulness. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Portland, Oregon, 502-507.
*Xiong, W., Litman, D., & Schunn, C. (2012). Natural language processing techniques for researching and improving peer feedback. Journal of Writing Research, 4(2), 155-176. https://doi.org/10.17239/jowr-2012.04.02.3
*Xiong, Y., Schunn, C. D., & Wu, Y. (2023). What predicts variation in reliability and validity of online peer assessment? A large-scale cross-context study. Journal of Computer Assisted Learning, 39(6), 2004-2024. https://doi.org/10.1111/ jcal. 12861
Zheng, L. Q., Zhang, X., & Cui, P. P. (2020). The role of technology-facilitated peer assessment and supporting strategies: A meta-analysis. Assessment & Evaluation in Higher Education, 45(3), 372-386. https://doi.org/10.1080/02602938.2019. 1644603
*Zingle, G., Radhakrishnan, B., Xiao, Y., Gehringer, E., Xiao, Z., Pramudianto, F., Arnav, A. (2019). Detecting suggestions in peer assessments. International Conference on Educational Data Mining (EDM) (12th, Montreal, Canada, Jul 2-5, 2019). ERIC Number: ED599201.
*Zong, Z., & Schunn, C. D. (2023). Does matching peers at finer-grained levels of prior performance enhance gains in task performance from peer review? International Journal of Computer-Supported Collaborative Learning, 18, 425-456. https://doi.org/10.1007/s11412-023-09401-4

ملاحظة الناشر

تظل Springer Nature محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.

  1. ©المؤلفون 2025. الوصول المفتوح. هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي للاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج في أي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح ما إذا كانت هناك تغييرات قد تم إجراؤها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي للمقالة، ما لم يُشار إلى خلاف ذلك في سطر ائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي للمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، ستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارة http:// creativecommons.org/licenses/by/4.0/.

Journal: International Journal of Educational Technology in Higher Education, Volume: 22, Issue: 1
DOI: https://doi.org/10.1186/s41239-024-00501-1
Publication Date: 2025-01-20

Enhancing peer assessment with artificial intelligence

Keith J. Topping ® , Ed Gehringer (D, Hassan Khosravi (D), Srilekha Gudipati , Kaushik Jadhav and Surya Susarla

*Correspondence:
k.j.topping@dundee.ac.uk
University of Dundee, Dundee DD1 4HN, Scotland
RUDN University, Moscow, Russian Federation
North Carolina State University, Raleigh, NC, USA
University of Queensland, Brisbane, Australia

Abstract

This paper surveys research and practice on enhancing peer assessment with artificial intelligence. Its objectives are to give the structure of the theoretical framework underpinning the study, synopsize a scoping review of the literature that illustrates this structure, and provide a case study which further illustrates this structure. The theoretical framework has six areas: (i) Assigning Peer Assessors, (ii) Enhancing Individual Reviews, (iii) Deriving Peer Grades/Feedback, (iv) Analyzing Student Feedback, (v) Facilitating Instructor Oversight and (vi) Peer Assessment Systems. The vast majority of the 79 papers in the review found that artificial intelligence improved peer assessment. However, the focus of many papers was on diversity in grades and feedback, fuzzy logic and the analysis of feedback with a view to equalizing its quality. Relatively few papers focused on automated assignment, automated assessment, calibration, teamwork effectiveness and automated feedback and these merit further research. This picture suggests AI is making inroads into peer assessment, but there is still a considerable way to go, particularly in the under-researched areas. The paper incorporates a case study of the RIPPLE peer-assessment tool, which harnesses student wisdom, insights from the learning sciences and AI to enable time-constrained educators to immerse their students in deep and personalized learning experiences that effectively prepare them to serve as assessors. Once trained, they use a comprehensive rubric to vet learning resources submitted by other students. They thereby create pools of highquality learning resources which can be used to recommend personalized content to students. RIPPLE engages students in a trio of intertwined activities: creation, review and personalized practice, generating many resource types. AI-driven real-time feedback is given but students are counseled to assess whether it is accurate. Affordances and challenges for researchers and practitioners were identified.

Keywords: Peer assessment, Artificial intelligence, Theory, Scoping review, Case study

Introduction

Peer assessment is an arrangement for learners to consider and specify the level, value or quality of a product or performance of other equal-status learners (Topping, 2023). This may be via grades, scores or marks, or elaborated feedback, or both. It has been shown to be effective (e.g., by Li et al., 2020a). It gives assessors a chance to deepen their understanding of the content, enhance evaluative judgment and writing skills, and learn
to offer constructive feedback. Assessees, on the other hand, can receive timely and personalized feedback from a diverse group of peers, fostering a more open and reciprocal exchange of viewpoints. Furthermore, instructors benefit by reducing their workload in marking (or “grading”) students’ work.
However, there are some common concerns associated with the use of peer assessment. Students might not possess the depth of understanding required to adequately judge their peers’ work, which could influence the accuracy and fairness of evaluations. There is potential for bias and favoritism, variability in assessment standards, inconsistent feedback quality, unequal participant engagement, possible stress and anxiety, and lack of training in how to give constructive feedback. Additionally, peer assessment becomes difficult to manage in very large classes. Can any of these problems be resolved with artificial intelligence? Might AI offer scaffolding of their initial evaluation attempts? Might AI offer calibration of their initial evaluation attempts to counter favoritism or balance inconsistency? Might AI offer neutral support to counter stress and anxiety?
Artificial Intelligence (AI) is the ability of a computer (or a robot controlled by a computer) to do tasks that were usually done by humans because they (used to) require human intelligence (such as reasoning, learning and conversation) or involve data whose scale exceeds what humans are able to analyze (Topping, 2024). AI has been shown to be effective in education (e.g., by Ouyang et al., 2022) for example, in automatic assessment and making resource recommendations based on student characteristics. The rapid advancement of generative AI, exemplified by OpenAI’s ChatGPT, has transformed user interaction with technology, for both good and ill. Its increasingly widespread use stems from its ability to respond to a variety of tasks. Given the right prompt, it can produce outputs for writing essays, computer code, develop step-by-step solutions to a range of problems and even compose music in different genres. Generative Al’s potential has led to enquiry into how we may establish human-AI collaborations (e.g., Hwang et al., 2020; Siemens et al., 2022) to support and enhance student learning. More sophisticated techniques are being developed as we speak.
The objectives of this paper are firstly to introduce a theoretical framework about how AI might address challenges in six key procedural areas of peer assessment. Secondly, we undertake a rapid scoping review of the literature on artificial intelligence in peer assessment with reference to these six areas. Thirdly we present a case study that illustrates the application of an AI-powered peer assessment system in five of the six areas of the framework. Fourthly the paper concludes by discussing opportunities, challenges and future research needs for the effective incorporation of AI in peer assessment, as well as the implications for practitioners.
The combination of peer assessment and artificial intelligence has been explored to an extent in previous reviews. We found seven apparently relevant reviews, but most of them focused on digital technology supporting learning in peer assessment rather than AI (e.g., Fu et al., 2019; Zhang et al., 2020; Craig & Kay, 2021; Helden et al., 2023). Mendoza et al. (2020) focused more on AI in peer assessment, but AI was used mainly in the search process and the paper was mostly about rubrics and how they might be enhanced with AI. Ocampo and Panadero (2023) reviewed the characteristics and features, learning, feedback and social interaction affordances of web-based peer assessment platforms, but this was not of AI in itself. A scoping review of 27 papers on the role
of learning analytics in improving peer assessment was offered by Misiejuk and Wasson (2023), who identified three main roles: enhancing software tools, generating automated feedback and visualizations. Four main application areas were mapped: student interaction, feedback characteristics, comparison and design. The rapid scoping review in this study goes beyond this in broadly addressing all of AI in peer assessment and noting interventions rather than merely mapping the field.

A theoretical framework for Al affordances in peer assessment

The framework (Fig. 1) is based on analysis of literature and a critical examination of gaps in the current use of AI for peer assessment. A short description of each main area within the framework is presented below.

Assigning peer assessors

AI can assist by analyzing an assessor’s past performance, expertise and biases to predict the reliability and quality of future contributions. Equally, by giving feedback to assessors, it can indicate areas where assessors need to focus their efforts to overcome areas of limitation. It can also facilitate the creation of balanced teams, increasing the likelihood of a more comprehensive review by matching assessee work with assessor strengths.

Enhancing individual reviews

The quality of peer reviews provides critical insights and fosters a deeper understanding for both assessors and assessees. AI’s role in this process is multifaceted. By leveraging advanced algorithms and machine learning techniques, AI can guide students in developing the necessary skills to become proficient assessors. Furthermore, AI can objectively analyze the quality of each review, identifying strengths and areas for improvement. This facilitates the provision of immediate, tailored feedback to assessors, reinforcing positive practices and correcting any mis-steps. The inclusion of AI-based assessment in collaboration with students opens the door to a hybrid assessment model,
Fig. 1 A framework on Al’s capacity to enhance peer assessment (building on Darvishi et al., 2022a)
directing the reviewers’ attention to areas of importance, and encouraging them to provide copious feedback, blending traditional and digital assessment to enhance flexibility and accessibility-more likely to be formative, frequent and designed in collaboration with students.

Deriving peer grades/feedback

The grades that are assigned directly impact the perceived fairness and credibility of the evaluation process, and are important for maintaining motivation. However, when multiple assessors are involved, a wide range of scores can result, making the task of assigning a final grade challenging. AI’s potential here lies in its ability to aggregate and analyze disparate scores and textual comments from multiple assessors in a way that is unbiased and consistent. Moreover, AI can evaluate the quality of the assessors’ reviews, providing a meta-assessment (an assessment of the quality of an assessment) that not only helps in grading the assessors based on their performance but also engenders a higher standard of review.

Analyzing student feedback

Feedback needs to be not only received but also understood and acted upon by the participants. It provides the opportunity to reflect on and learn from the evaluation received. AI has the capacity to summarize and personalize the feedback in a manner that is clear and actionable. Rather than offering blanket feedback, it responds to the characteristics of the individual item to be assessed. It can also take a large amount of feedback from multiple reviewers and distill it down to a summary that can be easily digested by the author. Furthermore, it can underpin a transparent and streamlined feedback system that encourages students to engage with their assessments critically, assessing whether to act on an item of feedback.

Facilitating instructor oversight

AI can support instructor oversight of the peer assessment process by providing a dashboard of analytics, highlighting trends, flagging potential issues and suggesting areas for improvement. This can empower instructors to steer the assessment process more effectively, ensuring that it aligns with educational objectives and standards. In addition, AI can swiftly identify reviews that deviate from established norms or exhibit signs of bias, facilitating prompt intervention. This capability not only helps in maintaining the quality and fairness of assessments but also safeguards the educational value inherent in the peer review system.

Peer assessment systems

Trustworthiness is key in peer assessments, both from the perspective of those being assessed and the assessors. Through the use of sophisticated algorithms and data analysis, AI can ensure that assessment criteria are applied consistently across all evaluations, yielding feedback for both assessors and assessees regarding feedback credibility and need for improvements in feedback quality. Moreover, AI’s capability to handle large datasets efficiently enables the development of more nuanced and comprehensive
assessment models. These models can take into account a wider range of factors than traditional methods.
These theoretical aspects will be further illuminated as we progress through the rest of the paper. We now turn to the rapid scoping review.

Rapid scoping review

Methodology

Google Scholar was the single database chosen for this rapid scoping review as it had been found in previous scoping reviews to generate the largest number of hits. Use of other databases would have been relatively cost-ineffective for a scoping review. It was searched over an extended period up to September 2023. The search terms “peer assessment” AND “artificial intelligence” were inserted. There are synonyms, but it was felt that for a scoping review such synonyms would not add value. Primary hits were 6,930. These were extracted up to the point where 10 consecutive pages had no relevant hits, leaving 1730 secondary hits. (Campos, et al., 2024, found that of all relevant abstracts within a given dataset could be retrieved using heuristic stopping rules such as stopping the screening process after classifying of records.) The titles and abstracts of these were assessed by a team. The criteria for onward inclusion were that the paper had to: refer to true AI rather than some other form of digital technology, refer to higher education, have been published in English in the last 10 years, and include quantitative and/or qualitative data supporting its conclusions. Any form of quantitative or qualitative data was acceptable providing it resulted from an attempt to evaluate the method or a thorough case study. Brief exemplars of illustrative data were not acceptable.
This led to 172 tertiary hits being selected for potential inclusion. The full text of these papers was read and 79 papers (quaternary hits) selected for final inclusion which fully met the inclusion criteria. These were coded by a single expert rater with much experience in systematic reviews and meta-analyses, which for a scoping review was thought to be acceptable. Coding was into the six areas of the theoretical framework: Assigning Peer Assessors ( 4 papers), Enhancing Individual Reviews (7), Deriving Peer Grades/ Feedback (35), Analyzing Student Feedback (19), Facilitating Instructor Oversight (4) and Peer Assessment Systems (10). Within two of these areas, further sub-categories stemming inductively from the category content were coded by the same single expert rater, into: Deriving Peer Grades/Feedback (Automated Assessment 4, Diversity of Grades and Feedback 7, Calibration 5, Fuzzy Logic and Decision-Making 8, Teamwork Effectiveness 4, MOOCs 4, Strategic and Rogue Reporting 3) and Analyzing Student Feedback (Analysis of Feedback 14, Automated Feedback 3 and Adaptive Comparative Judgment 2).

Results

Assigning peer assessors

Instructors want to assign assessors who are competent to assess the work in question. A crude way of handling this is to randomly assign more than one assessor to each piece of work, but completing multiple peer assessments increases student workload and leaves the question of how to weight different assessments of the same piece of work. Only four papers focused on assigning peer assessors. Masaki et al. (2019) proposed an
approach based on item response theory and integer programming for assigning peer assessors, but found it no more effective than random allocation and recommended the use of additional assessors from outside the group. A system of post hoc collusion detection was trialed by Wang et al. (2019a). Only two papers looked at a comprehensive system of intelligent assignment of assessors to assesses. Anaya et al. (2019) had a system of assigning peer assessors according to social networks, which was more effective than random assignment. Having divided students into four ability groups, Zong and Schunn (2023) found matching by similar ability the most effective and more effective than random allocation, except for low-ability students.

Enhancing individual reviews

Five papers ( ) focused on improving the nature of elaborated feedback from peers and two focused on problem detection ( 7 in total, ). Of the first five, four explored the nature of different aspects of student reviews, while two sought to completely automate the analysis of student elaborated feedback. Saarinen et al. (2019) developed a tool for students to generate questions, finding its output similar to that from teachers, but this was difficult to replicate across subjects. A tool for detecting arguments in elaborated feedback was designed by Hua et al. (2019), termed “argument mining”. Zingle et al. (2019) used machine learning to detect suggestions in student feedback, finding that a method involving neural networks was more effective than rule-based natural language processing methods. This would allow draft reviews to be analyzed for the presence of suggestions before the review was delivered. An algorithm for automating assessment of elaborated student feedback was produced by Wei et al. (2020). Anonymizing data is an important problem, but tangential to using AI, since if only AI reads a review, it is not necessary to anonymize it. Similarly, Castro et al. (2023) designed software which automatically classified feedback comments into categories, such as “suggestions for improvement” and “interpersonal factors”. The authors studied several algorithms for making this classification, finding the results as good as teacher analysis. However, such classification would not help to decide which reviews were credible.
Two papers focused on problem detection. Xiao et al. (2020a) used machine-learning text classification methods and developed an algorithm based on natural language processing for the detection of problem statements in review comments, which transferred effectively from computing classes to a writing class. The nature of helpfulness was analyzed, which could vary from student to student. The authors attempted such a task on a few models including the logistic regression classifier, random forest classifier, multinomial naive Bayes classifier and support vector machine, using a dataset from the Expertiza system. A new algorithm was proposed by Xiao et al. (2020b) which provided accurate automated grading, weak point identification on peer reviews and also identified weak points of the reviewer. The algorithm was evaluated on 200 students generating 1,714 scores. The authors found that degradation depended on how distant the other subject was from the original one.

Deriving peer grades/feedback

This was the largest area of the six, containing 35 ( ) of the papers. These were further inductively coded into sub-categories: Automated Assessment ( 4 papers), Diversity of
Grades and Feedback ( 7 papers), Calibration ( 5 papers), Fuzzy Logic and Decision-Making (8), Teamwork Effectiveness (4), MOOCs (4) and Strategic and Rogue Reporting (3).
Automated Assessment The topic of Automated Assessment had four papers ( ). Kalella (2009) described an automatic grading algorithm (basically a linear-equation reputation system) which performed well even though the students were on different levels. The algorithm calculated credibility factors for each student based on the grades given by other students, then corrected the given grades by putting more weight on students with high credibility value. Grades created manually were compared to ones calculated with the algorithm and correlated well. As noted by Wang (2019b), numerical rating could be influenced by raters’ biased understanding of the scale based on their cultural background. Supplementing a numerical peer evaluation system with peer-to-peer comments could reduce rater bias. Wang et al. proposed a natural language processing model that (1) processed peer-to-peer comments about teammates’ teamwork behaviors; and (2) converted comments into numbers that allowed for computation. Results were evaluated in CATME data and validated the system.
An approach to automatically score student responses and evaluate the accuracy of peer assessment results was proposed by Hoang et al. (2022), via a vector space model and semantic extraction for processing and evaluating students’ responses. When students realized their peer assessment responses were taken into account by the system, they had more positive attitudes towards the activities. The average of five peer assessment scores per student showed significant positive changes in the experimental group compared to the control group and was closely aligned with human assessments. Hernández-González and Herrera (2023) used a Bayesian Probabilistic Graphical Model (PGM) to estimate a grade for each test and model the peer-assessment process (accounting for the degree of precision and bias of grading peers) and a selection technique to guide instructors in deciding which assignments to evaluate manually in the event of uncertainty regarding the AI grade. The instructor could decide how many tests to grade based on their own criteria of tolerable uncertainty. The authors validated the method using both synthetically generated and real data.
Diversity of Grades and Feedback This sub-category had seven papers (9%). Babik et al. (2020) noted that little research had been done on how different network structures impacted a system’s ability to accurately assess the quality of the evaluated artifacts. Two network characteristics-“dispersion” and “reciprocity” – could indeed affect assessment fidelity. The authors used BayesRank-a Bayesian approach to ranked peer grading. The peer review network structure dictated which reviewers evaluated which artifacts. Each assessment depended on both the artifact’s quality and the reviewer’s competence. Rashid et al. (2021) analyzed rubrics to see what features enhanced the writing of quality reviews. Measurement integrity as a desideratum for peer prediction was considered by Burrell and Schoenbeck (2021). (Peer prediction, or information elicitation without verification, is a paradigm for designing mechanisms that elicit reports about questions or tasks in settings where ground truth—and therefore the possibility of spot-checkingneed not exist). They performed computational experiments, both with an agent-based model and with real data, to empirically evaluate peer prediction mechanisms, and found that peer prediction mechanisms largely failed to demonstrate significant measurement integrity. The best-performing mechanisms in terms of measurement integrity
were however highly susceptible to strategic reporting (i.e., reviewing with aims other than assessment in mind or gaming the system to improve one’s grade at the expense of classmates).
Reliability (i.e., consistency in ratings across peers) and validity (i.e., consistency of peer ratings with instructors or experts) were noted as key in peer assessment by Xiong et al. (2023). The authors investigated what variables influenced prediction of these factors using a large-scale cross-context dataset. While the average number of raters per assessed item consistently showed negative effects on reliability, its effect on validity was positive and direct. A larger number of peer ratings produced a more unbiased average evaluation and therefore higher validity. The number of assignments assessed was positively related to validity, but not reliability.
Other papers dealt with individual issues. Grading/feedback inconsistency in peer assessment for open-ended activities was addressed by Rico-Juan et al. (2019) using machine learning. Two different approaches with different algorithms were tested. Experiments carried out with four groups of students and two types of activities showed that the proposed approach could yield reliable results. Bawabe et al. (2021) developed UX Factor, a peer grading platform that aimed to characterize the behavior of peer reviewers when comparing two products at a time and the consistency of ranking models used to aggregate these reviews. In a course of 133 students across three design projects the system was found to be effective in eliciting high-quality feedback. Problembased learning in groups was investigated by Babo et al. (2021), particularly the individual contribution of each student to group performance. This paper presented seven different tools, their features and functionalities. To evaluate and compare these tools, some parameters were presented and described, based on usability and user experience definitions.
Calibration Five papers focused on calibration. In the context of peer assessment, calibration is a process by which students assess exemplar artifacts before assessing the student work that they have been assigned to review. Some systems use a student’s calibration score to weight that student’s reviews in calculating peer grades. Other systems require a student to continue assessing exemplar artifacts until they achieve a “passing” calibration score. The first such paper describes Calibrated Peer Review, which stemmed from the late 1990s (Russell, 2013) but was focused on assessing student work in particular subjects, such as chemistry or biology. In an early paper, Hamer et al. (2005) devised a reputation system for automatic grade calibration in peer assessment. It addressed the issue of grade reliability and presented a novel technique for diminishing the impact of “rogue reviews.” Simulations suggested the method was effective under a wide range of conditions. Cho and Schunn (2007) described SWoRD (Scaffolded Writing and Rewriting in the Discipline), a web-based reciprocal peer review system. SWoRD included algorithms that computed individual reviewers’ review accuracy and was effective in improving writing quality. A reputation system which operated similarly was proposed by Lauw et al. (2007). Neither of these authors appeared aware of Hamer’s et al. (2005) contribution. Knight et al. (2019) used SPARKPlus and examined data from a benchmarking task in peer assessment (involving 500 students per semester for four semesters). Students who completed the benchmarking performed better, and there was a relationship between benchmarking performance and self-assessment performance.
However, calibration does not seem a popular area for current research, although it is clearly important in reviewer training.
Fuzzy Logic and Decision-Making Fuzzy logic is a mathematical framework that is often used in conjunction with AI and is an approach to variable processing based on “degrees of truth” rather than the usual “true or false” ( 1 or 0 ) logic in the modern computer. It allows for multiple possible truth values to be processed in relation to the same variable, particularly suitable for language. Fuzzy logic attempts to solve problems with an open, imprecise spectrum of data and heuristics that makes it possible to obtain an array of accurate conclusions. There were eight papers ( ) in this sub-category, although there seemed to be no recent papers on fuzzy logic.
Four papers were concerned with the imprecision of words. Thus, Chai and Tay (2014) used perceptual computing (Per-C). Linguistic terms provided by assessors to evaluate criteria like confidence, clarity, etc. were converted into interval type- 2 fuzzy sets. The footprint of uncertainty represented variability in meanings of the linguistic terms as assessed by different experts. A codebook mapped terms to their fuzzy sets. Type reduction de-fuzzified the aggregated fuzzy output into a crisp score using the Karnik-Mendel method. Case studies were reported. Later, Chai et al. (2015) proposed a new fuzzy peer assessment methodology; a synthesis of perceptual computing (Per-C) and a fuzzy ranking algorithm which considered the vagueness and imprecision of words. Performance indices reflected a student’s contribution in a group and subsequently ranked the student accordingly. A case study was reported. An algorithm to calculate the viva assessment scores using Per-C was presented by Madan et al. (2015). Accuracy of answers, clarity of concepts, confidence, spontaneity, linguistic proficiency, appearance, etiquettes and pressure handling were the issues addressed. The fuzzy system was tested to evaluate the viva (oral exam) assessment scores for nine students. Rao et al. (2017) proposed a student performance evaluation method using a Fuzzy Inference System (FIS) for Network Analysis (NA). The scoring rubric aligned the rubric criteria with Bloom’s Taxonomy levels. The five inputs identify, understand, apply, analyze and design/create were fuzzified using the Mamdani Fuzzy Inference System. Results were given for an experimental group, but there was no control group or comparison with other models.
Four further papers were concerned with fuzzy grades. Thus, Ngu et al. (1995) offered a very early paper about an online peer review system called ‘Peers’ which let graders set the weights for different evaluation criteria and then used fuzzy decision theory to finalize the grading weights for each of the aspects. Each student peer assessed two other students and assignments were also marked by teachers. All students and teaching staff were involved in determining the criteria to be used in marking, and the weighting to be attached to each criterion. The system automatically computed the final criteria weightings using fuzzy decision theory. The paper also provided data on the reliability of peer assessment and outlined student and staff reaction to its introduction. Capuano et al. (2017) proposed a new model for ordinal peer assessment based on the principles of fuzzy group decision making. Each student was asked to rank a few random submissions from the best to the worst and to specify, with a set of intuitive labels, to what extent each submission was better than the following one in the ranking. Rankings were then transformed in fuzzy preference relations, expanded to estimate missing values and aggregated. The aggregated relation was then used to generate a global ranking between
the submissions and estimate their absolute grades. Experimental results showed better performance compared with other peer assessment techniques. A fuzzy-based approach that aimed to enhance validity and reliability was proposed by El Alaoui et al. (2018). The authors gave illustrative examples. The application of a fuzzy-number-based questionnaire was introduced by Jónás et al. (2018) in order to enhance the reliability of peer evaluations. The membership function of the fuzzy number was composed of an increasing and decreasing sigmoid membership function associated with Dombi’s intersection operator. This allowed peer reviewers to express their uncertainty and the variability of the reviewed person’s performance in a quantitative way. A case study was offered.
Teamwork Effectiveness Four papers ( ) focused on AI for identifying and managing team effectiveness. Petkovic et al. (2012) defined teamwork practices as the abilities: (i) to learn and effectively apply software engineering processes in a teamwork setting, and (ii) to work as a team to develop satisfactory software products. The authors presented an approach based on: (a) extracting only objective and quantitative student team activity data during their project; (b) pairing these data from related independent observations and grading of student team effectiveness; and (c) applying a machine learning approach (random forest classification) to create models, ranked factors and rules that could both explain (e.g., assess) as well as predict student teamwork effectiveness. Three universities in two countries participated in the evaluation.
The application of the online tool SPARKPlus (Self and Peer Assessment Resource Kit https://sparkplus.com.au) was reported by Wu et al. (2010), together with a set of assessment criteria for group-based ( ) research projects. Thirty-seven groups participated. Some groups tried to manipulate SPARKPlus so every team member got the same score, as they thought it was a summative assessment device. Shishavan and Jalili (2020) also used SPARKPlus with groups. Peer assessment scores were individualized proportionally to the average group peer assessment score given by the teacher. Results from pre- and post-assessment were compared and students’ appreciation of the teamwork aspects of the courses was improved. Automatic assessment of teamwork was investigated by Ahuja et al. (2020a), who attempted to determine (a) whether there were any characteristics common to the online discussion behaviors displayed by high-performing vs non-high-performing student team members, and (b) whether high-performing vs non-high-performing student team members shared any teamwork-exogenous attributes. The authors found that the features of team member communication that best predicted team member performance were sentence length and the number of words that contributed to the team’s discussion.
MOOCs Four papers ( ) were wholly concerned with MOOCs, which are such a special context that the papers were grouped together. Kulkarni et al. (2013) reported on large online classes where peer assessment showed high correspondence with staff assessments. Three experiments were performed to improve grading accuracy. Giving students feedback about their grading biases increased accuracy. Short feedback snippets provided more qualitative peer feedback. A data-driven approach was introduced that highlighted high-variance items for improvement. Rubrics that used a parallel sentence structure, unambiguous wording and well-specified dimensions had lower variance. Algorithms for estimating and correcting for grader biases and reliabilities were developed by Piech et al. (2013), showing significant improvement in peer grading
accuracy on real data with 63,199 peer grades. They related grader biases and reliabilities to other student factors such as student engagement and performance as well as commenting style. An AI system for a MOOC-for-credit course to address both scale and endorsement was implemented by Joyner (2018). Students in the online course achieved comparable learning outcomes, reported a more positive student experience and identified AI-equipped programming problems as the primary contributor to their experiences. Sciarrone and Temperini (2020) presented a web-based system that simulated a MOOC class. This allowed teachers to experiment with different pedagogic strategies based on peer assessment. The teacher could observe the dynamics of the simulated MOOC, based on a modified version of the K-NN algorithm. A first trial of the system produced promising results.
Strategic and Rogue Reporting This sub-category had three papers ( ), two of which had similarities. Kumar et al. (2020) used the Moodle workshop tool for anonymous peer assessment and comparison with teacher assessment across 14 campuses. Moodle workshops are a very basic peer-assessment tool, providing nothing more than a way for students and instructors to view the reviews done by student peers, and so are not AI assisted. Eighty percent reliability was found. Strategic behavior in peer assessment was considered by Stelmakh et al. (2021), especially when peers were in competition with each other. In the latter case, assessors might be incentivized to misreport evaluations in order to improve their own final standing. The authors offered a statistical model for identifying such outliers which had strong detection power. Similarly, Badea and Popescu (2022) used a hybrid approach to mitigate rogue review behavior, whether due to laziness, malevolence, retaliation or dishonesty. A mechanism was proposed combining automatic labeling of suspicious reviews with manual analysis of content by the teacher. In addition, dedicated prompts were displayed to the students, providing specific recommendations for revising potentially rogue reviews. The results of a pilot study were reported.

Analyzing student feedback

This area had 19 papers ( ). Most of these concerned the Analysis of Feedback ( 14 papers), generally post hoc but sometimes with a view to predicting future feedback. Considerably smaller sub-categories were concerned with Automated Feedback (3 papers) and Adaptive Comparative Judgment ( 2 papers).
Analysis of Feedback Fourteen papers (18%) reported on the analysis of student feedback. Four focused on review accuracy. Nakayama et al. (2020) discussed the best number of peers to give evaluations to each other, related to the student’s proficiency and assessment capability. The number of peers assigned to the same evaluation job was controlled from three to 50 in six steps using a 10-point scale. All parameters of the models gradually decreased with the number of peers. A multi-dimensional quality control algorithm for peer assessments and text information was developed by Li et al. (2020b). The user’s behavior, comment text information and other elements were combined together. The frame was a log-linear model leading to a gradient descent algorithm. When compared with traditional algorithms, the model performed better. Badea and Popescu (2020) described LearnEval and applied it to project-based learning scenarios. Each student was modeled on competence, involvement and assessment abilities. A scores
module involving visualization was incorporated. However, evaluation was only through student perceptions. Three different systems for analyzing peer comments were used by Huang et al. (2023), classifying peer comments in terms of cognitive content and affective state. The Bidirectional Encoder Representations from Transformers (BERT) model had the best results and improved feedback with significantly reduced student burnout. Individuals who received more suggestive feedback experienced a greater reduction in emotional exhaustion. By contrast, when receiving more negative feedback and/or reinforcement without guidance, learners tended to have a worse emotional experience and demonstrated poorer self-learning behavior.
Eight papers focused on review helpfulness and problem detection. Xiong and Litman (2010) developed a system to automatically identify problem localization in peer feedback. Regular Expression Features, Domain Lexicon Features, Syntactic Features and Overlapping-window Features were all deployed. The model significantly outperformed baseline. Structural features, review unigrams and meta-data were useful in automatically predicting peer review helpfulness according to Xiong and Litman (2011). Xiong et al. (2012) then applied a combination of data mining and natural language processing to automatically detect a lack of helpful elements in peer feedback. Then a model was constructed using Weka to detect target feedback features (e.g., localization information and concrete solutions). Reviews were automatically coded for these feedback features. Helpful feedback in an affective context was positive, motivating and encouraging according to Selmi et al. (2014), while unhelpful feedback was negative, bullying and demeaning. They proposed an approach using natural language processing techniques and machine learning to predict the helpfulness of given affective feedback for a learner based on the feedback content and the learner’s affective state. The Naïve-Bayes algorithm provided the best performance. According to Rashid et al. (2022), quality feedback focused on detecting problems, providing suggestions or pointing out where changes needed to be made. They found students were likely to find a review helpful if a suggestion was provided along with the identified problem. Detection of problems in reviews was also pursued by Xiao et al. (2022). They tried several machine-learning and neural network models, finding that their proposed new algorithm was as or more efficient. Saccardi et al. (2023) designed a system for identifying students’ group work problems which addressed feedback on teamwork, rather than feedback on an artifact produced by an individual or a team. E-Mate was a virtual agent incorporating visualization that provided initial feedback on the assessment. Automated evaluation of review helpfulness was investigated by Liu et al. (2023), with the help of deep learning models and natural language processing techniques. The study evaluated the performance of self-training in predicting the helpfulness of peer reviews. Also, an advanced self-training framework was proposed by tailoring knowledge distillation and noise injection to further improve model performance.
Two papers concerned the quality of elaborated feedback. Patchan et al. (2016) tested an updated theoretical model including a broad set of features and considered not only students’ likelihood of implementing a comment but also the quality of their revisions. They analyzed 7,500 feedback comments and each comment was coded for the presence of praise, a problem description, a suggested solution, localization, focus (i.e., low prose, high prose, substance), implementation and revision quality. Only two feedback
features increased students’ likelihood of implementation (overall praise and localization), while several reduced it (mitigating praise, solutions and high-prose comments). Three conditions were then compared by Patchan et al. (2017): only rating accountability, only feedback accountability, or both rating and feedback accountability. Peer ratings and peer feedback were coded. Constructing helpful comments had a broad influence on peer assessment and consistent ratings were grounded in this commenting. It should be noted that there is a fine line between feedback analysis (in this section) and Enhancing Individual Reviews. If feedback analysis is instant, and reviewers can see it before submitting a review, it can help reviewers to improve their reviews. This might be considered a “formative” use of feedback analysis. If it is instead presented to the instructor as a way of assessing reviewer effectiveness, then it is being used “summatively” to analyze the feedback.
Automated Feedback Disappointingly few papers ( ) focused on truly automated feedback, and none were of recent origin. A system for evaluating and reporting the presence of solutions in feedback at the sentence level was described by Nguyen et al. (2016). Better feedback was triggered with higher precision leading to better solutions. Using data from Expertiza and Scaffolded Writing and Rewriting in the Discipline (SWoRD) (two collaborative web-based learning applications), meta-reviews or reviews of reviews were discussed by Ramachandran et al. (2017). They evaluated feedback quality which triggered further development of feedback. The model yielded gains from baseline. Similarly, Nguyen et al. (2017) developed a system that automatically provided formative feedback on students’ feedback comments, which enhanced the quality of feedback and made it more specific.
Adaptive Comparative Judgment (ACJ) There were two papers in this sub-category . Demonacos and Barber (2019) explored ACJ as a medium for peer assessment. ACJ is a marking protocol in which the assessor compares two artifacts and chooses a “winner”. Repeated judgements and a sorting algorithm allow marks to be derived from the rank order of scripts. Feedback can be added to each script. In this case study each student gave feedback to ten others. Students were inconsistent with one another and with staff assessment. A hierarchical marking scheme and explicit feedback guidelines were recommended. ACJ was also trialed by Ellison (2023)-avoiding rubrics but encouraging assessment by comparing different pieces of work. However, improvements in attainment were not measured.

Facilitating instructor oversight

Four papers addressed a variety of topics. “Free riding” was defined by Chiu et al. (2020) as exploiting another’s work or taking credit for work done by others without contributing to a team project. An online assessment system for individual scores (OASIS) was designed to reduce student perceptions of free riding, including: contractual commitment, team discussion, median peer assessment of each member’s contribution, assessment revision opportunities, conditional teacher participation and final appeal. Students in India and Hong Kong participated. Negative findings came from larger groups, lower individual monitoring of individuals and greater competence differences between members. Students who valued team projects more than others experienced fewer free riders. A tool called PuzzleMe was described by Wang et al. (2021), which
delivered live peer testing and live peer code review. Live peer testing could improve students’ code robustness by allowing them to create and share lightweight tests with peers. Live peer code review could improve code understanding by intelligently grouping students to maximize meaningful code reviews. However, the evaluation was very brief. Khosravi et al. (2021) described learner sourcing, via an adaptive system called RiPPLE, which had been used in more than 50 courses with over 12,000 students. The paper offered data-driven reflections and lessons learned. Dhull et al. (2022) focused on finding an assignment of evaluators to submissions that maximized evaluators’ expertise subject to the constraint of strategy-proofness. Several polynomial-time algorithms for strategyproof assignment along with assignment-quality guarantees were developed and successfully trialed.

Peer assessment systems

Readers interested in this topic ( 10 papers, ) are also advised to consult Ocampo and Panadero (2023), who review a large number of peer assessment systems including many well-known ones. However, many of these did not have AI components.
Six papers reported systems labeled with catchy acronyms. Wang et al. (2012) introduced EduPCR, in which students peer reviewed programs written by other students. Teachers assessed and gave scores to students based on their performance in writing, reviewing and revising programs and their adherence to a peer code review process. When used in two courses there were significant attainment improvements. Student perceptions were also positive. Use of the Peergrade tool was reported by Sharma and Potey (2018), in which the entire process of learners’ assignment submission, peer assessment, feedback to peers, reviews and assessment reports for the teacher was completely automated. Student perceptions showed of learners agreed that the feedback provided by their peers was useful. The IPAC tool was introduced by Garcia-Souto (2019), which featured: customizable assessment criteria, a range of feedback to students, easy access by students (integrating with Moodle) and feedback being anonymous. IPAC software was used by different courses. He et al. (2019) proposed a novel cognitive diagnosis model named Peer-Assessment Cognitive Diagnosis Framework (PACDF)-a probabilistic graphical model characterized not only the relationships between real scores and scores given by peer assessment, but also the relationship between examinees’ skill proficiency and problem mastery. Then a sampling algorithm predicted the examinees’ performance. The authors adopted a Monte Carol Markov Chain sampling algorithm to estimate the parameters of the model. Experimental results show that PACDF could quantitatively explain and analyze skill proficiencies of examinees. Ravikiran (2020) also discussed auto grading and peer assessment tools (Peer Grader and Peer Studio) to handle rogue reviews and peer review improvement using natural language processing. However, the evaluation was weak. G-PAT, a tool to support group projects, was introduced by Tiew et al. (2021). A web services approach was used so that students and instructors could access the service from anywhere and anytime. Students could customize the question as they liked. Student perceptions were very positive.
The four remaining papers reported different aspects. Thus, Hsia et al. (2016) reported on peer assessment in dance classes. An online peer-feedback system was developed to compare the effects of different modes of online peer-feedback on students’ dance skills
performance, learning motivation, self-efficacy, peer review quality, peer assessment correctness and online learning behaviors. A 12-week experiment was conducted comparing videos with peer comments, videos with peer ratings and videos with peer ratings plus peer comments. The latter group provided better feedback and were most aligned with teacher scores. In the system proposed by Thamizhkanal and Kumar (2020), preprocessing and noise removal was done with the help of filtering, normalization and compression. Then internal and external segmentation was deployed. Identification of a letter in the answer script was done by convolutional neural networks. Evaluation of answers was done by a simple neural network. An experiment comparing test types was in favor of the new system.
Ahuja et al. (2020b) applied various machine learning algorithms to data from the CATME system regarding the interactions of first year college students using a messaging platform when collaborating online on a team project, seeking to predict measures of team member performance. A wide range of algorithms were used. Text messages of online team member exchanges could discriminate high performing from non-high performing team members. The analysis of peer assessment interactions and phenomena could benefit from social network analysis according to Djelil et al. (2021). They applied a graphlet-based method to a dataset collected during in-class courses integrating a peer assessment platform. Students developed a positive tendency towards adopting the peer assessment process and engaged gradually with well-balanced roles, even though initially they chose mostly to be assessed by teachers and more likely by peers they knew.
Now we present a Case Study which aligns both with the areas of the Theoretical Framework and with the areas of the Scoping Review (although it only touches upon five of the six areas).

Case study

Here we present a case study using a tool called RiPPLE (Khosravi et al., 2019) that transforms student learning into an active, personalized, and social journey. At its core, RiPPLE empowers instructors and students to collaboratively curate a wealth of high-quality learning materials. These resources then serve to tailor content recommendations to students, aligning with their individual mastery levels. Through RiPPLE, students are not just passive recipients of information but active creators, honing vital skills in content creation, critical analysis, and effective communication within a supportive community. Instructors, on the other hand, find a scalable way to enrich their courses with diverse practice materials, significantly reducing the traditional time investment required. Finally, academic departments benefit by offering customized educational experiences at minimal costs. Central to achieving these ambitious objectives, as depicted in Fig. 2, are the dynamic, interconnected activities of content creation, peer review, and personalized practice sessions-each carefully orchestrated by instructors and enhanced with AI-driven insights and real-time feedback.
To achieve these goals, as shown in Fig. 2, RIPPLE engages students in a trio of intertwined activities of creation, review and personalized practice. These activities are conducted under the guidance of instructors, complemented by AI-driven real-time feedback and personalized instructions. Each is outlined in detail below.
Fig. 2 Overview of the RiPPLE platform

Creation

RiPPLE actively engages students in the creation of diverse and innovative study resources, a process also known as learnersourcing (Khosravi et al., 2023). It empowers students to take an active role in their learning and fosters a deeper understanding of the subject matter as they contribute to the educational resources available to their peers. The platform supports the creation of a wide range of resource types such as mul-tiple-choice questions, worked examples, flashcards, hotspots, as well as short and longanswer questions. This diversity allows students to engage with the content in various formats, which enhances the richness of the resources available on the platform and help cater to different learning preferences.
The concept of learnersourcing has been well-studied in the literature as an approach that enables students to produce high-quality educational materials. Previous studies, including those by Abdi et al. (2021), have shown that when students are tasked with creating learning resources, they often produce content that meets rigorous judgmental and statistical criteria, which highlights the ability of students to contribute meaningfully to their learning environment and to produce resources that are not only useful for their peers but also align with academic standards. Moreover, creating study resources has been linked to improved comprehension, and retention of content. When students engage in the process of creating study resources, they must deeply engage with the material, which leads to better internalization and understanding. This active learning process encourages critical thinking, and allows students to explore the content from different perspectives to reinforce their grasp of the subject matter.

Review

The process of peer assessment is integral to the validation and enhancement of stu-dent-created educational resources within the RiPPLE platform. Upon the creation
of resources by students, these materials are subjected to a peer review mechanism whereby peers evaluate the content’s quality and relevance. The peer assessment process fosters a collaborative learning environment, where students learn to apply academic standards in a practical context, further reinforcing their learning of the course content.
Once peer assessments are completed, resources that are deemed to meet or exceed the established criteria are approved and integrated into a central repository. This repository serves as a curated collection of study materials accessible to all students, thereby enriching the overall learning experience. Conversely, resources identified as lacking in effectiveness are returned to their original authors, accompanied by constructive feedback. This feedback is instrumental in guiding the authors through the process of revising and improving their work, after which they are encouraged to resubmit their enhanced resources for another round of evaluation. By engaging students in both the creation and assessment of learning materials, they get actively involved in a dynamic educational ecosystem that emphasizes peer collaboration, continuous feedback, and the iterative refinement of knowledge.

Personalized practice

As students actively engage with approved learning resources, RiPPLE’s AI algorithm continually evaluates their mastery across different course topics. This process is a critical component of the platform’s adaptive learning engine, which leverages the collected data to calculate each student’s knowledge level on each course topic to be able to personalize the educational experience for each student and recommend targeted learning resources that are specifically aligned with their individual learning needs and current comprehension. This approach not only helps to reinforce foundational knowledge but also facilitates more effective learning by guiding students through content that is most pertinent to their academic development at any given time (Abdi et al., 2020).

Instructor monitoring

To enhance the reliability and accuracy of the peer review process, RiPPLE incorporates an AI spot-checking algorithm. This approach plays a critical role in ensuring that the peer assessments are consistent and that the quality of the student-created resources remains high. Specifically, the AI algorithm is designed to identify resources that have been flagged as inappropriate or that exhibit a high degree of variability in peer evaluations. These are the resources most likely to benefit from further scrutiny and expert judgment. This identification process allows instructors to optimally focus their time and expertise on reviewing the resources that are most in need of their attention, rather than spending time on materials that have already been consistently rated as high-quality by peers (Darvishi et al., 2022a). This combination of AI-driven oversight and expert intervention represents a critical component of RiPPLE’s strategy to balance the scalability of peer assessment while maintaining the integrity of the learning materials within the platform, ensuring that students have access to reliable, high-quality resources. Furthermore, it reinforces the educational value of the peer review process. Students are aware that their work may be subject to additional scrutiny by both AI and their instructors, which can motivate them to engage more deeply with the material and produce higherquality resources.

Abstract

Al assistance During the creation phase, generative AI is seamlessly integrated into the platform to provide immediate feedback on the resources submitted by students. This AIdriven feedback mechanism includes a comprehensive summary that interprets the primary objective of the resource, ensuring that the content aligns with the intended learning outcomes. Additionally, the feedback highlights the resource’s strengths, acknowledging well-executed elements that contribute to effective learning as well as suggestions for specific areas for improvement, offering actionable recommendations that can elevate the content’s overall effectiveness and clarity. In the review phase, generative AI is once again employed to deliver real time constructive feedback, designed to identify potential areas where the review could be strengthened, such as offering more detailed analysis, providing clearer justifications, or suggesting alternative perspectives. For personalized practice, RiPPLE’s AI algorithms assess students’ abilities in each course topic, recommending resources that are most suitable for their current knowledge level.

RiPPLE has been adopted in over 250 subject offerings across a range of disciplines including Medicine, Pharmacy, Psychology, Education, Business, IT and Biosciences. Over 50,000 students have created over 175,000 learning resources and over 680,000 peer evaluations rating the quality of these resources. The adaptive engine of RiPPLE has been used to recommend over three million personalized resources to students. In the sections below, we discuss how RiPPLE leverages five of the six areas outlined in our proposed framework (as it is itself a Peer Assessment System).

Assigning peer assessors

In RiPPLE, the peer assessment process is carefully designed to ensure fairness and quality in evaluating student-created resources. The system operates under a dou-ble-blind protocol, meaning that both the creators and assessors of the resources remain anonymous to each other. The prioritization of resources for assessment is based on their submission time, with earlier submissions receiving precedence in the review queue. The number of assessors assigned to each resource is flexible and determined by the course instructor. They set a range specifying the minimum and maximum number of assessors required. When assessors are in agreement about the quality of a resource, a decision is finalized after reaching the minimum number of assessments. However, in instances of disagreement among assessors, the system may extend the process up to the maximum number of reviews stipulated by the instructor before reaching a decision.
A key component of this process is the use of advanced machine learning algorithms such as the graph-based trust propagation approach (Darvishi et al., 2021) to gauge the reliability of each assessor’s evaluations. The system aims to include at least one assessor deemed reliable in the mix for assessing each resource. This enhances the credibility and accuracy of the peer review process, ensuring that each resource is evaluated with a balance of diverse perspectives and expert judgment. Through these mechanisms, RiPPLE not only maintains the integrity of the peer assessment process but also actively involves students in critical evaluation, fostering a deeper engagement and understanding.

Individual reviews

Individual reviews within RiPPLE are structured around a comprehensive rubric (see Fig. 3), tailored to assess various dimensions of resource quality. The rubric incorporates multiple criteria, each specifically aligned with the nature of the resource being reviewed. For example, in the case of multiple-choice questions, one criterion assesses the quality and relevance of the options provided, while in worked examples the rubric examines the clarity and comprehensiveness of the intermediate steps. These criteria are carefully designed to ensure a thorough evaluation of each resource type, addressing aspects unique to their format and purpose. After applying the criteria, students engage in a peer feedback process, which involves Identifying and articulating the positive aspects of the resource, suggesting areas of improvement and providing any additional comments that could enhance the resource’s value. Upon completing the feedback, students make a judgment on the overall quality of the resource. This assessment is pivotal in determining whether a resource should be approved for use or rejected. Additionally, students are asked to rate their confidence in their assessment, providing insight into their self-evaluation skills and understanding of the review criteria.
Integration of Generative AI in Feedback RiPPLE has enhanced its review process by incorporating generative AI technology. This assists students in formulating their peer feedback. It offers immediate, constructive responses to submitted reviews, insights into areas needing improvement and strategies for enhancing the quality of peer evaluations. This feedback aims to not only enrich the learning experience but also ensure a
Fig. 3 The rubric and feedback form used for peer assessment in RiPPLE
higher standard of peer review by providing additional objective insights. Figure 4 shows an example of the type of feedback provided by the generative AI. The upper section of the AI feedback component emphasizes that “the feedback provided below is only a guide and may be inaccurate. Please use your domain knowledge to assess whether the feedback is correct.” This statement serves as a reminder to students about the potential for inaccuracies, often referred to as ‘hallucinations’, in responses from large models. It underscores the necessity for students to apply their own evaluative judgment in conjunction with the AI’s feedback. This section is followed by the AI introducing itself, offering suggestions for improvement. Additionally, it provides space for students to evaluate the feedback both quantitatively and qualitatively.
The AI-feedback on peer feedback feature currently has been used for one semester and has accumulated 4,553 ratings. It has achieved a commendable average rating of 4.4 out of 5 , with a substantial of students assigning a 4 – or 5 -star rating, revealing its considerable utility among the majority. However, of users expressed neutrality with a 3 -star rating, while found it less beneficial, assigning a 1 – or 2 -star rating. Positive feedback, such as a student noting, “This feedback was very helpful as it gave me the answer I was looking for but didn’t know how to put into words,” underscores the AI’s capability in assisting students to articulate their thoughts more effectively. A representative 3 -star, neutral comment was: “Dot point 2 would be good to improve my feedback and make it more specific. I think the AI did not quite understand dot points 1 and 3 , as
Fig. 4 The AI-feedback on peer feedback interface in RiPPLE
I feel that I clarified these in my feedback.” This reflects a balanced view where students discern the utility of certain aspects of the feedback while critically evaluating others. A sample of negative feedback: “The suggestions for improvement were the same wording as my response with no explanation for why this needed improvement” highlights instances where the feedback was seen as redundant or uninformative. These varied perspectives illuminate both the strengths and areas of potential refinement for this feature.

Deriving peer grades/feedback

RiPPLE assigns each resource for evaluation to multiple reviewers (moderators), which then requires a consensus approach by optimally integrating the decisions made by multiple people towards an accurate final decision. In assessing the quality of student submissions based on scores from multiple assessors, we analyzed 18 inference models across five established categories of consensus approaches on data collected via RiPPLE (Darvishi et al., 2022a). The first utilized summary statistics like mean or median (e.g., Purchase & Hamer, 2018). The second leveraged historical performance or self-evaluation data to estimate student competence, a method often found in adaptive educational systems. The third applied probabilistic consensus techniques, assessing student reliability based on their previous reviews, a strategy effective in crowdsourcing systems (e.g., Raykar et al., 2010). The fourth employed text analysis to determine review reliability based on the comments provided, a technique successfully used in identifying reliable reviews (e.g., Kim et al., 2006). The fifth merged methods from the previous four, selected for the proven effectiveness of ensemble consensus approaches. Our findings based on data collected from 2,141 undergraduate students across five courses in creating 12,803 resources and 77,297 peer reviews revealed that review quality varied significantly, with a tendency for students to overrate submissions. Consequently, simple statistical measures like mean and median are inadequate for identifying low-quality resources. The results suggested that integrating advanced probabilistic and text analysis methods for assessing reviewer reliability and review quality enhanced performance. However, there was a clear need for continued instructor oversight and training to help students craft effective and dependable reviews (Darvishi et al., 2022a).
RiPPLE employs a graph-based trust propagation approach (Darvishi et al., 2021) to infer the reliability of each moderator’s evaluation. The final decision regarding the resource is determined by calculating a weighted average of the ratings provided by peer evaluators. Figure 5 illustrates how the evaluations and inferred outcomes are communicated to both the author and the moderators. The process begins with authors and moderators being prompted to evaluate the usefulness of the feedback received from each review. They are then asked to indicate whether they agree or disagree with the inferred outcome and to provide any additional feedback. According to platform data, only of the responses submitted by users disputed the inferred outcome (Darvishi et al., 2022b), indicating a high level of trust and accuracy in the system’s decision-making process.

Instructor oversight

RiPPLE is designed with a key principle in mind, which is to empower instructors with actionable analytics and insights and to help them to maximize the efficient use of their
  1. Please vote on the helpfulness of each moderation
Fig. 5 RiPPLE interface displaying reviews, outcome and soliciting feedback
limited time. This is exemplified in the instructor landing page (Fig. 6). The upper section of this page presents an array of statistics, offering insights into both overall and the previous week’s activities. This includes data on study sessions, and the number of resources created, evaluated, and responded to. The page then highlights the completion status of the latest assessment round, alongside weekly updates on student achievements and the most popular resources. To optimize instructor time, a section in RiPPLE is named ‘Suggested Actions.’ This section presents four primary types of recommendations alerting instructors to (1) inspect flagged resources that are greatly beneficial, (2) review evaluations flagged as ineffective, (3) review students who are underperforming significantly, and (4) remind students who have not completed tasks to do so. The bottom of the page includes an analytical toolbox that provides answers to a list of questions in relation to students’ performance and engagement. For each of the questions, instructors can set the start and end date for data being reported to view class-level or individual-level trends using various visualization types (e.g., bar charts, box plots).
Figure 7 displays the interface used for examining resources that might be incorrect or ineffective. Broadly, it utilizes a combination of human-centric metrics (such as significant disparities in reviews or a high ratio of down-votes compared to upvotes) and data-centric metrics (like assessment items with a low discrimination index or distractors where the commonly chosen answer differs from the author’s intended one). These metrics classify resources into high, medium, low or no review priority. To assist instructors in understanding why a resource has been marked for
Fig. 6 Instructor landing page in RiPPLE
Fig. 7 Interface displaying high-priority resources for review in RiPPLE
review, RiPPLE provides comparisons both in absolute and relative terms, exemplified by statements like, “The level of disagreement in student peer ratings for this resource is 2.8 times the course average”. To date, instructors have acted on 11,681 resources flagged for inspection. Of these, 10,463 resources had their outcomes
revised, demonstrating the spot-checking algorithm’s effectiveness in identifying resources that require instructor oversight.
Figure 8 showcases RiPPLE’s interface for peer feedback exploration, providing instructors with a robust tool to manage and evaluate peer reviews. This interface enables instructors to specify a date range and search for feedback based on word count and specific topics. Furthermore, leveraging the techniques outlined by Darvishi, et al. (2022b), instructors can apply machine learning algorithms to identify reviews that lack constructive suggestions, potentially flagging them as ineffective. Once a set of reviews is selected, instructors have several actionable options: they can up-vote a review to acknowledge its quality, down-vote it while providing feedback on its shortcomings, remove the review entirely-ensuring it has no influence on the final decision and does not count towards the reviewer’s assessment requirements-or simply ignore it, thereby excluding it from future searches. To date, instructors have taken action on 19,301 instances of peer feedback, with the most frequent action, occurring in of cases, being the removal of ineffective comments.

Case study summary

The RiPPLE case study demonstrates the effective use of advanced machine learning and AI to refine the peer assessment process within educational frameworks. Table 1 summarizes the various approaches discussed throughout the case study, grouped by different framework areas.
By employing graph-based trust propagation, RiPPLE ensures the reliability of assessors, thus enhancing the credibility and accuracy of peer reviews with diverse and expert insights. The platform enhances individual review processes by integrating generative AI for immediate, constructive feedback, while also allowing for a critical evaluation of this feedback. For assigning grades and feedback, RiPPLE adopts a consensus approach among moderators, relying on a sophisticated trust model to infer reliability and make balanced decisions. Instructor oversight is facilitated through targeted recommendations in the “Suggested Actions” section and a comprehensive peer feedback exploration interface, enabling instructors to effectively manage review quality and student engagement.
Fig. 8 Interface for the inspection and moderation of peer feedback in RiPPLE
Table 1 Summary of Examples from Ripple in Framework Areas
Framework area Examples from RiPPLE
Assigning Peer Assessors Advanced machine learning, including graph-based trust propagation, assesses assessor reliability. This enhances the credibility and accuracy of the peer review process
Enhancing Individual Reviews RiPPLE integrates generative AI to enhance peer feedback, providing immediate, constructive suggestions for improvement. The AI feedback agent introduces itself, proposes enhancements, warns students of potential inaccuracies, and provides students the ability to provide feedback on its helpfulness
Deriving Peer Grades/Feedback RiPPLE requires consensus among multiple moderators to finalize resource evaluations. Currently, RiPPLE uses a graph-based trust propagation approach (Darvishi et al., 2021) that infers the reliability of each moderator. The final decision is derived from a weighted average of the ratings given by peer evaluators
Facilitating Instructor Oversight “Suggested Actions” section offers recommendations for instructors to inspect flagged resources, review ineffective evaluations, identify underperforming students, and remind students of incomplete tasks. The peer feedback exploration interface allows for detailed feedback analysis, offering tools to up-vote quality reviews, down-vote or remove ineffective feedback, and filter reviews for efficiency, with significant instructor engagement in managing peer feedback quality
Table 2 Number of Papers in Areas and Sub-Categories
Area Number of papers Sub-category Number of Subcategory papers
Assigning Peer Assessors 4
Enhancing Individual Reviews 7
Deriving Peer Grades/Feedback 35 Automated Assessment 4
Diversity of Grades and Feedback 7
Calibration 5
Fuzzy Logic and Decision-Making 8
Teamwork Effectiveness 4
MOOCs 4
Strategic and Rogue Reporting 3
Analyzing Student Feedback 19 Analysis of Feedback 14
Automated Feedback 3
Adaptive Comparative Judgment 2
Facilitating Instructor Oversight 4
Peer Assessment Systems 10
Total 79

Discussion and interpretation of the whole paper Summary

This paper proposed a theoretical framework for artificial intelligence in peer assessment with six areas: Assigning Peer Assessors, Enhancing Individual Reviews, Deriving Peer Grades/Feedback, Analyzing Student Feedback, Facilitating Instructor Oversight, and Peer Assessment Systems. These six then served as an organizing structure for the following rapid scoping review, within which some areas were further split into sub-categories (Table 2 below summarizes this). A case study followed which further illuminated five of the six areas. The vast majority of the 79 papers in the review found artificial intelligence improved peer assessment. Only two papers
found AI outcomes only as good as or worse than non-AI outcomes. Of course, this might have been expected given publication bias and does not necessarily reflect what practitioners will experience when implementing in their own classrooms.
Within the areas, Deriving Peer Grades/Feedback was by far the most populated. However, most papers focused on dealing with diversity in grades and feedback or with applications of fuzzy logic. Within each area, the main takeaways can be derived from the text. In Diversity of Grades and Feedback, for example, we find that AI can identify weak points in the review and the reviewer, identify problem statements in peer assessments and analyze the nature of peer helpfulness. It can also deal with strategic reporting by comparing peer assessments from more than one reviewer to determine if any assessment is an outlier. AI can weigh the effects of the number of peer assessors, as more reduces reliability but increases validity, irrespective of the burden of effort on students. AI can also explore the assessment of open-ended items to seek higher reliability.
Automated assessment, calibration and team effectiveness seemed under-researched. Similarly in the second largest area Analyzing Student Feedback, the focus was very much on the analysis of feedback with a view to equalizing its quality, while truly automated feedback had very few papers. Improving the Assessment Process and Enhancing Individual Reviews were next largest. Assigning Peer Assessors and Facilitating Instructor Oversight were tied for least populated category. This picture suggests that AI is making progress in peer assessment, but there is still a considerable way to go, particularly with automated assignment and automated assessment. Calibration and teamwork effectiveness also merit further research.
Turning to the case study using the RIPPLE tool, this enables instructors to partner with their students to create pools of high-quality learning resources, each of which are peer assessed and used to recommend personalized content to students based on their mastery level. RIPPLE engages students in a trio of intertwined activities: creation, review and personalized practice. It generates a variety of resource types, including multiple-choice questions, worked examples, flashcards, hotspots and short and long answer questions. The peer assessments are structured around a comprehensive rubric. All activities are conducted under the guidance of instructors, complemented by AIdriven real-time feedback and personalized instructions. The AI feedback component emphasizes that the feedback provided is only a guide and may be inaccurate and asks students to assess whether the feedback is correct.

Strengths and limitations

Our theoretical framework of six areas is of course not the only one possible. Further, despite our attempts to exclude papers only reporting simple digital technology in favor of those reporting artificial intelligence, the boundary was not always clear and subjective interpretation may have played a part. We only searched one database (although we considered this adequate for a scoping review) and used only one coder (albeit with extensive expertise in this area). Sample size in the traditional sense varied considerably, from 55 to over 1,000 . However, some studies reported the number of feedback comments (up to 408,000 ) or peer grades (up to 63,200 ) analyzed or number of students participating over several years of implementation (up to 12,000 ). The number of students in MOOCs could be very large. Case studies were also frequent, and while they might be
illuminative, larger quasi-experimental studies are also needed. Samples were mostly of convenience.
Some papers reported only student perceptions, but most had more objective data and some had both. However, many studies only reported on the application of AI to one subject or course, and its utility in other subjects or courses was unknown (although a few studies did explore transfer to other subjects). A majority of studies came from English-speaking Western countries (a consequence of limiting the survey to Englishlanguage papers), with China and Taiwan also well represented, but relatively few from other countries or cultures, so the wider applicability to other countries is uncertain. Cultural differences might affect the applicability of AI in other regions. For instance, AI might be better received in China, where traditionally there has been less emphasis on students interrogating the teacher.
Many of these studies compared intervention periods to baseline periods for the same cohort and control groups were present in some cases but a relative rarity. Almost no studies considered the issue of long-term follow-up-did any cognitive or attainment gains endure, especially when AI-fostered peer assessment was no longer operational? Or was there a generalized positive effect from first exposure to AI, in that students might begin experimenting with it successfully of their own volition? We could of course have had tighter inclusion criteria, and only offered a review on a small number of papers, but felt that this would not do justice to the field. The issue of possible publication bias is also of importance, since irrespective of implementation quality, practitioners might not find published research findings reflected in real life.

Opportunities and challenges for researchers and practitioners For researchers

We have noted above that automated assignment, automated assessment, calibration and teamwork effectiveness merit further research. For example, with respect to automated assessment, in addition to grading and/or giving feedback on the quality of each assessor’s feedback in a group setting in order to weight subsequent assessments (e.g., Kalella, 2009; Hoang et al., 2022), could such grades/feedback be fed back to the assessors on a regular basis, in order that they could see their competence increasing and hopefully be motivated to become persistently better assessors? It is important that the opaqueness of AI does not disengage students from active participation in developing their own futures. Regarding methodology, case studies should be accompanied by studies with a more substantial sample size (the median was about ), data collected on objective measures as well as perceptions to afford triangulation of data sources, control groups used wherever possible to eliminate the possibility of Hawthorne Effects, followup built into the research design to explore transfer and generalization whether positive or negative, transfer across subjects investigated since many studies were subject-specific and transfer across countries investigated given possible cross-cultural differences.
Future studies may need to use multiple methods to assess different aspects of the AI/ peer assessment interface. For example, Lin et al. (2024) deployed a four-step approach to reliability detection: recurrent convolutional neural networks (RCNN) were used to detect grade consistency, bidirectional encoder representations from transformers (BERT) were used to detect text originality, long short-term memory (LSTM) was
used to detect grade-text consistency and automated grading was designed with the BERT-RCNN model. It is also worth remembering that generative AI has its dangers. For example, Oviedo-Trespalacios et al. (2023) analyzed ChatGPT’s safety-related advice and raised misuse concerns. ChatGPT appeared not to favor contents based on their factuality or reliability. Populations with lower literacy and education were at higher risk of consuming unreliable content.

For practitioners

New and better developed applications appear by the day, which is both exciting for practitioners but also enormously confusing. How can they possibly keep up? Practitioners need to focus on applications which have been demonstrated to have effects by reputable research findings, which probably means that very new applications will not have had time to generate such research. Advertising should be scrutinized with great care. Word-of-mouth recommendations need to be accepted only from colleagues with substantial history of actual implementation. For example, Lin (2022) introduced IdiomsTube (https://www.idiomstube.com), a language learning tool for facilitating the learning of English idiomatic expressions from YouTube videos. This automatically: (1) assesses the speech rate and lexical difficulty level of any learner-chosen English-captioned YouTube video, (2) generates a range of vocabulary-building and revision tasks (e.g., fill-in-the-blanks, the spelling game hangman, pronunciation, flashcards), and (3) recommends YouTube videos based on learners’ individual learning progress. Plagiarism detectors for student writing are now being replaced by a new generation of AI detectors which may defeat some of the potentially malign influences of AI (e.g., Rumi, intended to detect the use of tools like ChatGPT in student essay writing – https://www.rumiessay. com), although they may themselves have inherent inaccuracies and problems. We hope that this paper will give practitioners an overview of the rapidly developing field which will help them keep their heads above water.

Conclusion

While AI clearly has advantages, there are also disadvantages, one of which is the lack of transparency. Most AI applications cannot explain how they have reached a decision. Even an expert cannot explain how they produced their outputs. Consequently, their reliability always seems to be in question. As AI develops, its quality in general is likely to improve, but that does not mean it has improved in whatever application is being deployed. Educational institutions typically have a long lead-in time, so many instructors may find themselves using elderly AI. Nonetheless, this paper demonstrates that AI in peer assessment has already achieved a good deal (for example, in Diversity of Grades/ Feedback) and has enormous future potential (especially if currently relatively neglected areas like Automated Assignment, Automated Assessment and Calibration become the focus of more research). In general, it seems that AI can produce results as good as real students and instructors, at least in research studies. Whether this will be the case in every practical application is another issue. The goal of peer assessment is to enable formative and/or summative assessment with as much reliability as instructor assessment while developing metacognitive and critical thinking skills in the participants. It is of course a key question as to whether the introduction of AI enhances these goals.
A good deal of research seems more interested in the time-saving for instructor aspects rather than the added value. Much further research work remains to be done.

Acknowledgements

Not applicable.

Author contribution

Topping was the lead writer for the Introduction and Conclusion, Gehringer and his team were principally responsible for the Scoping Review, and Khosravi was the lead writer for the Case Study. All sections were then reviewed by all authors to ensure consensual agreement on the text.

Funding

This research received no external funding.

Availability of data and materials

The articles referred to in this paper are all freely available in the public domain.

Declarations

Competing interests

The authors declare no competing interests.
Received: 2 January 2024 Accepted: 10 October 2024
Published online: 21 January 2025

References

References in the scoping review asterisked *

Abdi, S., Khosravi, H., Sadiq, S., & Demartini, G. (2021). Evaluating the quality of learning resources: A learnersourcing approach. IEEE Transactions on Learning Technologies, 14(1), 81-92. https://doi.org/10.1109/TLT.2021.3058644
Abdi, S., Khosravi, H., Sadiq, S., & Gasevic, D. (2020). Complementing educational recommender systems with open learner models. In Proceedings of the Tenth International Conference on Learning Analytics & Knowledge (pp. 360-365). https://doi.org/10.1145/3375462.3375520
*Ahuja, R., Khan, D., Symonette, D., Pan, S., Stacey, S., & Engel, D. (2020a). Towards the automatic assessment of student teamwork. In Companion Proceedings of the 2020 ACM International Conference on Supporting Group Work (pp. 143-146). https://doi.org/10.1145/3323994.3369894
*Ahuja, R., Khan, D., Tahir, S., Wang, M., Symonette, D., Pan, S., & Engel, D. (2020b). Machine learning and student performance in teams. In: Bittencourt, I., Cukurova, M., Muldner, K., Luckin, R., Millán, E. (Eds.) Artificial Intelligence in Education. AIED 2020. Lecture Notes in Computer Science, 12164. Springer, Cham. https://doi.org/10.1007/978-3-030-52240-7_55
*Anaya, A. R., Luque, M., Letón, E., & Hernández-del-Olmo, F. (2019). Automatic assignment of reviewers in an online peer assessment task based on social interactions. Expert Systems, 36, e12405. https://doi.org/10.1111/exsy. 12405
*Babik, D., Stevens, S. P., Waters, A., & Tinapple, D. (2020). The effects of dispersion and reciprocity on assessment fidelity in peer-review systems: A simulation study. IEEE Transactions on Learning Technologies, 13(3), 580-592. https://doi. org/10.1109/TLT.2020.2971495
*Babo, R., Rocha, J., Fitas, R., Suhonen, J., & Tukiainen, M. (2021). Self and peer e-assessment: A study on software usability. International Journal of Information and Communication Technology Education (IJICTE), 17(3), 68-85. https://doi.org/ 10.4018/IJICTE.20210701.oa5
*Badea, G., & Popescu, E. (2020). Supporting students by integrating an open learner model in a peer assessment platform. In: Kumar, V., & Troussas, C. (Eds.) Intelligent Tutoring Systems. ITS 2020. Lecture Notes in Computer Science, 12149. Springer, Cham. https://doi.org/10.1007/978-3-030-49663-0_14
*Badea, G., & Popescu, E. (2022). A hybrid approach for mitigating learners’ rogue review behavior in peer assessment. In: Crossley, S., & Popescu, E. (Eds.) Intelligent Tutoring Systems. ITS 2022. Lecture Notes in Computer Science, 13284. Springer, Cham. https://doi.org/10.1007/978-3-031-09680-8_3
*Bawabe, S., Wilson, L., Zhou, T., Marks, E., & Huang, J. (2021). The UX factor: Using comparative peer review to evaluate designs through user preferences. Proceedings of the ACM on Human-Computer Interaction, 5 (CSCW2), Article No: 476, 1-23. https://doi.org/10.1145/3479863
*Burrell, N., & Schoenebeck, G. (2021). Measurement integrity in peer prediction: A peer assessment case study. In Proceedings of the 24th ACM Conference on Economics and Computation 369-389. https://doi.org/10.1145/3580507. 3597744
*Campos, D. G., et al. (2024). Screening smarter, not harder: A comparative analysis of machine learning screening algorithms and heuristic stopping criteria for systematic reviews in educational research. Educational Psychology Review. https://doi.org/10.1007/s10648-024-09862-5
*Capuano, N., Loia, V., & Orciuoli, F. (2017). A fuzzy group decision making model for ordinal peer assessment. IEEE Transactions on Learning Technologies, 10(2), 247-259. https://doi.org/10.1109/TLT.2016.2565476
*Castro, M. S. O., Mello, R. F., Fiorentino, G., Viberg, O., Spikol, D., Baars, M., & Gašević, D. (2023). Understanding peer feedback contributions using natural language processing. In:Viberg, O., Jivet, I., Muñoz-Merino, P., Perifanou, M.,
Papathoma, T. (Eds.), Responsive and Sustainable Educational Futures. EC-TEL 2023. Lecture Notes in Computer Science, vol 14200. Springer, Cham. https://doi.org/10.1007/978-3-031-42682-7_27
*Chai, K. C., & Tay, K. M. (2014). A perceptual computing-based approach for peer assessment. In 9th International Conference on System of Systems Engineering (SOSE), Glenelg, SA, Australia, 60-165. https://doi.org/10.1109/SYSOSE.2014. 6892481.
*Chai, K. C., Tay, K. M., & Lim, C. P. (2015). A new fuzzy peer assessment methodology for cooperative learning of students. Applied Soft Computing, 32, 468-480. https://doi.org/10.1016/j.asoc.2015.03.056
*Chiu, M. M., Woo, C. K., Shiu, A., Liu, Y., & Luo, B. X. (2020). Reducing costly free-rider effects via OASIS. International Journal of Comparative Education and Development, 22(1), 30-48. https://doi.org/10.1108/IJCED-07-2019-0041
*Cho, K., & Schunn, C. D. (2007). Scaffolded writing and rewriting in the discipline: A web-based reciprocal peer review system. Computers & Education, 48(3), 409-426. https://doi.org/10.1016/j.compedu.2005.02.004
Craig, C. D., & Kay, R. (2021). Examining peer assessment in online learning for higher education – A systematic review of the literature. Proceedings of ICERI2021 Conference, 8th-9th November 2021.
Darvishi, A., Khosravi, H., Rahimi, A., Sadiq, S., & Gašević, D. (2022a). Assessing the quality of student-generated content at scale: A comparative analysis of peer-review models. IEEE Transactions on Learning Technologies, 16(1), 106-120. https://doi.org/10.1109/TLT.2022.3229022
Darvishi, A., Khosravi, H., & Sadiq, S. (2021). Employing peer review to evaluate the quality of student generated content at scale: A trust propagation approach. In Proceedings of the Eighth ACM Conference on Learning@ Scale (pp. 139-150). https://doi.org/10.1145/3491140.3528286
*Darvishi, A., Khosravi, H., Sadiq, S., & Gašević, D. (2022b). Incorporating AI and learning analytics to build trustworthy peer assessment systems. British Journal of Educational Technology, 53(4), 844-875. https://doi.org/10.1111/bjet. 13233
*Demonacos, C., Ellis, S., & Barber, J. (2019). Student peer assessment using Adaptive Comparative Judgment: Grading accuracy versus quality of feedback. Practitioner Research in Higher Education, 12(1), 50-59.
*Dhull, K., Jecmen, S., Kothari, P., & Shah, N. B. (2022). Strategyproofing peer assessment via partitioning: The price in terms of evaluators’ expertise. In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing, 10(1), 53-63. https://doi.org/10.1609/hcomp.v10i1.21987
*Djelil, F., Brisson, L., Charbey, R., Bothorel, C., Gilliot, J. M., & Ruffieux, P. (2021). Analysing peer assessment interactions and their temporal dynamics using a graphlet-based method. In: De Laet, T., Klemke, R., Alario-Hoyos, C., Hilliger, I., & Ortega-Arranz, A. (Eds.), Technology-Enhanced Learning for a Free, Safe, and Sustainable World. EC-TEL 2021. Lecture Notes in Computer Science, 12884. Springer, Cham. https://doi.org/10.1007/978-3-030-86436-1_7
*EI Alaoui, M., El Yassini, K., & Ben-Azza, H. (2018). Enhancing MOOCs peer reviews validity and reliability by a fuzzy coherence measure. In Proceedings of the 3rd International Conference on Smart City Applications, 2018, Article No.: 57, 1-5. https://doi.org/10.1145/3286606.3286834
*Ellison, C. (2023). Effects of adaptive comparative judgement on student engagement with peer formative feedback. Practitioner Research in Higher Education, 15(1), 24-35.
*Fu, Q. K., Lin, C. J., & Hwang, G. J. (2019). Research trends and applications of technology-supported peer assessment: A review of selected journal publications from 2007 to 2016. Journal of Computers in Education, 6, 191-213. https:// doi.org/10.1007/s40692-019-00131-x
*Garcia-Souto, M. P. (2019). Making assessment of group work fairer and more insightful for students and time-efficient for staff with the new IPAC software. In INTED2019 Proceedings (pp. 8636-8641), IATED, Valencia, Spain. https://doi. org/10.21125/inted.2019.2154
*Hamer, J., Kell, C., & Spence, F. (2005). Peer assessment using Aropä. Ninth Australasian Computing Education Conference (ACE2007), Ballarat, Victoria, Australia, February 2007. https://www.academia.edu/2878638/Peer_assessment_ using_arop%C3%A4?auto=download&email_work_card=download
*He, Y., Hu, X., & Sun, G. (2019). A cognitive diagnosis framework based on peer assessment. In Proceedings of the ACM Turing Celebration Conference-China, Article No: 78, 1-6. New York, NY. Association for Computing Machinery. https://doi.org/10.1145/3321408.3322850
Helden, G. V., Van Der Werf, V., Saunders-Smits, G. N., & Specht, M. M. (2023). The use of digital peer assessment in higher education – An umbrella review of literature. IEEE Access, 11, 22948-22960. https://doi.org/10.1109/ACCESS.2023. 3252914
*Hernández-González, J., & Herrera, P. J. (2023). On the supervision of peer assessment tasks: An efficient instructor guidance technique. in IEEE Transactions on Learning Technologies, https://doi.org/10.1109/TLT.2023.3319733.
*Hoang, L. P., Le, H. T., Van Tran, H., Phan, T. C., Vo, D. M., Le, P. A., & Pong-Inwong, C. (2022). Does evaluating peer assessment accuracy and taking it into account in calculating assessor’s final score enhance online peer assessment quality? Education and Information Technologies, 27, 4007-4035. https://doi.org/10.1007/s10639-021-10763-1
*Hsia, L. H., Huang, I., & Hwang, G. J. (2016). Effects of different online peer-feedback approaches on students’ performance skills, motivation and self-efficacy in a dance course. Computers & Education, 96, 55-71. https://doi.org/10. 1016/j.compedu.2016.02.004
Hua, X., Nikolov, M., Badugu, N., & Wang, L. (2019). Argument mining for understanding peer reviews. arXiv:1903.10104. https://doi.org/10.48550/arXiv.1903.10104
*Huang, C., Tu, Y., Han, Z., Jiang, F., Wu, F., & Jiang, Y. (2023). Examining the relationship between peer feedback classified by deep learning and online learning burnout. Computers & Education, 207, 104910. https://doi.org/10.1016/j. compedu.2023.104910
Hwang, G. J., Xie, H., Wah, B. W., & Gašević, D. (2020). Vision, challenges, roles and research issues of Artificial Intelligence in Education. Computers and Education: Artificial Intelligence, 1, 100001. https://doi.org/10.1016/j.caeai.2020. 100001
*Jónás, T., Tóth, Z. E., & Árva, G. (2018). Applying a fuzzy questionnaire in a peer review process. Total Quality Management & Business Excellence, 29(9-10), 1228-1245. https://doi.org/10.1080/14783363.2018.1487616
*Joyner, D. (2018). Intelligent evaluation and feedback in support of a credit-bearing MOOC. In Artificial Intelligence in Education: 19th International Conference, AIED 2018, London, UK, June 27-30, 2018, Proceedings, Part II 19 (166-170). Springer International Publishing. https://doi.org/10.1007/978-3-319-93846-2_30
*Kalella, T., Lehtonen, T., Luostarinen, P., Riitahuhta, A., & Lanz, M. (2009). Introduction and evaluation of the peer evaluation tool. New Pedagogy, 287-292
Khosravi, H., Kitto, K., & Williams, J. J. (2019). RiPPLE: A crowdsourced adaptive platform for recommendation of learning activities. Journal of Learning Analytics, 6(3), 91-105. https://doi.org/10.18608/jla.2019.63.12
Khosravi, H., Demartini, G., Sadiq, S., & Gasevic, D. (2021). Charting the design and analytics agenda of learnersourcing systems. In LAK21: 11th International Learning Analytics and Knowledge Conference, 32-42. https://doi.org/10. 1145/3448139.3448143
Khosravi, H., Denny, P., Moore, S., & Stamper, J. (2023). Learnersourcing in the age of AI: Student, educator and machine partnerships for content creation. Computers and Education: Artificial Intelligence, 5, 100151. https:// doi.org/10.1016/j.caeai.2023.100151
Kim, S. M., Pantel, P., Chklovski, T., & Pennacchiotti, M. (2006). Automatically assessing review helpfulness. In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (pp. 423-430).
*Knight, S., Leigh, A., Davila, Y. C., Martin, L. J., & Krix, D. W. (2019). Calibrating assessment literacy through benchmarking tasks. Assessment and Evaluation in Higher Education, 44(8), 1121-1132. http://hdl.handle.net/10453/ 130201
*Kulkarni, C., Wei, K. P., Le, H., Chia, D., Papadopoulos, K., Cheng, J., Koller, D., & Klemmer, S. R. (2013). Peer and self assessment in massive online classes. ACM Transactions on Computer-Human Interaction., 20(6), 331-31. https:// doi.org/10.1145/2505057
*Kumar, K., Sharma, B., Khan, G. J., Nusair, S., & Raghuwaiya, K. (2020). An exploration on effectiveness of anonymous peer assessment strategy in online formative assessments. In 2020 IEEE Frontiers in Education Conference (FIE), Uppsala, Sweden. 1-5. IEEE. https://doi.org/10.1109/FIE44824.2020.9274162.
*Lauw, H. W., Lim, E. P., & Wang, K. (2007). Summarizing review scores of “unequal” reviewers. In Proceedings of the 2007 SIAM International Conference on Data Mining (pp. 539-544). Society for Industrial and Applied Mathematics. https://doi.org/10.1137/1.9781611972771.58
Li, H. L., Xiong, Y., Hunter, C. V., Xiuyan Guo, X. Y., & Tywoniw, R. (2020a). Does peer assessment promote student learning? A meta-analysis. Assessment & Evaluation in Higher Education, 45(2), 193-211. https://doi.org/10.1080/ 02602938.2019.1620679
*Li, P., Yin, Z., & Li, F. (2020). Quality control method for peer assessment system based on multi-dimensional information. In: Wang, G., Lin, X., Hendler, J., Song, W., Xu, Z., & Liu, G. (Eds.), Web Information Systems and Applications. WISA 2020. Lecture Notes in Computer Science, 12432. Springer, Cham. https://doi.org/10.1007/978-3-030-60029-7_17
Lin, P. (2022). Developing an intelligent tool for computer-assisted formulaic language learning from YouTube videos. ReCALL, 34(2), 185-200. https://doi.org/10.1017/S0958344021000252
Lin, Z., Yan, H. B., & Zhao, L. (2024). Exploring an effective automated grading model with reliability detection for largescale online peer assessment. Journal of Computer Assisted Learning. https://doi.org/10.1111/jcal. 12970
*Liu, C., Doshi, D., Bhargava, M., Shang, R., Cui, J., Xu, D., & Gehringer, E. (2023). Labels are not necessary: Assessing peerreview helpfulness using domain adaptation based on self-training. In Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2023) 173-183. https://doi.org/10.18653/v1/2023.bea-1.15
*Madan, M., & Madan, P. (2015). Fuzzy viva assessment process through perceptual computing. In 2015 Annual IEEE India Conference (INDICON), New Delhi, India, 1-6. IEEE. https://doi.org/10.1109/INDICON.2015.7443831.
*Masaki , U., Nguyen, D. T., & Ueno, M. (2019). Maximizing accuracy of group peer assessment using item response theory and integer programming. The Japanese Society for Artificial Intelligence, 33. https://doi.org/10.11517/pjsai.JSAI2 019.0_4H2E503
Mendoza, L. B., Ortega, M. P., Hormaza, J. M., Soto, S. V. (2020). Trends the use of artificial intelligence techniques for peer assessment. ICEMIS’20: Proceedings of the 6th International Conference on Engineering & MIS 2020, September 2020. Article No.: 101, Pages 1-7. https://doi.org/10.1145/3410352.3410837
Misiejuk, K., & Wasson, B. (2023). Learning analytics for peer assessment: A scoping review. In: Noroozi, O., & De Wever, B. (Eds.), The Power of Peer Learning. Springer, Champaign, IL. https://doi.org/10.1007/978-3-031-29411-2_2
*Nakayama, M., Sciarrone, F., Uto, M., &Temperini, M. (2020). Impact of the number of peers on a mutual assessment as learner’s performance in a simulated MOOC environment using the IRT model. 2020 24th International Conference Information Visualisation (IV). Melbourne, Australia, 2020, 486-490. https://doi.org/10.1109/IV51561.2020.00084
*Ngu, A. H., Shepherd, J., & Magin, D. (1995). Engineering the “Peers” system: The development of a computer-assisted approach to peer assessment. Research and Development in Higher Education, 18, 582-587.
*Nguyen, H., Xiong, W., & Litman, D. (2016). Instant feedback for increasing the presence of solutions in peer reviews. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, San Diego, California. 6-10.
*Nguyen, H., Xiong, W., & Litman, D. (2017). Iterative design and classroom evaluation of automated formative feedback for improving peer feedback localization. International Journal of Artificial Intelligence in Education, 27, 582-622. https://doi.org/10.1007/s40593-016-0136-6
Ocampo, J. C. G., & Panadero, E. (2023). Web-based peer assessment platforms: What educational features influence learning, feedback and social interaction? In: O. Noroozi and B. de Wever (Eds.), The Power of Peer Learning. Champaign, IL: Springer. https://doi.org/10.1007/978-3-031-29411-2_8
Oviedo-Trespalacios, O., Peden, A. E., Cole-Hunter, T., Costantini, A., Haghani, M., Rod, J. E., Kelly, S., Torkamaan, H., Tariq, A., Newton, J. D. A., Gallagher, T., Steinert, S., Filtness, A. J., & Reniers, G. (2023). The risks of using ChatGPT to obtain common safety-related information and advice. Safety Science, 167, 106244. https://doi.org/10.1016/j.ssci.2023. 106244
Ouyang, F., Zheng, L., & Jiao, P. (2022). Artificial intelligence in online higher education: A systematic review of empirical research from 2011 to 2020. Education and Information Technologies, 27(6), 7893-7925. https://doi.org/10.1007/ s10639-022-10925-9
*Patchan, M. M., Schunn, C. D., & Clark, R. J. (2017). Accountability in peer assessment: Examining the effects of reviewing grades on peer ratings and peer feedback. Studies in Higher Education, 43(12), 2263-2278. https://doi.org/10.1080/ 03075079.2017.1320374
*Patchan, M. M., Schunn, C. D., & Correnti, R. J. (2016). The nature of feedback: How peer feedback features affect students’ implementation rate and quality of revisions. Journal of Educational Psychology, 108(8), 1098. https://doi.org/10. 1037/edu0000103
*Petkovic, D., Okada, K., Sosnick, M., Iyer, A., Zhu, S., Todtenhoefer, R., & Huang, S. (2012). A machine learning approach for assessment and prediction of teamwork effectiveness in software engineering education. In 2012 Frontiers in Education Conference Proceedings, Seattle, WA. 1-3. IEEE. https://doi.org/10.1109/FIE.2012.6462205.
*Piech, C., Huang, J., Chen, Z., Do, C., Ng, A., & Koller, D. (2013). Tuned models of peer assessment in MOOCs. arXiv preprint arXiv:1307.2579. https://doi.org/10.48550/arXiv.1307.2579
Purchase, H., & Hamer, J. (2018). Peer-review in practice: Eight years of Aropä. Assessment & Evaluation in Higher Education, 43(7), 1146-1165. https://doi.org/10.1080/02602938.2018.1435776
*Ramachandran, L., Gehringer, E. F., & Yadav, R. K. (2017). Automated assessment of the quality of peer reviews using natural language processing techniques. International Journal of Artificial Intelligence in Education, 27, 534-581. https:// doi.org/10.1007/s40593-016-0132-x
*Rao, D. H., Mangalwede, S. R., & Deshmukh, V. B. (2017). Student performance evaluation model based on scoring rubric tool for network analysis subject using fuzzy logic. In 2017 International Conference on Electrical, Electronics, Communication, Computer, and Optimization Techniques (ICEECCOT), Mysuru, India (pp. 1-5). IEEE. https://doi.org/10. 1109/ICEECCOT.2017.8284623.
*Rashid, M. P., Gehringer, E. F., Young, M., Doshi, D., Jia, Q., & Xiao, Y. (2021). Peer assessment rubric analyzer: An NLP approach to analyzing rubric items for better peer-review. 2021 19th International Conference on Information Technology Based Higher Education and Training (ITHET), Sydney, Australia, 2021, 1-9. https://doi.org/10.1109/ITHET 50392.2021.9759679.
*Rashid, M. P., Xiao, Y., & Gehringer, E. F. (2022). Going beyond” Good Job”: Analyzing helpful feedback from the student’s perspective. Paper presented at the International Conference on Educational Data Mining (EDM) (15th, Durham, United Kingdom, Jul 24-27, 2022). ERIC Number: ED624053.
*Ravikiran, M. (2020). Systematic review of approaches to improve peer assessment at scale. arXiv preprint arXiv:2001. 10617. https://doi.org/10.48550/arXiv.2001.10617
Raykar, V. C., Yu, S., Zhao, L. H., Valadez, G. H., Florin, C., Bogoni, L., & Moy, L. (2010). Learning from crowds. Journal of Machine Learning Research, 11(4), 1297-1322.
*Rico-Juan, J. R., Gallego, A. J., & Calvo-Zaragoza, J. (2019). Automatic detection of inconsistencies between numerical scores and textual feedback in peer-assessment processes with machine learning. Computers & Education, 140, 103609. https://doi.org/10.1016/j.compedu.2019.103609
*Russell, A. R. (2013). The evolution of Calibrated Peer Review. Trajectories of Chemistry Education Innovation and Reform, Chapter 9, pp 129-143. American Chemical Society Symposium Series, Vol. 1145. https://doi.org/10.1021/bk-20131145.ch009
*Saarinen, S., Krishnamurthi, S., Fisler, K., & Tunnell Wilson, P. (2019). Harnessing the wisdom of the classes: Classsourcing and machine learning for assessment instrument generation. In Proceedings of the 50th ACM Technical Symposium on Computer Science Education, 606-612. https://doi.org/10.1145/3287324.3287504
*Saccardi, I., Veth, D., & Masthoff, J. (2023). Identifying students’ group work problems: Design and field studies of a supportive peer assessment. Interacting with Computers. https://doi.org/10.1093/iwc/iwad044
*Sciarrone, F., & Temperini, M. (2020). A web-based system to support teaching analytics in a MOOC’s simulation environment. In 2020 24th International Conference Information Visualisation (IV), Melbourne, Australia (491-495). IEEE. https://doi.org/10.1109/IV51561.2020.00085.
*Selmi, M., Hage, H., & Aïmeur, E. (2014). Opinion Mining for predicting peer affective feedback helpfulness. In International Conference on Knowledge Management and Information Sharing, 2, 419-425. SCITEPRESS. https://doi.org/10. 5220/0005158704190425
*Sharma, D., & Potey, M. (2018). Effective learning through peer assessment using Peergrade tool. In 2018 IEEE Tenth International Conference on Technology for Education (T4E), Chennai, India, 114-117. IEEE. https://doi.org/10.1109/ T4E.2018.00031.
*Shishavan, H. B., & Jalili, M. (2020). Responding to student feedback: Individualising teamwork scores based on peer assessment. International Journal of Educational Research Open, 1, 100019. https://doi.org/10.1016/j.ijedro.2020. 100019
*Siemens, G., Marmolejo-Ramos, F., Gabriel, F., Medeiros, K., Marrone, R., Joksimovic, S., & de Laat, M. (2022). Human and artificial cognition. Computers and Education: Artificial Intelligence, 3, 100107. https://doi.org/10.1016/j.caeai.2022. 100107
*Stelmakh, I., Shah, N. B., & Singh, A. (2021). Catch me if I can: Detecting strategic behaviour in peer assessment. In Proceedings of the AAAI Conference on Artificial Intelligence, 35(6), 4794-4802. https://doi.org/10.1609/aaai.v35i6.16611
*Thamizhkkanal, M. R., & Ambeth Kumar, V. D. (2020). A neural based approach to evaluate an answer script. In: Hemanth, D., Kumar, V., Malathi, S., Castillo, O., & Patrut, B. (Eds.) Emerging Trends in Computing and Expert Technology. COMET 2019. Lecture Notes on Data Engineering and Communications Technologies, vol 35. Springer, Cham. https://doi. org/10.1007/978-3-030-32150-5_122
*Tiew, H. B., Chua, F. F., & Chan, G. Y. (2021). G-PAT: A group peer assessment tool to support group projects. In 2021 7th International Conference on Research and Innovation in Information Systems (ICRIIS), Johor Bahru, Malaysia, 1-6. https://doi.org/10.1109/ICRIIS53035.2021.9617037.
Topping, K. J. (2023). Peer- and self-assessment. In: volume 9, Assessment and Accountability, Ed. T. Hopfenbeck. (pp. 79-88). In: Tierney, R. J., Rizvi, F., & K. Erkican, K. (Eds.), International Encyclopaedia of Education (fourth edition, volume 13). Oxford: Elsevier. https://doi.org/10.1016/B978-0-12-818630-5.09021-7
Topping, K. J. (2024). Improving thinking about thinking in the classroom: What works for enhancing metacognition. Routledge.
*Wang, A. Y., Chen, Y., Chung, J. J. Y., Brooks, C., & Oney, S. (2021). PuzzleMe: Leveraging peer assessment for in-class programming exercises. Proceedings of the ACM on Human-Computer Interaction, 5, Issue CSCW2, Article No: 415, 1-24. https://doi.org/10.1145/3479559
*Wang, Y., Li, H., Feng, Y., Jiang, Y., & Liu, Y. (2012). Assessment of programming language learning based on peer code review model: Implementation and experience report. Computers & Education, 59(2), 412-422. https://doi.org/10. 1016/j.compedu.2012.01.007
*Wang, Y. Q., Liu, B. Y., Zhang, K., Jiang, Y. S., & Sun, F. Q. (2019a). Reviewer assignment strategy of peer assessment: Towards managing collusion in self-assignment. Proceedings of the 2nd International Conference on Social Science, Public Health and Education (SSPHE 2018). https://doi.org/10.2991/ssphe-18.2019.75
*Wang, R., Wei, S., Ohland, M. W., & Ferguson, D. M. (2019b). Natural language processing system for self-reflection and peer-evaluation. In the Fourth North American International Conference on Industrial Engineering and Operations Management, Toronto, Canada, October 23-25, 2019 (pp. 229-238).
*Wei, S., Wang, R., Ohland, M. W., & Nanda, G. (2020). Automating anonymous processing of peer evaluation comments. In 2020 ASEE Virtual Annual Conference Content Access. https://doi.org/10.18260/1-2–35615
*Wu, C., Chanda, E., & Willison, J. (2010). SPARKPlus for self-and peer assessment on group-based honours’ research projects. The Education Research Group of Adelaide (ERGA) conference 2010: The Changing Face of Education, 24-25 September, 2010. https://hdl.handle.net/2440/61612
*Xiao, Y., Y., Gao, Y., Yue, C. H., & Gehringer, E. (2022). Estimating student grades through peer assessment as a crowdsourcing calibration problem. 20th International Conference on Information Technology Based Higher Education and Training (ITHET), Antalya, Turkey, 2022, pp. 1-9, https://doi.org/10.1109/ITHET56107.2022.10031993.
*Xiao, Y., Zingle, G., Jia, Q., Akbar, S., Song, Y., Dong, M., & Gehringer, E. (2020a). Problem detection in peer assessments between subjects by effective transfer learning and active learning. The International Conference on Educational Data Mining (EDM) (13th, Online, Jul 10-13, 2020). ERIC Number: ED608055
*Xiao, Y., Zingle, G., Jia, Q., Shah, H. R., Zhang, Y., Li, T., & Gehringer, E. F. (2020b). Detecting problem statements in peer assessments. arXiv preprint arXiv:2006.04532. https://doi.org/10.48550/arXiv.2006.04532
Xiong, W., & Litman, D. (2010). Identifying problem localization in peer-review feedback. In V. Aleven, J. Kay, & J. Mostow (Eds.), Intelligent tutoring systems. ITS 2010. Lecture notes in computer science, 6095. Berlin: Springer. https://doi.org/ 10.1007/978-3-642-13437-1_93
*Xiong, W., & Litman, D. (2011). Automatically predicting peer-review helpfulness. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Portland, Oregon, 502-507.
*Xiong, W., Litman, D., & Schunn, C. (2012). Natural language processing techniques for researching and improving peer feedback. Journal of Writing Research, 4(2), 155-176. https://doi.org/10.17239/jowr-2012.04.02.3
*Xiong, Y., Schunn, C. D., & Wu, Y. (2023). What predicts variation in reliability and validity of online peer assessment? A large-scale cross-context study. Journal of Computer Assisted Learning, 39(6), 2004-2024. https://doi.org/10.1111/ jcal. 12861
Zheng, L. Q., Zhang, X., & Cui, P. P. (2020). The role of technology-facilitated peer assessment and supporting strategies: A meta-analysis. Assessment & Evaluation in Higher Education, 45(3), 372-386. https://doi.org/10.1080/02602938.2019. 1644603
*Zingle, G., Radhakrishnan, B., Xiao, Y., Gehringer, E., Xiao, Z., Pramudianto, F., Arnav, A. (2019). Detecting suggestions in peer assessments. International Conference on Educational Data Mining (EDM) (12th, Montreal, Canada, Jul 2-5, 2019). ERIC Number: ED599201.
*Zong, Z., & Schunn, C. D. (2023). Does matching peers at finer-grained levels of prior performance enhance gains in task performance from peer review? International Journal of Computer-Supported Collaborative Learning, 18, 425-456. https://doi.org/10.1007/s11412-023-09401-4

Publisher’s Note

Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

  1. ©The Author(s) 2025. Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http:// creativecommons.org/licenses/by/4.0/.