مصادر التغذية الراجعة في كتابة المقالات: التغذية الراجعة الناتجة عن الأقران أم الناتجة عن الذكاء الاصطناعي؟ Feedback sources in essay writing: peer-generated or AI-generated feedback?

المجلة: International Journal of Educational Technology in Higher Education، المجلد: 21، العدد: 1
DOI: https://doi.org/10.1186/s41239-024-00455-4
تاريخ النشر: 2024-04-11

مصادر التغذية الراجعة في كتابة المقالات: التغذية الراجعة الناتجة عن الأقران أم الناتجة عن الذكاء الاصطناعي؟

سيد كاظم بني هاشم , نافيسة تغيزاده كرمان , أوميد نوروزي , جوونغ مون و هندريك دراخسلر

*المراسلة:
سيد كاظم بني هاشم
kazem.banihashem@ou.nl
¹الجامعة المفتوحة، هيرلين، هولندا
جامعة فاغينينغن و
البحث، فاغينينغن، هولندا
جامعة فردوسي في مشهد، مشهد، إيران
جامعة ألاباما، توسكالوسا، الولايات المتحدة الأمريكية
معهد ديبي ليبنيز، جامعة غوته، فرانكفورت، ألمانيا

الملخص

تم تقديم التغذية الراجعة من الأقران كاستراتيجية تعلم فعالة، خاصة في الفصول الكبيرة حيث يواجه المعلمون أعباء عمل عالية. ومع ذلك، بالنسبة للمهام المعقدة مثل كتابة مقال جدلي، قد لا يقدم الأقران تغذية راجعة عالية الجودة بدون دعم، حيث يتطلب ذلك مستوى عالٍ من المعالجة المعرفية، ومهارات التفكير النقدي، وفهم عميق للموضوع. مع التطورات الواعدة في الذكاء الاصطناعي (AI)، وخاصة بعد ظهور ChatGPT، هناك جدل عالمي حول ما إذا كانت أدوات الذكاء الاصطناعي يمكن اعتبارها مصدرًا جديدًا للتغذية الراجعة أم لا للمهام المعقدة. الإجابة على هذا السؤال ليست واضحة تمامًا بعد حيث توجد دراسات محدودة وفهمنا لا يزال مقيدًا. في هذه الدراسة، استخدمنا ChatGPT كمصدر للتغذية الراجعة لمهام كتابة المقالات الجدلية للطلاب وقارنّا جودة التغذية الراجعة الناتجة عن ChatGPT مع تغذية الأقران الراجعة. كانت مجموعة المشاركين تتكون من 74 طالب دراسات عليا من جامعة هولندية. تم تنفيذ الدراسة على مرحلتين: أولاً، تم جمع بيانات مقالات الطلاب أثناء كتابتهم لمقالات حول أحد المواضيع المعطاة؛ بعد ذلك، تم جمع بيانات التغذية الراجعة من الأقران والتغذية الراجعة الناتجة عن ChatGPT من خلال إشراك الأقران في عملية التغذية الراجعة واستخدام ChatGPT كمصدر للتغذية الراجعة. تم استخدام نظامي ترميز بما في ذلك أنظمة الترميز لتحليل المقالات وأنظمة الترميز لتحليل التغذية الراجعة لقياس جودة المقالات والتغذية الراجعة. ثم تم استخدام تحليل MANOVA لتحديد أي تمييزات بين التغذية الراجعة الناتجة عن الأقران وChatGPT. بالإضافة إلى ذلك، تم استخدام ارتباط سبيرمان لاستكشاف الروابط المحتملة بين جودة المقالات والتغذية الراجعة الناتجة عن الأقران وChatGPT. أظهرت النتائج وجود فرق كبير بين التغذية الراجعة الناتجة عن ChatGPT والأقران. بينما قدم ChatGPT تغذية راجعة أكثر وصفًا تتضمن معلومات حول كيفية كتابة المقال، قدم الأقران تغذية راجعة تتضمن معلومات حول تحديد المشكلة في المقال. تشير النظرة العامة على النتائج إلى دور تكميلي محتمل لـ ChatGPT والطلاب في عملية التغذية الراجعة. فيما يتعلق بالعلاقة بين جودة المقالات وجودة التغذية الراجعة المقدمة من ChatGPT والأقران، لم نجد علاقة ذات دلالة عامة. تشير هذه النتائج إلى أن جودة المقالات لا تؤثر على جودة التغذية الراجعة من كل من ChatGPT والأقران. إن تداعيات هذه الدراسة قيمة، حيث تسلط الضوء على الاستخدام المحتمل لـ ChatGPT كمصدر للتغذية الراجعة، خاصة للمهام المعقدة مثل كتابة المقالات الجدلية.

ناقشنا النتائج وتعمقنا في التداعيات للبحوث المستقبلية والتطبيقات العملية في السياقات التعليمية.
الكلمات الرئيسية: التغذية الراجعة الناتجة عن الذكاء الاصطناعي، ChatGPT، كتابة المقالات، مصادر التغذية الراجعة، التعليم العالي، التغذية الراجعة من الأقران

المقدمة

تُعترف التغذية الراجعة كواحدة من أهم الأدوات لتعزيز التعلم (بني هاشم وآخرون، 2022). التعريف العام والمقبول جيدًا للتغذية الراجعة يراها كمعلومات يقدمها وكيل (مثل المعلم، أو الزميل، أو الذات، أو الذكاء الاصطناعي، أو التكنولوجيا) بشأن جوانب من أداء الفرد أو فهمه (مثل، هاتي وتيمبليرلي، 2007). تعمل التغذية الراجعة على تعزيز وعي الطلاب الذاتي بشأن نقاط قوتهم والمجالات التي تتطلب تحسينًا، من خلال تقديم خطوات قابلة للتنفيذ مطلوبة لتحسين الأداء (رامسون، 2003). الأدبيات مليئة بالعديد من الدراسات التي توضح التأثير الإيجابي للتغذية الراجعة على أبعاد متنوعة من رحلة تعلم الطلاب بما في ذلك زيادة الدافع (أميري يوسفي وجيلد، 2021)، وتعزيز المشاركة النشطة (تشانغ وهايلاند، 2022)، وتعزيز التنظيم الذاتي ومهارات ما وراء المعرفة (كالندر وآخرون، 2016؛ لابوهين وآخرون، 2010)، وإثراء عمق نتائج التعلم (غان وآخرون، 2021).
عادةً، كان المعلمون يتولون بشكل أساسي دور تقديم التغذية الراجعة، حيث يقدمون رؤى حول أداء الطلاب في مهام معينة أو فهمهم لموضوعات معينة (كونولد وآخرون، 2004). وقد وقع هذا المسؤولية بشكل طبيعي على عاتق المعلمين نظرًا لخبرتهم في الموضوع وقدرتهم على تقديم مدخلات بناءة (ديزمان وواترز، 2015؛ هولت-راينولدز، 1999؛ فاليرو هارو وآخرون، 2023). ومع ذلك، تم تحدي دور المعلمين كمقدمي تغذية راجعة في السنوات الأخيرة حيث شهدنا زيادة في أحجام الفصول بسبب التقدم السريع في التكنولوجيا والاستخدام الواسع للتقنيات الرقمية التي أدت إلى تعليم مرن وقابل للوصول (شي وآخرون، 2019). لقد ترجم النمو في أحجام الفصول إلى زيادة في عبء العمل على المعلمين، مما أدى إلى مأزق ذي صلة. لقد أثر هذا الوضع بشكل مباشر على قدرتهم على تقديم تغذية راجعة شخصية وفي الوقت المناسب لكل طالب، وهي قدرة واجهت قيودًا (إر وآخرون، 2021).
استجابةً لهذا التحدي، ظهرت حلول متنوعة، من بينها التغذية الراجعة من الأقران التي برزت كنهج تعليمي بديل واعد (إر وآخرون، 2021؛ قاو وآخرون، 2024؛ نوروزي وآخرون، 2023؛ كرمان وآخرون، 2024). تتضمن التغذية الراجعة من الأقران عملية يتولى فيها الطلاب دور مقدمي التغذية الراجعة بدلاً من المعلمين (ليو وكارلس، 2006). يمكن أن تضيف مشاركة الطلاب في التغذية الراجعة قيمة للتعليم بعدة طرق. أولاً وقبل كل شيء، تشير الأبحاث إلى أن الطلاب يتعمقون في تعلم أعمق وأكثر فعالية عندما يتخذون دور المقيمين، حيث يقومون بتقييم وتحليل مهام زملائهم بشكل نقدي (جيليان ودي ويفر، 2015؛ لي وآخرون، 2010). علاوة على ذلك، يمكن أن تعزز مشاركة الطلاب في عملية التغذية الراجعة وعيهم الذاتي التنظيمي، ومشاركتهم النشطة، ودافعهم للتعلم (مثل، أرجوداس وآخرون، 2016). أخيرًا، لا تحمل إدماج التغذية الراجعة من الأقران فقط القدرة على تخفيف عبء العمل على المعلمين بشكل كبير من خلال تحويل مسؤولياتهم من تقديم التغذية الراجعة إلى تسهيل عمليات التغذية الراجعة من الأقران، بل تعزز أيضًا بيئة تعلم ديناميكية حيث يكون الطلاب منخرطين بنشاط في رحلة التعلم (مثل، فاليرو هارو وآخرون، 2023).
على الرغم من مزايا التغذية الراجعة من الأقران، فإن تقديم تغذية راجعة عالية الجودة للأقران لا يزال يمثل تحديًا. تساهم عدة عوامل في هذا التحدي. أولاً وقبل كل شيء، يتطلب إنتاج
تغذية راجعة فعالة فهمًا قويًا لمبادئ التغذية الراجعة، وهو عنصر غالبًا ما يفتقر إليه الأقران (لاتيفي وآخرون، 2023؛ نوروزي وآخرون، 2016). علاوة على ذلك، فإن تقديم تغذية راجعة عالية الجودة هو مهمة معقدة بطبيعتها، تتطلب معالجة معرفية كبيرة لتقييم مهام الأقران بدقة، وتحديد المشكلات، واقتراح حلول بناءة (كينغ، 2002؛ نوروزي وآخرون، 2022). علاوة على ذلك، يتطلب تقديم تغذية راجعة قيمة مستوى كبير من الخبرة الخاصة بالمجال، والتي لا يمتلكها الطلاب بشكل متسق (القصاب وآخرون، 2018؛ كرمان وآخرون، 2022).
في الآونة الأخيرة، قدمت التطورات التكنولوجية، جنبًا إلى جنب مع ظهور مجالات مثل تحليلات التعلم (LA)، طرقًا واعدة لتحسين ممارسات التغذية الراجعة من خلال تسهيل التغذية الراجعة القابلة للتوسع، وفي الوقت المناسب، والشخصية (Banihashem et al., 2023; Deeva et al., 2021; Drachsler, 2023; Drachsler & Kalz, 2016; Pardo et al., 2019; Zawacki-Richter et al., 2019; Rüdian et al., 2020). ومع ذلك، كانت خطوة بارزة إلى الأمام في مجال تكنولوجيا التعليم هي ظهور أداة جديدة للذكاء الاصطناعي (AI) تُعرف باسم “ChatGPT”، والتي أثارت نقاشًا عالميًا حول إمكانياتها في التأثير بشكل كبير على نظام التعليم الحالي (Ray, 2023). لقد أدى تقديم هذه الأداة إلى بدء مناقشات حول الطرق الكبيرة التي يمكن أن يدعم بها الذكاء الاصطناعي الجهود التعليمية (Bond et al., 2024; Darvishi et al., 2024).
في سياق التغذية الراجعة، يقدم ChatGPT المدعوم بالذكاء الاصطناعي ما يُشار إليه بالتغذية الراجعة الناتجة عن الذكاء الاصطناعي (Farrokhnia et al.، 2023). بينما تشير الأدبيات إلى أن ChatGPT لديه القدرة على تسهيل ممارسات التغذية الراجعة (Dai et al.، 2023؛ Katz et al.، 2023)، فإن هذه الأدبيات محدودة جدًا وغالبًا ما تكون غير تجريبية، مما يجعلنا ندرك أن فهمنا الحالي لقدراته في هذا الصدد محدود للغاية. لذلك، نفتقر إلى فهم شامل لكيفية دعم ChatGPT لممارسات التغذية الراجعة بفعالية وإلى أي درجة يمكن أن يحسن من توقيت وتأثير وتخصيص التغذية الراجعة، والتي لا تزال محدودة بشكل ملحوظ في الوقت الحالي.
الأهم من ذلك، بالنظر إلى التحديات التي طرحناها لتغذية الأقران، فإن السؤال هو ما إذا كانت التغذية الراجعة التي يتم إنشاؤها بواسطة الذكاء الاصطناعي، وبشكل أكثر تحديدًا التغذية الراجعة المقدمة من ChatGPT، لديها القدرة على تقديم تغذية راجعة ذات جودة. مع أخذ ذلك في الاعتبار، هناك ندرة في المعرفة وفجوات بحثية بشأن مدى فعالية أدوات الذكاء الاصطناعي، وبشكل خاص ChatGPT، في تحسين جودة التغذية الراجعة مقارنة بتغذية الأقران التقليدية. ومن ثم، تهدف دراستنا إلى التحقيق في جودة التغذية الراجعة التي ينتجها ChatGPT في سياق كتابة المقالات ومقارنة جودتها بتلك التي ينتجها الطلاب.
تتمتع هذه الدراسة بإمكانية تقديم مساهمة كبيرة في الأدبيات الحديثة الموجودة حول إمكانيات الذكاء الاصطناعي، وبشكل خاص ChatGPT في التعليم. يمكن أن تسلط الضوء على جودة التعليقات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي مقارنة بالتعليقات التي ينتجها الأقران، بينما تعرض أيضًا جدوى أدوات الذكاء الاصطناعي مثل ChatGPT كآليات فعالة للتعليقات الآلية. علاوة على ذلك، يمكن أن تقدم نتائج هذه الدراسة رؤى حول تخفيف عبء العمل المتعلق بالتعليقات الذي يعاني منه المعلمون من خلال الاستخدام الذكي لأدوات الذكاء الاصطناعي (مثل Banihashem وآخرون، 2022؛ Er وآخرون، 2021؛ Pardo وآخرون، 2019).
ومع ذلك، قد يكون هناك جدل حول المبررات لإجراء هذه الدراسة في سياق كتابة المقالات المحدد. وفي معالجة هذا الاستفسار المحتمل، من الضروري تسليط الضوء على أن كتابة المقالات تُعتبر واحدة من أكثر المهام شيوعًا ولكنها معقدة للطلاب (ليونوكاس، 2020). هذه المهمة ليست خالية من التحديات، كما يتضح من مجموعة الأدبيات الواسعة التي تشير إلى أن الطلاب غالبًا ما يواجهون صعوبة في تلبية المتطلبات المرغوبة.
المعايير في تأليف مقالاتهم (على سبيل المثال، بلقيه وآخرون، 2021؛ نوروزي وآخرون، 2016؛ 2022؛ لطيفي وآخرون، 2023).
علاوة على ذلك، يعبر المعلمون في كثير من الأحيان عن عدم رضاهم عن عمق وجودة كتابة الطلاب للمقالات (لاتيفي وآخرون، 2023). وغالبًا ما يأسف هؤلاء المعلمون لأن ملاحظاتهم على المقالات تظل سطحية بسبب الوقت والجهد الكبيرين المطلوبين للتقييم النقدي وتقديم الملاحظات الفردية (نوروزي وآخرون، 2016؛ 2022). وللأسف، تمنعهم هذه القيود من التعمق في عملية التقييم (كيرمان وآخرون، 2022).
لذا، فإن توجيه الانتباه نحو مقارنة جودة التعليقات التي ينتجها الأقران وجودة التعليقات التي تنتجها الذكاء الاصطناعي في مجال كتابة المقالات يمنح قيمة كبيرة لكل من البحث والتطبيق العملي. هذه الدراسة تثري النقاش الأكاديمي وتوجه الأساليب العملية من خلال تقديم رؤى حول كفاية جودة التعليقات المقدمة من كل من الأقران والذكاء الاصطناعي في مجال كتابة المقالات. تعتبر هذه التحقيق خطوة حاسمة في تحديد ما إذا كانت التعليقات التي يقدمها الأقران والذكاء الاصطناعي تحمل المستوى اللازم لتعزيز مهارة كتابة المقالات.
إن تداعيات معالجة هذا الاستفسار جديرة بالملاحظة. أولاً، من المحتمل أن تخفف بشكل كبير من عبء العمل الذي يتحمله المعلمون في عملية تقييم المقالات. من خلال التأكد من جدوى التعليقات من الأقران والذكاء الاصطناعي، يمكن للمعلمين تقليل الوقت والجهد المبذولين في مراجعة المقالات. علاوة على ذلك، فإن هذه الدراسة لديها القدرة على تحسين جودة تأليف المقالات. يمكن أن تعزز التعاون بين الطلاب الذين يقدمون تعليقات لأقرانهم ودمج أدوات التعليقات المدعومة بالذكاء الاصطناعي بيئة يتم فيها تقييم المقالات بشكل أفضل وتحسين محتواها وبنيتها. مع وضع ذلك في الاعتبار، نهدف إلى معالجة الأسئلة الرئيسية التالية ضمن نطاق هذه الدراسة:
RQ1. إلى أي مدى تختلف جودة التعليقات التي تم إنشاؤها من قبل الأقران وتلك التي تم إنشاؤها بواسطة ChatGPT في سياق كتابة المقالات؟
RQ2. هل توجد علاقة بين جودة أداء كتابة المقال وجودة التعليقات التي يقدمها الأقران وChatGPT؟

طريقة

السياق والمشارك

تم إجراء هذه الدراسة في العام الأكاديمي 2022-2023 في جامعة هولندية متخصصة في علوم الحياة. شارك في هذه الدراسة ما مجموعه 74 طالب دراسات عليا من علوم الغذاء حيث من الطلاب كانوا إناثاً ( ) و كانوا ذكوراً ( ).

تصميم الدراسة وإجراءاتها

تتميز هذه الدراسة التجريبية بطابع استكشافي وقد تم تنفيذها على مرحلتين. تم تصميم وحدة عبر الإنترنت تسمى “كتابة المقال الجدلي” (AEW) ليتم اتباعها من قبل الطلاب ضمن منصة برايت سبيس. كان الهدف من وحدة AEW هو تحسين مهارات كتابة المقالات لدى الطلاب من خلال إشراكهم في عملية تعلم من الأقران حيث تم دعوة الطلاب لتقديم ملاحظات على مقالات بعضهم البعض. بعد تصميم الوحدة، تم تنفيذ الدراسة على مدى أسبوعين وتبعتها مرحلتان.
في الأسبوع الأول (المرحلة الأولى)، طُلب من الطلاب كتابة مقال حول مواضيع معينة. كانت المواضيع للمقال مثيرة للجدل وشملت “يجب على العلماء المرتبطين بصناعة الغذاء الامتناع عن المشاركة في عمليات تقييم المخاطر”، “يجب أن تلتزم تركيبة الحليب البودرة للأطفال بمعايير تعقيم صارمة”، و”استهلاك الطعام الآمن هو
“مسؤولية المستهلك”. كانت المواضيع المثيرة للجدل مرتبطة مباشرة بمحتوى الدورة ومجال دراسة الطلاب. كان لدى الطلاب أسبوع واحد لكتابة مقالاتهم بشكل فردي وتقديمها على منصة برايت سبيس.
في الأسبوع الثاني (المرحلة الثانية)، تم دعوة الطلاب عشوائيًا لتقديم مجموعتين من التعليقات المكتوبة/غير المتزامنة على مقالات زملائهم المقدمة. قدمنا للطلاب توجيهًا لاستخدامه في تقديم التعليقات (يرجى تقديم تعليقاتك لزميلك وشرح مدى تقديمه/توسعه/تبريره لعناصر مختلفة من المقالة الجدلية. ما هي المشكلات وما هي اقتراحاتك لتحسين كل عنصر من عناصر المقالة؟ يجب أن تتراوح تعليقاتك بين 250 و350 كلمة). لكي نتمكن من إشراك الطلاب في نشاط التعليقات المتبادلة عبر الإنترنت، استخدمنا تطبيق FeedbackFruits المدمج في منصة Brightspace. يعمل FeedbackFruits كأداة تكنولوجيا تعليمية خارجية مدمجة بسلاسة في Brightspace، تهدف إلى تعزيز مشاركة الطلاب من خلال أساليب متنوعة من التعاون بين الأقران. من بين ميزاته التعليقات المتبادلة، تقييم الواجبات، تقييم المهارات، التعليقات الآلية، مقاطع الفيديو التفاعلية، الوثائق الديناميكية، مهام المناقشة، والعروض التقديمية الجذابة (Noroozi et al., 2022). في هذا البحث، كان تركيزنا على ميزة التعليقات المتبادلة في تطبيق FeedbackFruits، التي تمكن المعلمين من تصميم مهام تتيح للطلاب تقديم تعليقات لزملائهم.
بالإضافة إلى ذلك، استخدمنا ChatGPT كمصدر آخر للتعليقات على مقالات الأقران. لتكون متسقة مع المعايير الخاصة بتعليقات الأقران، قدمنا نفس سؤال موجه التعليق مع تعديل طفيف لـ ChatGPT وطلبنا منه تقديم تعليقات على مقالات الأقران (يرجى قراءة وتقديم تعليقات على المقالة التالية وشرح مدى تقديمه/تقديمها/توضيحها لمختلف عناصر المقالة الجدلية. ما هي المشكلات وما هي اقتراحاتك لتحسين كل عنصر من عناصر المقالة؟ يجب أن تكون تعليقاتك بين 250 و350 كلمة).
بناءً على هذا التصميم، تمكنا من جمع بيانات مقالات الطلاب، وبيانات تعليقات الأقران، وبيانات التعليقات التي تم إنشاؤها بواسطة ChatGPT. في الخطوة التالية، استخدمنا نظامين للتشفير لتحليل جودة المقالات والتعليقات التي تم إنشاؤها من قبل الأقران وChatGPT.

القياسات
نظام التشفير لتقييم جودة كتابة المقالات

في هذه الدراسة، تم استخدام نظام تشفير اقترحه نوروزي وآخرون (2016) لتقييم جودة مقالات الطلاب. تم بناء هذا النظام التشفيري استنادًا إلى المكونات الرئيسية لتكوين مقالة عالية الجودة، والتي تشمل ثمانية عناصر: المقدمة المتعلقة بالموضوع، اتخاذ موقف واضح بشأن الموضوع، تقديم الحجج لصالح الموقف المختار، تقديم مبررات للحجج التي تدعم الموقف، الحجج المضادة، المبررات للحجج المضادة، الردود على الحجج المضادة، والختام مع الآثار. يتم تعيين درجة لكل عنصر في نظام التشفير تتراوح من صفر (تشير إلى أدنى مستوى جودة) إلى ثلاثة (تمثل أعلى مستوى جودة). تم تجميع الدرجات التراكمية عبر جميع هذه العناصر لتحديد درجة الجودة العامة لمقالات الطالب المكتوبة. تعاون اثنان من المرمّزين ذوي الخبرة في مجال التعليم لتقييم جودة المقالات المكتوبة، وتم قياس مستوى اتفاقهم عند (كابا كوهين [فترة الثقة 95%: ]; )، مما يدل على مستوى كبير من التوافق بين المرمزين.

نظام التشفير لتقييم جودة التعليقات التي تم إنشاؤها من قبل الأقران وChatGPT

لتقييم جودة التعليقات المقدمة من كل من الأقران وChatGPT، استخدمنا نظام تشفير تم تطويره بواسطة نوروزي وآخرون (2022). يقوم هذا الإطار التشفيري بتفكيك خصائص التعليقات، ويشمل ثلاثة عناصر رئيسية: العنصر العاطفي، الذي يأخذ في الاعتبار تضمين العناصر العاطفية مثل المشاعر الإيجابية مثل المدح أو الإطراء، بالإضافة إلى المشاعر السلبية مثل الغضب أو خيبة الأمل؛ العنصر المعرفي، الذي يتضمن الوصف (ملخص موجز للمقالة)، والتحديد (تحديد وتحديد المشكلات داخل المقالة)، والتبرير (تقديم تفسيرات ومبررات للمشكلات المحددة)؛ والعنصر البنّاء، الذي يتضمن تقديم توصيات، وإن لم تكن خطط عمل مفصلة لتحسينات إضافية. تتراوح التقييمات ضمن هذا الإطار التشفيري من صفر، مما يشير إلى جودة ضعيفة، إلى اثنين، مما يدل على جودة جيدة. تم جمع الدرجات التراكمية لتحديد الجودة العامة للتعليقات المقدمة للطلاب. في هذا البحث، حيث تلقت كل مقالة تعليقات من كل من الأقران وChatGPT، قمنا بحساب متوسط الدرجة من مجموعتي التعليقات لتحديد درجة الجودة العامة للتعليقات المستلمة، سواء من الأقران أو ChatGPT. كان نفس المقيّمين متورطين في التقييم. تم تحديد موثوقية المقيّمين المتداخلين عند (كابا كوهين فترة الثقة: )، مما يظهر مستوى كبير من الاتفاق بينهم.
المنطق وراء اختيار هذه الأنظمة التشفيرية كان كما يلي: أولاً، من منظور نظري، تم تطوير كلا النظامين التشفيريين استنادًا إلى نظريات قوية ومثبتة. يستند نظام التشفير لتقييم جودة المقالات إلى نموذج حجة تولمين (1958)، وهو إطار محترم لكتابة المقالات. يشمل جميع العناصر الأساسية لتكوين مقالة عالية الجودة ويتماشى جيدًا مع هيكل المقالات المعينة في الدورة المختارة لهذه الدراسة. وبالمثل، يستند نظام تشفير التعليقات إلى أعمال بارزة في تحديد ميزات التعليقات (مثل، نيلسون وشون، 2009؛ باتشان وآخرون، 2016؛ وو وشون، 2020)، مما يمكّن من تحديد الميزات الرئيسية للتعليقات عالية الجودة (نوروزي وآخرون، 2022). ثانيًا، من منظور منهجي، يتميز كلا النظامين التشفيريين بطريقة تسجيل شفافة، مما يقلل من تحيز المرمزين ويعزز مصداقية الأداة.

التحليل

لضمان صلاحية البيانات وموثوقيتها للتحليل الإحصائي، تم تنفيذ اختبارين. في البداية، قام اختبار ليفين بتقييم تجانس المجموعة، تلاه اختبار كولموغوروف-سميرنوف لتقييم طبيعة البيانات. أكدت النتائج تجانس المجموعة وطبيعة البيانات. بالنسبة للسؤال البحثي الأول، تم اعتبار الجنس كمتغير تحكم، وتم استخدام اختبار MANCOVA لمقارنة التباينات في جودة التعليقات بين تعليقات الأقران وتعليقات ChatGPT. تناول السؤال البحثي الثاني استخدام ارتباط سبيرمان لفحص العلاقات بين المقالات الجدلية الأصلية، وتعليقات الأقران، وتعليقات ChatGPT.

النتائج

RQ1. إلى أي مدى تختلف جودة التعليقات التي تم إنشاؤها من قبل الأقران وتلك التي تم إنشاؤها بواسطة ChatGPT في سياق كتابة المقالات؟

أظهرت النتائج وجود فرق كبير في جودة التعليقات بين تعليقات الأقران وتعليقات ChatGPT. قدم الأقران تعليقات ذات جودة أعلى مقارنة
الجدول 1 الفروقات بين تعليقات الأقران وتعليقات ChatGPT في سياق كتابة المقالات
المتغيرات المجموعة جودة التعليق الفرق
المتوسط الانحراف المعياري
العاطفي تعليقات الأقران 1.91 0.20
تعليقات ChatGPT 1.93 0.18
الإجمالي 1.92 0.19
المعرفي الوصف تعليقات الأقران 1.91 0.29
تعليقات ChatGPT 2.00 0.00
الإجمالي 1.95 0.21
التحديد تعليقات الأقران 1.52 0.49
تعليقات ChatGPT 1.29 0.70
الإجمالي 1.41 0.61
التبرير تعليقات الأقران 0.66 0.32
تعليقات ChatGPT 0.62 0.37
الإجمالي 0.64 0.34
البنّاء تعليقات الأقران 1.63 0.44
تعليقات ChatGPT 1.68 0.38
الإجمالي 1.65 0.41
( )**،
أمثلة مصدر التعليق
تعليقات تم إنشاؤها بواسطة ChatGPT تعليقات تم إنشاؤها بواسطة الأقران
مثال #1 تقدم المقالة حججًا متعددة ضد تعقيم PIF، مثل إمكانية إعادة التلوث أثناء الإنتاج والتحضير، ووجود مكونات مفيدة قد تفقد مع التعقيم، وخطر أن يكون ذلك ذا صلة بمجموعة صغيرة من الرضع. ومع ذلك، تفتقر بعض هذه الحجج إلى توضيح مفصل وأدلة محددة. نظرًا لأنني أعتقد أن موقفك مفقود في قسم المقدمة، أعتقد أن الرد على الحجج المضادة مفقود أيضًا إلى حد ما. شخصيًا، سأقترح أن تضيف أولاً موقفك، مما سيسهل أيضًا الرد على الحجج المضادة.
مثال #2 تجادل المقالة بشكل جيد أن المستهلكين هم في النهاية مسؤولون عن استهلاك الطعام بشكل آمن. وتبرز أنه حتى مع وجود لوائح، يحتاج المستهلكون إلى اتخاذ قرارات مستنيرة بشأن التعامل مع الطعام وتحضيره لتقليل مخاطر الأمراض المنقولة عن طريق الغذاء. لتعزيز هذا الحجة، يمكن أن تقدم المقالة أمثلة حقيقية أو دراسات حالة حيث أدى نقص مسؤولية المستهلك إلى أمراض منقولة عن طريق الغذاء، مما يبرز الحاجة إلى الوعي والالتزام بممارسات الطعام الآمنة. أشعر أن موقفك مفقود، لم أرَ موقفك الواضح في قسم المقدمة، ربما يمكنك إضافة بعض الجمل البسيطة لتوضيح موقفك.
مثال #3 يقدم جسم المقالة أسبابًا متعددة لماذا يجب أن يكون PIF معقمًا، مثل خطر البكتيريا الضارة مثل Cronobacter sakazakii، وعمر التخزين الممتد، ومخاطر سوء التعامل مع الحرارة والتنظيف غير السليم. يتم دعم كل سبب بمراجع ذات صلة، مما يضيف مصداقية للحجة. ومع ذلك، تفتقر المقالة إلى قسم الحجج المضادة الذي يتناول وجهة النظر المعارضة. لإنشاء مقالة أكثر شمولاً وإقناعًا، من الضروري الاعتراف بالحجج المضادة ودحضها بالأدلة.
تم شرح الردود. ومع ذلك، لم يتم تقديم أي مبرر ضد الحجة المضادة من المفوضية الأوروبية. الإشارة إلى الكائنات المعدلة وراثيًا لا تفسر لماذا الحجة من الجانب الأوروبي…
ستكون اللجنة غير صالحة.
عاطفي المعرفي – الوصفي المعرفي – التعرف التبرير المعرفي
الشكل 1 قائمة مقارنة بأمثلة مختارة من التعليقات التي تم إنشاؤها من قبل الأقران وتلك التي تم إنشاؤها بواسطة ChatGPT
الجدول 2 العلاقة بين جودة المقالات والتعليقات المقدمة من الأقران وتلك التي تم إنشاؤها بواسطة ChatGPT
جودة التعليقات جودة كتابة المقال
مقدمة موقف حجة مفضلة فقط. مفضل. أرج. آغا. فقط. آغا. القرار. الأرجنتين. استنتاج بشكل عام
عاطفي تعليقات ChatGPT 0.14 0.19 -0.05 0.09 0.22 0.01 0.27* 0.14 0.28*
تغذية راجعة من الأقران -0.29* -0.22 -0.05 -0.15 -0.07 -0.18 -0.04 0.02 0.23*
وصف تعليقات ChatGPT 0.12 0.09 0.13 0.09 0.02 0.01 0.04 0.01 0.02
تغذية راجعة من الأقران -0.25* -0.06 -0.11 -0.23* 0.14 0.00 0.16 -0.13 -0.08
تحديد الهوية تعليقات ChatGPT 0.02 -0.16 -0.08 -0.01 -0.14 0.04 -0.15 -0.09 -0.10
تغذية راجعة من الأقران -0.16 -0.17 0.00 -0.01 0.08 -0.02 0.01 -0.05 -0.06
تبرير تعليقات ChatGPT 0.00 -0.30* 0.07 0.00 -0.19 -0.03 -0.09 -0.22 -0.18
تغذية راجعة من الأقران 0.01 -0.18 0.06 0.04 0.03 -0.06 0.07 -0.05 -0.02
بناء تعليقات ChatGPT 0.04 0.09 -0.19 0.00 0.02 0.05 0.09 -0.09 0.05
تغذية راجعة من الأقران 0.15 -0.16 0.01 0.09 0.10 -0.02 0.10 0.15 0.12
بشكل عام تعليقات ChatGPT 0.05 -0.16 -0.04 0.01 -0.11 0.02 -0.06 -0.15 -0.08
تغذية راجعة من الأقران -0.12 -0.30* 0.00 -0.04 0.11 -0.01 0.12 0.04 -0.05

لـ ChatGPT. كان هذا الاختلاف ناتجًا بشكل رئيسي عن الوصف وتحديد ميزات المشكلة في التعليقات. كان ChatGPT يميل إلى إنتاج تعليقات وصفية أكثر شمولاً تتضمن بيان ملخص مثل وصف المقال أو الإجراء المتخذ، بينما كان الطلاب يؤدون بشكل أفضل في تحديد وتحديد القضايا في التعليقات المقدمة (انظر الجدول 1).
تُقدم قائمة شاملة تحتوي على أمثلة مختارة من التعليقات التي تم إنشاؤها بواسطة الأقران وChatGPT في الشكل 1. كما يوضح هذا الجدول أمثلة على كيفية ترميز التعليقات المُنتَجة استنادًا إلى نظام الترميز لتقييم جودة التعليقات.

RQ2. هل توجد علاقة بين جودة أداء كتابة المقال وجودة التعليقات التي يتم توليدها من قبل الأقران وChatGPT؟

بشكل عام، أشارت النتائج إلى أنه لم يكن هناك علاقة ذات دلالة إحصائية بين جودة كتابة المقال والتعليقات التي تم توليدها من قبل الأقران وChatGPT. ومع ذلك، لوحظت علاقة إيجابية بين جودة المقال والخاصية العاطفية للتعليقات التي تم توليدها بواسطة ChatGPT، بينما لوحظت علاقة سلبية بين جودة المقال والخاصية العاطفية للتعليقات التي قدمها الأقران. تعني هذه النتيجة أنه مع تحسن جودة المقال، يميل ChatGPT إلى تقديم تعليقات أكثر عاطفية، بينما يميل الأقران إلى تقديم تعليقات أقل عاطفية (انظر الجدول 2).

نقاش

كانت هذه الدراسة جهدًا أوليًا لاستكشاف إمكانيات ChatGPT كمصدر للتعليقات في سياق كتابة المقالات ومقارنة مدى اختلاف جودة التعليقات التي يولدها ChatGPT عن التعليقات المقدمة من الأقران. أدناه نناقش نتائجنا لكل سؤال بحث.

مناقشة نتائج RQ1

بالنسبة لسؤال البحث الأول، كشفت النتائج عن وجود تفاوت في جودة التعليقات عند مقارنة التعليقات التي أنشأها الأقران بالتعليقات التي أنشأها ChatGPT. أظهرت تعليقات الأقران جودة أعلى مقارنة بالتعليقات التي أنشأها ChatGPT. يُعزى هذا التفاوت بشكل أساسي إلى الاختلافات في الميزات الوصفية وميزات تحديد المشكلة في التعليقات.
كان من الملاحظ أن ChatGPT يميل إلى تقديم ملاحظات أكثر وصفية، غالبًا ما تتضمن عناصر مثل تلخيص محتوى المقال. قد يكون هذا الميل نحو الملاحظات الوصفية مرتبطًا بقدرة ChatGPT على تحليل وتوليف المعلومات النصية بفعالية. تدعم الأبحاث حول ChatGPT هذه الفكرة، حيث تظهر قدرة الأداة الذكية على تقديم نظرة شاملة على المحتوى المقدم، وبالتالي قد توفر رؤى ومنظورًا كليًا حول المحتوى (فاروقنيا وآخرون، 2023؛ راي، 2023).
قد يُعتبر إتقان ChatGPT في تقديم تعليقات وصفية شاملة نقطة قوة. قد يكون ذلك ذا قيمة خاصة في تلخيص الحجج المعقدة أو تقديم نظرات شاملة، مما قد يساعد الطلاب في فهم الهيكل العام وترابط مقالاتهم.
على النقيض من ذلك، كانت محتويات تعليقات الطلاب ذات جودة عالية فيما يتعلق بتحديد القضايا المحددة ومجالات التحسين. قد يكون تفوق الأقران مقارنة بـ ChatGPT في تحديد المشكلات داخل المقالات مرتبطًا بقدرات البشر في المهارات المعرفية، وقدرات التفكير النقدي، والفهم السياقي (مثل، Korteling et al.، 2021؛ Lamb et al.، 2019). وهذا يعني أن الطلاب، بمعرفتهم السياقية ومهاراتهم في التفكير النقدي، قد يكونون أكثر قدرة على تحديد القضايا داخل المقالات التي قد يغفلها ChatGPT.
علاوة على ذلك، يكشف النظر التفصيلي في نتائج السؤال البحثي الأول أن التعليقات التي تم إنشاؤها بواسطة ChatGPT شملت بشكل شامل جميع المكونات الأساسية التي تميز التعليقات عالية الجودة، بما في ذلك الأبعاد العاطفية والمعرفية والبنائية (كيرمان وآخرون، 2022؛ باتشان وآخرون، 2016). قد تشير هذه الملاحظة الشاملة إلى أن التعليقات التي تم إنشاؤها بواسطة ChatGPT يمكن أن تكون مصدرًا قابلاً للاستخدام للتعليقات. تدعم هذه الملاحظة دراسات سابقة حيث تم التعرف على الدور الإيجابي للتعليقات التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتعليقات الآلية في تعزيز النتائج التعليمية (مثل، بيلهاوزر وآخرون، 2023؛ غومبيرت وآخرون، 2024؛ هوانغ وآخرون، 2023؛ شيا وآخرون، 2022).
أخيرًا، تشير نظرة شاملة على نتائج السؤال البحثي الأول إلى دور تكميلي محتمل لـ ChatGPT والطلاب في عملية التغذية الراجعة. وهذا يعني أن استخدام هذين المصدرين للتغذية الراجعة معًا يخلق علاقة تآزرية قد تؤدي إلى نتائج أفضل في التغذية الراجعة.

مناقشة نتائج RQ2

أظهرت النتائج للسؤال البحثي الثاني عدم وجود ملاحظات على وجود علاقة ذات دلالة إحصائية بين جودة المقالات وجودة التعليقات التي قدمها كل من الأقران وChatGPT. تحمل هذه النتائج دلالة مهمة، مما يشير إلى أن الجودة الجوهرية للمقالات قيد الدراسة تؤثر بشكل ضئيل على جودة التعليقات المقدمة من قبل الطلاب وChatGPT.
في جوهرها، تشير هذه النتائج إلى درجة ملحوظة من الاستقلالية بين مهارة الكتابة المعروضة في المقالات وفعالية التعليقات المستلمة من أي مصدر. تشير هذه الانفصالية إلى أن القدرة على إنتاج مقالات عالية الجودة لا تترجم بالضرورة إلى قدرة متكافئة على تقديم تعليقات ملهمة، سواء للأقران أو لـ ChatGPT. لقد أبرز هذا الفصل بين جودة المقال وجودة التعليق الطبيعة متعددة الأبعاد لهذه العمليات التقييمية، حيث إن الكفاءة في بناء مقال متماسك لا تضمن بالضرورة قدرة متساوية على تقييم وصياغة تعليقات بناءة على أعمال الأقران.
إن تداعيات هذه النتائج مثيرة للاهتمام وتتحدى التوقعات التقليدية، حيث إنها تنحرف بعض الشيء عن موقف الأدبيات السائدة. الجسم الحالي من الأعمال الأكاديمية عمومًا يفترض وجود علاقة مباشرة بين جودة المقالة وجودة التعليقات الناتجة عنها (نوروزي وآخرون، 2016؛ 2022؛ كيرمان وآخرون، 2022؛ فالي هارو وآخرون، 2023). هذا الخط من التفكير يجادل بأن المقالات ذات الجودة المنخفضة قد تعمل كعامل محفز لاكتشاف الأخطاء بشكل أكثر وضوحًا بين الطلاب، بما في ذلك التعقيدات النحوية، وعمق المحتوى، والوضوح، والتماسك، بالإضافة إلى تطبيق الأدلة والدعم. على العكس من ذلك، عندما تكون المقالات مصاغة بشكل مهاري، فإن عملية تحديد المجالات التي تحتاج إلى تحسين تصبح مهمة أكثر تعقيدًا، مما قد يتطلب مستوى أعلى من الفهم الموضوعي والتقييم الدقيق.
ومع ذلك، فإن نتائج الدراسة الحالية تتحدى هذه الحكمة التقليدية. إن الانفصال الملحوظ بين جودة المقال وجودة التعليقات يشير إلى تفاعل أكثر تعقيدًا بين الجانبين من التقييم. بدلاً من الالتزام بالنمط المتوقع، حيث تؤدي المقالات الأضعف إلى تحديد أوضح للقصور، وقد تجعل المقالات المتفوقة عملية التعليق أكثر تحديًا، تشير الدراسة إلى أن العملية قد تكون أكثر تعقيدًا مما كان يُعتقد سابقًا. إنها تلمح إلى ديناميكية حيث يتجاوز فعل تقييم المقالات وتقديم تعليقات بناءة الاتصال الخطي البسيط بجودة المقال.
تشير هذه النتائج، رغم أنها قد تكون غير متوقعة، إلى الطبيعة المعقدة لمهام المقالات وتقديم التعليقات، مما يبرز تعقيد العمليات المعرفية التي تكمن وراء كلا المهمتين، ويقترح أن العلاقة بين جودة المقال وجودة التعليقات ليست خطية بحتة ولكنها تتأثر بمجموعة من العوامل، بما في ذلك الإطار المعرفي للمقيم، والألفة مع الموضوع، ومهارات التحليل النقدي.
على الرغم من هذه الملاحظة العامة، فإن فحصًا أقرب للميزات العاطفية داخل التعليقات يكشف عن نمط مختلف. قد تكون العلاقة الإيجابية بين جودة المقال والميزات العاطفية الموجودة في التعليقات التي تم إنشاؤها بواسطة ChatGPT مرتبطة بقدرة ChatGPT على التعرف على وتقدير عمل الطلاب الجيد. مع زيادة جودة المقال، قد يكون ChatGPT مبرمجًا لتقديم تعليقات أكثر إيجابية وتحفيزًا للاعتراف بتقدم الطلاب (على سبيل المثال، Farrokhnia et al.، 2023؛ Ray، 2023). بالمقابل، قد يُعزى العلاقة السلبية بين جودة المقال والميزات العاطفية في تعليقات الأقران إلى الطبيعة المتطورة للتعليقات من
الأقران (على سبيل المثال، Patchan et al.، 2016). وهذا يشير إلى أنه مع رؤية الطلاب لتحسينات في مهارات كتابة المقالات ومعرفتهم لدى أقرانهم، قد تتطور أولويات تعليقاتهم بشكل طبيعي. على سبيل المثال، قد ينتقل الطلاب من التركيز على التعليقات العاطفية والعاطفية إلى التركيز على التعليقات المعرفية والبنائية، بهدف تعزيز الجودة العامة للمقالات.

القيود والآثار المترتبة على الأبحاث والممارسات المستقبلية

نحن نعترف بحدود هذه الدراسة. بشكل أساسي، كانت البيانات التي تستند إليها هذه التحقيقات مأخوذة حصريًا من مؤسسة واحدة ودورة واحدة، مع مجموعة مشاركين متواضعة نسبيًا. إن هذا النطاق المحدود يقدم بالضرورة بعض القيود التي يجب أخذها في الاعتبار عند تفسير نتائج الدراسة وتعميمها على سياقات تعليمية أوسع. في ظل هذا العينة المقيدة، قد تظهر النتائج درجة من الخصوصية السياقية، مما قد يحد من قابليتها للتطبيق على بيئات مؤسسية متنوعة ودورات ذات تركيزات منهجية متميزة. يمكن أن تؤدي مجموعة متنوعة من البيئات الأكاديمية، وخصائص الطلاب، وتنوع الموضوعات الموجودة عبر المؤسسات التعليمية إلى أنماط نتائج متباينة. لذلك، بينما توفر نتائج الدراسة الحالية رؤى ضمن حدود المؤسسة والدورة المدروسة، يجب تفسيرها وتعميمها بحذر. مع الاعتراف بهذه القيود، نوصي في الدراسات المستقبلية بالنظر في مجموعة كبيرة من المشاركين مع مجموعة متنوعة من المتغيرات، بما في ذلك الأفراد من برامج وخصائص ديموغرافية مختلفة. ستثري هذه المقاربة عمق وفهم هذا المجال، مما يعزز فهمًا أكثر شمولاً للديناميات المعقدة المعنية.
بالإضافة إلى ذلك، لم تتناول هذه الدراسة استكشاف مدى استخدام الطلاب للتعليقات المقدمة من الأقران وChatGPT. بمعنى آخر، لم نحقق في تأثيرات هذه التعليقات على تحسين المقالات في مرحلة المراجعة. إن هذا الإغفال يقدم بطبيعته بعدًا من عدم اليقين ويضع قيدًا على الفهم الشامل للدراسة لدورة التعليقات. من خلال عدم معالجة هذه الجوانب، تكون رؤى الدراسة جزئية إلى حد ما، مما يحد من الفهم الشامل للتأثيرات المحتملة التي تمارسها هذه المصادر المتنوعة من التعليقات على عمليات تحسين كتابة الطلاب. كان من الممكن أن يكشف تحليل أنماط استيعاب التعليقات وتأثيراتها اللاحقة على تحسين المقالات عن رؤى حول الفائدة العملية وتأثير التعليقات التي تم إنشاؤها بواسطة الأقران وChatGPT.
لمعالجة هذه القيود، يمكن أن تُهيكل التحقيقات المستقبلية لتشمل فحصًا أكثر شمولاً لاستراتيجيات استخدام الطلاب للتعليقات والآثار الناتجة عن ذلك على عملية مراجعة المقالات. من خلال تسليط الضوء على الترابط المعقد بين استقبال التعليقات، ودمجها في عملية المراجعة، والنتائج النهائية من حيث تحسين المقالات، يمكن تحقيق فهم أكثر شمولاً للديناميات المعنية.
علاوة على ذلك، في هذه الدراسة، استخدمنا نفس أسئلة الاستفسار لكل من الأقران وChatGPT. ومع ذلك، هناك أدلة تشير إلى أن ChatGPT حساس لكيفية تقديم الأسئلة له (على سبيل المثال، Cao et al.، 2023؛ White et al.، 2023؛ Zuccon & Koopman، 2023). وهذا يشير إلى أن التغييرات في صياغة أو هيكل أو سياق الأسئلة قد تؤثر على الردود التي ينتجها ChatGPT، مما قد يؤثر على قابلية مقارنة مخرجاته مع تلك الخاصة بالأقران. لذلك، من الضروري أن يتم النظر بعناية
والتحكم في العوامل المتعلقة بالأسئلة في الأبحاث المستقبلية عند تقييم أداء ChatGPT وقدراته في مهام وسياقات متنوعة.
بالإضافة إلى ذلك، نعترف بأن ChatGPT يمكن أن ينتج نتائج غير دقيقة. ومع ذلك، في سياق هذه الدراسة، لم يكشف فحصنا للنتائج التي تم إنشاؤها بواسطة ChatGPT عن أي أخطاء كبيرة تستدعي تضمينها في نتائجنا.
من منظور منهجي، أبلغنا عن موثوقية التقييم بين المقيّمين بأنها . بينما كانت هذه الدرجة من الاتفاق ذات دلالة إحصائية، مما يدل على موثوقية تحليلات المقيّمين لدينا، إلا أنها لم تصل إلى المستوى المطلوب من الدقة. نحن نعترف بذلك كحد من الدراسة ونقترح تعزيز موثوقية التقييم من خلال تدريب إضافي للمقيّمين.
بالإضافة إلى ذلك، من الجدير بالذكر أن تقدم الذكاء الاصطناعي التوليدي مثل ChatGPT يفتح آفاقًا جديدة في آليات التعليقات التعليمية. بعيدًا عن مجرد توليد التعليقات، فإن هذه النماذج الذكية لديها القدرة على إعادة تعريف كيفية تقديم التعليقات واستيعابها. في مجال البحث حول أنظمة التعلم التكيفية، تتردد نتائج هذه الدراسة أيضًا صدى أهمية دعم التعلم التكيفي المدعوم بالذكاء الاصطناعي وChatGPT (Rummel et al.، 2016). يمكن أن تمهد الطريق لتجارب تعليمية مخصصة تستجيب ديناميكيًا لاحتياجات الطلاب الفردية. هذا ليس مجرد محتوى التعليقات ولكن أيضًا تسليمها، وتوقيتها، وقابليتها للتكيف. قد تقدم تحليلات البيانات الاستكشافية الإضافية، مثل التحليل التسلسلي وتنقيب البيانات، رؤى حول الطرق الدقيقة التي يمكن أن تدعم بها أنواع مختلفة من التعلم التكيفي مناقشات الطلاب (Papamitsiou & Economides، 2014). يتضمن ذلك تحليل ديناميات التعليقات، وفهم كيفية تحفيز أنواع التعليقات المتنوعة للنقاش، وتحديد الأنماط التي تؤدي إلى تعزيز مشاركة الطلاب.
يعد ضمان موثوقية وصلاحية التعليقات المدعومة بالذكاء الاصطناعي أمرًا حيويًا أيضًا. الهدف هو التأكد من أن دعم التعلم المدعوم بالتكنولوجيا يعزز حقًا عملية تعلم الطلاب بطريقة متسقة وغير متحيزة. نظرًا للطبيعة المعقدة لـ ChatGPT في توليد استجابات متنوعة بناءً على مجموعة متنوعة من الأسئلة، يصبح الطلب على تعزيز الصرامة المنهجية من خلال دراسات التحقق المستقبلية أمرًا ملحًا وأساسيًا. على سبيل المثال، يمكن استخدام دراسات التحقق من الأسئلة العميقة ودراسات تقييم التعليقات العمياء لاستكشاف دقة وجودة استجابات ChatGPT بدقة. أيضًا، يمكن أن تكون التحليلات المقارنة مع نماذج الذكاء الاصطناعي المختلفة مفيدة.
من منظور تعليمي، تدعو نتائج أبحاثنا إلى دمج ChatGPT كمصدر للتعليقات مع تعليقات الأقران ضمن بيئات التعليم العالي لمهام كتابة المقالات، حيث يوجد إمكانية لدور تكميلي بين التعليقات التي ينتجها الأقران وتلك التي ينتجها ChatGPT. يحمل هذا النهج إمكانية تخفيف عبء العمل على المعلمين، خاصة في سياق الدورات الدراسية عبر الإنترنت مع عدد كبير من الطلاب.

الخاتمة

تساهم هذه الدراسة وتضيف قيمة إلى الأدبيات الشابة الموجودة ولكنها تنمو بسرعة بطرق متميزة. من منظور بحثي، تعالج هذه الدراسة فراغًا كبيرًا في الأدبيات الحالية من خلال الاستجابة لنقص الأبحاث حول التعليقات التي ينتجها الذكاء الاصطناعي للمهام المعقدة مثل كتابة المقالات في التعليم العالي. تسد الأبحاث هذه الفجوة من خلال تحليل فعالية التعليقات التي ينتجها ChatGPT مقارنة بتعليقات الأقران، مما يضع أساسًا لمزيد من الاستكشاف في هذا
المجال. من منظور عملي في التعليم العالي، تقدم نتائج الدراسة رؤى حول إمكانية دمج ChatGPT كمصدر للتعليقات ضمن سياقات التعليم العالي. تبرز الاكتشافات أن جودة تعليقات ChatGPT يمكن أن تكمل تعليقات الأقران، مما يسلط الضوء على قابليتها لتعزيز ممارسات التعليقات في التعليم العالي. يحمل هذا وعدًا خاصًا للدورات التي تحتوي على تسجيلات كبيرة ومكونات كتابة المقالات، مما يوفر للمعلمين بديلاً قابلاً للتطبيق لتقديم تعليقات بناءة لعدد أكبر من الطلاب.

مساهمات المؤلفين

قاد س. ك. بنيهاشم هذه التجربة البحثية. ساهم ن. ت. كيرمان في تحليل البيانات والكتابة. ساهم أ. نوروزي في التصميم والكتابة ومراجعة المخطوطة. ساهم ج. مون في الكتابة وتنقيح المخطوطة. ساهم ح. دراخلر في الكتابة وتنقيح المخطوطة.

التمويل

لم يتم تلقي أي تمويل لهذه الدراسة.

توفر البيانات

البيانات متاحة عند الطلب المعقول.

الإعلانات

إعلان عن تقنيات الذكاء الاصطناعي المساعدة في عملية الكتابة

استخدم المؤلفون الذكاء الاصطناعي التوليدي لتحرير اللغة وتحملوا المسؤولية الكاملة.

المصالح المتنافسة

يعلن المؤلفون أنهم ليس لديهم مصالح متنافسة.
تاريخ الاستلام: 20 نوفمبر 2023 / تاريخ القبول: 18 مارس 2024
تم النشر عبر الإنترنت: 12 أبريل 2024

References

Alqassab, M., Strijbos, J. W., & Ufer, S. (2018). Training peer-feedback skills on geometric construction tasks: Role of domain knowledge and peer-feedback levels. European Journal of Psychology of Education, 33(1), 11-30. https://doi.org/10.1007/ s10212-017-0342-0.
Amiryousefi, M., & Geld, R. (2021). The role of redressing teachers’ instructional feedback interventions in EFL learners’ motivation and achievement in distance education. Innovation in Language Learning and Teaching, 15(1), 13-25. https://doi.org/1 0.1080/17501229.2019.1654482.
Arguedas, M., Daradoumis, A., & Xhafa Xhafa, F. (2016). Analyzing how emotion awareness influences students’ motivation, engagement, self-regulation and learning outcome. Educational Technology and Society, 19(2), 87-103. https://www.jstor. org/stable/jeductechsoci.19.2.87.
Banihashem, S. K., Noroozi, O., van Ginkel, S., Macfadyen, L. P., & Biemans, H. J. (2022). A systematic review of the role of learning analytics in enhancing feedback practices in higher education. Educational Research Review, 100489. https://doi. org/10.1016/j.edurev.2022.100489.
Banihashem, S. K., Dehghanzadeh, H., Clark, D., Noroozi, O., & Biemans, H. J. (2023). Learning analytics for online game-based learning: A systematic literature review. Behaviour & Information Technology, 1-28. https://doi.org/10.1080/01449 29X.2023.2255301.
Bellhäuser, H., Dignath, C., & Theobald, M. (2023). Daily automated feedback enhances self-regulated learning: A longitudinal randomized field experiment. Frontiers in Psychology, 14, 1125873. https://doi.org/10.3389/fpsyg.2023.1125873.
Bond, M., Khosravi, H., De Laat, M., Bergdahl, N., Negrea, V., Oxley, E., & Siemens, G. (2024). A meta systematic review of artificial intelligence in higher education: A call for increased ethics, collaboration, and rigour. International Journal of Educational Technology in Higher Education, 21(4), 1-41. https://doi.org/10.1186/s41239-023-00436-z.
Bulqiyah, S., Mahbub, M., & Nugraheni, D. A. (2021). Investigating writing difficulties in Essay writing: Tertiary Students’ perspectives. English Language Teaching Educational Journal, 4(1), 61-73. https://doi.org/10.12928/eltej.v4i1.2371.
Callender, A. A., Franco-Watkins, A. M., & Roberts, A. S. (2016). Improving metacognition in the classroom through instruction, training, and feedback. Metacognition and Learning, 11(2), 215-235. https://doi.org/10.1007/s1 1409-015-9142-6.
Cao, J., Li, M., Wen, M., & Cheung, S. C. (2023). A study on prompt design, advantages and limitations of chatgpt for deep learning program repair. arXiv Preprint arXiv:2304 08191. https://doi.org/10.48550/arXiv.2304.08191.
Dai, W., Lin, J., Jin, F., Li, T., Tsai, Y. S., Gasevic, D., & Chen, G. (2023). Can large language models provide feedback to students? A case study on ChatGPT. https://doi.org/10.35542/osf.io/hcgzj.
Darvishi, A., Khosravi, H., Sadiq, S., Gašević, D., & Siemens, G. (2024). Impact of AI assistance on student agency. Computers & Education, 210, 104967. https://doi.org/10.1016/j.compedu.2023.104967.
Deeva, G., Bogdanova, D., Serral, E., Snoeck, M., & De Weerdt, J. (2021). A review of automated feedback systems for learners: Classification framework, challenges and opportunities. Computers & Education, 162, 104094. https://doi.org/10.1016/j. compedu.2020.104094.
Diezmann, C. M., & Watters, J. J. (2015). The knowledge base of subject matter experts in teaching: A case study of a professional scientist as a beginning teacher. International Journal of Science and Mathematics Education, 13, 1517-1537. https://doi. org/10.1007/s10763-014-9561-x.
Drachsler, H. (2023). Towards highly informative learning analytics. Open Universiteit. https://doi.org/10.25656/01:26787.
Drachsler, H., & Kalz, M. (2016). The MOOC and learning analytics innovation cycle (MOLAC): A reflective summary of ongoing research and its challenges. Journal of Computer Assisted Learning, 32(3), 281-290. https://doi.org/10.1111/jcal.12135.
Er, E., Dimitriadis, Y., & Gašević, D. (2021). Collaborative peer feedback and learning analytics: Theory-oriented design for supporting class-wide interventions. Assessment & Evaluation in Higher Education, 46(2), 169-190. https://doi.org/10.1080/026 02938.2020.1764490.
Farrokhnia, M., Banihashem, S. K., Noroozi, O., & Wals, A. (2023). A SWOT analysis of ChatGPT: Implications for educational practice and research. Innovations in Education and Teaching International, 1-15. https://doi.org/10.1080/14703297.2023.2 195846.
Gan, Z., An, Z., & Liu, F. (2021). Teacher feedback practices, student feedback motivation, and feedback behavior: How are they associated with learning outcomes? Frontiers in Psychology, 12, 697045. https://doi.org/10.3389/fpsyg.2021.697045.
Gao, X., Noroozi, O., Gulikers, J.T. M., Biemans, H. J., & Banihashem, S. K. (2024). A systematic review of the key components of online peer feedback practices in higher education. Educational Research Review, 100588. https://doi.org/10.1016/j. edurev.2023.100588.
Gielen, M., & De Wever, B. (2015). Scripting the role of assessor and assessee in peer assessment in a wiki environment: Impact on peer feedback quality and product improvement. Computers & Education, 88, 370-386. https://doi.org/10.1016/j. compedu.2015.07.012.
Gombert, S., Fink, A., Giorgashvili, T., Jivet, I., Di Mitri, D., Yau, J., & Drachsler, H. (2024). From the Automated Assessment of Student Essay Content to highly informative feedback: A case study. International Journal of Artificial Intelligence in Education, 1-39. https://doi.org/10.1007/s40593-023-00387-6.
Hattie, J., & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81-112. https://doi. org/10.3102/003465430298487.
Holt-Reynolds, D. (1999). Good readers, good teachers? Subject matter expertise as a challenge in learning to teach. Harvard Educational Review, 69(1), 29-51. https://doi.org/10.17763/haer.69.1.pl5m5083286l77t2.
Huang, A. Y., Lu, O. H., & Yang, S. J. (2023). Effects of artificial intelligence-enabled personalized recommendations on learners’ learning engagement, motivation, and outcomes in a flipped classroom. Computers & Education, 194, 104684. https://doi. org/10.1016/j.compedu.2022.104684.
Katz, A., Wei, S., Nanda, G., Brinton, C., & Ohland, M. (2023). Exploring the efficacy of ChatGPT in analyzing Student Teamwork Feedback with an existing taxonomy. arXiv Preprint arXiv. https://doi.org/10.48550/arXiv.2305.11882.
Kerman, N. T., Noroozi, O., Banihashem, S. K., Karami, M., & Biemans, H. J. (2022). Online peer feedback patterns of success and failure in argumentative essay writing. Interactive Learning Environments, 1-13. https://doi.org/10.1080/10494820.2022.20 93914.
Kerman, N. T., Banihashem, S. K., Karami, M., Er, E., Van Ginkel, S., & Noroozi, O. (2024). Online peer feedback in higher education: A synthesis of the literature. Education and Information Technologies, 29(1), 763-813. https://doi.org/10.1007/ s10639-023-12273-8.
King, A. (2002). Structuring peer interaction to promote high-level cognitive processing. Theory into Practice, 41(1), 33-39. https://doi.org/10.1207/s15430421tip4101_6.
Konold, K. E., Miller, S. P., & Konold, K. B. (2004). Using teacher feedback to enhance student learning. Teaching Exceptional Children, 36(6), 64-69. https://doi.org/10.1177/004005990403600608.
Korteling, J. H., van de Boer-Visschedijk, G. C., Blankendaal, R. A., Boonekamp, R. C., & Eikelboom, A. R. (2021). Human-versus artificial intelligence. Frontiers in Artificial Intelligence, 4, 622364. https://doi.org/10.3389/frai.2021.622364.
Labuhn, A. S., Zimmerman, B. J., & Hasselhorn, M. (2010). Enhancing students’ self-regulation and mathematics performance: The influence of feedback and self-evaluative standards. Metacognition and Learning, 5, 173-194. https://doi.org/10.1007/ s11409-010-9056-2.
Lamb, R., Firestone, J., Schmitter-Edgecombe, M., & Hand, B. (2019). A computational model of student cognitive processes while solving a critical thinking problem in science. The Journal of Educational Research, 112(2), 243-254. https://doi.org/10 .1080/00220671.2018.1514357.
Latifi, S., Noroozi, O., & Talaee, E. (2023). Worked example or scripting? Fostering students’ online argumentative peer feedback, essay writing and learning. Interactive Learning Environments, 31(2), 655-669. https://doi.org/10.1080/10494820.2020.179 9032.
Li, L., & Liu, X. (2010). Steckelberg. Assessor or assessee: How student learning improves by giving and receiving peer feedback. British Journal of Educational Technology, 41(3), 525-536. https://doi.org/10.1111/j.1467-8535.2009.00968.x.
Liu, N. F., & Carless, D. (2006). Peer feedback: The learning element of peer assessment. Teaching in Higher Education, 11(3), 279-290. https://doi.org/10.1080/13562510600680582.
Liunokas, Y. (2020). Assessing students’ ability in writing argumentative essay at an Indonesian senior high school. IDEAS: Journal on English language teaching and learning. Linguistics and Literature, 8(1), 184-196. https://doi.org/10.24256/ideas. v8i1.1344.
Nelson, M. M., & Schunn, C. D. (2009). The nature of feedback: How different types of peer feedback affect writing performance. Instructional Science, 37, 375-401. https://doi.org/10.1007/s11251-008-9053-x.
Noroozi, O., Banihashem, S. K., Taghizadeh Kerman, N., Parvaneh Akhteh Khaneh, M., Babayi, M., Ashrafi, H., & Biemans, H. J. (2022). Gender differences in students’ argumentative essay writing, peer review performance and uptake in online learning environments. Interactive Learning Environments, 1-15. https://doi.org/10.1080/10494820.2022.2034887.
Noroozi, O., Biemans, H., & Mulder, M. (2016). Relations between scripted online peer feedback processes and quality of written argumentative essay. The Internet and Higher Education, 31, 20-31. https://doi.org/10.1016/j.iheduc.2016.05.002
Noroozi, O., Banihashem, S. K., Biemans, H. J., Smits, M., Vervoort, M. T., & Verbaan, C. L. (2023). Design, implementation, and evaluation of an online supported peer feedback module to enhance students’ argumentative essay quality. Education and Information Technologies, 1-28. https://doi.org/10.1007/s10639-023-11683-y.
Papamitsiou, Z., & Economides, A. A. (2014). Learning analytics and educational data mining in practice: A systematic literature review of empirical evidence. Journal of Educational Technology & Society, 17(4), 49-64. https://doi.org/10.2307/jeductechsoci.17.4.49. https://www.jstor.org/stable/.
Pardo, A., Jovanovic, J., Dawson, S., Gašević, D., & Mirriahi, N. (2019). Using learning analytics to scale the provision of personalised feedback. British Journal of Educational Technology, 50(1), 128-138. https://doi.org/10.1111/bjet.12592.
Patchan, M. M., Schunn, C. D., & Correnti, R. J. (2016). The nature of feedback: How peer feedback features affect students’ implementation rate and quality of revisions. Journal of Educational Psychology, 108(8), 1098. https://doi.org/10.1037/ edu0000103.
Ramsden, P. (2003). Learning to teach in higher education. Routledge.
Ray, P. P. (2023). ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. Internet of Things and Cyber-Physical Systems, 3, 121-154. https://doi.org/10.1016/j.iotcps.2023.04.003.
Rüdian, S., Heuts, A., & Pinkwart, N. (2020). Educational Text Summarizer: Which sentences are worth asking for? In DELFI 2020 The 18th Conference on Educational Technologies of the German Informatics Society (pp. 277-288). Bonn, Germany.
Rummel, N., Walker, E., & Aleven, V. (2016). Different futures of adaptive collaborative learning support. International Journal of Artificial Intelligence in Education, 26, 784-795. https://doi.org/10.1007/s40593-016-0102-3.
Shi, M. (2019). The effects of class size and instructional technology on student learning performance. The International Journal of Management Education, 17(1), 130-138. https://doi.org/10.1016/j.jjme.2019.01.004.
Toulmin, S. (1958). The uses of argument. Cambridge University Press.
Valero Haro, A., Noroozi, O., Biemans, H. J., Mulder, M., & Banihashem, S. K. (2023). How does the type of online peer feedback influence feedback quality, argumentative essay writing quality, and domain-specific learning? Interactive Learning Environments, 1-20. https://doi.org/10.1080/10494820.2023.2215822.
White, J., Fu, Q., Hays, S., Sandborn, M., Olea, C., Gilbert, H., & Schmidt, D. C. (2023). A prompt pattern catalog to enhance prompt engineering with chatgpt. arXiv preprint arXiv:2302.11382. https://doi.org/10.48550/arXiv.2302.11382.
Wu, Y., & Schunn, C. D. (2020). From feedback to revisions: Effects of feedback features and perceptions. Contemporary Educational Psychology, 60, 101826. https://doi.org/10.1016/j.cedpsych.2019.101826.
Xia, Q., Chiu, T. K., Zhou, X., Chai, C. S., & Cheng, M. (2022). Systematic literature review on opportunities, challenges, and future research recommendations of artificial intelligence in education. Computers and Education: Artificial Intelligence, 100118. https://doi.org/10.1016/j.caeai.2022.100118.
Zawacki-Richter, O., Marín, V. I., Bond, M., & Gouverneur, F. (2019). Systematic review of research on artificial intelligence applications in higher education-where are the educators? International Journal of Educational Technology in Higher Education, 16(1), 1-27. https://doi.org/10.1186/s41239-019-0171-0.
Zhang, Z. V., & Hyland, K. (2022). Fostering student engagement with feedback: An integrated approach. Assessing Writing, 51, 100586. https://doi.org/10.1016/j.asw.2021.100586.
Zuccon, G., & Koopman, B. (2023). Dr ChatGPT, tell me what I want to hear: How prompt knowledge impacts health answer correctness. arXiv preprint arXiv:2302.13793. https://doi.org/10.48550/arXiv.2302.13793.

  1. Publisher’s Note
    Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

Journal: International Journal of Educational Technology in Higher Education, Volume: 21, Issue: 1
DOI: https://doi.org/10.1186/s41239-024-00455-4
Publication Date: 2024-04-11

Feedback sources in essay writing: peergenerated or Al-generated feedback?

Seyyed Kazem Banihashem , Nafiseh Taghizadeh Kerman , Omid Noroozi , Jewoong Moon and Hendrik Drachsler

*Correspondence:
Seyyed Kazem Banihashem
kazem.banihashem@ou.nl
¹Open Universiteit, Heerlen, The Netherlands
Wageningen University and
Research, Wageningen, The Netherlands
Ferdowsi University of Mashhad, Mashhad, Iran
The University of Alabama, Tuscaloosa, USA
DIPE Leibniz Institute, Goethe University, Frankfurt, Germany

Abstract

Peer feedback is introduced as an effective learning strategy, especially in largesize classes where teachers face high workloads. However, for complex tasks such as writing an argumentative essay, without support peers may not provide highquality feedback since it requires a high level of cognitive processing, critical thinking skills, and a deep understanding of the subject. With the promising developments in Artificial Intelligence (AI), particularly after the emergence of ChatGPT, there is a global argument that whether AI tools can be seen as a new source of feedback or not for complex tasks. The answer to this question is not completely clear yet as there are limited studies and our understanding remains constrained. In this study, we used ChatGPT as a source of feedback for students’ argumentative essay writing tasks and we compared the quality of ChatGPT-generated feedback with peer feedback. The participant pool consisted of 74 graduate students from a Dutch university. The study unfolded in two phases: firstly, students’ essay data were collected as they composed essays on one of the given topics; subsequently, peer feedback and ChatGPT-generated feedback data were collected through engaging peers in a feedback process and using ChatGPT as a feedback source. Two coding schemes including coding schemes for essay analysis and coding schemes for feedback analysis were used to measure the quality of essays and feedback. Then, a MANOVA analysis was employed to determine any distinctions between the feedback generated by peers and ChatGPT. Additionally, Spearman’s correlation was utilized to explore potential links between the essay quality and the feedback generated by peers and ChatGPT. The results showed a significant difference between feedback generated by ChatGPT and peers. While ChatGPT provided more descriptive feedback including information about how the essay is written, peers provided feedback including information about identification of the problem in the essay. The overarching look at the results suggests a potential complementary role for ChatGPT and students in the feedback process. Regarding the relationship between the quality of essays and the quality of the feedback provided by ChatGPT and peers, we found no overall significant relationship. These findings imply that the quality of the essays does not impact both ChatGPT and peer feedback quality. The implications of this study are valuable, shedding light on the prospective use of ChatGPT as a feedback source, particularly for complex tasks like argumentative essay writing.

We discussed the findings and delved into the implications for future research and practical applications in educational contexts.
Keywords Al-generated feedback, ChatGPT, Essay writing, Feedback sources, Higher education, Peer feedback

Introduction

Feedback is acknowledged as one of the most crucial tools for enhancing learning (Banihashem et al., 2022). The general and well-accepted definition of feedback conceptualizes it as information provided by an agent (e.g., teacher, peer, self, AI, technology) regarding aspects of one’s performance or understanding (e.g., Hattie & Timplerely, 2007). Feedback serves to heighten students’ self-awareness concerning their strengths and areas warranting improvement, through providing actionable steps required to enhance performance (Ramson, 2003). The literature abounds with numerous studies that illuminate the positive impact of feedback on diverse dimensions of students’ learning journey including increasing motivation (Amiryousefi & Geld, 2021), fostering active engagement (Zhang & Hyland, 2022), promoting self-regulation and metacognitive skills (Callender et al., 2016; Labuhn et al., 2010), and enriching the depth of learning outcomes (Gan et al., 2021).
Normally, teachers have primarily assumed the role of delivering feedback, providing insights into students’ performance on specific tasks or their grasp of particular subjects (Konold et al., 2004). This responsibility has naturally fallen upon teachers owing to their expertise in the subject matter and their competence to offer constructive input (Diezmann & Watters, 2015; Holt-Reynolds, 1999; Valero Haro et al., 2023). However, teachers’ role as feedback providers has been challenged in recent years as we have witnessed a growth in class sizes due to the rapid advances in technology and the widespread use of digital technologies that resulted in flexible and accessible education (Shi et al., 2019). The growth in class sizes has translated into an increased workload for teachers, leading to a pertinent predicament. This situation has directly impacted their capacity to provide personalized and timely feedback to each student, a capability that has encountered limitations (Er et al., 2021).
In response to this challenge, various solutions have emerged, among which peer feedback has arisen as a promising alternative instructional approach (Er et al., 2021; Gao et al., 2024; Noroozi et al., 2023; Kerman et al., 2024). Peer feedback entails a process wherein students assume the role of feedback providers instead of teachers (Liu & Carless, 2006). Involving students in feedback can add value to education in several ways. First and foremost, research indicates that students delve into deeper and more effective learning when they take on the role of assessors, critically evaluating and analyzing their peers’ assignments (Gielen & De Wever, 2015; Li et al., 2010). Moreover, involving students in the feedback process can augment their self-regulatory awareness, active engagement, and motivation for learning (e.g., Arguedas et al., 2016). Lastly, the incorporation of peer feedback not only holds the potential to significantly alleviate teachers’ workload by shifting their responsibilities from feedback provision to the facilitation of peer feedback processes but also nurtures a dynamic learning environment wherein students are actively immersed in the learning journey (e.g., Valero Haro et al., 2023).
Despite the advantages of peer feedback, furnishing high-quality feedback to peers remains a challenge. Several factors contribute to this challenge. Primarily, generating
effective feedback necessitates a solid understanding of feedback principles, an element that peers often lack (Latifi et al., 2023; Noroozi et al., 2016). Moreover, offering high-quality feedback is inherently a complex task, demanding substantial cognitive processing to meticulously evaluate peers’ assignments, identify issues, and propose constructive remedies (King, 2002; Noroozi et al., 2022). Furthermore, the provision of valuable feedback calls for a significant level of domain-specific expertise, which is not consistently possessed by students (Alqassab et al., 2018; Kerman et al., 2022).
In recent times, advancements in technology, coupled with the emergence of fields like Learning Analytics (LA), have presented promising avenues to elevate feedback practices through the facilitation of scalable, timely, and personalized feedback (Banihashem et al., 2023; Deeva et al., 2021; Drachsler, 2023; Drachsler & Kalz, 2016; Pardo et al., 2019; Zawacki-Richter et al., 2019; Rüdian et al., 2020). Yet, a striking stride forward in the field of educational technology has been the advent of a novel Artificial Intelligence (AI) tool known as “ChatGPT,” which has sparked a global discourse on its potential to significantly impact the current education system (Ray, 2023). This tool’s introduction has initiated discussions on the considerable ways AI can support educational endeavors (Bond et al., 2024; Darvishi et al., 2024).
In the context of feedback, AI-powered ChatGPT introduces what is referred to as AIgenerated feedback (Farrokhnia et al., 2023). While the literature suggests that ChatGPT has the potential to facilitate feedback practices (Dai et al., 2023; Katz et al., 2023), this literature is very limited and mostly not empirical leading us to realize that our current comprehension of its capabilities in this regard is quite restricted. Therefore, we lack a comprehensive understanding of how ChatGPT can effectively support feedback practices and to what degree it can improve the timeliness, impact, and personalization of feedback, which remains notably limited at this time.
More importantly, considering the challenges we raised for peer feedback, the question is whether AI-generated feedback and more specifically feedback provided by ChatGPT has the potential to provide quality feedback. Taking this into account, there is a scarcity of knowledge and research gaps regarding the extent to which AI tools, specifically ChatGPT, can effectively enhance feedback quality compared to traditional peer feedback. Hence, our research aims to investigate the quality of feedback generated by ChatGPT within the context of essay writing and to juxtapose its quality with that of feedback generated by students.
This study carries the potential to make a substantial contribution to the existing body of recent literature on the potential of AI and in particular ChatGPT in education. It can cast a spotlight on the quality of AI-generated feedback in contrast to peer-generated feedback, while also showcasing the viability of AI tools like ChatGPT as effective automated feedback mechanisms. Furthermore, the outcomes of this study could offer insights into mitigating the feedback-related workload experienced by teachers through the intelligent utilization of AI tools (e.g., Banihashem et al., 2022; Er et al., 2021; Pardo et al., 2019).
However, there might be an argument regarding the rationale for conducting this study within the specific context of essay writing. Addressing this potential query, it is crucial to highlight that essay writing stands as one of the most prevalent yet complex tasks for students (Liunokas, 2020). This task is not without its challenges, as evidenced by the extensive body of literature that indicates students often struggle to meet desired
standards in their essay composition (e.g., Bulqiyah et al., 2021; Noroozi et al., 2016;, 2022; Latifi et al., 2023).
Furthermore, teachers frequently express dissatisfaction with the depth and overall quality of students’ essay writing (Latifi et al., 2023). Often, these teachers lament that their feedback on essays remains superficial due to the substantial time and effort required for critical assessment and individualized feedback provision (Noroozi et al., 2016;, 2022). Regrettably, these constraints prevent them from delving deeper into the evaluation process (Kerman et al., 2022).
Hence, directing attention towards the comparison of peer-generated feedback quality and AI-generated feedback quality within the realm of essay writing bestows substantial value upon both research and practical application. This study enriches the academic discourse and informs practical approaches by delivering insights into the adequacy of feedback quality offered by both peers and AI for the domain of essay writing. This investigation serves as a critical step in determining whether the feedback imparted by peers and AI holds the necessary caliber to enhance the craft of essay writing.
The ramifications of addressing this query are noteworthy. Firstly, it stands to significantly alleviate the workload carried by teachers in the process of essay evaluation. By ascertaining the viability of feedback from peers and AI, teachers can potentially reduce the time and effort expended in reviewing essays. Furthermore, this study has the potential to advance the quality of essay compositions. The collaboration between students providing feedback to peers and the integration of AI-powered feedback tools can foster an environment where essays are not only better evaluated but also refined in their content and structure.With this in mind, we aim to tackle the following key questions within the scope of this study:
RQ1. To what extent does the quality of peer-generated and ChatGPT-generated feedback differ in the context of essay writing?
RQ2. Does a relationship exist between the quality of essay writing performance and the quality of feedback generated by peers and ChatGPT?

Method

Context and participant

This study was conducted in the academic year of 2022-2023 at a Dutch university specializing in life sciences. In total, 74 graduate students from food sciences participated in this study in which of students were female ( ) and were male ( ).

Study design and procedure

This empirical study has an exploratory nature and it was conducted in two phases. An online module called “Argumentative Essay Writing” (AEW) was designed to be followed by students within the Brightspace platform. The purpose of the AEW module was to improve students’ essay writing skills by engaging them in a peer learning process where students were invited to provide feedback on each other’s essays. After designing the module, the study was implemented in two weeks and followed in two phases.
In week one (phase one), students were asked to write an essay on given topics. The topics for the essay were controversial and included “Scientists with affiliations to the food industry should abstain from participating in risk assessment processes”, “powdered infant formula must adhere to strict sterility standards”, and “safe food consumption is
the responsibility of the consumer”. The given controversial topics were directly related to the course content and students’ area of study. Students had time for one week to write their essays individually and submit them to the Brightspace platform.
In week two (phase two), students were randomly invited to provide two sets of written/asynchronous feedback on their peers’ submitted essays. We gave a prompt to students to be used for giving feedback (Please provide feedback to your peer and explain the extent to which she/he has presented/elaborated/justified various elements of an argumentative essay. What are the problems and what are your suggestions to improve each element of the essay? Your feedback must be between 250 and 350 words). To be able to engage students in the online peer feedback activity, we used the FeedbackFruits app embedded in the Brightspace platform. FeedbackFruits functions as an external educational technology tool seamlessly integrated into Brightspace, aimed at enhancing student engagement via diverse peer collaboration approaches. Among its features are peer feedback, assignment evaluation, skill assessment, automated feedback, interactive videos, dynamic documents, discussion tasks, and engaging presentations (Noroozi et al., 2022). In this research, our focus was on the peer feedback feature of the FeedbackFruits app, which empowers teachers to design tasks that enable students to offer feedback to their peers.
In addition, we used ChatGPT as another feedback source on peers’ essays. To be consistent with the criteria for peer feedback, we gave the same feedback prompt question with a minor modification to ChatGPT and asked it to give feedback on the peers’ essays (Please read and provide feedback on the following essay and explain the extent to which she/he has presented/elaborated/justified various elements of an argumentative essay. What are the problems and what are your suggestions to improve each element of the essay? Your feedback must be between 250 and 350 words).
Following this design, we were able to collect students’ essay data, peer feedback data, and feedback data generated by ChatGPT. In the next step, we used two coding schemes to analyze the quality of the essays and feedback generated by peers and ChatGPT.

Measurements
Coding scheme to assess the quality of essay writing

In this study, a coding scheme proposed by Noroozi et al. (2016) was employed to assess students’ essay quality. This coding system was constructed based on the key components of high-quality essay composition, encompassing eight elements: introduction pertaining to the subject, taking a clear stance on the subject, presenting arguments in favor of the chosen position, providing justifications for the arguments supporting the position, counter-arguments, justifications for counter-arguments, responses to coun-ter-arguments, and concluding with implications. Each element in the coding system is assigned a score ranging from zero (indicating the lowest quality level) to three (representing the highest quality level). The cumulative scores across all these elements were aggregated to determine the overall quality score of the student’s written essays. Two experienced coders in the field of education collaborated to assess the quality of the written essays, and their agreement level was measured at (Cohen’s Kappa [95% confidence interval: ]; ), signifying a significant level of consensus between the coders.

Coding scheme to assess the quality of feedback generated by peers and ChatGPT

To assess the quality of feedback provided by both peers and ChatGPT, we employed a coding scheme developed by Noroozi et al. (2022). This coding framework dissects the characteristics of feedback, encompassing three key elements: the affective component, which considers the inclusion of emotional elements such as positive sentiments like praise or compliments, as well as negative emotions such as anger or disappointment; the cognitive component, which includes description (a concise summary of the essay), identification (pinpointing and specifying issues within the essay), and justification (providing explanations and justifications for the identified issues); and the constructive component, which involves offering recommendations, albeit not detailed action plans for further enhancements. Ratings within this coding framework range from zero, indicating poor quality, to two, signifying good quality. The cumulative scores were tallied to determine the overall quality of the feedback provided to the students. In this research, as each essay received feedback from both peers and ChatGPT, we calculated the average score from the two sets of feedback to establish the overall quality score for the feedback received, whether from peers or ChatGPT. The same two evaluators were involved in the assessment. The inter-rater reliability between the evaluators was determined to be (Cohen’s Kappa confidence interval: ), showing a significant level of agreement between them.
The logic behind choosing these coding schemes was as follows: Firstly, from a theoretical standpoint, both coding schemes were developed based on robust and wellestablished theories. The coding scheme for evaluating essay quality draws on Toulmin’s argumentation model (1958), a respected framework for essay writing. It encompasses all elements essential for high-quality essay composition and aligns well with the structure of essays assigned in the chosen course for this study. Similarly, the feedback coding scheme is grounded in prominent works on identifying feedback features (e.g., Nelson & Schunn, 2009; Patchan et al., 2016; Wu & Schunn, 2020), enabling the identification of key features of high-quality feedback (Noroozi et al., 2022). Secondly, from a methodological perspective, both coding schemes feature a transparent scoring method, mitigating coder bias and bolstering the tool’s credibility.

Analysis

To ensure the data’s validity and reliability for statistical analysis, two tests were implemented. Initially, the Levene test assessed group homogeneity, followed by the Kol-mogorov-Smirnov test to evaluate data normality. The results confirmed both group homogeneity and data normality. For the first research question, gender was considered as a control variable, and the MANCOVA test was employed to compare the variations in feedback quality between peer feedback and ChatGPT-generated feedback. Addressing the second research question involved using Spearman’s correlation to examine the relationships among original argumentative essays, peer feedback, and ChatGPT-generated feedback.

Results

RQ1. To what extent does the quality of peer-generated and ChatGPT-generated feedback differ in the context of essay writing?

The results showed a significant difference in feedback quality between peer feedback and ChatGPT-generated feedback. Peers provided feedback of higher quality compared
Table 1 Differences between peer and ChatGPT-generated feedback in the context of essay writing
Variables Group Feedback quality Difference
Mean SD
Affective Peer feedback 1.91 0.20
ChatGPT feedback 1.93 0.18
Total 1.92 0.19
Cognitive Description Peer feedback 1.91 0.29
ChatGPT feedback 2.00 0.00
Total 1.95 0.21
Identification Peer feedback 1.52 0.49
ChatGPT feedback 1.29 0.70
Total 1.41 0.61
Justification Peer feedback 0.66 0.32
ChatGPT feedback 0.62 0.37
Total 0.64 0.34
Constructive Peer feedback 1.63 0.44
ChatGPT feedback 1.68 0.38
Total 1.65 0.41
( )**,
Examples Feedback Source
ChatGPT-generated feedback Peer-generated feedback
Example #1 The essay presents multiple arguments against PIF sterilization, such as the possibility of recontamination during production and preparation, the presence of beneficial components that may be lost with sterilization, and the risk being relevant only to a small group of infants. However, some of these arguments lack detailed elaboration and specific evidence. Since I think your position is missing in the introduction section, I think the response to counter arguments is also somewhat missing. Personally, I would suggest that you could first add your position, which would also make the response to counter arguments easier.
Example #2 The essay nicely argues that consumers are ultimately responsible for the safe consumption of food. It highlights that even with regulations in place, consumers need to make informed decisions about handling and preparing food to minimize foodborne illness risks. To strengthen this argument, the essay could provide real-life examples or case studies where lack of consumer responsibility led to foodborne illnesses, highlighting the need for awareness and adherence to safe food practices. I feel that your position is missing, I didn’t see your clear stand in the introduction section, perhaps you could add some simple sentences to show where you stand.
Example #3 The body of the essay presents multiple reasons why PIF should be sterile, such as the risk of harmful bacteria like Cronobacter sakazakii, the extended shelf life, and the risks of temperature abuse and improper cleaning. Each reason is supported with relevant citations, which adds credibility to the argument. However, the essay lacks a counterargument section that addresses the opposing perspective. To create a more comprehensive and persuasive essay, it’s essential to acknowledge the counterarguments and refute them with evidence.
The responses are explained. However, no justification is presented against the counter argument of the European Commission. The mention of GMOs does not explain why the argument of the European
Commission would be invalid.
Affective Cognitive- Descriptive Cognitive-Identification Cognitive-Justification
Fig. 1 A comparative list of selected examples of peer-generated and ChatGPT-generated feedback
Table 2 The relationship between the quality of essays and peer and ChatGPT-generated feedback
Feedback quality Essay writing quality
Introduction Position Arg. Fav. Just. Fav. Arg. Aga. Just. Aga. Res. Arg. Conclusion Overall
Affective ChatGPT feedback 0.14 0.19 -0.05 0.09 0.22 0.01 0.27* 0.14 0.28*
Peer feedback -0.29* -0.22 -0.05 -0.15 -0.07 -0.18 -0.04 0.02 0.23*
Description ChatGPT feedback 0.12 0.09 0.13 0.09 0.02 0.01 0.04 0.01 0.02
Peer feedback -0.25* -0.06 -0.11 -0.23* 0.14 0.00 0.16 -0.13 -0.08
Identification ChatGPT feedback 0.02 -0.16 -0.08 -0.01 -0.14 0.04 -0.15 -0.09 -0.10
Peer feedback -0.16 -0.17 0.00 -0.01 0.08 -0.02 0.01 -0.05 -0.06
Justification ChatGPT feedback 0.00 -0.30* 0.07 0.00 -0.19 -0.03 -0.09 -0.22 -0.18
Peer feedback 0.01 -0.18 0.06 0.04 0.03 -0.06 0.07 -0.05 -0.02
Constructive ChatGPT feedback 0.04 0.09 -0.19 0.00 0.02 0.05 0.09 -0.09 0.05
Peer feedback 0.15 -0.16 0.01 0.09 0.10 -0.02 0.10 0.15 0.12
Overall ChatGPT feedback 0.05 -0.16 -0.04 0.01 -0.11 0.02 -0.06 -0.15 -0.08
Peer feedback -0.12 -0.30* 0.00 -0.04 0.11 -0.01 0.12 0.04 -0.05

to ChatGPT. This difference was mainly due to the descriptive and identification of the problem features of feedback. ChatGPT tended to produce more extensive descriptive feedback including a summary statement such as the description of the essay or taken action, while students performed better in pinpointing and identifying the issues in the feedback provided (see Table 1).
A comprehensive list featuring selected examples of feedback generated by peers and ChatGPT is presented in Fig 1. This table additionally outlines examples of how the generated feedback was coded based on the coding scheme to assess the quality of feedback.

RQ2. Does a relationship exist between the quality of essay writing performance and the quality of feedback generated by peers and ChatGPT?

Overall, the results indicated that there was no significant relationship between the quality of essay writing and the feedback generated by peers and ChatGPT. However, a positive correlation was observed between the quality of the essay and the affective feature of feedback generated by ChatGPT, while a negative relationship was observed between the quality of the essay and the affective feature of feedback generated by peers. This finding means that as the quality of the essay improves, ChatGPT tends to provide more affective feedback, while peers tend to provide less affective feedback (see Table 2).

Discussion

This study was an initial effort to explore the potential of ChatGPT as a feedback source in the context of essay writing and to compare the extent to which the quality of feedback generated by ChatGPT differs from the feedback provided by peers. Below we discuss our findings for each research question.

Discussion on the results of RQ1

For the first research question, the results revealed a disparity in feedback quality when comparing peer-generated feedback to feedback generated by ChatGPT. Peer feedback demonstrated higher quality compared to ChatGPT-generated feedback. This discrepancy is attributed primarily to variations in the descriptive and problem-identification features of the feedback.
ChatGPT tended to provide more descriptive feedback, often including elements such as summarizing the content of the essay. This inclination towards descriptive feedback could be related to ChatGPT’s capacity to analyze and synthesize textual information effectively. Research on ChatGPT further supports this notion, demonstrating the AI tool’s capacity to offer a comprehensive overview of the provided content, therefore potentially providing insights and a holistic perspective on the content (Farrokhnia et al., 2023; Ray, 2023).
ChatGPT’s proficiency in providing extensive descriptive feedback could be seen as a strength. It might be particularly valuable for summarizing complex arguments or providing comprehensive overviews, which could aid students in understanding the overall structure and coherence of their essays.
In contrast, students’ feedback content entailed high quality regarding identifying specific issues and areas for improvement. Peers outperformance compared to ChatGPT in identifying problems within the essays could be related to humans’ potential in cognitive skills, critical thinking abilities, and contextual understanding (e.g., Korteling et al., 2021; Lamb et al., 2019). This means that students, with their contextual knowledge and critical thinking skills, may be better equipped to identify issues within the essays that ChatGPT may overlook.
Furthermore, a detailed look at the findings of the first research question discloses that the feedback generated by ChatGPT comprehensively encompassed all essential components characterizing high-quality feedback, including affective, cognitive, and constructive dimensions (Kerman et al., 2022; Patchan et al., 2016). This comprehensive observation could be an indication of the fact that ChatGPT-generated feedback could potentially serve as a viable source of feedback. This observation is supported by previous studies where a positive role for AI-generated feedback and automated feedback in enhancing educational outcomes has been recognized (e.g., Bellhäuser et al., 2023; Gombert et al., 2024; Huang et al., 2023; Xia et al., 2022).
Finally, an overarching look at the results of the first research question suggests a potential complementary role for ChatGPT and students in the feedback process. This means that using these two feedback sources together creates a synergistic relationship that could result in better feedback outcomes.

Discussion on the results of RQ2

Results for the second research question revealed no observations of a significant correlation between the quality of the essays and the quality of the feedback generated by both peers and ChatGPT. These findings carry a consequential implication, suggesting that the inherent quality of the essays under scrutiny exerts negligible influence over the quality of feedback furnished by both students and the ChatGPT.
In essence, these results point to a notable degree of independence between the writing prowess exhibited in the essays and the efficacy of the feedback received from either source. This disassociation implies that the ability to produce high-quality essays does not inherently translate into a corresponding ability to provide equally insightful feedback, neither for peers nor for ChatGPT. This decoupling of essay quality from feedback quality highlighted the multifaceted nature of these evaluative processes, where proficiency in constructing a coherent essay does not necessarily guarantee an equally adept capacity for evaluating and articulating constructive commentary on peers’ work.
The implications of these findings are both intriguing and defy conventional expectations, as they deviate somewhat from the prevailing literature’s stance. The existing body of scholarly work generally posits a direct relationship between the quality of an essay and the subsequent quality of generated feedback (Noroozi et al., 2016;, 2022; Kerman et al., 2022; Vale Haro et al., 2023). This line of thought contends that essays of inferior quality might serve as a catalyst for more pronounced error detection among students, encompassing grammatical intricacies, depth of content, clarity, and coherence, as well as the application of evidence and support. Conversely, when essays are skillfully crafted, the act of pinpointing areas for enhancement becomes a more complex task, potentially necessitating a heightened level of subject comprehension and nuanced evaluation.
However, the present study’s findings challenge this conventional wisdom. The observed decoupling of essay quality from feedback quality suggests a more nuanced interplay between the two facets of assessment. Rather than adhering to the anticipated pattern, wherein weaker essays prompt clearer identification of deficiencies, and superior essays potentially render the feedback process more challenging, the study suggests that the process might be more complex than previously thought. It hints at a dynamic in which the act of evaluating essays and providing constructive feedback transcends a simple linear connection with essay quality.
These findings, while potentially unexpected, are an indication of the complex nature of essay assignments and feedback provision highlighting the complexity of cognitive processes that underlie both tasks, and suggesting that the relationship between essay quality and feedback quality is not purely linear but influenced by a multitude of factors, including the evaluator’s cognitive framework, familiarity with the subject matter, and critical analysis skills.
Despite this general observation, a closer examination of the affective features within the feedback reveals a different pattern. The positive correlation between essay quality and the affective features present in ChatGPT-generated feedback could be related to ChatGPT’s capacity to recognize and appreciate students’ good work. As the quality of the essay increases, ChatGPT might be programmed to offer more positive and motivational feedback to acknowledge students’ progress (e.g., Farrokhnia et al., 2023; Ray, 2023). In contrast, the negative relationship between essay quality and the affective features in peer feedback may be attributed to the evolving nature of feedback from
peers (e.g., Patchan et al., 2016). This suggests that as students witness improvements in their peers’ essay-writing skills and knowledge, their feedback priorities may naturally evolve. For instance, students may transition from emphasizing emotional and affective comments to focusing on cognitive and constructive feedback, with the goal of further enhancing the overall quality of the essays.

Limitations and implications for future research and practice

We acknowledge the limitations of this study. Primarily, the data underpinning this investigation was drawn exclusively from a singular institution and a solitary course, featuring a relatively modest participant pool. This confined scope inevitably introduces certain constraints that need to be taken into consideration when interpreting the study’s outcomes and generalizing them to broader educational contexts. Under this constrained sampling, the findings might exhibit a degree of contextual specificity, potentially limiting their applicability to diverse institutional settings and courses with distinct curricular foci. The diverse array of academic environments, student demographics, and subject matter variations existing across educational institutions could potentially yield divergent patterns of results. Therefore, while the current study’s outcomes provide insights within the confines of the studied institution and course, they should be interpreted and generalized with prudence. Recognizing these limitations, for future studies, we recommend considering a large-scale participant pool with a diverse range of variables, including individuals from various programs and demographics. This approach would enrich the depth and breadth of understanding in this domain, fostering a more comprehensive comprehension of the complex dynamics at play.
In addition, this study omitted an exploration into the degree to which students utilize feedback provided by peers and ChatGPT. That is to say that we did not investigate the effects of such feedback on essay enhancements in the revision phase. This omission inherently introduces a dimension of uncertainty and places a constraint on the study’s holistic understanding of the feedback loop. By not addressing these aspects, the study’s insights are somewhat partial, limiting the comprehensive grasp of the potential influences that these varied feedback sources wield on students’ writing enhancement processes. An analysis of the feedback assimilation patterns and their subsequent effects on essay refinement would have unveiled insights into the practical utility and impact of the feedback generated by peers and ChatGPT.
To address this limitation, future investigations could be structured to encompass a more thorough examination of students’ feedback utilization strategies and the resulting implications for the essay revision process. By shedding light on the complex interconnection between feedback reception, its integration into the revision process, and the ultimate outcomes in terms of essay improvement, a more comprehensive understanding of the dynamics involved could be attained.
Furthermore, in this study, we employed identical question prompts for both peers and ChatGPT. However, there is evidence indicating that ChatGPT is sensitive to how prompts are presented to it (e.g., Cao et al., 2023; White et al., 2023; Zuccon & Koopman, 2023). This suggests that variations in the wording, structure, or context of prompts might influence the responses generated by ChatGPT, potentially impacting the comparability of its outputs with those of peers. Therefore, it is essential to carefully consider
and control for prompt-related factors in future research when assessing ChatGPT’s performance and capabilities in various tasks and contexts.
In addition, We acknowledge that ChatGPT can potentially generate inaccurate results. Nevertheless, in the context of this study, our examination of the results generated by ChatGPT did not reveal a significant inaccuracies that would warrant inclusion in our findings.
From a methodological perspective, we reported the interrater reliability between the coders to be . While this level of agreement was statistically significant, signifying the reliability of our coders’ analyses, it did not reach the desired level of precision. We acknowledge this as a limitation of the study and suggest enhancing interrater reliability through additional coder training.
In addition, it is worth noting that the advancement of Generative AI like ChatGPT, opens new avenues in educational feedback mechanisms. Beyond just generating feedback, these AI models have the potential to redefine how feedback is presented and assimilated. In the realm of research on adaptive learning systems, the findings of this study also echo the importance of adaptive learning support empowered by AI and ChatGPT (Rummel et al., 2016). It can pave the way for tailored educational experiences that respond dynamically to individual student needs. This is not just about the feedback’s content but its delivery, timing, and adaptability. Further exploratory data analyses, such as sequential analysis and data mining, may offer insights into the nuanced ways different adaptive learning supports can foster student discussions (Papamitsiou & Economides, 2014). This involves dissecting the feedback dynamics, understanding how varied feedback types stimulate discourse, and identifying patterns that lead to enhanced student engagement.
Ensuring the reliability and validity of AI-empowered feedback is also crucial. The goal is to ascertain that technology-empowered learning support genuinely enhances students’ learning process in a consistent and unbiased manner. Given ChatGPT’s complex nature of generating varied responses based on myriad prompts, the call for enhancing methodological rigor through future validation studies becomes both timely and essential. For example, in-depth prompt validation and blind feedback assessment studies could be employed to meticulously probe the consistency and quality of ChatGPT’s responses. Also, comparative analysis with different AI models can be useful.
From an educational standpoint, our research findings advocate for the integration of ChatGPT as a feedback resource with peer feedback within higher education environments for essay writing tasks since there is a complementary role potential for pee-generated and ChatGPT-generated feedback. This approach holds the potential to alleviate the workload burden on teachers, particularly in the context of online courses with a significant number of students.

Conclusion

This study contributes to and adds value to the young existing but rapidly growing literature in two distinct ways. From a research perspective, this study addresses a significant void in the current literature by responding to the lack of research on AI-generated feedback for complex tasks like essay writing in higher education. The research bridges this gap by analyzing the effectiveness of ChatGPT-generated feedback compared to peergenerated feedback, thereby establishing a foundation for further exploration in this
field. From a practical perspective of higher education, the study’s findings offer insights into the potential integration of ChatGPT as a feedback source within higher education contexts. The discovery that ChatGPT’s feedback quality could potentially complement peer feedback highlights its applicability for enhancing feedback practices in higher education. This holds particular promise for courses with substantial enrolments and essay-writing components, providing teachers with a feasible alternative for delivering constructive feedback to a larger number of students.

Author contributions

S. K. Banihashem led this research experiment. N. T. Kerman contributed to the data analysis and writing. O. Noroozi contributed to the designing, writing, and reviewing the manuscript. J. Moon contributed to the writing and revising the manuscript. H. Drachsler contributed to the writing and revising the manuscript.

Funding

No funding has been received for this research.

Data availability

The data is available upon a reasonable request.

Declarations

Declaration of Al-assisted technologies in the writing process

The authors used generative AI for language editing and took full responsibility.

Competing interests

The authors declare that they have no competing interests.
Received: 20 November 2023 / Accepted: 18 March 2024
Published online: 12 April 2024

References

Alqassab, M., Strijbos, J. W., & Ufer, S. (2018). Training peer-feedback skills on geometric construction tasks: Role of domain knowledge and peer-feedback levels. European Journal of Psychology of Education, 33(1), 11-30. https://doi.org/10.1007/ s10212-017-0342-0.
Amiryousefi, M., & Geld, R. (2021). The role of redressing teachers’ instructional feedback interventions in EFL learners’ motivation and achievement in distance education. Innovation in Language Learning and Teaching, 15(1), 13-25. https://doi.org/1 0.1080/17501229.2019.1654482.
Arguedas, M., Daradoumis, A., & Xhafa Xhafa, F. (2016). Analyzing how emotion awareness influences students’ motivation, engagement, self-regulation and learning outcome. Educational Technology and Society, 19(2), 87-103. https://www.jstor. org/stable/jeductechsoci.19.2.87.
Banihashem, S. K., Noroozi, O., van Ginkel, S., Macfadyen, L. P., & Biemans, H. J. (2022). A systematic review of the role of learning analytics in enhancing feedback practices in higher education. Educational Research Review, 100489. https://doi. org/10.1016/j.edurev.2022.100489.
Banihashem, S. K., Dehghanzadeh, H., Clark, D., Noroozi, O., & Biemans, H. J. (2023). Learning analytics for online game-based learning: A systematic literature review. Behaviour & Information Technology, 1-28. https://doi.org/10.1080/01449 29X.2023.2255301.
Bellhäuser, H., Dignath, C., & Theobald, M. (2023). Daily automated feedback enhances self-regulated learning: A longitudinal randomized field experiment. Frontiers in Psychology, 14, 1125873. https://doi.org/10.3389/fpsyg.2023.1125873.
Bond, M., Khosravi, H., De Laat, M., Bergdahl, N., Negrea, V., Oxley, E., & Siemens, G. (2024). A meta systematic review of artificial intelligence in higher education: A call for increased ethics, collaboration, and rigour. International Journal of Educational Technology in Higher Education, 21(4), 1-41. https://doi.org/10.1186/s41239-023-00436-z.
Bulqiyah, S., Mahbub, M., & Nugraheni, D. A. (2021). Investigating writing difficulties in Essay writing: Tertiary Students’ perspectives. English Language Teaching Educational Journal, 4(1), 61-73. https://doi.org/10.12928/eltej.v4i1.2371.
Callender, A. A., Franco-Watkins, A. M., & Roberts, A. S. (2016). Improving metacognition in the classroom through instruction, training, and feedback. Metacognition and Learning, 11(2), 215-235. https://doi.org/10.1007/s1 1409-015-9142-6.
Cao, J., Li, M., Wen, M., & Cheung, S. C. (2023). A study on prompt design, advantages and limitations of chatgpt for deep learning program repair. arXiv Preprint arXiv:2304 08191. https://doi.org/10.48550/arXiv.2304.08191.
Dai, W., Lin, J., Jin, F., Li, T., Tsai, Y. S., Gasevic, D., & Chen, G. (2023). Can large language models provide feedback to students? A case study on ChatGPT. https://doi.org/10.35542/osf.io/hcgzj.
Darvishi, A., Khosravi, H., Sadiq, S., Gašević, D., & Siemens, G. (2024). Impact of AI assistance on student agency. Computers & Education, 210, 104967. https://doi.org/10.1016/j.compedu.2023.104967.
Deeva, G., Bogdanova, D., Serral, E., Snoeck, M., & De Weerdt, J. (2021). A review of automated feedback systems for learners: Classification framework, challenges and opportunities. Computers & Education, 162, 104094. https://doi.org/10.1016/j. compedu.2020.104094.
Diezmann, C. M., & Watters, J. J. (2015). The knowledge base of subject matter experts in teaching: A case study of a professional scientist as a beginning teacher. International Journal of Science and Mathematics Education, 13, 1517-1537. https://doi. org/10.1007/s10763-014-9561-x.
Drachsler, H. (2023). Towards highly informative learning analytics. Open Universiteit. https://doi.org/10.25656/01:26787.
Drachsler, H., & Kalz, M. (2016). The MOOC and learning analytics innovation cycle (MOLAC): A reflective summary of ongoing research and its challenges. Journal of Computer Assisted Learning, 32(3), 281-290. https://doi.org/10.1111/jcal.12135.
Er, E., Dimitriadis, Y., & Gašević, D. (2021). Collaborative peer feedback and learning analytics: Theory-oriented design for supporting class-wide interventions. Assessment & Evaluation in Higher Education, 46(2), 169-190. https://doi.org/10.1080/026 02938.2020.1764490.
Farrokhnia, M., Banihashem, S. K., Noroozi, O., & Wals, A. (2023). A SWOT analysis of ChatGPT: Implications for educational practice and research. Innovations in Education and Teaching International, 1-15. https://doi.org/10.1080/14703297.2023.2 195846.
Gan, Z., An, Z., & Liu, F. (2021). Teacher feedback practices, student feedback motivation, and feedback behavior: How are they associated with learning outcomes? Frontiers in Psychology, 12, 697045. https://doi.org/10.3389/fpsyg.2021.697045.
Gao, X., Noroozi, O., Gulikers, J.T. M., Biemans, H. J., & Banihashem, S. K. (2024). A systematic review of the key components of online peer feedback practices in higher education. Educational Research Review, 100588. https://doi.org/10.1016/j. edurev.2023.100588.
Gielen, M., & De Wever, B. (2015). Scripting the role of assessor and assessee in peer assessment in a wiki environment: Impact on peer feedback quality and product improvement. Computers & Education, 88, 370-386. https://doi.org/10.1016/j. compedu.2015.07.012.
Gombert, S., Fink, A., Giorgashvili, T., Jivet, I., Di Mitri, D., Yau, J., & Drachsler, H. (2024). From the Automated Assessment of Student Essay Content to highly informative feedback: A case study. International Journal of Artificial Intelligence in Education, 1-39. https://doi.org/10.1007/s40593-023-00387-6.
Hattie, J., & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81-112. https://doi. org/10.3102/003465430298487.
Holt-Reynolds, D. (1999). Good readers, good teachers? Subject matter expertise as a challenge in learning to teach. Harvard Educational Review, 69(1), 29-51. https://doi.org/10.17763/haer.69.1.pl5m5083286l77t2.
Huang, A. Y., Lu, O. H., & Yang, S. J. (2023). Effects of artificial intelligence-enabled personalized recommendations on learners’ learning engagement, motivation, and outcomes in a flipped classroom. Computers & Education, 194, 104684. https://doi. org/10.1016/j.compedu.2022.104684.
Katz, A., Wei, S., Nanda, G., Brinton, C., & Ohland, M. (2023). Exploring the efficacy of ChatGPT in analyzing Student Teamwork Feedback with an existing taxonomy. arXiv Preprint arXiv. https://doi.org/10.48550/arXiv.2305.11882.
Kerman, N. T., Noroozi, O., Banihashem, S. K., Karami, M., & Biemans, H. J. (2022). Online peer feedback patterns of success and failure in argumentative essay writing. Interactive Learning Environments, 1-13. https://doi.org/10.1080/10494820.2022.20 93914.
Kerman, N. T., Banihashem, S. K., Karami, M., Er, E., Van Ginkel, S., & Noroozi, O. (2024). Online peer feedback in higher education: A synthesis of the literature. Education and Information Technologies, 29(1), 763-813. https://doi.org/10.1007/ s10639-023-12273-8.
King, A. (2002). Structuring peer interaction to promote high-level cognitive processing. Theory into Practice, 41(1), 33-39. https://doi.org/10.1207/s15430421tip4101_6.
Konold, K. E., Miller, S. P., & Konold, K. B. (2004). Using teacher feedback to enhance student learning. Teaching Exceptional Children, 36(6), 64-69. https://doi.org/10.1177/004005990403600608.
Korteling, J. H., van de Boer-Visschedijk, G. C., Blankendaal, R. A., Boonekamp, R. C., & Eikelboom, A. R. (2021). Human-versus artificial intelligence. Frontiers in Artificial Intelligence, 4, 622364. https://doi.org/10.3389/frai.2021.622364.
Labuhn, A. S., Zimmerman, B. J., & Hasselhorn, M. (2010). Enhancing students’ self-regulation and mathematics performance: The influence of feedback and self-evaluative standards. Metacognition and Learning, 5, 173-194. https://doi.org/10.1007/ s11409-010-9056-2.
Lamb, R., Firestone, J., Schmitter-Edgecombe, M., & Hand, B. (2019). A computational model of student cognitive processes while solving a critical thinking problem in science. The Journal of Educational Research, 112(2), 243-254. https://doi.org/10 .1080/00220671.2018.1514357.
Latifi, S., Noroozi, O., & Talaee, E. (2023). Worked example or scripting? Fostering students’ online argumentative peer feedback, essay writing and learning. Interactive Learning Environments, 31(2), 655-669. https://doi.org/10.1080/10494820.2020.179 9032.
Li, L., & Liu, X. (2010). Steckelberg. Assessor or assessee: How student learning improves by giving and receiving peer feedback. British Journal of Educational Technology, 41(3), 525-536. https://doi.org/10.1111/j.1467-8535.2009.00968.x.
Liu, N. F., & Carless, D. (2006). Peer feedback: The learning element of peer assessment. Teaching in Higher Education, 11(3), 279-290. https://doi.org/10.1080/13562510600680582.
Liunokas, Y. (2020). Assessing students’ ability in writing argumentative essay at an Indonesian senior high school. IDEAS: Journal on English language teaching and learning. Linguistics and Literature, 8(1), 184-196. https://doi.org/10.24256/ideas. v8i1.1344.
Nelson, M. M., & Schunn, C. D. (2009). The nature of feedback: How different types of peer feedback affect writing performance. Instructional Science, 37, 375-401. https://doi.org/10.1007/s11251-008-9053-x.
Noroozi, O., Banihashem, S. K., Taghizadeh Kerman, N., Parvaneh Akhteh Khaneh, M., Babayi, M., Ashrafi, H., & Biemans, H. J. (2022). Gender differences in students’ argumentative essay writing, peer review performance and uptake in online learning environments. Interactive Learning Environments, 1-15. https://doi.org/10.1080/10494820.2022.2034887.
Noroozi, O., Biemans, H., & Mulder, M. (2016). Relations between scripted online peer feedback processes and quality of written argumentative essay. The Internet and Higher Education, 31, 20-31. https://doi.org/10.1016/j.iheduc.2016.05.002
Noroozi, O., Banihashem, S. K., Biemans, H. J., Smits, M., Vervoort, M. T., & Verbaan, C. L. (2023). Design, implementation, and evaluation of an online supported peer feedback module to enhance students’ argumentative essay quality. Education and Information Technologies, 1-28. https://doi.org/10.1007/s10639-023-11683-y.
Papamitsiou, Z., & Economides, A. A. (2014). Learning analytics and educational data mining in practice: A systematic literature review of empirical evidence. Journal of Educational Technology & Society, 17(4), 49-64. https://doi.org/10.2307/jeductechsoci.17.4.49. https://www.jstor.org/stable/.
Pardo, A., Jovanovic, J., Dawson, S., Gašević, D., & Mirriahi, N. (2019). Using learning analytics to scale the provision of personalised feedback. British Journal of Educational Technology, 50(1), 128-138. https://doi.org/10.1111/bjet.12592.
Patchan, M. M., Schunn, C. D., & Correnti, R. J. (2016). The nature of feedback: How peer feedback features affect students’ implementation rate and quality of revisions. Journal of Educational Psychology, 108(8), 1098. https://doi.org/10.1037/ edu0000103.
Ramsden, P. (2003). Learning to teach in higher education. Routledge.
Ray, P. P. (2023). ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. Internet of Things and Cyber-Physical Systems, 3, 121-154. https://doi.org/10.1016/j.iotcps.2023.04.003.
Rüdian, S., Heuts, A., & Pinkwart, N. (2020). Educational Text Summarizer: Which sentences are worth asking for? In DELFI 2020 The 18th Conference on Educational Technologies of the German Informatics Society (pp. 277-288). Bonn, Germany.
Rummel, N., Walker, E., & Aleven, V. (2016). Different futures of adaptive collaborative learning support. International Journal of Artificial Intelligence in Education, 26, 784-795. https://doi.org/10.1007/s40593-016-0102-3.
Shi, M. (2019). The effects of class size and instructional technology on student learning performance. The International Journal of Management Education, 17(1), 130-138. https://doi.org/10.1016/j.jjme.2019.01.004.
Toulmin, S. (1958). The uses of argument. Cambridge University Press.
Valero Haro, A., Noroozi, O., Biemans, H. J., Mulder, M., & Banihashem, S. K. (2023). How does the type of online peer feedback influence feedback quality, argumentative essay writing quality, and domain-specific learning? Interactive Learning Environments, 1-20. https://doi.org/10.1080/10494820.2023.2215822.
White, J., Fu, Q., Hays, S., Sandborn, M., Olea, C., Gilbert, H., & Schmidt, D. C. (2023). A prompt pattern catalog to enhance prompt engineering with chatgpt. arXiv preprint arXiv:2302.11382. https://doi.org/10.48550/arXiv.2302.11382.
Wu, Y., & Schunn, C. D. (2020). From feedback to revisions: Effects of feedback features and perceptions. Contemporary Educational Psychology, 60, 101826. https://doi.org/10.1016/j.cedpsych.2019.101826.
Xia, Q., Chiu, T. K., Zhou, X., Chai, C. S., & Cheng, M. (2022). Systematic literature review on opportunities, challenges, and future research recommendations of artificial intelligence in education. Computers and Education: Artificial Intelligence, 100118. https://doi.org/10.1016/j.caeai.2022.100118.
Zawacki-Richter, O., Marín, V. I., Bond, M., & Gouverneur, F. (2019). Systematic review of research on artificial intelligence applications in higher education-where are the educators? International Journal of Educational Technology in Higher Education, 16(1), 1-27. https://doi.org/10.1186/s41239-019-0171-0.
Zhang, Z. V., & Hyland, K. (2022). Fostering student engagement with feedback: An integrated approach. Assessing Writing, 51, 100586. https://doi.org/10.1016/j.asw.2021.100586.
Zuccon, G., & Koopman, B. (2023). Dr ChatGPT, tell me what I want to hear: How prompt knowledge impacts health answer correctness. arXiv preprint arXiv:2302.13793. https://doi.org/10.48550/arXiv.2302.13793.

  1. Publisher’s Note
    Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.