DOI: https://doi.org/10.1007/s40593-025-00477-7
تاريخ النشر: 2025-04-28
المؤلف: Sebastian Fitzek وآخرون
الموضوع الرئيسي: تحليل الخطاب في دراسات اللغة
نظرة عامة
تستكشف هذه الدراسة التجريبية ذات الطرق المختلطة فعالية نماذج اللغة الكبيرة (LLMs)، وبالتحديد ChatGPT 3.5، في تعزيز مهارات الكتابة الأكاديمية لطلاب الاتصال والعلاقات العامة، مع التركيز على الوضوح والإيجاز والترابط وفقًا لنظرية الحمل المعرفي. أظهر تحليل 60 ملخصًا – 30 كتبها الطلاب و30 تم تعزيزها بواسطة الذكاء الاصطناعي – تحسينات ذات دلالة إحصائية في الوضوح والإيجاز، كما تم تقييمها من قبل مقيمين معميين (المقيم 1: $p = 0.0024$؛ المقيم 2: $p = 0.0462$). ومع ذلك، فإن عدم وجود مجموعة ضابطة في الدراسة يحد من الادعاءات السببية، وتبرز التباينات بين المقيمين ذاتية التقييمات. شعر الطلاب بفوائد أكبر من المساعدة التي يقدمها الذكاء الاصطناعي مقارنةً بما أكده المقيمون، مما يشير إلى احتمال وجود ثقة مفرطة ويسلط الضوء على المخاطر مثل الاعتماد المفرط على الذكاء الاصطناعي والتهديدات للأصالة.
تشير النتائج إلى أن ChatGPT يمكن أن يعزز عناصر محددة من الكتابة الأكاديمية، وخاصة الوضوح (متوسط التحسين = 0.53) والإيجاز (متوسط التحسين = 0.52)، مع كون تحسينات الترابط أكثر تباينًا (متوسط التحسين = 0.44). ومن الجدير بالذكر أن فعالية المساعدة التي يقدمها الذكاء الاصطناعي تختلف باختلاف خصائص الطلاب، حيث استخدم طلاب الماجستير الذكاء الاصطناعي بشكل أكثر استراتيجية مقارنةً بطلاب البكالوريوس، الذين استفادوا أكثر من التوصيات الهيكلية. يبرز هذا التباين الحاجة إلى استراتيجيات تنفيذ مخصصة بناءً على تجربة المستخدم وكفاءته. تشير الفجوة بين تصورات الطلاب وتقييمات الخبراء إلى زيادة الانخراط الميتامعرفي بين الطلاب. بينما تعتبر التحسينات الملحوظة واعدة، يجب تفسيرها بحذر نظرًا لنطاق الدراسة المحدود، مما يستلزم مزيدًا من البحث في ديناميات تفاعلات الطلاب مع الذكاء الاصطناعي وتطوير استراتيجيات تربوية فعالة لدمج الذكاء الاصطناعي في الكتابة الأكاديمية.
مقدمة
تناقش مقدمة هذه الورقة البحثية ظهور نماذج اللغة الكبيرة (LLMs)، مثل ChatGPT، كأدوات مبتكرة لتوليد النصوص، خاصة في السياقات التعليمية. على عكس أنظمة التدريس الذكية التقليدية، تعمل نماذج اللغة الكبيرة على بيانات تدريب واسعة دون تخصيصها لاحتياجات المتعلمين الفردية. بينما تشير بعض الدراسات إلى أن نماذج اللغة الكبيرة يمكن أن تعزز مهام الكتابة من خلال تحسينات لغوية، لا تزال فعاليتها في تعزيز نتائج التعلم الأعمق – مثل التفكير النقدي وتطوير الحجج – غير مؤكدة. تهدف هذه الدراسة إلى سد الفجوة في فهم التأثير الأوسع لنماذج اللغة الكبيرة على جودة الكتابة الأكاديمية، خاصة في برامج الاتصال والعلاقات العامة، حيث يواجه الطلاب غالبًا تحديات في التعبير عن أفكار معقدة بوضوح وإيجاز.
تستند الدراسة إلى نظرية الحمل المعرفي ونظرية التعلم المتعدد الوسائط، حيث تفترض أن نماذج اللغة الكبيرة يمكن أن تقلل من الحمل المعرفي الزائد، مما يسمح للطلاب بالتركيز على المهارات العليا. تستخدم الدراسة نهجًا مختلطًا، يجمع بين التقييمات الحسابية لجودة الكتابة مع التعليقات النوعية من الطلاب، لتقييم التحسينات في الوضوح والإيجاز والترابط في الملخصات الأكاديمية. من خلال استخدام تقنيات التعلم المعتمدة على المحفزات، تختبر الدراسة قدرة ChatGPT على تحسين المسودات دون توليد محتوى بشكل مستقل. على الرغم من أن البحث استكشافي بسبب حجمه الصغير، إلا أنه يسعى لتقديم رؤى أولية حول كيفية تأثير مساعدة نماذج اللغة الكبيرة على الكفاءات الكتابية الأساسية وإبلاغ الممارسات التربوية، مع معالجة المخاوف بشأن النزاهة الأكاديمية والمخاطر المحتملة للاعتماد المفرط على أدوات الذكاء الاصطناعي.
النتائج
تكشف نتائج الدراسة التجريبية ذات الطرق المختلطة عن نتائج مهمة تتعلق بتأثير تحسين الكتابة المدعوم بالذكاء الاصطناعي على جودة الكتابة لدى الطلاب. وُجد أن تحسينات جودة الكتابة تتوافق مع مستويات الكفاءة الأولية، مع وجود ارتباط سلبي ملحوظ (r = -0.42، p < 0.05) يشير إلى أن الطلاب ذوي الكفاءة الأولية المنخفضة شهدوا تحسينات أكبر. ظهر الوضوح كالبعد الذي شهد أكبر تحسين، بمتوسط 0.57 نقطة للمقيم 1 و0.48 نقطة للمقيم 2. كما أظهر الإيجاز مكاسب معتدلة، خاصة بين طلاب الماجستير، الذين تحسنوا بمتوسط 0.58 نقطة مقارنةً بـ 0.43 نقطة لطلاب البكالوريوس. كانت تحسينات الترابط أقل اتساقًا، حيث أفاد المقيم 1 بزيادة متوسطة قدرها 0.50 نقطة والمقيم 2 بمتوسط 0.37 نقطة، مما يشير إلى أن الترابط قد يكون أكثر مقاومة للتحسين من خلال الذكاء الاصطناعي. تم تأكيد موثوقية التقييم بين المقيمين مع كابا كوهين قدره 0.666، مما يشير إلى توافق كبير بين المقيمين. دعمت قيم كابا المنفصلة لتحديد أصل النص (0.68) وتقييم الجودة (0.65) هذه الموثوقية. أظهرت تعليقات المقيمين توافقًا عاليًا بشأن التحسينات التقنية (κ = 0.72) ولكن أقل بشأن العناصر الأسلوبية (κ = 0.58)، مما يبرز الطبيعة الذاتية لبعض جوانب جودة الكتابة. يبرز التباين في أحجام التأثير (كوهين's d = 0.693 للمقيم 1 مقابل 0.426 للمقيم 2) تأثير وجهات نظر المقيمين الفردية على تقييمات تحسينات الكتابة. بشكل عام، بينما أدت مساعدة الذكاء الاصطناعي إلى تحسينات متسقة في الوضوح والإيجاز، كانت تحسينات الترابط أكثر تباينًا، مما يشير إلى مجالات لمزيد من التحقيق.
المناقشة
استكشفت الدراسة التجريبية تأثير ChatGPT، وهو نموذج لغة كبير (LLM)، على جودة الكتابة الأكاديمية بين طلاب الاتصال والعلاقات العامة. باستخدام نهج مختلط، قيمت الدراسة التحسينات في الوضوح والإيجاز والترابط من خلال مقاييس نوعية وكمية. شملت الدراسة 30 مشاركًا تلقوا تدريبًا على الاستخدام الأخلاقي للذكاء الاصطناعي وشاركوا في عملية منظمة من الكتابة المستقلة، ومراجعة مدعومة بالذكاء الاصطناعي، وتقييم الخبراء. أشارت النتائج إلى تحسينات كبيرة في جودة الكتابة، خاصة في الوضوح (متوسط التحسين = 0.53 نقطة) والإيجاز، مع ملاحظات متباينة بناءً على الخبرة الأكاديمية – أظهر طلاب الماجستير استخدامًا أكثر استراتيجية للذكاء الاصطناعي مقارنةً بطلاب البكالوريوس، الذين استفادوا أكثر من التحسينات الهيكلية.
تشير النتائج إلى أنه بينما يمكن لنماذج اللغة الكبيرة تعزيز بعض سمات الكتابة بشكل فعال، فإن دمج الذكاء الاصطناعي في السياقات الأكاديمية يتطلب اعتبارًا دقيقًا لاستراتيجيات التدريس. تشير الفجوة بين التحسينات التي يدركها الطلاب وتقييمات الخبراء إلى احتمال وجود ثقة مفرطة في المساعدة التي يقدمها الذكاء الاصطناعي، مما يبرز أهمية تعزيز مهارات التقييم الذاتي النقدي بين الطلاب. تدعو الدراسة إلى نهج دقيق لدمج الذكاء الاصطناعي، مع التأكيد على الحاجة إلى تدريب مخصص وإرشادات واضحة تعزز الاستخدام المسؤول للذكاء الاصطناعي مع الحفاظ على النزاهة الأكاديمية. بشكل عام، توفر هذه الرؤى الأولية الأساس للبحث المستقبلي في ديناميات تفاعلات الطلاب مع الذكاء الاصطناعي في تطوير الكتابة والآثار الأوسع على الممارسات التعليمية.
القيود
تقدم الدراسة حول الكتابة الأكاديمية المدعومة بالذكاء الاصطناعي عدة قيود تؤثر على قابلية تعميم وعمومية نتائجها. أولاً، يحد حجم العينة الصغيرة (n = 30) والتركيز على مؤسسة واحدة من قابلية تطبيق النتائج على السياقات التعليمية الأوسع. قد تكون طريقة التوظيف القائمة على التطوع قد أدت إلى تحيز في الاختيار، حيث من المحتمل أن يكون لدى المشاركين اهتمام مسبق بتكنولوجيا الذكاء الاصطناعي. علاوة على ذلك، بينما رصدت الدراسة بفعالية التأثيرات الفورية، لم تأخذ في الاعتبار نتائج التعلم على المدى الطويل أو التحسينات المستدامة في مهارات الكتابة.
من الناحية المنهجية، فإن غياب مجموعة ضابطة يعقد نسبة التحسينات في الكتابة تحديدًا إلى المساعدة التي يقدمها الذكاء الاصطناعي، حيث تبقى عوامل مؤثرة أخرى غير مفحوصة. يحد نقص التنوع الديموغرافي واللغوي بين المشاركين من قابلية تعميم النتائج. بالإضافة إلى ذلك، فإن الطبيعة الذاتية لتقييم جودة الكتابة تقدم تباينًا في القياسات. لم تأخذ الدراسة في الاعتبار العوامل الديموغرافية مثل اللغة الأم أو الخبرة الكتابية السابقة، والتي قد تؤثر على فعالية أدوات الذكاء الاصطناعي. يجب أن تتناول الأبحاث المستقبلية هذه الفجوات وتستكشف أطر نظرية بديلة لتعزيز فهم التفاعل بين الطلاب والذكاء الاصطناعي في الكتابة الأكاديمية.
DOI: https://doi.org/10.1007/s40593-025-00477-7
Publication Date: 2025-04-28
Author(s): Sebastian Fitzek et al.
Primary Topic: Discourse Analysis in Language Studies
Overview
This mixed-methods pilot study explores the efficacy of large language models (LLMs), specifically ChatGPT 3.5, in enhancing the academic writing skills of communication and public relations students, focusing on clarity, conciseness, and coherence as per cognitive load theory. An analysis of 60 abstracts—30 drafted by students and 30 augmented by AI—revealed statistically significant improvements in clarity and conciseness, as assessed by two blinded evaluators (Evaluator 1: $p = 0.0024$; Evaluator 2: $p = 0.0462$). However, the study’s lack of a control group limits causal claims, and variability among evaluators underscores the subjectivity of assessments. Students perceived greater benefits from AI assistance than evaluators confirmed, indicating potential overconfidence and highlighting risks such as overreliance on AI and threats to originality.
The findings suggest that ChatGPT can enhance specific elements of academic writing, particularly clarity (mean improvement = 0.53) and conciseness (mean improvement = 0.52), with coherence improvements being more variable (mean improvement = 0.44). Notably, the effectiveness of AI assistance varied with student characteristics, where master’s students utilized AI more strategically compared to bachelor’s students, who benefited more from structural recommendations. This variation emphasizes the need for tailored implementation strategies based on user experience and proficiency. The discrepancy between student perceptions and expert evaluations points to increased metacognitive engagement among students. While the enhancements observed are promising, they should be interpreted cautiously due to the study’s limited scope, necessitating further research into the dynamics of student-AI interactions and the development of effective pedagogical strategies for AI integration in academic writing.
Introduction
The introduction of this research paper discusses the emergence of large language models (LLMs), such as ChatGPT, as innovative tools for text generation, particularly in educational contexts. Unlike traditional intelligent tutoring systems, LLMs operate on extensive training data without tailoring to individual learner needs. While some studies suggest that LLMs can enhance writing tasks through linguistic refinements, their effectiveness in promoting deeper learning outcomes—such as critical thinking and argument development—remains uncertain. This study aims to fill the gap in understanding the broader impact of LLMs on academic writing quality, particularly in communication and public relations programs, where students often face challenges in articulating complex ideas clearly and concisely.
The research is grounded in cognitive load theory and the cognitive theory of multimedia learning, positing that LLMs can reduce extraneous cognitive load, thereby allowing students to focus on higher-order skills. The study employs a mixed-methods approach, combining computational evaluations of writing quality with qualitative feedback from students, to assess improvements in clarity, conciseness, and coherence in academic abstracts. By utilizing prompt-based learning techniques, the study tests ChatGPT’s ability to refine drafts without generating content independently. Although the research is exploratory due to its small sample size, it seeks to provide preliminary insights into how LLM assistance can influence essential writing competencies and inform pedagogical practices, while also addressing concerns about academic integrity and the potential risks of overreliance on AI tools.
Results
The results of the mixed-methods pilot study reveal significant findings regarding the impact of AI-assisted writing enhancement on student writing quality. Improvements in writing quality were found to correlate with initial proficiency levels, with a notable negative correlation (r = -0.42, p < 0.05) indicating that students with lower initial proficiency experienced greater enhancements. Clarity emerged as the dimension with the most substantial improvement, averaging 0.57 points for Evaluator 1 and 0.48 points for Evaluator 2. Conciseness also showed moderate gains, particularly among master's-level students, who improved by an average of 0.58 points compared to 0.43 points for bachelor's-level students. Coherence improvements were less consistent, with Evaluator 1 reporting a mean increase of 0.50 points and Evaluator 2 a mean of 0.37 points, suggesting that coherence may be more resistant to enhancement through AI. Interrater reliability was confirmed with a Cohen's kappa of 0.666, indicating substantial agreement between evaluators. Separate kappa values for text origin identification (0.68) and quality rating (0.65) further supported this reliability. Evaluator comments showed high agreement on technical improvements (κ = 0.72) but lower on stylistic elements (κ = 0.58), highlighting the subjective nature of certain writing quality aspects. The variability in effect sizes (Cohen's d = 0.693 for Evaluator 1 vs. 0.426 for Evaluator 2) underscores the influence of individual evaluator perspectives on assessments of writing improvements. Overall, while AI assistance led to consistent enhancements in clarity and conciseness, coherence improvements were more variable, indicating areas for further investigation.
Discussion
The pilot study investigated the impact of ChatGPT, a large language model (LLM), on academic writing quality among communication and public relations students. Utilizing a mixed-methods approach, the research assessed improvements in clarity, conciseness, and coherence through both qualitative and quantitative measures. The study involved 30 participants who received training on ethical AI usage and engaged in a structured process of independent writing, AI-assisted revision, and expert evaluation. Results indicated significant enhancements in writing quality, particularly in clarity (mean improvement = 0.53 points) and conciseness, with variations observed based on academic experience—Master’s students exhibited more strategic use of AI compared to Bachelor’s students, who benefited more from structural improvements.
The findings suggest that while LLMs can effectively enhance certain writing attributes, the integration of AI in academic contexts necessitates careful consideration of pedagogical strategies. The discrepancy between students’ perceived improvements and expert evaluations points to a potential overconfidence in AI assistance, underscoring the importance of fostering critical self-assessment skills among students. The study advocates for a nuanced approach to AI integration, emphasizing the need for tailored training and clear guidelines that promote responsible AI usage while maintaining academic integrity. Overall, these preliminary insights lay the groundwork for future research into the dynamics of student-AI interactions in writing development and the broader implications for educational practices.
Limitations
The study on AI-assisted academic writing presents several limitations that impact the generalizability and comprehensiveness of its findings. Firstly, the small sample size (n = 30) and the focus on a single institution restrict the applicability of results to broader educational contexts. The volunteer-based recruitment method may have introduced selection bias, as participants likely possessed a preexisting interest in AI technology. Furthermore, while the study effectively observed immediate effects, it did not account for long-term learning outcomes or sustained improvements in writing skills.
Methodologically, the absence of a control group complicates the attribution of writing improvements specifically to AI assistance, as other influencing factors remain unexamined. The lack of demographic and linguistic diversity among participants further limits the generalizability of the findings. Additionally, the subjective nature of writing quality assessment introduces variability in measurements. The study did not consider demographic factors such as native language or prior writing experience, which could affect the effectiveness of AI tools. Future research should address these gaps and explore alternative theoretical frameworks to enhance understanding of the interaction between students and AI in academic writing.
