نماذج اللغة الكبيرة وتحليل الالتزام بإرشادات التقرير في المراجعات المنهجية ونظرات عامة على المراجعات (PRISMA 2020 و PRIOR)
Large Language Models and the Analyses of Adherence to Reporting Guidelines in Systematic Reviews and Overviews of Reviews (PRISMA 2020 and PRIOR)

المجلة: Journal of Medical Systems، المجلد: 49، العدد: 1
DOI: https://doi.org/10.1007/s10916-025-02212-0
PMID: https://pubmed.ncbi.nlm.nih.gov/40504403
تاريخ النشر: 2025-06-12
المؤلف: Diego A. Forero وآخرون
الموضوع الرئيسي: تحليل البيانات الشامل والمراجعات المنهجية

نظرة عامة

في مجال الممارسة القائمة على الأدلة (EBP)، تعتبر المراجعات المنهجية (SRs)، والتحليلات التلوية (MAs)، ونظرات عامة على المراجعات ضرورية لتلخيص نتائج الأبحاث، مسترشدة بمعايير الإبلاغ PRISMA 2020 و PRIOR. تبحث هذه الدراسة في فعالية أربعة نماذج لغوية كبيرة (LLMs)—ChatGPT (GPT-4o)، DeepSeek (V3)، Gemini (2.0 Flash)، و Qwen (2.5 Max)—في تقييم الالتزام بهذه الإرشادات عبر عينة من 20 مراجعة منهجية و 20 نظرة عامة على المراجعات.

أظهرت التحليلات أن جميع النماذج الأربعة أظهرت أداءً منخفضًا في تقييم الالتزام بـ PRISMA 2020، حيث تم تقدير الالتزام بشكل مبالغ فيه بنسبة تتراوح بين 23% إلى 30%. بالمقابل، أظهرت النماذج هامش خطأ أصغر بالنسبة لـ PRIOR، حيث اختلفت تقديرات الالتزام بنسبة تتراوح بين 6% إلى 14%. ومن الجدير بالذكر أن أداء ChatGPT كان مشابهًا لأداء الخبراء البشريين. تمثل هذه البحث التقييم الأولي للنماذج اللغوية الكبيرة في هذا السياق، مما يشير إلى أن المزيد من التحقيقات في الالتزام بإرشادات الإبلاغ الأخرى يمكن أن تعزز منهجيات البحث في علوم الصحة.

مقدمة

تناقش مقدمة هذه الورقة البحثية التأثير التحويلي للممارسة القائمة على الأدلة (EBP) على الطب وعلوم الصحة، مع تسليط الضوء بشكل خاص على أهمية المراجعات المنهجية (SRs) والتحليلات التلوية (MAs) كأدوات أساسية لتلخيص نتائج الأبحاث. أصبحت هذه المنهجيات أساسية في تطوير الإرشادات السريرية وتعد من أكثر أشكال الأدبيات الأكاديمية استشهادًا. يعزز ظهور المراجعات الشاملة، التي تجمع نتائج من عدة مراجعات منهجية وتحليلات تلوية، تلخيص الأبحاث عبر مجالات كاملة. لضمان الشفافية والكمال في الإبلاغ، تم وضع إرشادات مثل PRISMA 2020 وبيان PRIOR، على الرغم من أن تطبيقها الفعال يتطلب تقييمًا نقديًا مستمرًا.

تناقش الورقة أيضًا إمكانيات الذكاء الاصطناعي التوليدي (genAI)، وبشكل خاص النماذج اللغوية الكبيرة (LLMs)، في إحداث ثورة في عمليات البحث العلمي، بما في ذلك التحليل الآلي للالتزام بإرشادات الإبلاغ في علوم الصحة. يمكن أن يقلل هذا الأتمتة بشكل كبير من الوقت المطلوب للأنشطة البحثية الميتا، مما يسهل تحليل مجموعات بيانات أكبر ويعزز تطوير إرشادات الإبلاغ. الهدف الرئيسي من الدراسة هو تقييم أداء أربعة نماذج لغوية كبيرة في تقييم الالتزام بإرشادات PRISMA 2020 و PRIOR ضمن عينة من المراجعات المنهجية ونظرات عامة على المراجعات.

الطرق

في هذه الدراسة، قام المؤلفون بتقييم أداء أربعة نماذج لغوية كبيرة مجانية (LLMs): ChatGPT (GPT-4o)، DeepSeek (V3)، Gemini (2.0 Flash)، و Qwen (2.5 Max)، مع التركيز على التزامها بإرشادات الإبلاغ PRISMA 2020 و PRIOR. تم اختيار هذه النماذج بناءً على استخدامها الواسع وقدرتها على معالجة ملفات PDF. تم إجراء مرحلة تجريبية لتعديل المطالبات للنماذج اللغوية الكبيرة، محاكاة التطبيقات الواقعية من قبل باحثي علوم الصحة. تم تقييم الالتزام بـ PRISMA 2020، الذي يتضمن 27 عنصرًا و 42 عنصرًا فرعيًا، و PRIOR، الذي يتكون من 27 عنصرًا و 46 عنصرًا فرعيًا، من خلال نهج منهجي يتضمن توافق الخبراء على الدراسات المنشورة سابقًا.

شملت المنهجية تحميل المراجعات المنهجية المختارة (SRs) ونظرات عامة على المراجعات إلى النماذج اللغوية الكبيرة، باستخدام مطالبات محسّنة لاستنباط الردود. تم تصنيف كل عنصر على أنه ملتزم (1)، غير ملتزم (0)، أو ملتزم جزئيًا (0.5)، مع حساب النسب المئوية العامة للالتزام وفقًا لذلك. تم إجراء تحليلات إحصائية باستخدام ANOVA واختبارات Tukey لمقارنة درجات الالتزام للنماذج اللغوية الكبيرة مع تلك الخاصة بالخبراء البشريين، إلى جانب تقييمات الارتباط باستخدام معامل Pearson’s r. كانت الدراسة تهدف إلى استكشاف إمكانيات النماذج اللغوية الكبيرة في تبسيط عملية تقييم الالتزام، مما يعزز كفاءة المراجعات المنهجية والتحليلات التلوية في البحث الصحي.

النتائج

تشير نتائج الدراسة إلى أن الالتزام بإرشادات PRISMA 2020 كان أعلى بشكل ملحوظ بين النماذج اللغوية الكبيرة الأربعة (LLMs) مقارنة بالخبراء البشريين، كما يتضح من الرسوم البيانية (الشكل 1A) والتحليلات التفصيلية للمراجعات المنهجية (SRs) (الشكل 1B). كشفت المقارنات الإحصائية عن اختلافات كبيرة في الأداء، حيث أظهرت النماذج اللغوية الكبيرة فجوة متوسطة في الالتزام تتراوح بين 23.1% إلى 29.7% مقارنةً بالدرجات البشرية (الجدول 1؛ الشكل 2). علاوة على ذلك، سلط تحليل الالتزام عبر أقسام PRISMA المختلفة الضوء على تفاوتات كبيرة (الجدول S2)، مع أمثلة محددة توضح الاختلافات في النصوص التي تم إنشاؤها بواسطة النماذج اللغوية الكبيرة (الجدول S4). بشكل عام، تشير النتائج إلى أداء ضعيف لجميع النماذج اللغوية الكبيرة الأربعة في تلبية معايير PRISMA 2020.

بالمقابل، أظهر الالتزام ببيان PRIOR توافقًا محسّنًا بين النماذج اللغوية الكبيرة والخبراء البشريين، لا سيما بالنسبة لـ ChatGPT، الذي لم يظهر اختلافات كبيرة وارتباطًا ملحوظًا مع الدرجات البشرية (الجدول 2). أشار تحليل Bland-Altman إلى اختلافات متوسطة أصغر تبلغ 6.1 بين ChatGPT والخبراء البشريين (الجدول 2؛ الشكل 4). بينما أدت ثلاثة من النماذج اللغوية الكبيرة الأربعة أداءً ضعيفًا فيما يتعلق بالالتزام بـ PRIOR، أظهر التحليل أن التفاوتات كانت أصغر بشكل ملحوظ في أقسام النتائج والمناقشة عند مقارنة ChatGPT بالردود البشرية (الجدول S3؛ الجدول S5).

المناقشة

في هذه الدراسة، تم تقييم أداء أربعة نماذج لغوية كبيرة شائعة الاستخدام (LLMs) لقدرتها على تقييم الالتزام بإرشادات الإبلاغ PRISMA 2020 و PRIOR في عينة من المراجعات المنهجية (SRs)، والتحليلات التلوية (MAs)، ونظرات عامة على المراجعات. تكشف النتائج أن جميع النماذج اللغوية الكبيرة أظهرت أداءً منخفضًا في تحليل الالتزام بـ PRISMA 2020، مما أدى إلى مبالغات كبيرة في تقديرات الالتزام مقارنة بالخبراء البشريين، لا سيما بالنسبة للمراجعات المنهجية ذات معدلات الالتزام المنخفضة. بالمقابل، أظهرت النماذج اللغوية الكبيرة أداءً محسّنًا بالنسبة لـ PRIOR، مع تفاوتات أصغر في تقدير الالتزام. ومن الجدير بالذكر أن أداء ChatGPT كان مشابهًا لأداء الخبراء البشريين، مما يتماشى مع الأدبيات الحديثة التي تشير إلى أن النماذج اللغوية العامة ليست بعد مناسبة لمهام تلخيص الأبحاث.

تسلط الدراسة الضوء على التحديات التي تطرحها النماذج اللغوية الكبيرة في أبحاث علوم الصحة، لا سيما انتشار الأخطاء، التي تُعرف غالبًا بالهلوسة أو التخييلات، في مخرجاتها. تشمل قيود البحث الحالي حجم العينة المتجانسة والصغيرة نسبيًا، مما يشير إلى أن الدراسات المستقبلية يجب أن تتضمن مجموعات بيانات أكثر تنوعًا وكبيرة، بالإضافة إلى استكشاف تأثيرات المطالبات المعقدة. بالإضافة إلى ذلك، هناك دعوة لمزيد من التحقيقات في النماذج اللغوية الكبيرة المصممة لتحليلات متقدمة لالتزام قياسات الوبائيات والالتزام بإرشادات الإبلاغ الأخرى، لا سيما في السياقات التي تتجاوز الشمال العالمي.

Journal: Journal of Medical Systems, Volume: 49, Issue: 1
DOI: https://doi.org/10.1007/s10916-025-02212-0
PMID: https://pubmed.ncbi.nlm.nih.gov/40504403
Publication Date: 2025-06-12
Author(s): Diego A. Forero et al.
Primary Topic: Meta-analysis and systematic reviews

Overview

In the realm of Evidence-Based Practice (EBP), Systematic Reviews (SRs), Meta-Analyses (MAs), and overviews of reviews are essential for synthesizing research findings, guided by the PRISMA 2020 and PRIOR reporting standards. This study investigates the efficacy of four large language models (LLMs)—ChatGPT (GPT-4o), DeepSeek (V3), Gemini (2.0 Flash), and Qwen (2.5 Max)—in assessing adherence to these guidelines across a sample of 20 SRs and 20 overviews of reviews.

The analysis revealed that all four LLMs exhibited low performance in evaluating adherence to PRISMA 2020, with adherence estimates overestimated by 23% to 30%. In contrast, the models showed a smaller margin of error for PRIOR, with adherence estimates differing by only 6% to 14%. Notably, ChatGPT’s performance was comparable to that of human experts. This research represents the inaugural assessment of LLMs in this context, suggesting that further investigations into adherence to other reporting guidelines could enhance health sciences research methodologies.

Introduction

The introduction of this research paper discusses the transformative impact of Evidence-Based Practice (EBP) on medicine and health sciences, particularly highlighting the significance of Systematic Reviews (SRs) and Meta-Analyses (MAs) as essential tools for synthesizing research findings. These methodologies have become foundational in developing clinical guidelines and are among the most cited forms of academic literature. The emergence of umbrella reviews, which aggregate results from multiple SRs and MAs, further enhances the synthesis of research across entire fields. To ensure transparency and completeness in reporting, guidelines such as the PRISMA 2020 and the PRIOR statement have been established, although their effective application requires ongoing critical evaluation.

The paper also addresses the potential of Generative Artificial Intelligence (genAI), specifically Large Language Models (LLMs), to revolutionize scientific research processes, including the automated analysis of adherence to reporting guidelines in health sciences. This automation could significantly reduce the time required for meta-research activities, facilitating the analysis of larger datasets and informing the development of reporting guidelines. The primary objective of the study is to evaluate the performance of four LLMs in assessing adherence to the PRISMA 2020 and PRIOR guidelines within a sample of SRs and overviews of reviews.

Methods

In this study, the authors evaluated the performance of four free large language models (LLMs): ChatGPT (GPT-4o), DeepSeek (V3), Gemini (2.0 Flash), and Qwen (2.5 Max), focusing on their adherence to the PRISMA 2020 and PRIOR reporting guidelines. The selection of these LLMs was based on their widespread use and capability to process PDF files. A pilot phase was conducted to refine prompts for the LLMs, simulating real-world applications by health sciences researchers. The adherence to PRISMA 2020, which includes 27 items and 42 subitems, and PRIOR, which comprises 27 items and 46 subitems, was assessed through a systematic approach involving expert consensus on previously published studies.

The methodology included uploading selected systematic reviews (SRs) and overviews of reviews to the LLMs, utilizing optimized prompts to elicit responses. Adherence was quantified by categorizing each item as adhered (1), not adhered (0), or partially adhered (0.5), with overall adherence percentages calculated accordingly. Statistical analyses were performed using ANOVA and Tukey’s tests to compare LLM adherence scores with those of human experts, alongside correlation assessments using Pearson’s r coefficient. The study aimed to explore the potential of LLMs in streamlining the adherence evaluation process, thereby enhancing the efficiency of systematic reviews and meta-analyses in health research.

Results

The results of the study indicate that adherence to the PRISMA 2020 guidelines was significantly higher among the four large language models (LLMs) compared to human experts, as evidenced by box plots (Fig. 1A) and detailed analyses of systematic reviews (SRs) (Fig. 1B). Statistical comparisons revealed substantial differences in performance, with the LLMs exhibiting an average adherence gap of 23.1% to 29.7% relative to human scores (Table 1; Fig. 2). Furthermore, the analysis of adherence across various PRISMA sections highlighted considerable discrepancies (Table S2), with specific examples illustrating the differences in LLM-generated texts (Table S4). Overall, the findings suggest a poor performance of all four LLMs in meeting PRISMA 2020 standards.

In contrast, adherence to the PRIOR statement showed improved concordance between LLMs and human experts, particularly for ChatGPT, which demonstrated no significant differences and a notable correlation with human scores (Table 2). The Bland-Altman analysis indicated smaller average differences of 6.1 between ChatGPT and human experts (Table 2; Fig. 4). While three of the four LLMs performed poorly regarding PRIOR adherence, the analysis revealed that discrepancies were notably smaller for the Results and Discussion sections when comparing ChatGPT to human responses (Table S3; Table S5).

Discussion

In this study, the performance of four commonly used large language models (LLMs) was evaluated for their ability to assess adherence to the PRISMA 2020 and PRIOR reporting guidelines in a sample of systematic reviews (SRs), meta-analyses (MAs), and overviews of reviews. The findings reveal that all LLMs demonstrated low performance in analyzing adherence to PRISMA 2020, significantly overestimating adherence percentages compared to human experts, particularly for SRs with lower adherence rates. In contrast, the LLMs showed improved performance for PRIOR, with smaller discrepancies in adherence estimation. Notably, ChatGPT’s performance was comparable to that of human experts, aligning with recent literature indicating that general-purpose LLMs are not yet suitable for research synthesis tasks.

The study highlights the challenges posed by LLMs in health sciences research, particularly the prevalence of errors, often referred to as hallucinations or confabulations, in their outputs. Limitations of the current research include a homogeneous and relatively small sample size, suggesting that future studies should incorporate more diverse and larger datasets, as well as explore the effects of complex prompts. Additionally, there is a call for further investigations into LLMs tailored for advanced analyses of epidemiological measurement adherence and adherence to other reporting guidelines, particularly in contexts beyond the Global North.