DOI: https://doi.org/10.1038/s41746-025-01457-w
PMID: https://pubmed.ncbi.nlm.nih.gov/39890970
تاريخ النشر: 2025-01-31
المؤلف: Honghao Lai وآخرون
الموضوع الرئيسي: دراسات الطب التكميلي والبديل
نظرة عامة
القسم المعنون “نظرة عامة” يقدم ملخصًا من مجموعة العمل المتقدمة، يحدد أهداف المجموعة والنتائج الرئيسية. تركز مجموعة العمل على تعزيز المنهجيات والتقنيات في مجالها المعني، مع التأكيد على الجهود التعاونية لتحسين نتائج البحث.
تسلط النتائج الضوء على التقدم الكبير في الأطر النظرية والتطبيقات العملية، مما يظهر الإمكانية لتحسين الكفاءة والفعالية في العمليات المختلفة. تدعو المجموعة إلى استمرار التعاون بين التخصصات لمعالجة التحديات المعقدة وتعزيز الابتكار داخل هذا المجال.
الطرق
في هذه الدراسة، التي أجريت من 3 نوفمبر 2023 إلى 30 سبتمبر 2024، اتبع الباحثون إرشادات تقرير AAPOR وحصلوا على إعفاء من لجنة مراجعة الأخلاقيات الطبية في كلية الصحة العامة بجامعة لانتشو، حيث تم الحصول على البيانات المستخدمة من دراسات منشورة موجودة. تضمنت المنهجية استخدام نموذجين كبيرين للغة (LLMs): Moonshot-v1-128k، وهو نموذج مفتوح الوصول من Moonshot AI، وClaude-3.5-sonnet، الذي طورته شركة Anthropic.
تطرح الفرضية المركزية للدراسة أن عملية من خطوتين – تتكون من (1) استخراج البيانات وتقييم خطر التحيز (ROB) الذي يتم بواسطة LLMs باستخدام مطالبات منظمة، تليها (2) التحقق والتنقيح من قبل باحث واحد – ستحقق نتائج ليست فقط قابلة للمقارنة من حيث الدقة ولكن أيضًا متفوقة من حيث الكفاءة مقارنة بالطرق التقليدية التي تتطلب مشاركة باحثين مستقلين اثنين.
المناقشة
في هذه الدراسة، تم تقييم أداء نموذجين كبيرين للغة (LLMs)، Claude-3.5-sonnet وMoonshot-v1-128k، لاستخراج البيانات وتقييمات خطر التحيز (ROB) في 107 تجارب عشوائية محكومة (RCTs). تفوق Claude-3.5-sonnet على Moonshot-v1-128k في دقة استخراج البيانات (96.2% مقابل 95.1%، p < 0.001) وأظهر ميزة طفيفة في تقييمات ROB (96.9% مقابل 95.7%)، على الرغم من أن الفرق الأخير لم يكن ذا دلالة إحصائية. من الجدير بالذكر أن الطرق المدعومة بـ LLMs قللت بشكل كبير من الوقت المطلوب لكل من استخراج البيانات (من 86.9 دقيقة إلى 14.7 دقيقة) وتقييمات ROB (من 10.4 دقيقة إلى 5.9 دقيقة)، مما يظهر كفاءة محسنة مقارنة بالأساليب التقليدية. كما سلطت النتائج الضوء على تأثير اللغة على أداء النموذج، حيث كان أداء Claude-3.5-sonnet أفضل في التجارب العشوائية المحكومة باللغة الإنجليزية، بينما أظهر Moonshot-v1-128k دقة محسنة مع زيادة قابلية التعرف على PDF. كانت الأخطاء في كلا النموذجين ناتجة بشكل أساسي عن الفشل في تحديد البيانات المحددة المبلغ عنها بدلاً من سوء التفسير. لعب المراجعون البشريون دورًا حاسمًا في تصحيح هذه الأخطاء، مما أدى إلى تحسينات كبيرة في الدقة، لا سيما في مجالات الطرق وتوليد التسلسل. تؤكد الدراسة على فعالية الطرق المدعومة بـ LLMs في تجميع الأدلة، بينما تشير أيضًا إلى ضرورة إجراء المزيد من الأبحاث للتحقق من هذه النتائج عبر سياقات وهياكل نماذج متنوعة.
DOI: https://doi.org/10.1038/s41746-025-01457-w
PMID: https://pubmed.ncbi.nlm.nih.gov/39890970
Publication Date: 2025-01-31
Author(s): Honghao Lai et al.
Primary Topic: Complementary and Alternative Medicine Studies
Overview
The section titled “Overview” presents a summary from the ADVANCED Working Group, outlining the group’s objectives and key findings. The working group focuses on advancing methodologies and technologies in their respective field, emphasizing collaborative efforts to enhance research outcomes.
The findings highlight significant advancements in theoretical frameworks and practical applications, demonstrating the potential for improved efficiency and effectiveness in various processes. The group advocates for continued interdisciplinary collaboration to address complex challenges and foster innovation within the domain.
Methods
In this study, conducted from November 3, 2023, to September 30, 2024, the researchers followed the AAPOR reporting guidelines and received an exemption from the Medical Ethics Review Committee of Lanzhou University’s School of Public Health, as the data utilized were sourced from existing published studies. The methodology involved the use of two large language models (LLMs): Moonshot-v1-128k, an open-access model from Moonshot AI, and Claude-3.5-sonnet, developed by Anthropic.
The central hypothesis of the study posits that a two-step process—comprising (1) data extraction and risk of bias (ROB) assessment performed by LLMs using structured prompts, followed by (2) verification and refinement by a single researcher—would achieve results that are not only comparable in accuracy but also superior in efficiency to traditional methods that necessitate the involvement of two independent researchers.
Discussion
In this study, the performance of two large language models (LLMs), Claude-3.5-sonnet and Moonshot-v1-128k, was evaluated for data extraction and risk-of-bias (ROB) assessments in 107 randomized controlled trials (RCTs). Claude-3.5-sonnet outperformed Moonshot-v1-128k in data extraction accuracy (96.2% vs. 95.1%, p < 0.001) and showed a slight advantage in ROB assessments (96.9% vs. 95.7%), although the latter difference was not statistically significant. Notably, LLM-assisted methods significantly reduced the time required for both data extraction (from 86.9 min to 14.7 min) and ROB assessments (from 10.4 min to 5.9 min), demonstrating enhanced efficiency compared to traditional approaches. The findings also highlighted the impact of language on model performance, with Claude-3.5-sonnet performing better on English-language RCTs, while Moonshot-v1-128k showed improved accuracy with higher PDF recognizability. Errors in both models were primarily due to failures in identifying specific reported data rather than misinterpretation. Human reviewers played a crucial role in correcting these errors, leading to substantial accuracy improvements, particularly in the Methods and Sequence generation domains. The study underscores the effectiveness of LLM-assisted methods in evidence synthesis, while also indicating the necessity for further research to validate these findings across diverse contexts and model architectures.
