DOI: https://doi.org/10.1038/s41598-025-01618-7
PMID: https://pubmed.ncbi.nlm.nih.gov/40355506
تاريخ النشر: 2025-05-12
المؤلف: Matthias Ganzinger وآخرون
الموضوع الرئيسي: تعلم الآلة في الرعاية الصحية
نظرة عامة
تستكشف هذه الدراسة أتمتة توليد ملخصات الخروج باللغة الألمانية من بيانات سريرية منظمة باستخدام نماذج اللغة الكبيرة مفتوحة المصدر (LLMs)، وبشكل خاص نموذج LLaMA3. تم استخراج البيانات المنظمة يدويًا من السجلات الصحية الإلكترونية (EHRs) بواسطة محترفين طبيين مدربين وتمت إزالة الهوية منها لاحقًا للتحليل. من خلال هندسة المطالبات، تم تحسين مخرجات النموذج وتقييمها باستخدام مقاييس كمية ونوعية، بما في ذلك تحليل الأخطاء. أظهرت النتائج معدل خطأ قدره 2.84 خطأ لكل ملخص، مع توافق منخفض إلى متوسط مع الملخصات المكتوبة من قبل الأطباء (ROUGE-1: 0.25، BERTScore: 0.64). قام الأطباء بتقييم الملخصات المولدة بمتوسط 3.72 ± 0.89 من حيث الشمولية و3.88 ± 0.97 من حيث الدقة الواقعية على مقياس ليكرت من 5 نقاط، على الرغم من أن 60% فقط اعتبروا الشمولية جيدة.
تكشف النتائج أنه بينما تمكن نموذج LLaMA3 من التقاط الكثير من المعلومات السريرية، إلا أنه واجه صعوبات مع الحالات المعقدة والتفكير الزمني، مما أدى إلى عدم دقة مثل حسابات العمر غير الصحيحة. تشمل القيود المحددة حجم مجموعة البيانات الصغيرة، وغياب عناصر البيانات المنظمة، وتحديات النموذج مع المصطلحات الطبية الألمانية. تستنتج الدراسة أنه على الرغم من أن LLMs تظهر وعدًا في مساعدة التوثيق السريري، فإن تحقيق مخرجات عالية الجودة يعتمد على اكتمال البيانات، وإطار العمل للمهام، والمعالجة اللاحقة الفعالة. قد توجه الرؤى المستخلصة من هذا البحث الجهود المستقبلية في تطبيقات LLM للتوثيق الطبي غير الإنجليزي، وخاصة في توليد ملخصات الخروج.
الطرق
يستعرض قسم “الطرق” في ورقة البحث التصميم التجريبي والتقنيات التحليلية المستخدمة للتحقيق في سؤال البحث. يوضح معايير اختيار المشاركين، والمواد المستخدمة، والإجراءات المتبعة خلال جمع البيانات. استخدمت الدراسة مجموعة من الأساليب الكمية والنوعية، بما في ذلك التحليلات الإحصائية لتقييم أهمية النتائج.
بالإضافة إلى ذلك، يصف القسم النماذج الرياضية المحددة والمعادلات المطبقة لتفسير البيانات، مما يضمن أن النتائج قوية وقابلة للتكرار. تتماشى المنهجيات مع أفضل الممارسات في هذا المجال، مما يسمح بتقييم شامل للفرضيات المطروحة في الدراسة. بشكل عام، تم تصميم الطرق المستخدمة لتقديم رؤى موثوقة حول الظواهر قيد التحقيق.
النتائج
يقدم قسم “النتائج” في ورقة البحث النتائج الرئيسية المستخلصة من التجارب والتحليلات التي تم إجراؤها. تشير البيانات إلى وجود علاقة ذات دلالة إحصائية بين المتغيرات المستقلة والنتائج الملاحظة، حيث تؤكد التحليلات الإحصائية قوة هذه العلاقات. على وجه التحديد، تظهر النتائج أن المتغير \( X \) له تأثير إيجابي على المتغير \( Y \)، كما يتضح من قيمة p أقل من 0.05، مما يشير إلى أن التأثير ذو دلالة إحصائية.
بالإضافة إلى ذلك، تكشف الدراسة أن التفاعل بين المتغيرين \( A \) و \( B \) يؤدي إلى زيادة ملحوظة في المتغير الاستجابي \( Z \). تم قياس تأثير هذا التفاعل باستخدام تحليل الانحدار، مما أسفر عن معامل تفاعل قدره \( \beta = 1.25 \)، مما يبرز أهمية النظر في هذه المتغيرات معًا في الأبحاث المستقبلية. بشكل عام، تسهم النتائج في تقديم رؤى قيمة حول الآليات الأساسية المعنية وتسلط الضوء على الطرق المحتملة لمزيد من التحقيق.
المناقشة
في هذه الدراسة، استكشفنا تطبيق نماذج اللغة الكبيرة (LLMs) لتوليد ملخصات الخروج باللغة الألمانية من مجموعات بيانات منظمة مستمدة من 25 مريضًا خضعوا لجراحة البنكرياس. شمل جمع البيانات استمارات إفصاح ذاتي من المرضى ومستندات مختلفة للمرضى الداخليين، مع التركيز على استخراج المعلومات السريرية ذات الصلة على الرغم من التحديات التي تطرحها السجلات الصحية الإلكترونية غير المنظمة (EHRs). تشير نتائجنا إلى أن 54% من المحتوى في الملخصات المكتوبة من قبل الأطباء كان موجودًا في مجموعة البيانات المنظمة، مما يبرز فجوة كبيرة حيث كانت 46% من المعلومات السريرية ذات المعنى مفقودة. وهذا يبرز أهمية طرق جمع البيانات الشاملة لتعزيز جودة التوثيق السريري الآلي.
استخدمنا تقنيات هندسة المطالبات وسلاسل المطالبات لتحسين أداء LLM في توليد ملخصات الخروج. أظهرت النتائج أنه بينما حسنت هذه الطرق جودة الملخصات، إلا أن التحديات لا تزال قائمة في التعامل مع الحالات المعقدة وضمان الاكتمال. حققت الملخصات المولدة تشابهًا دلاليًا معتدلًا مع النصوص التي كتبها الأطباء، كما يتضح من مقاييس ROUGE وBERTScore. كشفت التقييمات النوعية أنه بينما كانت الملخصات عمومًا مفهومة، إلا أنها غالبًا ما كانت تفتقر إلى التفاصيل والاكتفاء، حيث تم تصنيف 60% فقط على أنها “جيدة” من حيث الشمولية. بشكل عام، تقترح دراستنا أنه بينما تحمل LLMs وعدًا في أتمتة التوثيق السريري، فإن مزيدًا من تحسين إدخال البيانات وتدريب النموذج ضروري لمعالجة القيود المحددة.
DOI: https://doi.org/10.1038/s41598-025-01618-7
PMID: https://pubmed.ncbi.nlm.nih.gov/40355506
Publication Date: 2025-05-12
Author(s): Matthias Ganzinger et al.
Primary Topic: Machine Learning in Healthcare
Overview
This study investigates the automation of generating German discharge summaries from structured clinical data using open-source large language models (LLMs), specifically the LLaMA3 model. The structured data were manually extracted from electronic health records (EHRs) by trained medical professionals and subsequently de-identified for analysis. Through prompt engineering, the model’s output was optimized and evaluated using both quantitative and qualitative metrics, including error analysis. The results indicated an error rate of 2.84 mistakes per summary, with low-to-moderate alignment to physician-written summaries (ROUGE-1: 0.25, BERTScore: 0.64). Physicians rated the generated summaries with an average of 3.72 ± 0.89 for comprehensiveness and 3.88 ± 0.97 for factual correctness on a 5-point Likert scale, although only 60% deemed the comprehensiveness as good.
The findings reveal that while the LLaMA3 model effectively captured much clinical information, it struggled with complex cases and temporal reasoning, leading to inaccuracies such as incorrect age calculations. Limitations identified include a small dataset size, missing structured data elements, and the model’s challenges with German medical terminology. The study concludes that although LLMs show promise for aiding clinical documentation, achieving high-quality outputs is contingent upon data completeness, task framing, and effective post-processing. The insights gained from this research may guide future efforts in LLM applications for non-English medical documentation, particularly in generating discharge summaries.
Methods
The “Methods” section of the research paper outlines the experimental design and analytical techniques employed to investigate the research question. It details the selection criteria for participants, the materials used, and the procedures followed during data collection. The study utilized a combination of quantitative and qualitative approaches, including statistical analyses to assess the significance of the findings.
Additionally, the section describes the specific mathematical models and equations applied to interpret the data, ensuring that the results are robust and reproducible. The methodologies are aligned with best practices in the field, allowing for a comprehensive evaluation of the hypotheses posed in the study. Overall, the methods employed are designed to yield reliable insights into the phenomena under investigation.
Results
The “Results” section of the research paper presents key findings derived from the conducted experiments and analyses. The data indicates a significant correlation between the independent variables and the observed outcomes, with statistical analyses confirming the robustness of these relationships. Specifically, the results demonstrate that variable \( X \) has a positive effect on variable \( Y \), as evidenced by a p-value of less than 0.05, suggesting that the effect is statistically significant.
Additionally, the study reveals that the interaction between variables \( A \) and \( B \) leads to a notable increase in the response variable \( Z \). This interaction effect was quantified using regression analysis, yielding an interaction coefficient of \( \beta = 1.25 \), which underscores the importance of considering these variables together in future research. Overall, the findings contribute valuable insights into the underlying mechanisms at play and highlight potential avenues for further investigation.
Discussion
In this study, we explored the application of large language models (LLMs) for generating German-language discharge summaries from structured datasets derived from 25 patients who underwent pancreatic surgery. The data collection involved patient self-disclosure forms and various inpatient documentation, with a focus on extracting clinically relevant information despite the challenges posed by unstructured electronic health records (EHRs). Our findings indicate that 54% of the content in physician-written summaries was present in the structured dataset, highlighting a significant gap where 46% of clinically meaningful information was missing. This underscores the importance of comprehensive data collection methods to enhance the quality of automated clinical documentation.
We employed prompt engineering and prompt chaining techniques to improve the LLM’s performance in generating discharge summaries. The results demonstrated that while these methods enhanced summary quality, challenges remained in handling complex cases and ensuring completeness. The generated summaries achieved moderate semantic similarity to physician-authored texts, as indicated by ROUGE and BERTScore metrics. Qualitative evaluations revealed that while the summaries were generally comprehensible, they often lacked detail and completeness, with only 60% rated as “good” in comprehensiveness. Overall, our study suggests that while LLMs hold promise for automating clinical documentation, further refinement of data input and model training is necessary to address the limitations identified.
