DOI: https://doi.org/10.1093/jamia/ocad259
PMID: https://pubmed.ncbi.nlm.nih.gov/38281112
تاريخ النشر: 2024-01-27
المؤلف: Yan Hu وآخرون
الموضوع الرئيسي: نمذجة الموضوعات
نظرة عامة
تدرس هذه الدراسة أداء GPT-3.5 و GPT-4 في مهام التعرف على الكيانات المسماة السريرية (NER)، مستهدفةً بشكل خاص استخراج الكيانات الطبية من الملاحظات السريرية وتحديد الأحداث السلبية المتعلقة باضطرابات الجهاز العصبي. تستخدم البحث إطار عمل محدد للمهام مصمم لتعزيز أداء النموذج، والذي يتضمن مطالبات أساسية، ومطالبات قائمة على إرشادات التوضيح، وتعليمات تحليل الأخطاء، وعينات من التعلم القليل. تم تقييم النماذج مقابل معيار BioClinicalBERT.
تشير النتائج إلى أنه باستخدام المطالبات الأساسية، حقق كل من GPT-3.5 و GPT-4 درجات F1 مريحة بلغت 0.634 و 0.804 لمجموعة بيانات MTSamples، و 0.301 و 0.593 لـ VAERS، على التوالي. أدى إدخال مكونات إضافية للمطالبات إلى تحسينات كبيرة، حيث وصلت الدرجات النهائية إلى 0.794 و 0.861 لمجموعة بيانات MTSamples، و 0.676 و 0.736 لـ VAERS عند استخدام جميع المكونات. على الرغم من أن هذه الدرجات أقل من تلك الخاصة بـ BioClinicalBERT (0.901 لمجموعة بيانات MTSamples و 0.802 لـ VAERS)، تشير النتائج إلى أن إطار العمل المقترح للمطالبات يعزز بشكل فعال قابلية تطبيق نماذج GPT في الإعدادات السريرية، مما يتطلب عينات تدريب أقل لتحسين الأداء.
مقدمة
تناقش مقدمة ورقة البحث التحديات المرتبطة باستخراج رؤى قيمة من البيانات غير المهيكلة في السجلات الصحية الإلكترونية (EHRs)، وخاصة الملاحظات السريرية. يعد الاستخراج اليدوي عملية كثيفة العمالة، مما يدفع إلى تطوير تقنيات معالجة اللغة الطبيعية (NLP)، ولا سيما التعرف على الكيانات المسماة السريرية (NER)، التي تحدد الكيانات السريرية وفئاتها الدلالية. لقد حسنت التقدمات في NER السريرية، وخاصة من خلال التعلم الآلي والأنظمة الهجينة مثل cTAKES و CLAMP، الكفاءة في رعاية المرضى والبحث السريري. ومع ذلك، لا يزال إنشاء مجموعات كبيرة من البيانات المعلّمة يمثل عنق زجاجة.
تسلط الورقة الضوء على ظهور نماذج اللغة الكبيرة المعتمدة على المحولات (LLMs)، مثل BERT ونسخها الخاصة بالمجالات (BioBERT و PubMedBERT و ClinicalBERT)، التي أظهرت أداءً محسنًا في مهام NER السريرية من خلال التعلم الانتقالي. لقد وسعت إدخال نماذج GPT، وخاصة GPT-3.5 و GPT-4، من الإمكانيات لتطبيقات NLP في الرعاية الصحية، بما في ذلك NER السريرية. تهدف هذه الدراسة إلى استكشاف فعالية نماذج GPT لمهام NER السريرية، مقدمةً إطار عمل للمطالبات يعزز أداء النموذج بنسبة تصل إلى 20% ويؤسس معايير لتقييم LLMs في NER السريرية. تؤكد النتائج على إمكانية تطوير LLMs لأنظمة NER السريرية القابلة للتعميم مع تقليل جهود التوضيح، وجميع الأكواد والبيانات ذات الصلة متاحة للجمهور.
طرق
تحدد قسم “الطرق” في ورقة البحث التصميم التجريبي والتقنيات التحليلية المستخدمة للتحقيق في أسئلة البحث. استخدمت الدراسة نهجًا كميًا، يتضمن تحليلات إحصائية لتقييم البيانات المجمعة من تجارب مختلفة. تم اختيار المشاركين من خلال طريقة أخذ عينات طبقية لضمان عينة تمثيلية، وتم جمع البيانات باستخدام أدوات موحدة للحفاظ على الاتساق والموثوقية.
شمل التحليل تطبيق نماذج الانحدار المتعدد لتقييم العلاقات بين المتغيرات المستقلة والتابعة. بالإضافة إلى ذلك، استخدم الباحثون ANOVA لمقارنة متوسطات المجموعات وتحديد دلالة النتائج. تم إجراء جميع الاختبارات الإحصائية عند مستوى دلالة قدره $\alpha = 0.05$، مما يضمن أن النتائج كانت قوية وموثوقة. تم تصميم الطرق لتقليل التحيز وتعزيز صلاحية الاستنتاجات المستخلصة من الدراسة.
نتائج
يقدم قسم “النتائج” في ورقة البحث النتائج الرئيسية المستمدة من التجارب أو التحليلات المنفذة. يبرز الاتجاهات البيانية المهمة، والنتائج الإحصائية، وأي ارتباطات أو أنماط ملحوظة ذات صلة بأسئلة البحث. عادةً ما يتم توضيح النتائج من خلال الجداول أو الرسوم البيانية أو الأشكال، مما يوفر تمثيلًا بصريًا للبيانات ويسهل التفسير.
في هذا القسم، قد يناقش المؤلفون أيضًا تداعيات نتائجهم فيما يتعلق بالأدبيات الموجودة، مؤكدين كيف تساهم نتائجهم في الفهم الأوسع للموضوع. قد يتم أيضًا معالجة أي قيود للدراسة والمجالات المحتملة للبحث المستقبلي، مما يضمن نظرة شاملة على النتائج التي تم الحصول عليها.
مناقشة
تدرس الدراسة أداء ChatGPT (GPT-3.5) في مهام التعرف على الكيانات المسماة السريرية (NER) في سياق عدم وجود أمثلة مسبقة، مستهدفةً بشكل خاص المشكلات الطبية والعلاجات والاختبارات، كما هو محدد في تحدي i2b2 لعام 2010. تقارن البحث بين ChatGPT و GPT-3 في سياق عدم وجود أمثلة مسبقة مقابل نموذج أساسي، BioClinicalBERT، الذي تم تحسينه على نفس مجموعة البيانات. تم استخدام مجموعتين من البيانات: MTSamples، وهي مجموعة بيانات اصطناعية، ومجموعة بيانات VAERS، التي تحتوي على تقارير سلامة مجهولة الهوية. تشير النتائج إلى أن دمج المطالبات المحددة للمهام، بما في ذلك إرشادات التوضيح وتحليل الأخطاء، يعزز بشكل كبير أداء كلا النموذجين GPT، حيث أظهر GPT-3.5 تحسنًا أكثر وضوحًا من GPT-4.
تكشف النتائج أن BioClinicalBERT تفوق على كلا النموذجين GPT من حيث درجات F1 تحت معايير المطابقة الدقيقة والمطابقة المريحة. ومع ذلك، أظهر GPT-4 أداءً تنافسيًا، خاصةً في تقييمات المطابقة المريحة. تسلط الدراسة الضوء على إمكانية نماذج اللغة الكبيرة (LLMs) في مهام NER السريرية، مشيرةً إلى أنها يمكن أن تحقق أداءً كبيرًا مع الحد الأدنى من الأمثلة المعلّمة، مما يقلل من التكاليف المرتبطة بتطوير أنظمة NER التقليدية. على الرغم من هذه النتائج الواعدة، تؤكد البحث على الحاجة المستمرة لمشاركة الخبراء في إنشاء إرشادات التوضيح والتحقق من مخرجات النموذج، بالإضافة إلى الحاجة إلى مخطط تقييم مصقول مصمم لطبيعة LLMs التوليدية. ستستكشف الأعمال المستقبلية نماذج LLMs إضافية وتقنيات التعلم القليل المتقدمة لتعزيز الأداء في تطبيقات NER السريرية.
DOI: https://doi.org/10.1093/jamia/ocad259
PMID: https://pubmed.ncbi.nlm.nih.gov/38281112
Publication Date: 2024-01-27
Author(s): Yan Hu et al.
Primary Topic: Topic Modeling
Overview
This study investigates the performance of GPT-3.5 and GPT-4 in clinical named entity recognition (NER) tasks, specifically targeting the extraction of medical entities from clinical notes and identifying adverse events related to nervous system disorders. The research employs a task-specific prompt framework designed to enhance model performance, which includes baseline prompts, annotation guideline-based prompts, error analysis instructions, and few-shot learning samples. The models were evaluated against the BioClinicalBERT benchmark.
Results indicate that with baseline prompts, GPT-3.5 and GPT-4 achieved relaxed F1 scores of 0.634 and 0.804 for the MTSamples dataset, and 0.301 and 0.593 for VAERS, respectively. The introduction of additional prompt components led to significant improvements, with final scores reaching 0.794 and 0.861 for MTSamples, and 0.676 and 0.736 for VAERS when all components were utilized. Although these scores are lower than those of BioClinicalBERT (0.901 for MTSamples and 0.802 for VAERS), the findings suggest that the proposed prompt framework effectively enhances the applicability of GPT models in clinical settings, requiring fewer training samples for improved performance.
Introduction
The introduction of the research paper discusses the challenges associated with extracting valuable insights from unstructured data in electronic health records (EHRs), particularly clinical notes. Manual extraction is labor-intensive, prompting the development of natural language processing (NLP) techniques, notably clinical named entity recognition (NER), which identifies clinical entities and their semantic categories. Advances in clinical NER, particularly through machine learning and hybrid systems like cTAKES and CLAMP, have improved efficiency in patient care and clinical research. However, the creation of large annotated corpora remains a bottleneck.
The paper highlights the emergence of transformer-based large language models (LLMs), such as BERT and its domain-specific variants (BioBERT, PubMedBERT, ClinicalBERT), which have shown improved performance in clinical NER tasks through transfer learning. The introduction of GPT models, particularly GPT-3.5 and GPT-4, has further expanded the potential for NLP applications in healthcare, including clinical NER. This study aims to explore the effectiveness of GPT models for clinical NER tasks, introducing a prompt framework that enhances model performance by up to 20% and establishing benchmarks for evaluating LLMs in clinical NER. The findings underscore the potential of LLMs to develop generalizable clinical NER systems with reduced annotation efforts, and all related code and datasets are made publicly available.
Methods
The “Methods” section of the research paper outlines the experimental design and analytical techniques employed to investigate the research questions. The study utilized a quantitative approach, incorporating statistical analyses to evaluate the data collected from various experiments. Participants were selected through a stratified sampling method to ensure a representative sample, and the data was gathered using standardized instruments to maintain consistency and reliability.
The analysis involved the application of multiple regression models to assess the relationships between the independent and dependent variables. Additionally, the researchers employed ANOVA to compare group means and determine the significance of the findings. All statistical tests were conducted at a significance level of $\alpha = 0.05$, ensuring that the results were robust and reliable. The methods were designed to minimize bias and enhance the validity of the conclusions drawn from the study.
Results
The “Results” section of the research paper presents the key findings derived from the conducted experiments or analyses. It highlights significant data trends, statistical outcomes, and any observed correlations or patterns relevant to the research questions. The results are typically illustrated through tables, graphs, or figures, which provide a visual representation of the data and facilitate interpretation.
In this section, the authors may also discuss the implications of their findings in relation to existing literature, emphasizing how their results contribute to the broader understanding of the topic. Any limitations of the study and potential areas for future research may also be addressed, ensuring a comprehensive overview of the results obtained.
Discussion
The study investigates the zero-shot performance of ChatGPT (GPT-3.5) in clinical Named Entity Recognition (NER) tasks, specifically targeting Medical Problems, Treatments, and Tests, as defined in the 2010 i2b2 challenge. The research compares ChatGPT and GPT-3 in a zero-shot context against a baseline model, BioClinicalBERT, which was fine-tuned on the same dataset. Two datasets were utilized: MTSamples, a synthetic corpus, and the VAERS corpus, which contains anonymized safety reports. The findings indicate that the integration of task-specific prompts, including annotation guidelines and error analysis, significantly enhances the performance of both GPT models, with GPT-3.5 showing a more pronounced improvement than GPT-4.
The results reveal that BioClinicalBERT outperformed both GPT models in terms of F1 scores under exact-match and relaxed-match criteria. However, GPT-4 demonstrated competitive performance, particularly in relaxed-match evaluations. The study highlights the potential of large language models (LLMs) in clinical NER tasks, suggesting that they can achieve substantial performance with minimal annotated examples, thus reducing the costs associated with traditional NER system development. Despite these promising results, the research emphasizes the continued necessity for expert input in creating annotation guidelines and validating model outputs, as well as the need for a refined evaluation schema tailored to the generative nature of LLMs. Future work will explore additional LLMs and advanced few-shot learning techniques to further enhance performance in clinical NER applications.
