تقييم نقدي لاستخدام ChatGPT لاستخراج البيانات المنظمة من الملاحظات السريرية
A critical assessment of using ChatGPT for extracting structured data from clinical notes

المجلة: npj Digital Medicine، المجلد: 7، العدد: 1
DOI: https://doi.org/10.1038/s41746-024-01079-8
PMID: https://pubmed.ncbi.nlm.nih.gov/38693429
تاريخ النشر: 2024-05-01
المؤلف: Jingwei Huang وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في الرعاية الصحية والتعليم

نظرة عامة

تدرس هذه الدراسة فعالية ChatGPT-3.5 في استخراج البيانات المنظمة من الملاحظات السريرية النصية الحرة، مع التركيز بشكل خاص على تقارير علم الأمراض لسرطان الرئة وساركوما العظام لدى الأطفال. من خلال استخدام نموذج لغة كبير (LLM) وعملية هندسة تحفيزية منهجية، قام الباحثون بتقييم أداء ChatGPT مقابل بيانات تم تنسيقها بواسطة خبراء. تكشف النتائج أن ChatGPT-3.5 حقق دقة إجمالية بلغت 89% في تصنيف البيانات المرضية من تقارير سرطان الرئة، متجاوزًا الطرق التقليدية للمعالجة اللغوية الطبيعية. في مجموعة بيانات ساركوما العظام لدى الأطفال، أظهر معدلات دقة أعلى تصل إلى 98.6% لتصنيف الدرجات و100% لحالة الهوامش.

تسلط الدراسة الضوء على إمكانيات LLMs مثل ChatGPT لتحويل الملاحظات السريرية غير المنظمة بكفاءة إلى تنسيقات منظمة دون الحاجة إلى تعليقات بشرية واسعة أو تدريب للنموذج. ومع ذلك، تشير أيضًا إلى أن دقة النموذج تتأثر بتصميم التحفيزات المستخدمة، حيث تنشأ الأخطاء في التصنيف غالبًا من تحديات النموذج مع مصطلحات علم الأمراض المتخصصة وقواعد تصنيف TNM. بشكل عام، تشير النتائج إلى أن LLMs يمكن أن تلعب دورًا كبيرًا في تحسين عمليات استخراج البيانات في الرعاية الصحية، مما يسهل البحث ويحسن اتخاذ القرارات السريرية.

الطرق

في هذا القسم، يوضح المؤلفون منهجيتهم لتقييم أداء ChatGPT مقارنة بتقنيات معالجة اللغة الطبيعية (NLP) المعتمدة. يركزون بشكل خاص على طريقتين مرجعيتين: خوارزمية بحث الكلمات الرئيسية ونهج التعرف على الكيانات المسماة (NER) المعتمد على التعلم العميق. تهدف هذه التحليل المقارن إلى تقديم منظور واضح حول كيفية قياس نتائج ChatGPT مقابل هذه الطرق التقليدية، مما يضع سياقًا لفعاليتها والمزايا المحتملة في مهام NLP المختلفة. من المتوقع أن تسهم النتائج من هذا التحليل في فهم أعمق لقدرات ChatGPT ضمن المشهد الأوسع لأساليب NLP.

النتائج

في هذا القسم، يوضح المؤلفون عملية هندسة التحفيز الخاصة بهم التي تهدف إلى تحسين أداء ChatGPT في استخراج المعلومات المنظمة من تقارير علم الأمراض. أدت التحفيزات الأولية إلى استجابات غير منظمة، مما أدى إلى تباين في تنسيقات المخرجات والمصطلحات، مما استلزم تدخلًا بشريًا واسعًا لتنظيف البيانات. لمعالجة ذلك، نفذ المؤلفون تنسيق اختيار متعدد للسمات الرئيسية مثل pT والتشخيص النسيجي، مما أدى إلى توحيد المخرجات. على سبيل المثال، تم تعديل التحفيز لتقييد مخرجات pT لمجموعة محددة من القيم (مثل “T0، Tis، T1، T2”) ولتصنيف التشخيصات النسيجية إلى أنواع محددة (مثل “سرطان الغدة الرئوية”). عزز هذا النهج كفاءة التحليل اللاحق، محققًا دقة تصنيف بلغت 0.854.

علاوة على ذلك، أكد المؤلفون على أهمية الاستدلال القائم على الأدلة في تحفيزاتهم. من خلال توجيه ChatGPT لتقديم القيم المستخرجة فقط ولكن أيضًا القيم المقدرة بناءً على دليل تصنيف السرطان من الطبعة السابعة لجمعية السرطان الأمريكية، مع درجة من اليقين وأدلة داعمة، كانوا يهدفون إلى تعزيز موثوقية المخرجات. أدى إدخال هذه التعليمات المركزة على الأدلة (التحفيز v2) إلى تحسين دقة التصنيف إلى 0.865، مما يظهر فعالية التحفيزات المنظمة ودمج الأدلة في تعزيز أداء النموذج.

المناقشة

هدفت الدراسة إلى تقييم أداء ChatGPT في معالجة وتفسير ملاحظات علم الأمراض غير المنظمة لسرطان الرئة، باستخدام مجموعة بيانات تتكون من 1026 تقريرًا مأخوذًا من أرشيف الشرائح الرقمية للسرطان (CDSA) وخرائط الجينوم للسرطان (TCGA). بعد تصفية الجودة، تم استخدام 78 تقريرًا لتدريب النموذج، بينما كانت 774 تقريرًا صالحًا من TCGA بمثابة مجموعة بيانات الاختبار. كان التركيز الأساسي على استخراج المعلومات الحيوية مثل تصنيف الأورام وأنواع النسج، مسترشدين بدليل تصنيف السرطان من الطبعة السابعة لجمعية السرطان الأمريكية. أظهرت النتائج أن ChatGPT حقق معدلات دقة عالية: 0.87 لخصائص الورم الأولي (pT)، 0.91 لمشاركة العقد اللمفاوية الإقليمية (pN)، 0.76 لمرحلة الورم الكلية، و0.99 للتشخيص النسيجي، مع متوسط دقة بلغ 0.89 عبر جميع السمات.

سلطت المناقشة الضوء على نقاط القوة والقيود في النموذج، خاصة في قدرته على استنتاج التصنيفات بناءً على إرشادات AJCC. بينما أظهر ChatGPT أداءً قويًا في العديد من الحالات، كشفت تحليل الأخطاء عن أخطاء في التصنيف ناتجة بشكل أساسي عن سوء تفسير حجم الورم ومواقع العقد اللمفاوية. تم أيضًا تقييم تعامل النموذج مع المدخلات غير المنتظمة، مثل التقارير الممسوحة بشكل سيء، مما كشف عن تحديات في إنتاج مخرجات دقيقة في ظل هذه الظروف. بشكل عام، تؤكد الدراسة على إمكانيات ChatGPT كأداة فعالة من حيث التكلفة وكفاءة لاستخراج البيانات من الملاحظات السريرية، مما يشير إلى أنه يمكن أن يبسط بشكل كبير العمليات التي تعتمد تقليديًا على التعليقات البشرية الواسعة. تدعو النتائج إلى مزيد من الاستكشاف لنماذج اللغة الكبيرة في استخراج البيانات الطبية، مع التأكيد على إمكانياتها التحولية في الرعاية الصحية.

Journal: npj Digital Medicine, Volume: 7, Issue: 1
DOI: https://doi.org/10.1038/s41746-024-01079-8
PMID: https://pubmed.ncbi.nlm.nih.gov/38693429
Publication Date: 2024-05-01
Author(s): Jingwei Huang et al.
Primary Topic: Artificial Intelligence in Healthcare and Education

Overview

This study investigates the efficacy of ChatGPT-3.5 in extracting structured data from free-text clinical notes, specifically focusing on lung cancer and pediatric osteosarcoma pathology reports. Utilizing a large language model (LLM) workflow and a systematic prompt engineering approach, the researchers assessed ChatGPT’s performance against expert-curated data. The findings reveal that ChatGPT-3.5 achieved an overall accuracy of 89% in classifying pathological data from lung cancer reports, surpassing traditional NLP methods. In the pediatric osteosarcoma dataset, it demonstrated even higher accuracy rates of 98.6% for grade classification and 100% for margin status.

The study highlights the potential of LLMs like ChatGPT to efficiently convert unstructured clinical notes into structured formats without the need for extensive human annotations or model training. However, it also notes that the accuracy of the model is influenced by the design of the prompts used, with misclassifications often stemming from the model’s challenges with specialized pathology terminology and TNM staging rules. Overall, the results suggest that LLMs could play a significant role in enhancing data extraction processes in healthcare, thereby facilitating research and improving clinical decision-making.

Methods

In this section, the authors outline their methodology for evaluating ChatGPT’s performance in comparison to established natural language processing (NLP) techniques. They specifically focus on two benchmark methods: a keyword search algorithm and a deep learning-based Named Entity Recognition (NER) approach. This comparative analysis aims to provide a clear perspective on how ChatGPT’s results measure up against these traditional methods, thereby contextualizing its effectiveness and potential advantages in various NLP tasks. The findings from this analysis are expected to contribute to a deeper understanding of ChatGPT’s capabilities within the broader landscape of NLP methodologies.

Results

In this section, the authors detail their prompt engineering process aimed at improving the performance of ChatGPT in extracting structured information from pathology reports. Initial prompts yielded unstructured responses, leading to variability in output formats and terminology, which necessitated extensive human intervention for data cleaning. To address this, the authors implemented a multiple-choice format for key attributes such as pT and histological diagnosis, thereby standardizing the outputs. For instance, the prompt was modified to restrict pT outputs to a defined set of values (e.g., “T0, Tis, T1, T2”) and to categorize histological diagnoses into specific types (e.g., “Lung Adenocarcinoma”). This approach enhanced the efficiency of downstream analysis, achieving a classification accuracy of 0.854.

Furthermore, the authors emphasized the importance of evidence-based inference in their prompts. By instructing ChatGPT to provide not only the extracted values but also the estimated values based on the AJCC 7th edition staging manual, along with a certainty degree and supporting evidence, they aimed to bolster the reliability of the outputs. The introduction of these evidence-focused instructions (prompt v2) led to an improvement in classification accuracy to 0.865, demonstrating the effectiveness of structured prompts and the incorporation of evidence in enhancing the model’s performance.

Discussion

The study aimed to evaluate the performance of ChatGPT in processing and interpreting unstructured lung cancer pathology notes, utilizing a dataset of 1026 reports sourced from the Cancer Digital Slide Archive (CDSA) and The Cancer Genome Atlas (TCGA). After filtering for quality, 78 reports were used for training the model, while 774 valid reports from TCGA served as the test dataset. The primary focus was on extracting critical information such as tumor staging and histology types, guided by the AJCC 7th edition Cancer Staging Manual. The results indicated that ChatGPT achieved high accuracy rates: 0.87 for primary tumor features (pT), 0.91 for regional lymph node involvement (pN), 0.76 for overall tumor stage, and 0.99 for histological diagnosis, with an average accuracy of 0.89 across all attributes.

The discussion highlighted the model’s strengths and limitations, particularly in its ability to infer classifications based on AJCC guidelines. While ChatGPT demonstrated robust performance in many cases, error analysis revealed misclassifications primarily due to misinterpretation of tumor size and lymph node locations. The model’s handling of irregular inputs, such as poorly scanned reports, was also assessed, revealing challenges in generating accurate outputs under such conditions. Overall, the study underscores the potential of ChatGPT as a cost-effective and efficient tool for data extraction from clinical notes, suggesting that it could significantly streamline processes traditionally reliant on extensive human annotation. The findings advocate for further exploration of large language models in medical data extraction, emphasizing their transformative potential in healthcare.