إطار تقييم لأدوات الكتابة الرقمية المحيطة في التطبيقات السريرية
An evaluation framework for ambient digital scribing tools in clinical applications

المجلة: npj Digital Medicine، المجلد: 8، العدد: 1
DOI: https://doi.org/10.1038/s41746-025-01622-1
PMID: https://pubmed.ncbi.nlm.nih.gov/40514413
تاريخ النشر: 2025-06-13
المؤلف: Zhenyun Du وآخرون
الموضوع الرئيسي: أنظمة السجلات الصحية الإلكترونية

نظرة عامة

يتناول القسم تطوير وتقييم أدوات الكتابة الرقمية البيئية (ADS)، التي تهدف إلى تقليل عبء التوثيق على الأطباء، مما يخفف من الإرهاق ويعزز الكفاءة التشغيلية. مع تكامل هذه الأدوات المدفوعة بالذكاء الاصطناعي في سير العمل السريري، يؤكد البحث على ضرورة وجود حوكمة قوية لضمان استخدامها الأخلاقي والآمن.

لمعالجة ذلك، يقترح المؤلفون إطار تقييم شامل لأدوات ADS يتضمن تقييمات بشرية، مقاييس آلية، اختبار محاكاة، واستخدام نماذج اللغة الكبيرة (LLMs) كمقيمين. يقيم هذا الإطار الجوانب الرئيسية لأداء ADS، مثل دقة النسخ، وتحديد المتحدثين، وتوليد الملاحظات الطبية، بناءً على معايير مثل الطلاقة، والكمال، والموضوعية. تطبيق هذا الإطار على أداة ADS تم تطويرها حديثًا، تم اختبارها على 40 تسجيل زيارة سريرية حقيقية، كشف عن نقاط قوة في الطلاقة والوضوح ولكنه أيضًا حدد نقاط ضعف كبيرة في الدقة الواقعية وقدرة الأداة على التقاط الأدوية الجديدة. تسلط هذه النتائج الضوء على أهمية التقييم المنظم في تحسين تقديم الرعاية الصحية والحاجة الملحة للحوكمة لضمان التكامل الآمن والأخلاقي لتقنيات ADS.

الطرق

في قسم الطرق، يصف المؤلفون نهج تقييم قائم على المحاكاة لتقييم أداء نظام دعم القرار الآلي (ADS). يستخدم هذا التقييم محادثات تم التلاعب بها عمدًا بدلاً من تفاعلات الأطباء والمرضى الحقيقية، مما يسمح بإدخالات متسقة تسهل المقارنات العادلة عبر أنظمة ADS المختلفة. تخدم اختبارات المحاكاة غرضين رئيسيين: تضمن تكرارية التقييمات وتمكن من تصميم محادثات تتحدى قوة ADS في سيناريوهات نادرة ولكن حرجة.

تشمل المكونات الرئيسية لعملية المحاكاة محاكاة المحادثة، محاكاة أخطاء النسخ، محاكاة أخطاء تحديد المتحدثين، محاكاة الحالات الحدودية للاختبار، ومحاكاة ملفات تعريف المرضى لتقييم التحيز النمطي والعدالة. يتم توضيح هذه الخطوات بشكل منهجي في الجدول 1، الذي يوضح كيف تساهم كل محاكاة في التقييم العام لسير عمل ADS. يهدف هذا النهج المنظم إلى تعزيز موثوقية وعدالة أنظمة ADS التي يتم اختبارها.

النتائج

يوفر إطار SCRIBE، الذي يدمج المحاكاة، المقاييس الحسابية، تقييم المراجعين، والتقييمات الذكية لأفضل الممارسات، نهجًا متعدد الأبعاد لتقييم الأداء في أدوات دعم القرار الآلي (ADS). يعترف هذا الإطار بحدود طرق التقييم الفردية من خلال دمج الحكم البشري، المقاييس الموضوعية، والمحاكاة المتقدمة لضمان كل من الدقة التقنية وقابلية التطبيق في العالم الحقيقي. على وجه التحديد، بينما تقدم المراجعات البشرية رؤى سريرية، فإنها تفتقر إلى القابلية للتوسع؛ توفر التقييمات الآلية معايير قابلة للتكرار؛ وتجمع التقييمات المعتمدة على LLM بين التفكير الشبيه بالبشر مع اتساق الآلة. بالإضافة إلى ذلك، تسهل التقييمات القائمة على المحاكاة الاختبار المضاد دون الحاجة إلى بيانات إضافية.

عند تطبيق إطار SCRIBE على أداة ADS تم تطويرها داخليًا مصممة للنسخ، وتحديد المتحدثين، وتوليد الملاحظات الطبية من محادثات الأطباء والمرضى، أظهرت النتائج مستوى عالٍ من الدقة. كشفت التقييمات الآلية عن معدل خطأ متوسط في النسخ (WER) يبلغ 0.2%، مع دقة محاذاة المتحدثين عند 96.2%، على الرغم من حدوث بعض الأخطاء في التصنيف. علاوة على ذلك، استكشفت دراسات المحاكاة سيناريوهات متنوعة، بما في ذلك توليد مرجع النص إلى الكلام والاختبار العدائي، مع توثيق النتائج في الجدول التكميلي 1. تسلط هذه النتائج الضوء على القوة، والتحيز، والعدالة لأداة ADS، مما يوضح فعالية إطار SCRIBE في التقييمات الشاملة.

المناقشة

في هذه الدراسة، نقدم إطار SCRIBE لتقييم أنظمة التوثيق الآلي (ADS) في الرعاية الصحية، مع التركيز على دقة النسخ، وأداء تحديد المتحدثين، وجودة توليد الملاحظات الطبية. تتكون مجموعة بياناتنا من 40 تسجيلًا صوتيًا من زيارات قبل الولادة متنوعة، مع نصوص تعرض مجموعة من الأطوال والتعقيدات. تكشف التقييمات البشرية، جنبًا إلى جنب مع التقييمات الآلية وتلك المعتمدة على LLM، أن الملاحظات المعتمدة على GPT تتفوق على تلك التي تم إنشاؤها بواسطة LLaMA، لا سيما في الوضوح، والكمال، والملاءمة. ومن الجدير بالذكر أن المقيمين البشر أظهروا اتفاقًا متواضعًا بين المقيمين بنسبة تقارب 53.8%، مما يعكس الطبيعة الذاتية لتقييم الملاحظات السريرية.

سلطت دراسات المحاكاة الضوء على مرونة أداة ADS الخاصة بنا ضد تحديات عدائية متنوعة، على الرغم من أن بعض الحالات الحدودية، مثل التعامل مع قيم المختبر غير الواقعية والأدوية الجديدة، كشفت عن فجوات في الأداء. علاوة على ذلك، تشير نتائجنا إلى أن أخطاء النسخ تؤثر بشكل كبير على جودة توليد الملاحظات، مما يبرز التأثيرات المتتالية لعدم الدقة عبر خط أنابيب ADS. يهدف النهج المتعدد الأبعاد للإطار، الذي يدمج التقييمات البشرية، الآلية، وLLM، إلى تقديم تقييم شامل لأدوات ADS، مما يسهل اتخاذ قرارات مستنيرة في بيئات الرعاية الصحية مع ضمان المساءلة والحفاظ على المعايير السريرية.

Journal: npj Digital Medicine, Volume: 8, Issue: 1
DOI: https://doi.org/10.1038/s41746-025-01622-1
PMID: https://pubmed.ncbi.nlm.nih.gov/40514413
Publication Date: 2025-06-13
Author(s): Zhenyun Du et al.
Primary Topic: Electronic Health Records Systems

Overview

The section discusses the development and evaluation of Ambient Digital Scribing (ADS) tools, which aim to reduce the documentation burden on clinicians, thereby mitigating burnout and enhancing operational efficiency. As these AI-driven tools become integrated into clinical workflows, the study emphasizes the necessity for robust governance to ensure their ethical and secure use.

To address this, the authors propose a comprehensive evaluation framework for ADS that includes human assessments, automated metrics, simulation testing, and the use of large language models (LLMs) as evaluators. This framework evaluates key aspects of ADS performance, such as transcription accuracy, diarization, and medical note generation, based on criteria like fluency, completeness, and factuality. The application of this framework to a newly developed ADS tool, tested on 40 real clinical visit recordings, revealed strengths in fluency and clarity but also identified significant weaknesses in factual accuracy and the tool’s ability to capture new medications. These findings highlight the importance of structured evaluation in enhancing healthcare delivery and the critical need for governance to ensure the safe and ethical integration of ADS technologies.

Methods

In the Methods section, the authors describe a simulation-based evaluation approach for assessing the performance of an Automated Decision Support (ADS) system. This evaluation utilizes intentionally manipulated conversations rather than authentic clinician-patient interactions, allowing for consistent inputs that facilitate fair comparisons across different ADS systems. The simulation testing serves two primary purposes: it ensures repeatability in evaluations and enables the design of conversations that challenge the robustness of the ADS in rare but critical scenarios.

Key components of the simulation process include conversation simulation, transcription error simulation, diarization error simulation, edge case simulation for robustness, and patient profile simulation to evaluate stereotype bias and fairness. These steps are systematically outlined in Table 1, which details how each simulation contributes to the overall evaluation of the ADS workflow. This structured approach aims to enhance the reliability and fairness of the ADS systems being tested.

Results

The SCRIBE framework, which integrates Simulation, Computational metrics, Reviewer assessment, and Intelligent Evaluations for Best practice, provides a multifaceted approach to evaluating performance in automated decision support (ADS) tools. This framework acknowledges the limitations of individual evaluation methods by combining human judgment, objective metrics, and advanced simulations to ensure both technical rigor and real-world applicability. Specifically, while human reviews offer clinical insights, they lack scalability; automated evaluations provide reproducible benchmarks; and LLM-based assessments merge human-like reasoning with machine consistency. Additionally, simulation-based evaluations facilitate counterfactual testing without the need for additional data.

In applying the SCRIBE framework to an internally developed ADS tool designed for transcription, diarization, and medical note generation from clinician-patient conversations, the results indicated a high level of accuracy. The automatic evaluation revealed an average word error rate (WER) of 0.2% in transcription, with speaker alignment precision at 96.2%, although some mislabeling occurred. Furthermore, simulation studies explored various scenarios, including text-to-speech reference generation and adversarial testing, with results documented in Supplementary Table 1. These findings underscore the robustness, bias, and fairness of the ADS tool, demonstrating the effectiveness of the SCRIBE framework in comprehensive evaluations.

Discussion

In this study, we introduce the SCRIBE framework for evaluating Automated Documentation Systems (ADS) in healthcare, focusing on transcription accuracy, diarization performance, and medical note generation quality. Our dataset comprises 40 audio recordings from diverse prenatal visits, with transcripts exhibiting a range of lengths and complexities. Human evaluations, alongside auto and LLM-based assessments, reveal that GPT-based notes outperform those generated by LLaMA, particularly in clarity, completeness, and relevance. Notably, human evaluators demonstrated a modest inter-rater agreement of approximately 53.8%, reflecting the subjective nature of clinical note evaluation.

Simulation studies highlighted the resilience of our ADS tool against various adversarial challenges, although certain edge cases, such as handling unrealistic lab values and new medications, revealed gaps in performance. Furthermore, our findings indicate that transcription errors significantly impact note generation quality, emphasizing the cascading effects of inaccuracies throughout the ADS pipeline. The framework’s multi-faceted approach, integrating human, auto, and LLM evaluations, aims to provide a comprehensive assessment of ADS tools, facilitating informed decision-making in healthcare settings while ensuring accountability and clinical standards are upheld.