تقييم استراتيجيات الإنسان في الحلقة لترجمة تعليمات خروج المرضى المدعومة بالذكاء الاصطناعي: تحليل متعدد التخصصات
Evaluating human-in-the-loop strategies for artificial intelligence-enabled translation of patient discharge instructions: a multidisciplinary analysis

المجلة: npj Digital Medicine، المجلد: 8، العدد: 1
DOI: https://doi.org/10.1038/s41746-025-02055-6
PMID: https://pubmed.ncbi.nlm.nih.gov/41136708
تاريخ النشر: 2025-10-24
المؤلف: Ryan Brewster وآخرون
الموضوع الرئيسي: التفسير والتواصل في الرعاية الصحية

نظرة عامة

تقيّم الدراسة فعالية الترجمة الآلية المدعومة بالذكاء الاصطناعي لتعليمات خروج المرضى في عدة لغات، بما في ذلك العربية، والأرمنية، والبنغالية، والصينية المبسطة، والصومالية، والإسبانية. تقارن الدراسة الترجمات التي تم إنشاؤها بواسطة ChatGPT-4o، واللغويين المحترفين، ونهج الإنسان في الحلقة (الذي يتضمن الذكاء الاصطناعي مع التحرير الاحترافي). باستخدام مقياس ليكرت (1-5) لتقييم الجودة اللغوية والسريرية، تشير النتائج إلى أن أداء ChatGPT-4o كان متغيرًا، حيث كان أداؤه ضعيفًا بشكل خاص بالنسبة للغات الأقل تمثيلًا مثل الأرمنية والصومالية.

بالمقابل، لم تتطابق الترجمات التي تمت بواسطة الإنسان في الحلقة مع الترجمات الاحترافية فحسب، بل غالبًا ما تفوقت عليها في الجودة عبر جميع اللغات، حيث تمثل ذلك في درجة جودة إجمالية قدرها 3.9 (95% CI 3.7-4.2) للأرمنية مقارنة بـ 3.6 (95% CI 3.4-3.9) للترجمات الاحترافية (p = 0.01). بالإضافة إلى ذلك، كانت هذه الترجمات مفضلة من قبل المقيمين (46.5% مقابل 28.4%) وتم إنجازها في وقت أقصر بشكل ملحوظ (7.1 دقيقة مقابل 16.8 دقيقة، p < 0.001). تشير النتائج إلى أن استراتيجيات الإنسان في الحلقة يمكن أن تسهل الترجمة الآلية بشكل آمن وفعال وعادل في البيئات السريرية.

النتائج

قيمت الدراسة فعالية ثلاث طرق ترجمة لتعليمات خروج المرضى الأطفال إلى ست لغات: العربية، والأرمنية، والبنغالية، والصينية المبسطة، والصومالية، والإسبانية. شملت الطرق (1) ChatGPT-4o (الإصدار 2024-11-20)، (2) نهج الإنسان في الحلقة حيث قام اللغويون المحترفون بتحرير ترجمات ChatGPT-4o، و(3) الترجمات التي قام بها اللغويون المحترفون، والتي كانت بمثابة المعيار المرجعي. شارك ما مجموعه 42 مقيمًا، يتكونون من 12 لغويًا، و16 طبيب أطفال، و14 مقدم رعاية أسرية، مع إظهار المقيمين مستوى عالٍ من الكفاءة في اللغة الإنجليزية ومتوسط مدة إقامة ملحوظ في الولايات المتحدة (16.4 سنة، SD 12.4).

كانت النصوص الأصلية باللغة الإنجليزية بطول متوسط قدره 74.6 كلمة (SD 28.5) ودرجة قراءة فليش-كينكيد قدرها 50.3 (SD 16.7)، مما يشير إلى مستوى قراءة مناسب للصفوف من 10 إلى 12. أفاد المقيمون باستخدام متوازن للغة الإنجليزية ولغاتهم الأصلية في سياقات مختلفة، مع تفضيل ملحوظ لاستخدام لغتهم الأصلية في المنزل. تسلط هذه الرؤية الديموغرافية الضوء على أهمية تعليمات الخروج المناسبة ثقافيًا ولغويًا للمرضى الأطفال وعائلاتهم.

المناقشة

في هذه الدراسة، تم تقييم أداء ChatGPT-4o في ترجمة تعليمات خروج المرضى عبر ست لغات، مما كشف عن نتائج متغيرة. تم تقييم جودة الترجمة باستخدام إطار عمل موثق يقيس الكفاية، والطلاقة، والمعنى، والشدة، والجودة العامة على مقياس ليكرت من 5 نقاط. كانت موثوقية المقيمين متوسطة إلى جيدة عبر لغات مختلفة. ومن الجدير بالذكر أن ترجمات ChatGPT-4o تم تقييمها بشكل أقل بكثير من الترجمات الاحترافية للأرمنية والصومالية، بينما غالبًا ما كانت ترجمات الإنسان في الحلقة تتطابق أو تتجاوز الجودة الاحترافية، خاصة بالنسبة للأرمنية، والبنغالية، والإسبانية. لم تحسن نهج الإنسان في الحلقة جودة الترجمة فحسب، بل قللت أيضًا من وقت الإنجاز، مما جعلها الطريقة المفضلة بين المقيمين.

تؤكد النتائج على الفجوات في جودة الترجمة الآلية، خاصة بالنسبة للغات التي تمثل رقميًا بشكل أقل، وتبرز أهمية دمج الإشراف البشري في عمليات الترجمة. بينما قدم ChatGPT-4o أداءً مشابهًا لبعض اللغات، فإن قيوده تتطلب نهجًا حذرًا تجاه الترجمات الآلية بالكامل، خاصة في السياقات السريرية حيث تكون الدقة حاسمة. تدعو الدراسة إلى تدفقات عمل هجينة تجمع بين الترجمة الآلية والتدقيق البشري لتعزيز الكفاءة والحفاظ على جودة عالية، مع التأكيد على الحاجة إلى التقييم المستمر والتكيف مع تقنيات الترجمة في بيئات الرعاية الصحية.

Journal: npj Digital Medicine, Volume: 8, Issue: 1
DOI: https://doi.org/10.1038/s41746-025-02055-6
PMID: https://pubmed.ncbi.nlm.nih.gov/41136708
Publication Date: 2025-10-24
Author(s): Ryan Brewster et al.
Primary Topic: Interpreting and Communication in Healthcare

Overview

The research evaluates the effectiveness of AI-supported machine translation for inpatient discharge instructions in multiple languages, including Arabic, Armenian, Bengali, simplified Chinese, Somali, and Spanish. The study compares translations generated by ChatGPT-4o, professional linguists, and a human-in-the-loop approach (AI-generated with professional post-editing). Using a Likert scale (1-5) to assess linguistic and clinical quality, the findings indicate that ChatGPT-4o’s performance varied, particularly underperforming for less represented languages like Armenian and Somali.

In contrast, human-in-the-loop translations not only matched but often surpassed professional translations in quality across all languages, exemplified by an overall quality score of 3.9 (95% CI 3.7-4.2) for Armenian compared to 3.6 (95% CI 3.4-3.9) for professional translations (p = 0.01). Additionally, these translations were preferred by evaluators (46.5% vs. 28.4%) and were completed in a significantly shorter time (7.1 minutes vs. 16.8 minutes, p < 0.001). The results suggest that human-in-the-loop strategies can facilitate safe, efficient, and equitable machine translation in clinical settings.

Results

The study evaluated the effectiveness of three translation modalities for pediatric inpatient discharge instructions into six languages: Arabic, Armenian, Bengali, simplified Chinese, Somali, and Spanish. The modalities included (1) ChatGPT-4o (Version 2024-11-20), (2) a human-in-the-loop approach where professional linguists post-edited ChatGPT-4o translations, and (3) translations by professional linguists, which served as the reference standard. A total of 42 evaluators participated, comprising 12 linguists, 16 pediatric clinicians, and 14 family caregivers, with evaluators demonstrating a high level of proficiency in English and a significant mean duration of residence in the U.S. (16.4 years, SD 12.4).

The original English texts had a mean length of 74.6 words (SD 28.5) and a Flesch-Kincaid readability score of 50.3 (SD 16.7), indicating a reading level appropriate for 10th to 12th graders. Evaluators reported a balanced use of English and their native languages in various contexts, with a notable preference for using their native language at home. This demographic insight underscores the importance of culturally and linguistically appropriate discharge instructions for pediatric patients and their families.

Discussion

In this study, the performance of ChatGPT-4o in translating patient discharge instructions across six languages was evaluated, revealing variable outcomes. The translation quality was assessed using a validated framework that measured adequacy, fluency, meaning, severity, and overall quality on a 5-point Likert scale. Interrater reliability among evaluators was moderate to good across different languages. Notably, ChatGPT-4o translations were rated significantly lower than professional translations for Armenian and Somali, while human-in-the-loop translations often matched or exceeded professional quality, particularly for Armenian, Bengali, and Spanish. Human-in-the-loop approaches not only improved translation quality but also reduced completion time, making them the preferred modality among evaluators.

The findings underscore the disparities in machine translation quality, particularly for digitally underrepresented languages, and highlight the importance of incorporating human oversight in translation processes. While ChatGPT-4o performed comparably for some languages, its limitations necessitate a cautious approach to fully automated translations, especially in clinical contexts where accuracy is critical. The study advocates for hybrid workflows that combine machine translation with human proofreading to enhance efficiency and maintain high quality, emphasizing the need for ongoing evaluation and adaptation of translation technologies in healthcare settings.