تقييم نماذج التنبؤ السريرية (الجزء 2): كيفية إجراء دراسة التحقق الخارجي
Evaluation of clinical prediction models (part 2): how to undertake an external validation study

المجلة: BMJ
DOI: https://doi.org/10.1136/bmj-2023-074820
PMID: https://pubmed.ncbi.nlm.nih.gov/38224968
تاريخ النشر: 2024-01-15
المؤلف: Richard D Riley وآخرون
الموضوع الرئيسي: تعلم الآلة في الرعاية الصحية

نظرة عامة

في المقالة الثانية من سلسلتهم حول تقييم النماذج، يؤكد رايلي وزملاؤه على أهمية دراسات التحقق الخارجي في أبحاث نماذج التنبؤ. يحددون المكونات الأساسية لإجراء مثل هذه الدراسات، والتي تشمل إنشاء مجموعة بيانات عالية الجودة وتقييم أداء النموذج التنبؤي وقابليته السريرية.

يجادل المؤلفون بأن التحقق الخارجي يجب أن يُعتبر عملية حاسمة ومستدامة داخل مجتمع البحث، حيث قد تختلف دقة النموذج التنبؤي عبر إعدادات وسكان ومجموعات فرعية مختلفة، وقد تنخفض مع مرور الوقت بسبب التقدم في الرعاية، وهو ظاهرة تُعرف باسم انحراف المعايرة. تختتم المقالة بالإشارة إلى أن الجزء التالي سيركز على تحديد حجم العينة الضروري لدراسات التحقق الخارجي.

نقاش

تناقش القسم الخاص بالتحقق الخارجي العملية الحاسمة لتقييم أداء نموذج التنبؤ باستخدام مجموعة بيانات لم تشارك في تطويره. التحقق الخارجي ضروري لتحديد قابلية النموذج في مجموعات وسياقات مختلفة، ويتضمن خمس خطوات رئيسية: الحصول على مجموعة بيانات مناسبة، إجراء التنبؤات، قياس الأداء التنبؤي، تقييم الفائدة السريرية، وتقديم النتائج. مجموعة بيانات عالية الجودة هي أمر بالغ الأهمية، ويفضل أن تمثل السكان المستهدفين والسياق السريري، ويجب أن تشمل المتنبئات والنتائج ذات الصلة التي تم قياسها بشكل مناسب. يُشجع الباحثون على استخدام أداة تقييم مخاطر التحيز لنموذج التنبؤ (PROBAST) لتقييم ملاءمة مجموعة البيانات.

يؤكد النقاش على أهمية التمييز بين القابلية للتكرار والنقل في دراسات التحقق. تشير القابلية للتكرار إلى التحقق من نموذج في مجموعة وسياق مشابه، بينما يقيم النقل الأداء في سياقات مختلفة. كما يحدد القسم ضرورة تسجيل معلومات شاملة في مجموعة بيانات التحقق، بما في ذلك النتائج وقيم المتنبئات، لضمان دقة التنبؤات. أخيرًا، يوضح الخطوات اللازمة لقياس الأداء التنبؤي، بما في ذلك الملاءمة العامة، والمعايرة، والتمييز، باستخدام مقاييس إحصائية وتمثيلات رسومية مثل مخططات المعايرة. تساعد هذه التقييمات في تحديد موثوقية النموذج وفائدته السريرية المحتملة، حتى في حالات الانحراف الملحوظ.

Journal: BMJ
DOI: https://doi.org/10.1136/bmj-2023-074820
PMID: https://pubmed.ncbi.nlm.nih.gov/38224968
Publication Date: 2024-01-15
Author(s): Richard D Riley et al.
Primary Topic: Machine Learning in Healthcare

Overview

In the second article of their series on model evaluation, Riley and colleagues emphasize the significance of external validation studies in prediction model research. They outline the essential components of conducting such studies, which include the establishment of a high-quality dataset and the assessment of a model’s predictive performance and clinical applicability.

The authors argue that external validation should be regarded as a critical and ongoing process within the research community, as a model’s predictive accuracy may vary across different settings, populations, and subgroups, and may decline over time due to advancements in care, a phenomenon known as calibration drift. The article concludes by indicating that the subsequent installment will focus on determining the necessary sample size for external validation studies.

Discussion

The section on external validation discusses the critical process of assessing a predictive model’s performance using a dataset that was not involved in its development. External validation is essential for determining the model’s applicability in different populations and settings, and it involves five key steps: obtaining a suitable dataset, making predictions, quantifying predictive performance, assessing clinical usefulness, and reporting findings. A high-quality dataset is paramount, ideally representing the target population and clinical setting, and should include relevant predictors and outcomes measured appropriately. Researchers are encouraged to use the Prediction model Risk Of Bias ASsessment Tool (PROBAST) to evaluate dataset suitability.

The discussion emphasizes the importance of distinguishing between reproducibility and transportability in validation studies. Reproducibility refers to validating a model in a similar population and setting, while transportability assesses performance in different contexts. The section also outlines the necessity of recording comprehensive information in the validation dataset, including outcomes and predictor values, to ensure accurate predictions. Finally, it details the steps for quantifying predictive performance, including overall fit, calibration, and discrimination, using statistical measures and graphical representations such as calibration plots. These assessments help determine the model’s reliability and potential clinical utility, even in cases of observed miscalibration.