تقييم نماذج التنبؤ السريرية (الجزء 1): من التطوير إلى التحقق الخارجي Evaluation of clinical prediction models (part 1): from development to external validation

المجلة: BMJ
DOI: https://doi.org/10.1136/bmj-2023-074819
PMID: https://pubmed.ncbi.nlm.nih.gov/38191193
تاريخ النشر: 2024-01-08
المؤلف: Gary S. Collins وآخرون
الموضوع الرئيسي: تعلم الآلة في الرعاية الصحية

نظرة عامة

تقييم نماذج التنبؤ أمر ضروري بسبب تأثير تصميم الدراسة وتحليل البيانات على أدائها التنبؤي عند تطبيقها على بيانات جديدة من السكان المستهدفين. بينما قد يظهر نموذج أداء ممتاز خلال التطوير، فإن هذا لا يضمن نتائج مماثلة في السياقات الخارجية. لذلك، فإن دراسات التحقق ضرورية لتقييم موثوقية وقابلية تعميم نماذج التنبؤ.

لتحسين تطوير النموذج وتقييمه، يُوصى بتجنب تقسيم البيانات خلال المراحل الأولية، حيث يمكن أن يؤدي ذلك إلى فقدان معلومات قيمة ويؤدي إلى نموذج أقل موثوقية. بدلاً من ذلك، يجب على الباحثين الاستفادة من جميع البيانات المتاحة، باستخدام طرق إعادة أخذ العينات للتحقق الداخلي وتقنيات التحقق الداخلي-الخارجي لتقييم أداء النموذج عبر مجموعات مختلفة. الدراسات الخارجية اللاحقة، التي يُفضل أن تُجرى بواسطة محققين مستقلين، ضرورية لضمان أن النموذج يعمل بشكل جيد في مجموعات البيانات التي تمثل بدقة السكان المستهدفين لتطبيقه المقصود. ستقدم الورقة التالية في هذه السلسلة إرشادات حول إجراء هذه الدراسات للتحقق.

مناقشة

في مرحلة تطوير نموذج التنبؤ السريري، يُعتبر التحقق الداخلي أمرًا حيويًا لتقييم الأداء باستخدام نفس مجموعة البيانات المستخدمة لإنشاء النموذج. تناقش هذه section طرق التحقق الداخلي المختلفة، مع التأكيد على أهمية تجنب الإفراط في التكيف وضمان تقديرات أداء غير متحيزة. تشمل التقنيات الشائعة تقسيم البيانات، والتحقق المتقاطع باستخدام k-fold، وإعادة أخذ العينات. بينما قد يبدو تقسيم البيانات ميزة، فإنه غالبًا ما يؤدي إلى تقديرات أداء متفائلة، خاصة في مجموعات البيانات الصغيرة، حيث يقلل من حجم العينة المتاحة لتطوير النموذج وتقييمه. على النقيض من ذلك، تستخدم إعادة أخذ العينات والتحقق المتقاطع باستخدام k-fold مجموعة البيانات الكاملة لتدريب النموذج وتوفر مقاييس أداء أكثر موثوقية من خلال تقدير وتصحيح التفاؤل.

تسلط section الضوء أيضًا على أهمية مقاييس المعايرة والتمييز، مثل ميل المعايرة وإحصائية c، في تقييم أداء النموذج. تقيم المعايرة الاتفاق بين المخاطر المتوقعة والنتائج الملاحظة، بينما تقيس التمييز قدرة النموذج على التمييز بين من لديهم النتيجة ومن ليس لديهم. يجادل المؤلفون بأن التحقق الداخلي يجب أن يُعطى الأولوية على التحقق الخارجي خلال تطوير النموذج، حيث إن التحقق الخارجي أكثر ملاءمة للدراسات اللاحقة مع بيانات جديدة. بشكل عام، تؤكد المناقشة على ضرورة استراتيجيات تحقق داخلي قوية لتعزيز موثوقية وقابلية تطبيق نماذج التنبؤ السريرية.

Journal: BMJ
DOI: https://doi.org/10.1136/bmj-2023-074819
PMID: https://pubmed.ncbi.nlm.nih.gov/38191193
Publication Date: 2024-01-08
Author(s): Gary S. Collins et al.
Primary Topic: Machine Learning in Healthcare

Overview

The evaluation of prediction models is essential due to the influence of study design and data analysis on their predictive performance when applied to new data from target populations. While a model may demonstrate excellent performance during development, this does not guarantee similar results in external contexts. Therefore, validation studies are crucial for assessing the reliability and generalizability of prediction models.

To optimize model development and evaluation, it is recommended to avoid splitting data during the initial stages, as this can lead to the loss of valuable information and result in a less reliable model. Instead, researchers should leverage all available data, employing resampling methods for internal validation and internal-external validation techniques to assess model performance across different clusters. Subsequent external validation studies, ideally conducted by independent investigators, are necessary to ensure that the model performs well in datasets that accurately represent the target populations for its intended application. The following paper in this series will provide guidance on conducting these validation studies.

Discussion

In the model development phase of clinical prediction models, internal validation is crucial for assessing performance using the same dataset employed for model creation. This section discusses various internal validation methods, emphasizing the importance of avoiding overfitting and ensuring unbiased performance estimates. Common techniques include data splitting, k-fold cross-validation, and bootstrapping. While data splitting may seem advantageous, it often leads to optimistic performance estimates, particularly in small datasets, as it reduces the sample size available for model development and evaluation. In contrast, bootstrapping and k-fold cross-validation utilize the entire dataset for model training and provide more reliable performance metrics by estimating and correcting for optimism.

The section also highlights the significance of calibration and discrimination metrics, such as the calibration slope and the c statistic, in evaluating model performance. Calibration assesses the agreement between predicted risks and observed outcomes, while discrimination measures the model’s ability to differentiate between those with and without the outcome. The authors argue that internal validation should be prioritized over external validation during model development, as external validation is more appropriate for subsequent studies with new data. Overall, the discussion underscores the necessity of robust internal validation strategies to enhance the reliability and applicability of clinical prediction models.

كلمات مفتاحية: النمذجة التنبؤية، بشر، تشخيص، صحة خارجية، نماذج، إحصائية