نموذج توقع مرض القلب والأوعية الدموية لدى مرضى السكري باستخدام التعلم الآلي المستمد والمحقق في مجموعتين كورية مستقلتين
Prediction model for cardiovascular disease in patients with diabetes using machine learning derived and validated in two independent Korean cohorts

المجلة: Scientific Reports، المجلد: 14، العدد: 1
DOI: https://doi.org/10.1038/s41598-024-63798-y
PMID: https://pubmed.ncbi.nlm.nih.gov/38942775
تاريخ النشر: 2024-06-28
المؤلف: Hyunji Sang وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في الرعاية الصحية

نظرة عامة

تطوير هذه الدراسة والتحقق من صحة نموذج تعلم الآلة (ML) بشكل خاص للتنبؤ بأمراض القلب والأوعية الدموية (CVD) في السكان الكوريين المصابين بداء السكري من النوع 2 (T2DM). باستخدام بيانات من مجموعة اكتشاف تضم 12,809 مريضًا ومجموعة تحقق تضم 2,019 مريضًا، ركزت الأبحاث على التنبؤ بوجود CVD خلال ثلاث سنوات. أظهر نموذج الغابة العشوائية (RF) أعلى أداء، محققًا منطقة تحت منحنى التشغيل المستلم (AUROC) قدرها 0.830 في مجموعة الاكتشاف و0.722 في مجموعة التحقق. تشمل المؤشرات الرئيسية التي تم تحديدها مستويات الكرياتينين والهيموجلوبين السكري، مما يبرز أهميتها في تقييم مخاطر CVD.

تشير النتائج إلى أن النموذج القائم على ML يتجاوز أدوات تقييم المخاطر التقليدية، مثل درجة خطر فرامينغهام، التي لديها قيود في السكان المصابين بالسكري. بينما يظهر النموذج وعدًا لتطبيق أوسع، هناك حاجة إلى مزيد من الأبحاث لتعميم استخدامه عبر مجموعات السكري المتنوعة. تدعو الدراسة إلى دمج نماذج ML في الممارسة السريرية لتعزيز نهج الطب الشخصي وتقليل عبء CVD. وتؤكد على ضرورة التعاون بين المتخصصين في الرعاية الصحية، وعلماء البيانات، وصانعي السياسات لتحسين النماذج التنبؤية وتحديث الإرشادات السريرية، بهدف تحسين نتائج المرضى في الصحة العامة.

الطرق

يستعرض قسم “المواد والطرق” تصميم التجربة والإجراءات المستخدمة في الدراسة. يوضح المواد المحددة المستخدمة، بما في ذلك أي مواد كيميائية، ومعدات، وعينات بيولوجية، لضمان إمكانية تكرار التجارب. كما يصف قسم الطرق البروتوكولات المتبعة لجمع البيانات وتحليلها، بما في ذلك أي تقنيات إحصائية تم تطبيقها لتفسير النتائج.

بالإضافة إلى ذلك، قد يتضمن القسم معلومات حول إعداد التجربة، مثل ظروف التحكم وعدد النسخ المكررة، والتي تعتبر حاسمة للتحقق من النتائج. بشكل عام، يخدم هذا القسم لتقديم نظرة شاملة على المنهجيات التي تدعم البحث، مما يسهل مراجعة الأقران والدراسات المستقبلية في هذا المجال.

النتائج

يقدم قسم “النتائج” من ورقة البحث النتائج الرئيسية المستمدة من التجارب أو التحليلات التي تم إجراؤها. عادةً ما يتضمن بيانات كمية، وتحليلات إحصائية، وتمثيلات بصرية مثل الرسوم البيانية أو الجداول التي توضح نتائج الدراسة. غالبًا ما تتم مقارنة النتائج مع الفرضيات أو الدراسات السابقة لتسليط الضوء على الفروق أو التأكيدات الهامة.

في هذا القسم، قد يبلغ المؤلفون عن مقاييس محددة، مثل المتوسطات، والانحرافات المعيارية، وقيم p، لدعم ادعاءاتهم. بالإضافة إلى ذلك، يتم مناقشة أي اتجاهات أو أنماط ملحوظة في البيانات، مما يوفر رؤى حول تداعيات النتائج. بشكل عام، تعتبر النتائج أساسًا للنقاشات والاستنتاجات اللاحقة التي تم التوصل إليها في الورقة.

المناقشة

تقدم الدراسة نموذجًا قائمًا على تعلم الآلة (ML) للتنبؤ بأمراض القلب والأوعية الدموية (CVD) الجديدة لدى المرضى المصابين بداء السكري من النوع 2 (T2DM) في كوريا الجنوبية، باستخدام بيانات من مجموعتين طوليتيتين. تم اختيار ما مجموعه 12,809 مريضًا لمجموعة الاكتشاف، مع إضافة 2,019 مريضًا للتحقق الخارجي. تضمن النموذج 68 متغيرًا، بما في ذلك البيانات الديموغرافية، والتاريخ الطبي، واستخدام الأدوية، والمعايير السريرية. من بين خوارزميات ML المختلفة التي تم اختبارها، أظهر نموذج الغابة العشوائية (RF) أعلى أداء، محققًا منطقة تحت منحنى التشغيل المستلم (AUROC) قدرها 0.830 في مجموعة التحقق، مع مقاييس متسقة عبر الدقة، والحساسية، والنوعية.

تشير النتائج الرئيسية إلى أن مستويات الكرياتينين والهيموجلوبين السكري (HbA1c) كانت من أبرز المؤشرات لمخاطر CVD. تؤكد الدراسة على أهمية التباين في المعايير السريرية، مثل نطاق مستويات الكرياتينين وHbA1c، بدلاً من القيم الأساسية الثابتة، مما يشير إلى أن التقلبات في هذه المقاييس حاسمة لتقييم المخاطر بدقة. يجادل المؤلفون بأن نماذج التنبؤ بالمخاطر الكلاسيكية الحالية، مثل درجة خطر فرامينغهام، أقل فعالية في السكان المصابين بالسكري، مما يبرز الحاجة إلى نهج ML مخصص. على الرغم من نقاط القوة في الدراسة، بما في ذلك مجموعة كبيرة ومتنوعة، يتم الاعتراف بالقيود مثل التحيزات المحتملة من جمع البيانات بأثر رجعي والتركيز على مرضى الرعاية الثلاثية. بشكل عام، تدعم النتائج فائدة ML في تعزيز التنبؤ بمخاطر CVD لدى مرضى T2DM، مما قد يؤدي إلى تحسين النتائج السريرية من خلال التدخلات في الوقت المناسب.

Journal: Scientific Reports, Volume: 14, Issue: 1
DOI: https://doi.org/10.1038/s41598-024-63798-y
PMID: https://pubmed.ncbi.nlm.nih.gov/38942775
Publication Date: 2024-06-28
Author(s): Hyunji Sang et al.
Primary Topic: Artificial Intelligence in Healthcare

Overview

This study developed and validated a machine learning (ML) model specifically for predicting cardiovascular disease (CVD) in the Korean population with type 2 diabetes mellitus (T2DM). Utilizing data from a discovery cohort of 12,809 patients and a validation cohort of 2,019 patients, the research focused on predicting the presence of CVD within three years. The random forest (RF) model demonstrated the highest performance, achieving an area under the receiver operating characteristic curve (AUROC) of 0.830 in the discovery cohort and 0.722 in the validation cohort. Key predictors identified included creatinine and glycated hemoglobin levels, underscoring their significance in CVD risk assessment.

The findings indicate that the ML-based model surpasses traditional risk assessment tools, such as the Framingham risk score, which have limitations in diabetic populations. While the model shows promise for broader applicability, further research is needed to generalize its use across diverse diabetic populations. The study advocates for the integration of ML models into clinical practice to enhance personalized medicine approaches and reduce the CVD burden. It emphasizes the necessity for collaboration among healthcare professionals, data scientists, and policymakers to refine predictive models and update clinical guidelines, ultimately aiming to improve patient outcomes in public health.

Methods

The “Materials and Methods” section outlines the experimental design and procedures employed in the study. It details the specific materials used, including any reagents, equipment, and biological samples, ensuring reproducibility of the experiments. The methods section also describes the protocols followed for data collection and analysis, including any statistical techniques applied to interpret the results.

Additionally, the section may include information on the experimental setup, such as control conditions and the number of replicates, which are crucial for validating the findings. Overall, this section serves to provide a comprehensive overview of the methodologies that underpin the research, facilitating peer review and future studies in the field.

Results

The “Results” section of the research paper presents key findings derived from the conducted experiments or analyses. It typically includes quantitative data, statistical analyses, and visual representations such as graphs or tables that illustrate the outcomes of the study. The results are often compared against the hypotheses or previous studies to highlight significant differences or confirmations.

In this section, the authors may report specific metrics, such as means, standard deviations, and p-values, to substantiate their claims. Additionally, any observed trends or patterns in the data are discussed, providing insights into the implications of the findings. Overall, the results serve as a foundation for the subsequent discussion and conclusions drawn in the paper.

Discussion

The study presents a machine learning (ML)-based model for predicting new-onset cardiovascular disease (CVD) in patients with type 2 diabetes mellitus (T2DM) in South Korea, utilizing data from two longitudinal cohorts. A total of 12,809 patients were selected for the discovery cohort, with an additional 2,019 patients for external validation. The model incorporated 68 variables, including demographic data, medical history, medication use, and clinical parameters. Among the various ML algorithms tested, the Random Forest (RF) model exhibited the highest performance, achieving an area under the receiver operating characteristic curve (AUROC) of 0.830 in the validation cohort, with consistent metrics across accuracy, sensitivity, and specificity.

Key findings indicate that creatinine and glycated hemoglobin (HbA1c) levels were the most significant predictors of CVD risk. The study emphasizes the importance of variability in clinical parameters, such as the range of creatinine and HbA1c levels, over static baseline values, suggesting that fluctuations in these metrics are critical for accurate risk assessment. The authors argue that existing classical risk prediction models, such as the Framingham risk score, are less effective in diabetic populations, highlighting the need for tailored ML approaches. Despite the study’s strengths, including a large and diverse cohort, limitations such as potential biases from retrospective data collection and the focus on tertiary care patients are acknowledged. Overall, the findings support the utility of ML in enhancing CVD risk prediction in T2DM patients, potentially leading to improved clinical outcomes through timely interventions.