تطوير وتحقق من نموذج تعلم الآلة للتنبؤ بارتفاع ضغط الدم المصاحب لدى مرضى السكري من النوع 2
Development and validation of a machine learning model to predict comorbid hypertension in patients with type 2 diabetes

المجلة: Frontiers in Medicine، المجلد: 13
DOI: https://doi.org/10.3389/fmed.2026.1754916
PMID: https://pubmed.ncbi.nlm.nih.gov/41788702
تاريخ النشر: 2026-02-18
المؤلف: Hailu Yang وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في الرعاية الصحية

نظرة عامة

تتناول هذه الدراسة الخطر القلبي الوعائي الكبير الذي تسببه ارتفاع ضغط الدم لدى مرضى السكري من النوع 2، مع تسليط الضوء على قيود النماذج التنبؤية الحالية التي غالبًا ما تفتقر إلى التحقق الخارجي وقابلية التفسير. كان الهدف هو تطوير نموذج غابة عشوائية عالي الأداء يدمج المقاييس السريرية، وعادات نمط الحياة، والعوامل الاجتماعية والاقتصادية للتنبؤ بخطر ارتفاع ضغط الدم لدى مرضى السكري. استخدمت الدراسة تصميم مجموعة استرجاعية متعددة المراكز، حيث تم تحليل السجلات الطبية الإلكترونية من مستشفيين من المستوى الثالث، وشملت 900 مشارك مؤهل مقسمين إلى مجموعات تدريب، واختبار، والتحقق الخارجي.

أظهر نموذج الغابة العشوائية أداءً متفوقًا، حيث حقق قيم منطقة تحت المنحنى (AUC) تبلغ 0.89 في الاختبار الداخلي و0.83 في التحقق الخارجي. تضمنت المؤشرات الرئيسية التي تم تحديدها من خلال اختيار الميزات استهلاك الكحول، والدهون الثلاثية، ومدة السكري، ونوع التأمين الصحي، ومستوى الجلوكوز في الدم أثناء الصيام، ومعدل الترشيح الكبيبي المقدر، وتكرار ممارسة الرياضة. تم التحقق من قوة النموذج من خلال تحليل المعايرة وتحليل منحنى القرار، بينما قدم تحليل SHAP رؤى شفافة حول عوامل الخطر، مما يعزز من فائدته السريرية في اتخاذ القرارات الطبية الشخصية.

مقدمة

تسلط المقدمة الضوء على الانتشار الكبير لمرض السكري من النوع 2 (T2DM) وارتفاع ضغط الدم، اللذان غالبًا ما يتواجدان معًا ويزيدان من تعقيدات القلب والأوعية الدموية. يتطور ارتفاع ضغط الدم بشكل متكرر لدى الأفراد المصابين بمرض السكري من النوع 2، مما يؤدي إلى مشاكل شديدة في الأوعية الدقيقة والكبرى، مما يبرز الحاجة إلى التعرف المبكر على المرضى المعرضين لخطر ارتفاع ضغط الدم بعد ظهور السكري. لقد حددت الطرق الإحصائية التقليدية عوامل خطر متنوعة، مثل العمر، والسمنة، والاختلالات الدهنية، وسوء التحكم في نسبة السكر في الدم؛ ومع ذلك، تفترض هذه الطرق عادةً علاقات خطية وقد تتجاهل التفاعلات المعقدة بين متغيرات سريرية، وكيميائية حيوية، وسلوكية مختلفة.

على النقيض من ذلك، ظهرت تقنيات التعلم الآلي كأدوات فعالة لنمذجة العلاقات غير الخطية ودمج أنواع بيانات متنوعة، مما يعزز من دقة التنبؤ ويمكّن من تصنيف المخاطر بشكل شخصي. على الرغم من إمكانياتها، فإن النماذج التنبؤية الحالية لارتفاع ضغط الدم لدى مرضى السكري من النوع 2 غالبًا ما تفتقر إلى التحقق الخارجي الدقيق وقابلية التفسير، وهما أمران أساسيان للتطبيق السريري. تهدف هذه الدراسة إلى تطوير والتحقق الخارجي من نموذج تعلم آلي قابل للتفسير باستخدام بيانات سريرية روتينية للتنبؤ بارتفاع ضغط الدم المصاحب لدى مرضى السكري من النوع 2. من خلال استخدام اختيار الميزات المنهجي، ومقارنة النماذج، والتحليل القابل للتفسير، تسعى الدراسة إلى إنشاء أداة قوية وشفافة للتعرف المبكر على المخاطر والوقاية الشخصية في البيئات السريرية.

طرق

تحدد قسم “المواد والطرق” تصميم التجربة والإجراءات المستخدمة في الدراسة. توضح المواد المستخدمة، بما في ذلك الكواشف المحددة، والمعدات، وأي عينات بيولوجية متضمنة. يتم وصف المنهجية بطريقة منهجية، مع تسليط الضوء على الخطوات المتخذة لضمان قابلية التكرار ودقة النتائج.

بالإضافة إلى ذلك، قد يتضمن القسم معلومات حول التحليلات الإحصائية التي تم إجراؤها، مثل الاختبارات المستخدمة لتقييم دلالة النتائج. يضمن هذا النهج الشامل أن البحث يمكن تقييمه بشكل نقدي وتكراره من قبل باحثين آخرين في هذا المجال. بشكل عام، فإن الطرق المستخدمة حاسمة للتحقق من استنتاجات الدراسة وتقدم المعرفة في المجال البحثي المعني.

مناقشة

في هذه الدراسة الاسترجاعية متعددة المراكز التي شملت 900 مريض مصاب بمرض السكري من النوع 2، تم تطوير نموذج تعلم آلي والتحقق منه خارجيًا للتنبؤ بظهور ارتفاع ضغط الدم المصاحب. استخدمت الدراسة السجلات الطبية الإلكترونية من مستشفيين، مع تطبيق معايير استبعاد صارمة لضمان سلامة البيانات. كانت النتيجة الرئيسية هي حدوث ارتفاع ضغط الدم الجديد خلال ثلاث سنوات من تشخيص السكري، المحدد وفقًا لمعايير الرعاية ADA لعام 2024. تم إجراء اختيار الميزات باستخدام طرق Boruta وLASSO، حيث تم تحديد سبعة مؤشرات رئيسية: استهلاك الكحول، والدهون الثلاثية، ومدة السكري، ونوع التأمين الصحي، ومستوى الجلوكوز في الدم أثناء الصيام، ومعدل الترشيح الكبيبي المقدر (eGFR)، وتكرار ممارسة الرياضة.

من بين خوارزميات التعلم الآلي المختلفة التي تم اختبارها، أظهر نموذج الغابة العشوائية أعلى أداء، حيث حقق منطقة تحت المنحنى (AUC) تبلغ 0.890 في مجموعة الاختبار و0.834 في مجموعة التحقق الخارجي. يُعزى القدرة التنبؤية المتفوقة لهذا النموذج إلى قدرته على التقاط العلاقات المعقدة وغير الخطية بين المؤشرات، والتي قد تتجاهلها نماذج الانحدار التقليدية. كما استخدمت الدراسة قيم SHAP لتعزيز قابلية التفسير، مما يكشف أن استهلاك الكحول المرتفع، والدهون الثلاثية، ومستويات الجلوكوز في الدم أثناء الصيام المرتفعة كانت مرتبطة بزيادة خطر ارتفاع ضغط الدم، بينما كانت ممارسة الرياضة بانتظام وeGFR المنخفض عوامل وقائية. تؤكد هذه النتائج على أهمية دمج العوامل الأيضية والسلوكية والاجتماعية والاقتصادية في النماذج التنبؤية، مما يحسن من الدقة وقابلية التطبيق السريري في إدارة ارتفاع ضغط الدم بين مرضى السكري.

Journal: Frontiers in Medicine, Volume: 13
DOI: https://doi.org/10.3389/fmed.2026.1754916
PMID: https://pubmed.ncbi.nlm.nih.gov/41788702
Publication Date: 2026-02-18
Author(s): Hailu Yang et al.
Primary Topic: Artificial Intelligence in Healthcare

Overview

This study addresses the significant cardiovascular risk posed by hypertension in patients with type 2 diabetes mellitus, highlighting the limitations of existing predictive models that often lack external validation and interpretability. The objective was to develop a high-performance Random Forest model that integrates clinical metrics, lifestyle habits, and socioeconomic factors to predict hypertension risk in diabetic patients. The research utilized a multicenter retrospective cohort design, analyzing electronic medical records from two tertiary hospitals, and included 900 eligible participants divided into training, testing, and external validation cohorts.

The Random Forest model demonstrated superior performance, achieving area under the curve (AUC) values of 0.89 in internal testing and 0.83 in external validation. Key predictors identified through feature selection included alcohol consumption, triglycerides, diabetes duration, health insurance type, fasting blood glucose, estimated glomerular filtration rate, and exercise frequency. The model’s robustness was further validated through calibration and decision curve analyses, while SHAP analysis provided transparent insights into the risk factors, enhancing its clinical utility for personalized medical decision-making.

Introduction

The introduction highlights the significant prevalence of Type 2 diabetes mellitus (T2DM) and hypertension, which often coexist and exacerbate cardiovascular complications. Hypertension frequently develops in individuals with T2DM, leading to severe microvascular and macrovascular issues, underscoring the need for early identification of patients at risk for hypertension following diabetes onset. Traditional statistical methods have identified various risk factors, such as age, obesity, dyslipidemia, and poor glycemic control; however, these methods typically assume linear relationships and may overlook complex interactions among various clinical, biochemical, and behavioral variables.

In contrast, machine learning techniques have emerged as effective tools for modeling nonlinear relationships and integrating diverse data types, thereby enhancing predictive accuracy and enabling personalized risk stratification. Despite their potential, existing predictive models for hypertension in T2DM patients often lack rigorous external validation and interpretability, which are essential for clinical application. This study aims to develop and externally validate an interpretable machine learning model utilizing routine clinical data to predict comorbid hypertension in T2DM patients. By employing systematic feature selection, model comparison, and explainable analysis, the research seeks to create a robust and transparent tool for early risk identification and personalized prevention in clinical settings.

Methods

The “Materials and Methods” section outlines the experimental design and procedures employed in the study. It details the materials used, including specific reagents, equipment, and any biological samples involved. The methodology is described in a systematic manner, highlighting the steps taken to ensure reproducibility and accuracy of results.

Additionally, the section may include information on the statistical analyses performed, such as the tests used to evaluate the significance of the findings. This comprehensive approach ensures that the research can be critically assessed and replicated by other scholars in the field. Overall, the methods employed are crucial for validating the study’s conclusions and advancing knowledge in the relevant area of research.

Discussion

In this multicenter, retrospective study involving 900 patients with type 2 diabetes, a machine learning model was developed and externally validated to predict the onset of comorbid hypertension. The study utilized electronic medical records from two hospitals, applying strict exclusion criteria to ensure data integrity. The primary outcome was the incidence of new-onset hypertension within three years of diabetes diagnosis, defined according to the 2024 ADA Standards of Care. Feature selection was performed using Boruta and LASSO methods, identifying seven key predictors: alcohol consumption, triglycerides, diabetes duration, health insurance type, fasting blood glucose, estimated glomerular filtration rate (eGFR), and exercise frequency.

Among the various machine learning algorithms tested, the random forest model exhibited the highest performance, achieving an area under the curve (AUC) of 0.890 in the testing cohort and 0.834 in the external validation cohort. This model’s superior predictive ability is attributed to its capacity to capture complex, non-linear relationships among predictors, which traditional regression models may overlook. The study also employed SHAP values to enhance interpretability, revealing that higher alcohol consumption, triglycerides, and fasting blood glucose levels were associated with increased hypertension risk, while regular exercise and lower eGFR were protective factors. These findings underscore the importance of integrating metabolic, behavioral, and socioeconomic factors into predictive models, thereby improving both accuracy and clinical applicability in managing hypertension among diabetic patients.