DOI: https://doi.org/10.1186/s12911-025-03116-2
PMID: https://pubmed.ncbi.nlm.nih.gov/40707947
تاريخ النشر: 2025-07-24
المؤلف: Yong Si وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في الرعاية الصحية
نظرة عامة
تتناول هذه الورقة البحثية المخاطر الكبيرة للسكتة الدماغية بعد الجراحة في المرضى الذين يعانون من مرض الشريان التاجي (CAD) والذين يخضعون لإجراءات إعادة التوعية، مثل التدخل التاجي عن طريق الجلد (PCI) وجراحة تحويل مجرى الشريان التاجي (CABG). على الرغم من التقدم في تعلم الآلة (ML) لتوقع النتائج بعد الجراحة، إلا أن هناك فجوة في الربط الكمي بين خطر السكتة الدماغية وإعادة التوعية. تهدف الدراسة إلى سد هذه الفجوة من خلال تطوير وتأكيد نماذج تعلم الآلة لتعزيز اتخاذ القرارات السريرية وتحسين نتائج المرضى.
باستخدام بيانات من قاعدة بيانات المعلومات الطبية للعناية المركزة IV (MIMIC-IV)، قام المؤلفون ببناء إطار عمل لتعلم الآلة شمل 5,757 مريضًا. حددت عملية اختيار الميزات الصارمة 14 متنبئًا رئيسيًا من مجموعة أولية من 35 ميزة. تم تقييم نماذج تعلم الآلة المختلفة، حيث حقق نموذج CatBoost أعلى أداء، مما عكس منطقة تحت منحنى التشغيل (AUC) قدرها 0.8486 على مجموعة الاختبار. تسلط الدراسة الضوء على أهمية المتنبئين مثل مؤشر شارلسون للاعتلال المشترك (CCI) وطول الإقامة (LOS). مقارنة بالأدبيات السابقة، أظهر النموذج تحسنًا ملحوظًا في التمييز، مع زيادة بنسبة 9% في AUC، مما يبرز إمكانية استخدام بيانات السجلات الصحية الإلكترونية (EHR) لتقييم خطر السكتة الدماغية بشكل استباقي والتدخلات المستهدفة في البيئات السريرية. تشمل اتجاهات البحث المستقبلية نمذجة المخاطر الديناميكية والتطبيق في العالم الحقيقي لتعظيم تأثير النموذج على نتائج المرضى.
مقدمة
يعد مرض الشريان التاجي (CAD) أحد الأسباب الرئيسية للوفاة، خاصة في الولايات المتحدة، حيث تسبب في أكثر من 370,000 حالة وفاة في عام 2022. تعتبر إجراءات إعادة التوعية، مثل التدخل التاجي عن طريق الجلد (PCI) وجراحة تحويل مجرى الشريان التاجي (CABG)، علاجات شائعة ولكنها تأتي مع مخاطر كبيرة، بما في ذلك احتمال مرتفع للسكتة الدماغية بعد الجراحة، خاصة في المرضى الذين يعانون من حالات موجودة مسبقًا مثل تاريخ السكتة، السكري، والسن المتقدم. استخدمت نماذج تقييم المخاطر التقليدية الانحدار اللوجستي ودرجات المخاطر السريرية لتوقع خطر السكتة الدماغية، مع تحديد عوامل مثل السن المتقدم والأحداث الدماغية السابقة كمتنبئين مهمين. ومع ذلك، غالبًا ما تظهر هذه النماذج دقة تنبؤية محدودة بسبب اعتمادها على الافتراضات الخطية.
تهدف هذه الدراسة إلى تعزيز توقع خطر السكتة الدماغية بعد الجراحة في مرضى CAD الذين يخضعون لإعادة التوعية من خلال دمج الأساليب الإحصائية التقليدية مع تقنيات تعلم الآلة (ML). من خلال استخدام أربع طرق لاختيار الميزات—الارتباط بيرسون، LASSO، Ridge، والانحدار الشبكي المرن—قامت الدراسة بتقليص 35 متغيرًا مرشحًا إلى 14 متنبئًا عالي القيمة. تم تحديد خوارزمية CatBoost كنموذج قوي لتوقع خطر السكتة الدماغية، حيث حققت منطقة تحت المنحنى (AUC) قدرها 0.8486 على مجموعة الاختبار. استخدمت الدراسة أيضًا تحليل SHAP (التفسيرات الإضافية لشابلي) لتحسين قابلية تفسير النموذج، مما يكشف أن مؤشر شارلسون للاعتلال المشترك (CCI) كان المتنبئ الأكثر أهمية. من خلال معالجة تحديات معالجة البيانات، بما في ذلك عدم توازن الفئات من خلال تقنية الزيادة الاصطناعية للأقليات (SMOTE)، تؤكد الأبحاث على أهمية تطوير نماذج تنبؤية دقيقة وقابلة للتفسير وقابلة للتعميم للاستخدام السريري في إدارة CAD.
الطرق
توضح قسم المنهجية النهج المنهجي المستخدم في البحث لتحقيق أهداف الدراسة. يتناول التصميم التجريبي، بما في ذلك اختيار المشاركين، تقنيات جمع البيانات، والأساليب التحليلية المستخدمة. استخدمت الدراسة نهجًا كميًا، مستفيدة من الأدوات الإحصائية لتحليل البيانات المجمعة من عينة سكانية.
شملت جمع البيانات استبيانات منظمة وتجارب محكومة، مما يضمن موثوقية وصلاحية النتائج. تم إجراء التحليل باستخدام برامج قادرة على إجراء اختبارات إحصائية معقدة، مما سمح بتحديد الأنماط والعلاقات المهمة داخل البيانات. تؤكد المنهجية على الشفافية وقابلية التكرار، مما يوفر إطارًا واضحًا للبحوث المستقبلية في هذا المجال.
النتائج
أظهر تقييم نماذج التنبؤ بالسكتة الدماغية بعد الجراحة أن خوارزمية CatBoost تفوقت بشكل كبير على النماذج الأخرى، حيث حققت أعلى درجات منطقة تحت المنحنى (AUC) قدرها 0.8486 على مجموعة الاختبار و0.8511 على مجموعة التحقق. تم تعزيز هذا الأداء بحساسية قدرها 87.88% وخصوصية قدرها 73.06%، مما يدل على فعاليتها في تقليل الإيجابيات الكاذبة والسلبية. استخدم التقييم الشامل مقاييس متنوعة، بما في ذلك منطقة منحنى التشغيل (ROC) AUC، منحنى الدقة والاسترجاع، ودرجة F1، مما يوفر فهمًا قويًا لأداء النموذج، كما هو موضح في الجدول 5.
أكد اختبار المعايرة أيضًا موثوقية CatBoost، مع درجات Brier قدرها 0.130 لمجموعة التدريب و0.160 لمجموعة التحقق، مما يشير إلى أن احتمالاته المتوقعة تتماشى عن كثب مع النتائج الملاحظة. على الرغم من أن نماذج Random Forest وXGBoost أظهرت نتائج تنافسية، فإن قدرة CatBoost على التعامل مع البيانات الفئوية مباشرة وتفسيره المتفوق من خلال تحليل SHAP ميزته عن غيره. بشكل عام، تسلط هذه النتائج الضوء على إمكانيات CatBoost للتطبيقات السريرية، حيث تعتبر التنبؤات الدقيقة والقابلة للتفسير ضرورية لتصنيف المخاطر الفعال واتخاذ القرارات.
المناقشة
تسلط قسم المناقشة في الورقة البحثية الضوء على استخدام قاعدة بيانات MIMIC-IV لتطوير نموذج تنبؤي لخطر السكتة الدماغية بعد الجراحة في المرضى الذين يعانون من مرض الشريان التاجي (CAD) والذين يخضعون لإجراءات إعادة التوعية. قامت الدراسة بتنقيح مجموعة من 5,757 مريضًا بالغًا في وحدة العناية المركزة من خلال عمليات استخراج البيانات واختيار الميزات الصارمة، مع تحديد 14 متنبئًا ذا دلالة سريرية، بما في ذلك مؤشر شارلسون للاعتلال المشترك (CCI)، وطول الإقامة (LOS)، ونوع العلاج. تم استخدام منهجيات متقدمة مثل الانحدار Lasso وRidge والشبكي المرن لاختيار الميزات، مدعومة بتحليل SHAP لتعزيز قابلية تفسير النموذج. حقق نموذج CatBoost، الذي تم تحسينه من خلال ضبط المعلمات، AUC اختبار قدره 0.8486، مما يدل على تحسين الأداء مقارنة بنماذج الانحدار اللوجستي التقليدية.
تؤكد النتائج على أهمية دمج الرؤى السريرية مع تقنيات تعلم الآلة لتعزيز الدقة التنبؤية وشفافية النموذج. تؤكد الدراسة أن درجات CCI العالية وطول الإقامة المطول هما عوامل خطر مهمة للسكتة الدماغية بعد الجراحة، مما يعكس عبء المرض النظامي وتعقيد الاستشفاء. علاوة على ذلك، يبرز دمج العوامل الاجتماعية والاقتصادية، مثل نوع التأمين، الطبيعة متعددة الأبعاد لخطر السكتة الدماغية. تشير مقاييس المعايرة والتمييز القوية للنموذج إلى إمكانيته للتطبيق السريري في العالم الحقيقي، مما يمكّن مقدمي الرعاية الصحية من اتخاذ قرارات مستنيرة بشأن إدارة المرضى وتخصيص الموارد. بشكل عام، تسهم هذه الدراسة في المشهد المتطور للتحليلات التنبؤية في الرعاية الحرجة، داعية إلى نماذج ليست دقيقة فحسب، بل أيضًا قابلة للتفسير وقابلة للتنفيذ في البيئات السريرية.
القيود
تقدم الدراسة عدة قيود تؤثر على قابلية تعميم وملاءمة نتائجها. بشكل أساسي، يحد الاعتماد على قاعدة بيانات MIMIC-IV من التحقق الخارجي، مما يشير إلى أن النتائج قد لا تكون قابلة للتطبيق على مجموعات سكانية أوسع. بينما يعزز طول الإقامة (LOS) أداء النموذج في التحليلات الاستعادية، فإنه يطرح تحديات للتطبيقات الاستباقية؛ لذلك، يجب أن تأخذ النماذج المستقبلية في الاعتبار دمج مؤشرات داخل المستشفى المبكرة للتنبؤات في الوقت الحقيقي. بالإضافة إلى ذلك، قد يؤدي استخدام SMOTE لمعالجة عدم توازن الفئات إلى تشويه توزيع الفئات الأصلية، مما يستلزم تفسيرًا حذرًا للنتائج.
واجهت الدراسة أيضًا تحديات في إجراء مقارنات إحصائية رسمية لقيم منطقة تحت المنحنى (AUC) بسبب توزيع الفئات غير المتوازن للغاية، مما يحد من القدرة على تحديد الأهمية الإحصائية في اختلافات الأداء. على الرغم من أن درجات Brier لمجموعات التدريب (0.130) والتحقق (0.160) كانت متشابهة عدديًا، لم يتم إجراء اختبارات رسمية لتقييم أهمية هذا الاختلاف. كشفت تحليل المعايرة عن انحراف كبير بين مجموعات التدريب والتحقق، حيث كان النموذج يبالغ في تقدير الاحتمالات المتوقعة في مجموعة التحقق، خاصة في نطاقات الاحتمالات المنخفضة، مما يشير إلى احتمال الإفراط في التكيف. يجب أن تستكشف الأبحاث المستقبلية تقنيات المعايرة، مثل ضبط بلات أو الانحدار المتساوي، وتعالج دمج نماذج تعلم الآلة في الممارسة السريرية، مع التركيز على سهولة الاستخدام وقبول الأطباء.
DOI: https://doi.org/10.1186/s12911-025-03116-2
PMID: https://pubmed.ncbi.nlm.nih.gov/40707947
Publication Date: 2025-07-24
Author(s): Yong Si et al.
Primary Topic: Artificial Intelligence in Healthcare
Overview
This research paper addresses the significant risk of postoperative stroke in patients with coronary artery disease (CAD) undergoing revascularization procedures, such as percutaneous coronary intervention (PCI) and coronary artery bypass grafting (CABG). Despite advancements in machine learning (ML) for predicting postoperative outcomes, a gap exists in quantitatively linking stroke risk to revascularization. The study aims to fill this gap by developing and validating ML models to enhance clinical decision-making and improve patient outcomes.
Using data from the Medical Information Mart for Intensive Care IV (MIMIC-IV) database, the authors constructed an ML framework that included 5,757 patients. A rigorous feature selection process identified 14 key predictors from an initial set of 35 features. Various ML models were evaluated, with the CatBoost model achieving the highest performance, reflected by an area under the receiver operating characteristic curve (AUC) of 0.8486 on the test set. The study highlights the importance of predictors such as the Charlson Comorbidity Index (CCI) and length of stay (LOS). Compared to previous literature, the model demonstrated a notable improvement in discrimination, with a 9% increase in AUC, underscoring the potential of using electronic health record (EHR) data for proactive stroke risk assessment and targeted interventions in clinical settings. Future research directions include dynamic risk modeling and real-world application to maximize the model’s impact on patient outcomes.
Introduction
Coronary Artery Disease (CAD) is a leading cause of mortality, particularly in the U.S., where it accounted for over 370,000 deaths in 2022. Revascularization procedures, such as Percutaneous Coronary Intervention (PCI) and Coronary Artery Bypass Grafting (CABG), are common treatments but come with significant risks, including a high likelihood of postoperative stroke, particularly in patients with pre-existing conditions like stroke history, diabetes, and advanced age. Traditional risk assessment models have utilized logistic regression and clinical risk scores to predict stroke risk, identifying factors such as advanced age and prior cerebrovascular events as significant predictors. However, these models often exhibit limited predictive accuracy due to their reliance on linear assumptions.
This research aims to enhance the prediction of postoperative stroke risk in CAD patients undergoing revascularization by integrating traditional statistical methods with machine learning (ML) techniques. Employing four feature selection methods—Pearson correlation, LASSO, Ridge, and Elastic Net regression—the study narrowed down 35 candidate variables to 14 high-value predictors. The CatBoost algorithm was identified as a robust model for stroke risk prediction, achieving an area under the curve (AUC) of 0.8486 on the test set. The study also utilized SHAP (Shapley Additive Explanations) analysis to improve model interpretability, revealing that the Charlson Comorbidity Index (CCI) was the most significant predictor. By addressing data preprocessing challenges, including class imbalance through the Synthetic Minority Over-sampling Technique (SMOTE), the research underscores the importance of developing accurate, interpretable, and generalizable predictive models for clinical application in CAD management.
Methods
The methodology section outlines the systematic approach employed in the research to achieve the study’s objectives. It details the experimental design, including the selection of participants, data collection techniques, and analytical methods utilized. The study employed a quantitative approach, utilizing statistical tools to analyze the data collected from a sample population.
Data collection involved structured surveys and controlled experiments, ensuring the reliability and validity of the results. The analysis was conducted using software capable of performing complex statistical tests, which allowed for the identification of significant patterns and relationships within the data. The methodology emphasizes transparency and reproducibility, providing a clear framework for future research in the field.
Results
The evaluation of predictive models for postoperative stroke demonstrated that the CatBoost algorithm significantly outperformed other models, achieving the highest Area Under the Curve (AUC) scores of 0.8486 on the test set and 0.8511 on the validation set. This performance was complemented by a sensitivity of 87.88% and specificity of 73.06%, indicating its effectiveness in minimizing false positives and negatives. The comprehensive evaluation utilized various metrics, including the Receiver Operating Characteristic (ROC) AUC, Precision-Recall Curve, and F1 Score, providing a robust understanding of model performance, as detailed in Table 5.
Calibration testing further confirmed CatBoost’s reliability, with Brier scores of 0.130 for the training set and 0.160 for the validation set, suggesting that its predicted probabilities closely aligned with observed outcomes. Although Random Forest and XGBoost models showed competitive results, CatBoost’s ability to handle categorical data directly and its superior interpretability through SHAP analysis set it apart. Overall, these findings highlight CatBoost’s potential for clinical applications, where accurate and interpretable predictions are crucial for effective risk stratification and decision-making.
Discussion
The discussion section of the research paper highlights the utilization of the MIMIC-IV database to develop a predictive model for postoperative stroke risk in patients with coronary artery disease (CAD) undergoing revascularization procedures. The study refined a cohort of 5,757 adult ICU patients through rigorous data extraction and feature selection processes, identifying 14 clinically meaningful predictors, including the Charlson Comorbidity Index (CCI), length of stay (LOS), and treatment type. Advanced methodologies such as Lasso, Ridge, and Elastic Net regression were employed for feature selection, complemented by SHAP analysis to enhance model interpretability. The CatBoost model, optimized through hyperparameter tuning, achieved a test AUC of 0.8486, demonstrating improved performance over traditional logistic regression models.
The findings underscore the importance of integrating clinical insights with machine learning techniques to enhance predictive accuracy and model transparency. The study emphasizes that high CCI scores and prolonged LOS are significant risk factors for postoperative stroke, reflecting the systemic disease burden and hospitalization complexity. Furthermore, the incorporation of socioeconomic factors, such as insurance type, highlights the multifaceted nature of stroke risk. The model’s robust calibration and discrimination metrics suggest its potential for real-world clinical application, enabling healthcare providers to make informed decisions regarding patient management and resource allocation. Overall, this research contributes to the evolving landscape of predictive analytics in critical care, advocating for models that are not only accurate but also interpretable and actionable in clinical settings.
Limitations
The study presents several limitations that impact the generalizability and applicability of its findings. Primarily, the reliance on the MIMIC-IV database restricts external validation, suggesting that the results may not be applicable to broader populations. While length of stay (LOS) enhances model performance in retrospective analyses, it poses challenges for prospective applications; thus, future models should consider integrating early intra-hospital indicators for real-time predictions. Additionally, the use of SMOTE to address class imbalances may distort the original class distribution, necessitating cautious interpretation of the results.
The study also faced challenges in conducting formal statistical comparisons of area under the curve (AUC) values due to the highly imbalanced class distribution, which limits the ability to ascertain statistical significance in performance differences. Although Brier scores for training (0.130) and validation (0.160) sets were numerically similar, no formal tests were conducted to evaluate the significance of this difference. Calibration analysis revealed substantial drift between training and validation sets, with the model overestimating predicted probabilities in the validation set, particularly in lower probability ranges, indicating potential overfitting. Future research should explore calibration techniques, such as Platt scaling or isotonic regression, and address the integration of machine learning models into clinical practice, focusing on user-friendliness and clinician acceptance.
