استيفاء الحواف، تعويض الوسيط، RobustScalar، وتحسين سرب الجسيمات مع مصنفات غير متجانسة: تركيبة قوية لتشخيص فعال لأمراض القلب
Padding interpolation, median imputation, RobustScalar, and particle swarm optimization with heterogeneous classifiers: a robust combination for effective heart disease diagnosis

المجلة: Frontiers in Medicine، المجلد: 12
DOI: https://doi.org/10.3389/fmed.2025.1721740
PMID: https://pubmed.ncbi.nlm.nih.gov/41601794
تاريخ النشر: 2026-01-12
المؤلف: Sanjay Dhanka وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في الرعاية الصحية

نظرة عامة

تقدم ورقة البحث إطارًا تشخيصيًا جديدًا يهدف إلى تحسين الكشف المبكر عن أمراض القلب (HD) من خلال تقنيات التعلم الآلي المتقدمة. يتناول الإطار التحديات الشائعة في النماذج الحالية، مثل عدم تناسق البيانات ومشاكل اختيار الميزات، من خلال استخدام استراتيجية شاملة لمعالجة البيانات تتضمن استخدام Padding Interpolation للقيم المفقودة، وMedian Imputation للقيم الشاذة، وRobustScaler للتقييس. في صميم الإطار يوجد خوارزمية تحسين سرب الجسيمات المحسنة (IPSO)، التي تتضمن وزن قصور ديناميكي وعمليات طفرات لتعزيز اختيار الميزات وضبط المعلمات الفائقة لخمس مصنفات: الانحدار اللوجستي، تحليل التمييز الخطي، بايزي Gaussian الساذج، مصنف دعم المتجهات، وXGBoost. أظهر نموذج XGBoost المحسن بواسطة IPSO تحسينات كبيرة في الأداء، حيث حقق دقة تبلغ 91.3% ومقاييس أخرى تشير إلى حساسية عالية، وخصوصية، ودقة عبر مجموعة بيانات مركبة من خمسة مستودعات عامة.

يستنتج المؤلفون أن الإطار المقترح لا يظهر فقط نتائج واعدة على مجموعات بيانات التدريب ولكن أيضًا يظهر قابلية تعميم قوية على مجموعات بيانات مستقلة، مثل كليفلاند وStatlog. تؤكد الاختبارات الإحصائية على أهمية التحسينات مقارنة بالنماذج الأساسية (p < 0.05). ومع ذلك، تعترف الدراسة بالقيود، بما في ذلك التركيز على البيانات السريرية الجدولية وتحديات قابلية التفسير التي تطرحها نموذج IPSO-XGBoost المعقد. تهدف الأعمال المستقبلية إلى استكشاف تقنيات تحسين أخرى، وتعزيز قابلية تفسير النموذج بطرق مثل SHAP، ومعالجة مشاكل التصنيف المتعدد، ودمج أساليب التعلم العميق لمراقبة أمراض القلب في الوقت الحقيقي باستخدام بيانات من أجهزة IoT القابلة للارتداء.

مقدمة

تتناول مقدمة ورقة البحث التحدي الصحي العالمي الكبير الذي تطرحه أمراض القلب (HD)، والتي تشمل حالات مختلفة مثل مرض الشريان التاجي وفشل القلب. يمكن أن تظهر أعراض HD على شكل ضيق في التنفس، وإرهاق، وعدم انتظام ضربات القلب، من بين أمور أخرى. تشير منظمة الصحة العالمية إلى أن HD تسبب أكثر من 18 مليون حالة وفاة سنويًا، مما يمثل 32% من الوفيات العالمية، مع زيادة ملحوظة في المخاطر مع تقدم الأفراد في العمر. الطرق التشخيصية الحالية، بما في ذلك تصوير الأوعية، وتخطيط القلب الكهربائي، وتصوير القلب بالموجات فوق الصوتية، مكلفة وتتطلب تدريبًا متخصصًا، مما يبرز الحاجة إلى تقنيات تنبؤية أكثر سهولة وأتمتة.

تدعو الورقة إلى تطبيق تقنيات التعلم الآلي (ML) كحل قابل للتطبيق لتعزيز الكشف المبكر عن HD. يستفيد ML، وهو فرع من الذكاء الاصطناعي، من بيانات المرضى لتصنيف الأفراد المعرضين لخطر HD من خلال أنماط تعلم مختلفة، بما في ذلك التعلم الخاضع للإشراف، والتعلم غير الخاضع للإشراف، والتعلم شبه الخاضع للإشراف. تسهل زيادة توفر مجموعات البيانات السريرية العامة تطوير أنظمة ML للتطبيقات الطبية، بما في ذلك توقع HD. ومع ذلك، تعتمد فعالية هذه الأنظمة على جودة مجموعات البيانات المستخدمة، مما يتطلب إدارة دقيقة للبيانات ومعالجتها لضمان الدقة والموثوقية في نتائج التصنيف. تمهد المقدمة الطريق لتحليل نقدي للأدبيات الحالية حول منهجيات توقع HD، مع تسليط الضوء على نقاط القوة والقيود الخاصة بها.

طرق

في قسم المنهجية، استخدم المؤلفون خمسة مجموعات بيانات مفتوحة المصدر—كليفلاند، Statlog، المجر، سويسرا، ولونغ بيتش—لتقييم نهجهم المقترح. تم تقييم أداء النموذج باستخدام مقاييس تقييم مختلفة، والتي تعتبر حاسمة لفهم فعاليته في مهام التصنيف.

تضمنت المقاييس الدقة، الحساسية (معدل الإيجابيات الحقيقية)، الخصوصية (معدل السلبيات الحقيقية)، الدقة (القيمة التنبؤية الإيجابية)، درجة F1، القيمة التنبؤية السلبية، معامل ارتباط ماثيو، الدقة المتوازنة، ونسب الاحتمالات. يتم تعريف كل مقياس بواسطة صيغ محددة، مثل الدقة المحسوبة كـ \( \text{Accuracy} = \frac{TN + TP}{TP + TN + FP + FN} \)، حيث تمثل TN وTP وFP وFN السلبيات الحقيقية، والإيجابيات الحقيقية، والإيجابيات الكاذبة، والسلبيات الكاذبة، على التوالي. توفر هذه المقاييس إطار تقييم شامل لأداء النموذج المقترح عبر مجموعات البيانات المختارة.

مناقشة

في قسم المناقشة من ورقة البحث، يتم تقديم تحليل نقدي للدراسات الحالية حول توقع أمراض القلب (HD)، مع تسليط الضوء على منهجيات مختلفة وقيودها. من الجدير بالذكر أن أوزكان وآخرين اقترحوا نهج CART الذي تفوق على النماذج الحالية في عدة مجموعات بيانات ولكنه افتقر إلى تحسين اختيار الميزات المتقدم. استخدم بهات وآخرون تجميع k-modes، محققين نتائج متفوقة مقارنة بمصنفات مثل الغابة العشوائية، ومع ذلك لم يتم تقييم طريقتهم مقابل مجموعات بيانات معيارية، مما يحد من قابلية المقارنة. أظهرت دراسات أخرى، مثل تلك التي أجراها هيرا وآخرون وراني وآخرون، تقنيات تجميع فعالة ونماذج هجينة، على التوالي، لكنها واجهت تحديات تتعلق بالتكلفة الحاسوبية والتحقق من مجموعة البيانات.

تحدد الورقة فجوات كبيرة في الأدبيات، لا سيما في معالجة البيانات، واختيار الميزات، وإدارة القيم الشاذة. تفشل العديد من النماذج الحالية في معالجة عدم توازن الفئات بشكل كاف وغالبًا ما تتجاهل التعامل المنهجي مع القيم الشاذة، مما يمكن أن يشوه التوقعات. يقترح المؤلفون نهجًا جديدًا يتضمن استخدام Padding Interpolation للقيم المفقودة، وMedian Imputation للقيم الشاذة، وتقنيات التقييس القوي، بهدف تعزيز دقة وموثوقية نماذج توقع HD. تم التحقق من الطرق المقترحة على مجموعات بيانات متعددة، محققة نتائج تنافسية مع التأكيد على الحاجة إلى مزيد من البحث في تقنيات المعالجة المتقدمة والتحسين لتحسين أداء النموذج وقابلية تفسيره في الإعدادات السريرية.

قيود

في هذا القسم، يقيم المؤلفون قيود نموذجهم الهجين المحسن المقترح، النموذج 5 (مصنف PSO+XGBoost)، من خلال مقارنة أدائه مع النماذج الحالية باستخدام مقاييس تقييم مختلفة، كما هو ملخص في الجدول 18. حقق النموذج 5 نتائج ملحوظة بدقة تبلغ 91.3%، وحساسية 88.37%، وخصوصية 93.88%، ودقة 92.68%، ودرجة F1 تبلغ 90.48%، وقيمة تنبؤية سلبية (NPV) تبلغ 90.2%، ومعامل ارتباط ماثيو (MCC) يبلغ 82.56%، ونسبة الاحتمالات التشخيصية (DOR) تبلغ 116.53. بينما تفوق على العديد من النماذج الحالية من حيث الدقة، والدقة، والخصوصية، ودرجة F1، إلا أنه أظهر حساسية أقل قليلاً مقارنة ببعض النماذج.

يؤكد المؤلفون أنه في المجال الطبي، يجب أن يمتد تقييم أنظمة التصنيف إلى ما هو أبعد من الدقة ليشمل عوامل مثل القوة، وقابلية الاستخدام، والجهد اليدوي، ووقت الحوسبة. أظهر النموذج المقترح تصنيفًا فعالًا لبيانات أمراض القلب (HD)، حيث استغرق فقط 210.95 ثانية للتدريب و2.7 × 10^{-3} ثانية للاختبار، دون مواجهة مشاكل الإفراط في التكيف أو نقص التكيف التي تكون نموذجية لنماذج التعلم الآلي غير المحسنة. بشكل عام، تشير النتائج إلى أن النموذج 5 يقدم أداءً محسناً لتوقع HD مقارنة بالأساليب الحالية، على الرغم من أن المزيد من الاستكشاف لحساسيته warranted.

Journal: Frontiers in Medicine, Volume: 12
DOI: https://doi.org/10.3389/fmed.2025.1721740
PMID: https://pubmed.ncbi.nlm.nih.gov/41601794
Publication Date: 2026-01-12
Author(s): Sanjay Dhanka et al.
Primary Topic: Artificial Intelligence in Healthcare

Overview

The research paper presents a novel diagnostic framework aimed at improving the early detection of heart disease (HD) through advanced machine learning techniques. The framework addresses common challenges in existing models, such as data inconsistencies and feature selection issues, by employing a comprehensive data preprocessing strategy that includes Padding Interpolation for missing values, Median Imputation for outliers, and RobustScaler for scaling. Central to the framework is the Improved Particle Swarm Optimization (IPSO) algorithm, which incorporates dynamic inertia weight and a mutation operator to enhance feature selection and hyperparameter tuning for five classifiers: Logistic Regression, Linear Discriminant Analysis, Gaussian Naïve Bayes, Support Vector Classifier, and XGBoost. The IPSO-optimized XGBoost model demonstrated significant performance improvements, achieving an accuracy of 91.3% and other metrics indicating high sensitivity, specificity, and precision across a composite dataset from five public repositories.

The authors conclude that their proposed framework not only shows promising results on training datasets but also exhibits strong generalizability on independent datasets, such as Cleveland and Statlog. Statistical tests confirm the significance of the improvements over baseline models (p < 0.05). However, the study acknowledges limitations, including the focus on tabular clinical data and the interpretability challenges posed by the complex IPSO-XGBoost model. Future work aims to explore other optimization techniques, enhance model explainability with methods like SHAP, tackle multiclass classification problems, and integrate deep learning approaches for real-time monitoring of heart disease using data from wearable IoT devices.

Introduction

The introduction of the research paper addresses the significant global health challenge posed by heart disease (HD), which includes various conditions such as coronary artery disease and heart failure. Symptoms of HD can manifest as shortness of breath, fatigue, and irregular heartbeats, among others. The World Health Organization reports that HD accounts for over 18 million deaths annually, representing 32% of global mortality, with a notable increase in risk as individuals age. Current diagnostic methods, including angiography, electrocardiograms, and echocardiograms, are costly and require specialized training, underscoring the need for more accessible and automated predictive technologies.

The paper advocates for the application of machine learning (ML) techniques as a viable solution to enhance early detection of HD. ML, a subset of artificial intelligence, leverages patient data to classify individuals at risk of HD through various learning paradigms, including supervised, unsupervised, and semi-supervised learning. The increasing availability of public clinical datasets facilitates the development of ML systems for medical applications, including HD prediction. However, the effectiveness of these systems hinges on the quality of the datasets used, necessitating meticulous data management and preprocessing to ensure accuracy and reliability in classification outcomes. The introduction sets the stage for a critical analysis of existing literature on HD prediction methodologies, highlighting their respective strengths and limitations.

Methods

In the methodology section, the authors employed five open-source datasets—Cleveland, Statlog, Hungarian, Switzerland, and Long Beach—to evaluate their proposed approach. The performance of the model was assessed using various evaluation metrics, which are crucial for understanding its effectiveness in classification tasks.

The metrics included Accuracy, Sensitivity (True Positive Rate), Specificity (True Negative Rate), Precision (Positive Predictive Value), F1 Score, Negative Predictive Value, Matthews Correlation Coefficient, Balanced Accuracy, and Likelihood Ratios. Each metric is defined by specific formulas, such as Accuracy calculated as \( \text{Accuracy} = \frac{TN + TP}{TP + TN + FP + FN} \), where TN, TP, FP, and FN represent true negatives, true positives, false positives, and false negatives, respectively. These metrics provide a comprehensive evaluation framework for the proposed model’s performance across the selected datasets.

Discussion

In the discussion section of the research paper, a critical analysis of existing studies on heart disease (HD) prediction is presented, highlighting various methodologies and their limitations. Notably, Ozcan et al. proposed a CART approach that outperformed existing models on multiple datasets but lacked advanced feature selection optimization. Bhatt et al. utilized k-modes clustering, achieving superior results compared to classifiers like random forest, yet their method was not benchmarked against standard datasets, limiting comparability. Other studies, such as those by Hera et al. and Rani et al., demonstrated effective ensemble techniques and hybrid models, respectively, but faced challenges related to computational expense and dataset validation.

The paper identifies significant gaps in the literature, particularly in data preprocessing, feature selection, and outlier management. Many existing models fail to adequately address class imbalance and often overlook the systematic handling of outliers, which can skew predictions. The authors propose a novel approach that incorporates padding interpolation for missing values, median imputation for outliers, and robust scaling techniques, aiming to enhance the accuracy and reliability of HD prediction models. The proposed methods were validated on multiple datasets, achieving competitive results while emphasizing the need for further research in advanced preprocessing and optimization techniques to improve model performance and interpretability in clinical settings.

Limitations

In this section, the authors evaluate the limitations of their proposed hybrid optimized model, Model 5 (PSO+XGBoost Classifier), by comparing its performance against existing models using various evaluation metrics, as summarized in Table 18. Model 5 achieved notable results with an accuracy of 91.3%, sensitivity of 88.37%, specificity of 93.88%, precision of 92.68%, F1 score of 90.48%, negative predictive value (NPV) of 90.2%, Matthews correlation coefficient (MCC) of 82.56%, and diagnostic odds ratio (DOR) of 116.53. While it outperformed several existing models in terms of accuracy, precision, specificity, and F1 score, it exhibited slightly lower sensitivity compared to some models.

The authors emphasize that in the medical domain, evaluating classification systems should extend beyond accuracy to include factors such as robustness, usability, manual effort, and computational time. The proposed model demonstrated efficient classification of heart disease (HD) data, requiring only 210.95 seconds for training and 2.7 × 10^{-3} seconds for testing, without encountering overfitting or underfitting issues typical of non-optimized machine learning models. Overall, the findings indicate that Model 5 offers improved performance for predicting HD compared to existing approaches, although further exploration of its sensitivity is warranted.