نموذج توقع مرض القلب باستخدام اختيار الميزات والتعلم العميق الجماعي مع وزن محسن
Heart Disease Prediction Model Using Feature Selection and Ensemble Deep Learning with Optimized Weight

المجلة: Computer Modeling in Engineering & Sciences، المجلد: 143، العدد: 1
DOI: https://doi.org/10.32604/cmes.2025.061623
تاريخ النشر: 2025-01-01
المؤلف: Iman S. Al-Mahdi وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في الرعاية الصحية

نظرة عامة

تقدم ورقة البحث نموذج هجين جديد لتوقع أمراض القلب يعالج بفعالية التعقيدات المرتبطة بالبيانات الطبية عالية الأبعاد. غالبًا ما تكافح طرق التوقع التقليدية مع الميزات غير ذات الصلة وتكاليف الحوسبة العالية، مما يؤدي إلى مشكلات مثل الإفراط في التكيف وسوء التعميم. للتغلب على هذه التحديات، يدمج النموذج المقترح اختيار الميزات عبر خوارزمية جينية (GA) ويستخدم مجموعة من نماذج التعلم العميق المحسّنة باستخدام خوارزمية سرب التونكيت (TSA). تقلل GA من الأبعاد عن طريق اختيار الميزات ذات الصلة، بينما تعزز TSA دقة التوقع من خلال تحسين أوزان نماذج المجموعة. حقق النموذج مقاييس أداء مثيرة للإعجاب، بما في ذلك دقة 97.5%، وحساسية 97.2%، ونوعية 97.8%، إلى جانب تخفيضات كبيرة في وقت التدريب، واستهلاك الذاكرة، واستخدام وحدة المعالجة المركزية.

في الختام، لا يحسن هذا النهج الهجين دقة وكفاءة التوقع فحسب، بل يقدم أيضًا حلاً قابلاً للتوسع لتحليل مجموعات البيانات الطبية المعقدة. ستركز الأعمال المستقبلية على التحقق من صحة النموذج عبر مجموعات بيانات ديموغرافية متنوعة وتعديله للنشر السريري في الوقت الحقيقي. بالإضافة إلى ذلك، ستعزز دمج تقنيات التفسير مثل SHAP (تفسيرات شابلي الإضافية) وLIME (تفسيرات نموذج محلي قابلة للتفسير) من الأهمية السريرية للتوقعات من خلال تقديم رؤى حول مساهمات الميزات وتحسين الشفافية في التشخيص. سيساعد ذلك في النهاية في تقييم المخاطر الشخصية واتخاذ قرارات سريرية مستنيرة.

مقدمة

تسلط مقدمة ورقة البحث هذه الضوء على التحدي المستمر لأمراض القلب باعتبارها قضية صحية عالمية رئيسية، مما يبرز ضرورة وجود نماذج تنبؤية مبكرة ودقيقة لتحسين نتائج المرضى وتقليل تكاليف الرعاية الصحية. يتم مناقشة طرق تشخيصية متنوعة، بما في ذلك تقنيات غير جراحية مثل تخطيط القلب الكهربائي (ECGs) وتصوير القلب بالموجات فوق الصوتية (ECHOs)، بالإضافة إلى إجراءات جراحية مثل قسطرة القلب. بينما تقدم هذه الطرق رؤى قيمة حول صحة القلب، فإنها غالبًا ما تفشل في الكشف المبكر والدقة بسبب تعقيد الأعراض وتأثير عوامل الخطر المتعددة. وهذا يبرز الحاجة إلى نماذج تنبؤية متقدمة تستفيد من التعلم الآلي (ML) لتحليل بيانات المرضى بشكل أكثر فعالية.

تدعو الورقة إلى استخدام طرق التعلم الجماعي كنهج واعد لتحسين توقع أمراض القلب. من خلال دمج نماذج متعددة، تعزز تقنيات المجموعة الدقة والموثوقية، مما يدير بشكل فعال مجموعات البيانات غير المتوازنة ويقدم رؤى حول عوامل الخطر الرئيسية. يتم اقتراح خوارزمية سرب التونكيت (TSA) لتحسين أوزان النماذج نظرًا لتوازنها الفائق بين الاستكشاف والاستغلال وقدرتها على التكيف مع المشكلات عالية الأبعاد. بالإضافة إلى ذلك، يتم التأكيد على أهمية استخراج الميزات واختيارها، مع تسليط الضوء على الخوارزميات الجينية (GAs) لفعاليتها في تحديد الميزات ذات الصلة وتحسين أداء النموذج. بشكل عام، تضع المقدمة الأساس لاستكشاف منهجيات مبتكرة يمكن أن تقدم تقدمًا كبيرًا في توقع وتشخيص أمراض القلب.

الطرق

تركز المنهجية الموضحة في هذا البحث على توقع وجود أو عدم وجود أمراض القلب من خلال نهج التصنيف الثنائي. يهدف النموذج إلى زيادة دقة التوقع من خلال اختيار مجموعة فرعية مثالية من الميزات الطبية ذات الصلة من متجه الميزات \( X = [x_1, x_2, \ldots, x_n] \)، حيث تشير النتيجة \( y \in \{0, 1\} \) إلى وجود (1) أو عدم وجود (0) أمراض القلب. يعد اختيار الميزات خطوة حاسمة، تهدف إلى تحديد مجموعة فرعية \( S \subset \{x_1, x_2, \ldots, x_n\} \) تعزز أداء النموذج من خلال تقليل التعقيد والقضاء على الميزات غير ذات الصلة. الهدف هو العثور على \( S^* = \arg \max_S M(f(X_S), y) \)، حيث تمثل \( M \) مقياس أداء مثل الدقة أو درجة F1.

لتحسين الأداء التنبؤي بشكل أكبر، تستخدم الدراسة التعلم الجماعي، الذي يجمع مخرجات مصنفات متعددة \( f_1, f_2, \ldots, f_k \). يمكن أن يستخدم النموذج الجماعي \( F(X) \) إما المتوسط أو التصويت بالأغلبية لدمج التوقعات. يتم إعطاء التوقع النهائي لمخاطر أمراض القلب بواسطة \( \hat{y} = F(X_S) \)، مع التركيز على تقليل دالة خسارة الانتروبيا المتقاطعة الثنائية \( L(F(X_S), y) \). تم تصميم النموذج للتطبيق السريري في الوقت الحقيقي، مما يتيح التقييم السريع لمخاطر أمراض القلب بناءً على بيانات المرضى، مما يمكن أن يعزز بشكل كبير اتخاذ القرار في البيئات الطبية ذات المخاطر العالية. يدعم التكامل مع أنظمة السجلات الصحية الإلكترونية والمراقبة المستمرة من خلال الأجهزة القابلة للارتداء الرعاية الاستباقية للمرضى، على الرغم من أنه يجب معالجة التحديات المتعلقة بجودة البيانات وتنوعها لضمان موثوقية التطبيقات في العالم الحقيقي.

المناقشة

تناقش قسم المناقشة في ورقة البحث التحدي الحاسم لتوقع أمراض القلب، مما يبرز أهمية التشخيصات الدقيقة وفي الوقت المناسب في الرعاية الصحية. يسلط الضوء على التعقيدات التي تطرحها مجموعات البيانات الطبية عالية الأبعاد، حيث يمكن أن تعقد العديد من الميزات تحديد المعلومات ذات الصلة. ينتقد القسم منهجيات التوقع التقليدية، التي غالبًا ما تكافح مع الإفراط في التكيف وسوء التعميم بسبب عدم كفاءة التعامل مع مجموعات الميزات الكبيرة. يقترح المؤلفون إطار عمل جديد يدمج اختيار الميزات الأمثل باستخدام الخوارزميات الجينية (GA) مع تحسين المصنفات من خلال خوارزمية البحث المحظور (TSA)، بهدف تعزيز دقة التوقع وموثوقية النموذج مع تقليل التكاليف الحوسبية.

تؤكد مراجعة الأدبيات على الاهتمام المتزايد بتوقع أمراض القلب، موضحة مختلف أساليب التعلم الآلي والتعلم العميق التي تم استكشافها. تناقش فعالية طرق اختيار الميزات المختلفة، بما في ذلك تقنيات الفلترة، والتغليف، والمضمنة، بالإضافة إلى استراتيجيات التعلم الجماعي مثل التجميع، والتعزيز، والتكديس. تكشف المراجعة أنه بينما أظهرت النماذج التقليدية نجاحات متفاوتة، فإن تعقيد مجموعات البيانات الطبية يتطلب حلولًا أكثر تطورًا، لا سيما تلك التي تجمع بين اختيار الميزات والتعلم الجماعي لتحسين الأداء التنبؤي. يحدد المؤلفون فجوات بحثية كبيرة، لا سيما في تحسين مجموعات الميزات والتعديل الديناميكي لأوزان النموذج، والتي تعتبر حاسمة لتعزيز دقة وتعميم نماذج التعلم العميق الجماعي في توقع أمراض القلب.

القيود

على الرغم من أن النموذج الهجين لتوقع أمراض القلب يظهر تقدمًا ملحوظًا، إلا أنه مقيد بعدة قيود. يعزز دمج الخوارزميات الجينية (GA) وخوارزميات البحث المحظور (TSA) اختيار الميزات وتحسين النموذج ولكنه يقدم تعقيدًا حوسبيًا كبيرًا، مما قد يعيق التطبيق والنشر في الوقت الحقيقي على الأجهزة ذات الموارد المحدودة. تعتمد فعالية النموذج بشكل كبير على جودة وتمثيل مجموعة بيانات التدريب؛ يمكن أن تؤثر مشكلات مثل البيانات غير المتوازنة أو غير التمثيلية سلبًا على قابليته للتعميم عبر مجموعات سكانية متنوعة. بالإضافة إلى ذلك، فإن نهج التعلم العميق الجماعي يعقد من قابلية التفسير، وهو عامل حاسم في الإعدادات السريرية حيث يكون فهم الأسباب وراء التوقعات أمرًا ضروريًا.

علاوة على ذلك، تظل إمكانية الإفراط في التكيف مصدر قلق، لا سيما مع مجموعات البيانات الأصغر، حيث قد يتعلم النموذج الضوضاء بدلاً من الأنماط القابلة للتعميم. يتطلب التعديل الدقيق للمعلمات الفائقة مزيدًا من التعقيد في التنفيذ، مما يتطلب خبرة في المجال. قد تكون أيضًا عملية التحقق من صحة النموذج مقيدة بمجموعات بيانات محددة، مما يبرز الحاجة إلى اختبار أوسع لضمان المتانة عبر سياقات ديموغرافية وسريرية متنوعة. تحد من المتطلبات الحوسبية العالية المرتبطة بـ GA وTSA، بما في ذلك الذاكرة وقوة المعالجة، القابلية للتوسع والعملية في البيئات ذات الموارد المحدودة، مما يبرز أهمية معالجة هذه التحديات لتعزيز قابلية تطبيق النموذج في سيناريوهات الرعاية الصحية في العالم الحقيقي.

Journal: Computer Modeling in Engineering & Sciences, Volume: 143, Issue: 1
DOI: https://doi.org/10.32604/cmes.2025.061623
Publication Date: 2025-01-01
Author(s): Iman S. Al-Mahdi et al.
Primary Topic: Artificial Intelligence in Healthcare

Overview

The research paper presents a novel hybrid model for heart disease prediction that effectively addresses the complexities associated with high-dimensional medical data. Traditional prediction methods often struggle with irrelevant features and high computational costs, leading to issues such as overfitting and poor generalization. To overcome these challenges, the proposed model integrates feature selection via a Genetic Algorithm (GA) and employs an ensemble of deep learning models optimized using the Tunicate Swarm Algorithm (TSA). The GA reduces dimensionality by selecting relevant features, while the TSA enhances prediction accuracy by optimizing the weights of the ensemble models. The model achieved impressive performance metrics, including an accuracy of 97.5%, sensitivity of 97.2%, and specificity of 97.8%, alongside significant reductions in training time, memory consumption, and CPU usage.

In conclusion, this hybrid approach not only improves prediction accuracy and efficiency but also offers a scalable solution for analyzing complex medical datasets. Future work will focus on validating the model across diverse demographic datasets and refining it for real-time clinical deployment. Additionally, the integration of interpretability techniques such as SHAP (Shapley Additive Explanations) and LIME (Local Interpretable Model-agnostic Explanations) will enhance the clinical relevance of predictions by providing insights into feature contributions and improving transparency in diagnosis. This will ultimately support personalized risk assessment and informed clinical decision-making.

Introduction

The introduction of this research paper highlights the persistent challenge of heart disease as a leading global health concern, emphasizing the necessity for early and accurate predictive models to enhance patient outcomes and reduce healthcare costs. Various diagnostic methods, including non-invasive techniques like electrocardiograms (ECGs) and echocardiograms (ECHOs), as well as invasive procedures such as cardiac catheterization, are discussed. While these methods offer valuable insights into heart health, they often fall short in early detection and accuracy due to the complexity of symptoms and the influence of multiple risk factors. This underscores the need for advanced predictive models that leverage machine learning (ML) to analyze patient data more effectively.

The paper advocates for ensemble learning methods as a promising approach to improve heart disease prediction. By combining multiple models, ensemble techniques enhance accuracy and robustness, effectively managing imbalanced datasets and providing insights into key risk factors. The Tunicate Swarm Algorithm (TSA) is proposed for optimizing model weights due to its superior exploration-exploitation balance and adaptability to high-dimensional problems. Additionally, the importance of feature extraction and selection is emphasized, with Genetic Algorithms (GAs) highlighted for their effectiveness in identifying relevant features and improving model performance. Overall, the introduction sets the stage for exploring innovative methodologies that could significantly advance heart disease prediction and diagnosis.

Methods

The methodology outlined in this research focuses on predicting the presence or absence of heart disease through a binary classification approach. The model aims to maximize prediction accuracy by selecting an optimal subset of relevant medical features from a feature vector \( X = [x_1, x_2, \ldots, x_n] \), where the output \( y \in \{0, 1\} \) indicates the presence (1) or absence (0) of heart disease. Feature selection is a critical step, aiming to identify a subset \( S \subset \{x_1, x_2, \ldots, x_n\} \) that enhances model performance by reducing complexity and eliminating irrelevant features. The goal is to find \( S^* = \arg \max_S M(f(X_S), y) \), where \( M \) represents a performance metric such as accuracy or F1-score.

To further improve predictive performance, the study employs ensemble learning, which aggregates the outputs of multiple classifiers \( f_1, f_2, \ldots, f_k \). The ensemble model \( F(X) \) can utilize either averaging or majority voting to combine predictions. The final prediction for heart disease risk is given by \( \hat{y} = F(X_S) \), with a focus on minimizing the binary cross-entropy loss function \( L(F(X_S), y) \). The model is designed for real-time clinical application, enabling rapid assessment of heart disease risk based on patient data, which can significantly enhance decision-making in high-stakes medical environments. The integration with electronic health record systems and continuous monitoring through wearable devices further supports proactive patient care, although challenges related to data quality and variability must be addressed to ensure reliability in real-world applications.

Discussion

The discussion section of the research paper addresses the critical challenge of heart disease prediction, emphasizing the importance of timely and accurate diagnoses in healthcare. It highlights the complexities posed by high-dimensional medical datasets, where numerous features can complicate the identification of relevant information. The section critiques traditional prediction methodologies, which often struggle with overfitting and poor generalization due to the inefficiencies of handling large feature sets. The authors propose a novel framework that integrates optimal feature selection using Genetic Algorithms (GA) with classifier optimization through a Tabu Search Algorithm (TSA), aiming to enhance prediction accuracy and model robustness while reducing computational costs.

The literature review underscores the growing interest in heart disease prediction, detailing various machine learning and deep learning approaches that have been explored. It discusses the efficacy of different feature selection methods, including filter, wrapper, and embedded techniques, as well as ensemble learning strategies such as bagging, boosting, and stacking. The review reveals that while traditional models have shown varying success, the complexity of medical datasets necessitates more sophisticated solutions, particularly those that combine feature selection with ensemble learning to improve predictive performance. The authors identify significant research gaps, particularly in the optimization of feature sets and the dynamic adjustment of model weights, which are crucial for enhancing the accuracy and generalization of ensemble deep learning models in heart disease prediction.

Limitations

The hybrid model for heart disease prediction, while demonstrating notable advancements, is constrained by several limitations. The integration of Genetic Algorithms (GA) and Tabu Search Algorithms (TSA) enhances feature selection and model optimization but introduces significant computational complexity, which may impede real-time application and deployment on devices with limited resources. The model’s efficacy is heavily reliant on the quality and representativeness of the training dataset; issues such as unbalanced or non-representative data can adversely affect its generalizability across diverse populations. Additionally, the ensemble deep learning approach complicates interpretability, a critical factor in clinical settings where understanding the rationale behind predictions is essential.

Moreover, the potential for overfitting remains a concern, particularly with smaller datasets, as the model may learn noise rather than generalizable patterns. The requirement for precise hyperparameter tuning further complicates implementation, necessitating domain expertise. The model’s validation may also be restricted to specific datasets, highlighting the need for broader testing to ensure robustness across various demographic and clinical contexts. The high computational demands associated with GA and TSA, including memory and processing power, limit scalability and practicality in resource-constrained environments, underscoring the importance of addressing these challenges to enhance the model’s applicability in real-world healthcare scenarios.