نماذج تنبؤية قائمة على التعلم الآلي لاكتشاف الأمراض القلبية الوعائية Machine Learning-Based Predictive Models for Detection of Cardiovascular Diseases

المجلة: Diagnostics، المجلد: 14، العدد: 2
DOI: https://doi.org/10.3390/diagnostics14020144
PMID: https://pubmed.ncbi.nlm.nih.gov/38248021
تاريخ النشر: 2024-01-08

نماذج تنبؤية قائمة على التعلم الآلي لاكتشاف الأمراض القلبية الوعائية

أديدايو أوجونبولا فيصل سعيد 1 مجموعة أبحاث DAAI، كلية الحوسبة والتكنولوجيا الرقمية، جامعة مدينة برمنغهام، برمنغهام B4 7XG، المملكة المتحدة؛ adedayo.ogunpola@mail.bcu.ac.uk (A.O.); shadi.basurra@bcu.ac.uk (S.B.)قسم علوم الحاسوب، كلية علوم الحاسوب والمعلومات، جامعة الإمام محمد بن سعود الإسلامية، الرياض 11432، المملكة العربية السعودية؛ amsbarrak@imamu.edu.sa (أ.م.ع.); snmohammed@imamu.edu.sa (س.ن.ق.)* المراسلة: faisal.saeed@bcu.ac.uk

الاقتباس: أوجونبولا، أ.؛ سعيد، ف.؛ بسورة، س.؛ البراك، أ.م.؛ قاسم، س.ن. نماذج تنبؤية قائمة على التعلم الآلي لاكتشاف الأمراض القلبية الوعائية. التشخيصات 2024، 14، 144.https://doi.org/10.3390/diagnostics14020144
المحرر الأكاديمي: مجاهد أ. العنتري
تاريخ الاستلام: 27 نوفمبر 2023
تمت المراجعة: 21 ديسمبر 2023
تم القبول: 25 ديسمبر 2023
نُشر: 8 يناير 2024
حقوق الطبع والنشر: © 2024 من قبل المؤلفين. المرخص له MDPI، بازل، سويسرا. هذه المقالة هي مقالة مفتوحة الوصول موزعة بموجب الشروط والأحكام لرخصة المشاع الإبداعي النسب (CC BY) (https://creativecommons.org/licenses/by/ 4.0/).

الملخص

تشكل الأمراض القلبية الوعائية تحديًا صحيًا عالميًا كبيرًا يبرز الحاجة الملحة لتطوير طرق كشف دقيقة وأكثر فعالية. ساهمت العديد من الدراسات في تقديم رؤى قيمة في هذا المجال، ولكن لا يزال من الضروري تحسين النماذج التنبؤية ومعالجة الفجوات في أساليب الكشف الحالية. على سبيل المثال، لم تأخذ بعض الدراسات السابقة في الاعتبار تحدي مجموعات البيانات غير المتوازنة، مما يمكن أن يؤدي إلى توقعات متحيزة، خاصة عندما تتضمن مجموعات البيانات فئات أقلية. يركز هذا البحث بشكل أساسي على الكشف المبكر عن أمراض القلب، وخاصة احتشاء عضلة القلب، باستخدام تقنيات التعلم الآلي. يتناول التحدي المتمثل في مجموعات البيانات غير المتوازنة من خلال إجراء مراجعة شاملة للأدبيات لتحديد استراتيجيات فعالة. تم استخدام سبعة مصنفات من التعلم الآلي والتعلم العميق، بما في ذلك الجيران الأقرب، آلة الدعم الناقل، الانحدار اللوجستي، الشبكة العصبية التلافيفية، تعزيز التدرج، XGBoost، والغابة العشوائية، لتعزيز دقة توقعات أمراض القلب. يستكشف البحث مصنفات مختلفة وأدائها، مما يوفر رؤى قيمة لتطوير نماذج تنبؤية قوية لاحتشاء عضلة القلب. تؤكد نتائج الدراسة على فعالية ضبط نموذج XGBoost بدقة لأمراض القلب الوعائية. تؤدي هذه التحسينات إلى نتائج ملحوظة: دقة دقة استدعاء، و درجة F1. مثل هذا التحسين يعزز بشكل كبير دقة تشخيص النموذج لأمراض القلب.

الكلمات المفتاحية: أمراض القلب والأوعية الدموية؛ التعلم العميق؛ اكتشاف الأمراض؛ أمراض القلب؛ التعلم الآلي؛ التعلم الجماعي؛ XGBoost

1. المقدمة

يلعب القلب دورًا حيويًا في الحفاظ على الحياة من خلال ضخ الدم المؤكسج بفعالية وتنظيم الهرمونات المهمة للحفاظ على مستويات ضغط الدم المثلى. أي انحراف عن وظيفته يمكن أن يؤدي إلى تطور حالات قلبية، تعرف مجتمعة بأمراض القلب والأوعية الدموية (CVD). تشمل أمراض القلب والأوعية الدموية مجموعة من الاضطرابات التي تؤثر على كل من القلب والأوعية الدموية، مثل مشاكل الأوعية الدموية الدماغية، العيوب الخلقية، الانصمام الرئوي، عدم انتظام ضربات القلب (الرجفان)، مشاكل الشرايين الطرفية، مرض الشريان التاجي (CAD)، أمراض القلب الروماتيزمية، مرض القلب التاجي (CHD)، واعتلالات عضلة القلب التي تؤثر على عضلة القلب.
من الجدير بالذكر أن مرض الشريان التاجي هو النوع الفرعي من أمراض القلب والأوعية الدموية، حيث يمثل نسبة كبيرة من جميع الحالات. بينما يؤثر بشكل أساسي على الرجال، فإن النساء أيضًا عرضة لتأثيره. ضمن مجال أمراض القلب والأوعية الدموية، يعتبر مرض الشريان التاجي مقلقًا بشكل خاص بسبب ارتباطه بمعدلات الوفيات العالمية. وفقًا لمنظمة الصحة العالمية (WHO) [1]، فإن عواقب أمراض القلب والأوعية الدموية عميقة، مع إحصائيات مذهلة تشير إلى أن حوالي 17.9 مليون حالة وفاة سنويًا تُعزى إلى هذه الأمراض على مستوى العالم. تسلط هذه الأرقام المقلقة الضوء على أهمية جهود البحث والتقدم الطبي المكرسة
لمكافحة وتقليل تأثير الأمراض القلبية الوعائية على مستوى العالم. هناك عوامل خطر تساهم في تطور الأمراض القلبية الوعائية، بما في ذلك ضغط الدم، وزيادة الوزن والسمنة، والملفات الدهنية غير الطبيعية، واضطرابات الجلوكوز أو حالات السكري، واستخدام التبغ أو عادات التدخين، وقلة النشاط البدني أو نمط الحياة الخامل، واستهلاك الكحول، ومستويات الكوليسترول. تتوقع منظمة الصحة العالمية أن تظل الأمراض القلبية الوعائية سببًا للوفاة، مما يشكل تهديدًا كبيرًا للحياة البشرية في المستقبل المنظور، وربما حتى بعد عام 2030.
تتمتع التعلم الآلي، كما أبرز رامييش وآخرون [2]، بقدرة تحويلية كبيرة داخل صناعة الرعاية الصحية. يمكن أن تُعزى تقدماته المتميزة إلى قدراته الاستثنائية في معالجة البيانات، التي تفوق بكثير قدرات البشر. ونتيجة لذلك، شهدت مجال الرعاية الصحية تطوير العديد من تطبيقات الذكاء الاصطناعي التي تستفيد من سرعة ودقة التعلم الآلي، مما يمهد الطريق لحلول ثورية لمجموعة متنوعة من التحديات الصحية. تم تطبيق العديد من طرق التعلم الآلي بغرض اكتشاف الأمراض القلبية الوعائية. ومع ذلك، لا يزال هناك حاجة لتعزيز النماذج التنبؤية ومعالجة الفجوات البحثية في أساليب الكشف الحالية، مثل تحدي مجموعات البيانات غير المتوازنة، التي يمكن أن تؤدي إلى توقعات متحيزة.
من خلال التحقيق في فعالية النماذج الهجينة التي تجمع بين تقنيات مختلفة، استكشف العديد من الباحثين منهجيات متنوعة، بما في ذلك الشبكات العصبية وطرق التعلم الآلي المختلفة، لتعزيز دقة التنبؤ [3-12]. بينما توفر هذه الدراسات رؤى قيمة، فإن التباين في مجموعات البيانات والنماذج والنتائج يبرز تعقيد المهمة التنبؤية. على الرغم من التقدمات، لا يزال هناك حاجة ملحة لمزيد من التحقيقات لتحسين النماذج الحالية وزيادة الأداء العام لتنبؤ أمراض القلب والأوعية الدموية. إن المشهد المتنوع لتطبيقات التعلم الآلي في هذا المجال يبرز أهمية البحث المستمر لتعزيز دقة وموثوقية وقابلية تعميم النماذج التنبؤية، مما يسهم في النهاية في تدخلات سريرية أكثر فعالية ورعاية أفضل للمرضى.
في هذه الورقة، استكشفنا نقاط القوة والقيود في تقنيات التعلم الآلي (ML) الحالية في سياق تحليل أمراض القلب. ثم قمنا بالتحقيق وتطبيق سبعة نماذج تنبؤية مدفوعة بالتعلم الآلي يمكن أن تعزز من اكتشاف الأمراض القلبية والدماغية؛ تشمل هذه النماذج K-أقرب الجيران، آلة الدعم الناقل، الانحدار اللوجستي، الشبكة العصبية التلافيفية، تعزيز التدرج، XGBoost، وغابة عشوائية. تم استخدام مجموعتين من البيانات في هذه الدراسة، والتي تم معالجتها مسبقًا باستخدام تقنيات مختلفة مثل زيادة العينة، توسيع الميزات، التطبيع، وتقليل الأبعاد لتحسين البيانات من أجل تحليل فعال باستخدام التعلم الآلي. أخيرًا، قمنا بتقييم ومقارنة فعالية تقنيات التعلم الآلي المختلفة لتحليل أمراض القلب ضمن قطاع الرعاية الصحية.
في هذه الورقة، نقدم خلفية تقنية موجزة ونستعرض الأدبيات ذات الصلة المتعلقة بالدراسات البحثية التي أجريت حول التنبؤ المبكر بأمراض القلب باستخدام تقنيات التعلم الآلي والتعلم العميق. نبرز الطرق المختلفة التي تم استخدامها في هذه الدراسات للتنبؤ بأمراض القلب في مرحلة مبكرة.

2.1. نهج التعلم الآلي

تظل تعلم الآلة مجالًا متقدمًا بسرعة من الخوارزميات الحاسوبية التي تحاول تقليد الذكاء البشري من خلال التعلم من البيانات والبيئة المحيطة. تلعب هذه الخوارزميات دورًا حاسمًا في معالجة وتحليل البيانات على نطاق واسع، وغالبًا ما يُشار إليها باسم “البيانات الضخمة”. لقد أظهرت تقنيات تعلم الآلة فعاليتها في مجالات متنوعة، بما في ذلك التعرف على الأنماط، ورؤية الكمبيوتر، وهندسة المركبات الفضائية، بالإضافة إلى التطبيقات الطبية والبيولوجية. لقد جعلت مرونتها ونجاحها منها أدوات لا غنى عنها في مواجهة التحديات المعقدة واستخراج رؤى قيمة من مجموعات البيانات المتنوعة.
تعلم الآلة هو نهج متخصص يقوم بأتمتة عملية بناء النماذج. باستخدام الخوارزميات، يمكن للآلات اكتشاف الأنماط والرؤى المخفية داخل
المجموعات البيانية. من المهم أنه في تعلم الآلة، لا نوجه الآلات بشكل خاص حول أين تستكشف للحصول على رؤى؛ بدلاً من ذلك، تمكّن الخوارزميات الآلات من التعلم وتكييف تقنياتها ومخرجاتها مع اكتشاف بيانات وسيناريوهات جديدة. تسمح هذه الطبيعة التكرارية لتعلم الآلة بتحسين مستمر وتكيف، مما يجعلها أداة قوية لمعالجة وتحليل مجموعات البيانات المعقدة.
يوجد نهجان رئيسيان في تعلم الآلة: التعلم المراقب والتعلم غير المراقب. في أحد النهجين، التعلم المراقب، يتم تدريب الخوارزميات باستخدام أمثلة محددة. يتم تزويد الآلة ببيانات الإدخال مع المخرجات الصحيحة المقابلة لها. يحدث التعلم من خلال مقارنة نتائج التجارب التي تحققها الآلة مع المخرجات الدقيقة لاكتشاف الأخطاء. هذا النوع من التعلم مناسب بعد استخدام بيانات سابقة للتنبؤ بالوقائع المستقبلية.
النهج الآخر، التعلم غير المراقب، يتضمن استكشاف الآلة للسجلات ومحاولة اكتشاف الأنماط أو الهياكل بمفردها. تحتاج إلى إنشاء نماذج بدءًا من الصفر ولا يتم تزويدها بأي مخرجات دقيقة لتوجيه عملية التعلم الخاصة بها. يُستخدم التعلم غير المراقب عادةً لاكتشاف وتمييز القيم الشاذة في البيانات. هذا النهج مفيد بشكل خاص عندما تكون البيانات المصنفة المتاحة للتدريب محدودة أو غير موجودة. لقد بذل الباحثون في جميع أنحاء العالم جهودًا كبيرة لمكافحة أمراض القلب والأوعية الدموية (CVD) وتحسين نتائج المرضى. تشمل هذه الجهود تعزيز أنظمة دعم اتخاذ القرار السريري لتحقيق الكشف المبكر الدقيق وتمكين العلاج الفعال. لعبت تقنيات التعلم الآلي (ML) والذكاء الاصطناعي (AI) دورًا محوريًا في الكشف المبكر والتشخيص لأمراض القلب والأوعية الدموية.
تشمل اكتشاف أمراض القلب والأوعية الدموية (CVD) نهجًا مختلفًا ومتميزًا. يتضمن النهج الأول استخدام نماذج الذكاء الاصطناعي التي تحلل تقارير الاختبارات المختلفة لتمييز بين مرضى CVD والمواطنين الأصحاء. بينما يستخدم النهج الثاني إشارات مثل تخطيط القلب الكهربائي (ECG) وإشارات صوت القلب كمعلومات حيوية لنماذج التعلم الآلي (ML) لتصنيف الأفراد إما كأصحاء أو مصابين بأمراض القلب والأوعية الدموية.

2.2. نهج التعلم العميق

في السنوات الأخيرة، كان هناك تقدم ملحوظ في مجال التعلم العميق، مع التركيز الأساسي على تطوير أنظمة آلية ذكية تساعد الأطباء في التنبؤ وتشخيص الأمراض من خلال استخدام إنترنت الأشياء (IoT). بينما كانت تقنيات التعلم الآلي التقليدية غالبًا ما تكون مقيدة باعتمادها على مجموعات بيانات فردية، فإن ظهور التعلم العميق قد جلب تحسينات كبيرة في دقة الخوارزميات الحالية. يستفيد التعلم العميق من الشبكات العصبية الاصطناعية، التي تتكون من عدة طبقات مخفية منظمة في نمط متسلسل. تتيح هذه البنية معالجة مجموعات بيانات غير خطية، مما يسمح بالتقاط وتعلم أنماط وعلاقات أكثر تعقيدًا بواسطة النموذج. نتيجة لذلك، برز التعلم العميق كأداة قوية في التطبيقات الطبية، حيث يوفر قدرات تنبؤية محسنة ويعزز تشخيص الأمراض من خلال دمج أجهزة إنترنت الأشياء ومصادر البيانات. لقد أظهرت هذه الطريقة نتائج واعدة، متفوقة على خوارزميات التعلم الآلي القديمة من حيث الدقة. نظرًا لأن أنظمة الدعم الطبي الدقيقة للكشف عن الأنماط الخفية والتنبؤ بالأمراض لا تزال مفقودة، فإن التعلم العميق يقدم إمكانية التنبؤ بدقة بأمراض القلب في مرحلة مبكرة، مما يسمح بالتدخل والعلاج في الوقت المناسب.
لاحظت سوده وكومار [18] أن الشبكة العصبية التلافيفية (CNN) هي طريقة مناسبة لتشخيص أمراض القلب. إن قدرة الشبكة العصبية التلافيفية على تعلم وتمثيل الميزات بطريقة مختصرة ومفاهيمية تعتبر ميزة، خاصة مع زيادة عمق الشبكة. بالإضافة إلى ذلك، اقترحوا نموذجًا هجينًا يجمع بين الشبكات العصبية التلافيفية (CNN) ووحدات الذاكرة طويلة وقصيرة المدى (LSTM)، وهي نوع من الشبكات العصبية المتكررة (RNN). تُعرف وحدات LSTM بقدرتها على تخزين ونقل المعلومات ذات الصلة عبر تسلسلات طويلة، مما يجعلها مفيدة بشكل خاص لبيانات السلاسل الزمنية مثل بيانات أمراض القلب. من خلال دمج CNN وLSTM، كان الهدف من النموذج الهجين هو تعزيز دقة تصنيف أمراض القلب. إن مكون CNN بارع في التقاط الأنماط المكانية في البيانات، بينما يتفوق مكون LSTM في التعرف على الاعتمادات الزمنية والأنماط. يسمح هذا الجمع للنموذج بـ
تعلم الميزات المعقدة من البيانات بشكل فعال، مما يؤدي إلى تحسين دقة التصنيف. كشفت النتائج التجريبية من الدراسة عن نتائج واعدة، حيث حقق النموذج الهجين دقة قدرها حساسية وخصوصية . هذه النتائج تفوقت على مصنفات التعلم الآلي التقليدية، مما يشير إلى إمكانية النهج الهجين المقترح في تعزيز دقة تصنيف أمراض القلب [18].
لقد برز قطاع الرعاية الصحية كمستفيد رئيسي من الزيادة في حجم البيانات وسهولة الوصول إليها. تقوم كيانات مختلفة، مثل مقدمي الرعاية الصحية، والشركات الصيدلانية، والمؤسسات البحثية، والهيئات الحكومية، الآن بتجميع كميات هائلة من البيانات من مصادر متنوعة، بما في ذلك الأبحاث، والتجارب السريرية، وبرامج الصحة العامة، وبيانات التأمين. إن دمج هذه البيانات يحمل إمكانيات هائلة لتقدم ممارسات الرعاية الصحية واتخاذ القرارات. تقليديًا، كان الأطباء يعتمدون على الأعراض فقط لتشخيص وعلاج المرضى. ومع ذلك، أصبحت الطب القائم على الأدلة هو النهج السائد، حيث يقوم الأطباء بمراجعة مجموعات بيانات واسعة تم الحصول عليها من التجارب الطبية ومسارات العلاج على نطاق واسع لاتخاذ قرارات مبنية على أكثر المعلومات شمولاً وحداثة المتاحة. إن هذا التحول نحو اتخاذ القرارات المستندة إلى البيانات يحول ممارسات الرعاية الصحية، ويحسن نتائج المرضى، ويدفع المزيد من التقدم في المجال الطبي.
تعمل العديد من المبادرات الصناعية والبحثية بنشاط على تطبيق خبرات التعلم الآلي في قطاع الرعاية الصحية لتعزيز رعاية المرضى ورفاهيتهم على مستوى العالم. إحدى هذه المبادرات هي مختبر شاه، الذي يقع في جامعة ستانفورد. يركز مختبر شاه على استغلال التعلم الآلي وعلوم البيانات لمعالجة التحديات الحرجة في الرعاية الصحية وتطوير حلول مبتكرة لمجموعة متنوعة من التطبيقات الطبية. من خلال هذه المبادرات، يهدف الباحثون والخبراء إلى استغلال قوة التعلم الآلي لتحليل بيانات الرعاية الصحية على نطاق واسع، بما في ذلك السجلات الصحية الإلكترونية، والتصوير الطبي، وعلم الجينوم، ونتائج المرضى. من خلال استخراج رؤى ونماذج قيمة من هذه البيانات، يهدفون إلى تحسين تشخيص الأمراض، وتوقع العلاج، والطب الشخصي، وإدارة المرضى بشكل عام. الهدف هو تزويد المهنيين في الرعاية الصحية بأدوات وتقنيات متقدمة يمكن أن تساعدهم في اتخاذ قرارات سريرية أكثر دقة وفي الوقت المناسب، مما يؤدي إلى تحسين نتائج المرضى وتحسين شامل في خدمات الرعاية الصحية على مستوى العالم. الجدول 1 أدناه يقدم ملخصًا لمقاييس الأداء المتعلقة بالطرق الحالية قيد التقييم، مع ارتباط كل إدخال بمعايير تقييم محددة.
الجدول 1. ملخص أداء الطرق الحالية.
دراسة طريقة النتائج
موهان وآخرون [21] غابة عشوائية هجينة مع نموذج خطي (HRFLM)
الدقة: 88%
الحساسية: 92.8%
الخصوصية:
SVM دقة 83% SVM
سينغ وآخرون [22]
SVM
أقرب الجيران
شجرة القرار
الانحدار الخطي
79% (DT)
78% (LR)
غافهان وآخرون [23] الشبكة العصبية
معدل الدقة: 91%
معدل الاسترجاع: 89%
كافيثا وآخرون [24] نموذج هجين (غابة عشوائية (RF) وشجرة قرار (DT)) الدقة: 88%
الدقة: 99.14%
أميري وأرمانو [25] تصنيف – CART
الحساسية: 100%
الخصوصية: 98.28%
ليو وكيم [26]
المصنف – الذاكرة طويلة وقصيرة المدى
(LSTM)
الدقة: 98.4%

2.3. جمع البيانات والمعالجة المسبقة

في دراستهم، استخدم الغرني وآخرون [27] مجموعة بيانات من صور تصوير الأوعية التاجية بالأشعة السينية تم الحصول عليها من قاعدة بيانات سريرية. كانت هذه الصور تظهر تحديات في الشخصية-
الخصائص، بما في ذلك عدم تجانس سمك الأوعية، والهياكل الوعائية المعقدة في الخلفية، ووجود الضوضاء. كانت مجموعة البيانات تتكون من 130 صورة أشعة سينية لتصوير الأوعية التاجية، كل منها بحجم بكسلات. تم جمع البيانات من قسم أمراض القلب في معهد الضمان الاجتماعي المكسيكي، وتم الحصول على الموافقة الأخلاقية (رقم المرجع R-2019-1001-078) لاستخدام هذه قاعدة البيانات الطبية في تشخيص أمراض القلب. لتدريب وتقييم النموذج المقترح، المسمى ASCARIS، تم تقسيم مجموعة البيانات عشوائيًا إلى جزئين: مجموعة تدريب تحتوي على 100 صورة ومجموعة اختبار تتكون من 30 صورة. تم تطوير نموذج ASCARIS استنادًا إلى ميزات اللون والقطر والشكل المستخرجة من صور القسطرة.
استخدم المهدي وآخرون [28] مجموعة بيانات تضم 299 مريضًا بالفشل القلبي تم الحصول عليها من معهد فيصل آباد للقلب ومستشفى الحلفاء في فيصل آباد. كانت مجموعة البيانات تتكون من 13 سمة، بما في ذلك ميزات مثل العمر، فقر الدم، ارتفاع ضغط الدم، كرياتينين فوسفو كيناز (CPK)، السكري، نسبة الطرد، الجنس، كرياتينين المصل، صوديوم المصل، التدخين، الوقت، وعمود الهدف المسمى “حدث الوفاة”، الذي تم استخدامه للتصنيف الثنائي. خضعت مجموعة البيانات لعمليات المعالجة المسبقة لضمان جودتها وتناسقها. بعد المعالجة المسبقة، تم تقسيم مجموعة البيانات إلى مجموعات تدريب واختبار منفصلة لتدريب النموذج وتقييمه. تم تطبيق طريقتين لاختيار الميزات على مجموعة التدريب لتحديد الميزات الأكثر صلة بمهمة التنبؤ بالفشل القلبي.
أجرت ديبيكا وسيماء [29] دراسة حول أمراض القلب باستخدام مجموعات بيانات متاحة على الإنترنت من مستودع التعلم الآلي بجامعة كاليفورنيا، إيرفين. تتكون هذه المجموعات من 76 سمة، بما في ذلك الخاصية المستهدفة، ولكن تم اعتبار 14 من هذه السمات فقط أساسية للتحليل. استخدم الباحثون مجموعتين محددتين من البيانات لدراستهم: مجموعة بيانات مؤسسة كليفلاند كلينيك، التي تحتوي على سجلات من 303 مرضى، ومجموعة بيانات المعهد الهنغاري لأمراض القلب، التي تحتوي على سجلات من 294 مريضًا. تم استخدام خوارزميات تعلم الآلة المختلفة، بما في ذلك بايز الساذج (NB)، وآلة الدعم الناقل (SVM)، وشجرة القرار (DT)، والشبكات العصبية الاصطناعية، في التحليل للتنبؤ بأمراض القلب. في السياق الأوسع، يوضح الجدول 2 أساليب المعالجة المسبقة والمنهجيات التنبؤية المستخدمة في الدراسات السابقة.
الجدول 2. طرق المعالجة المسبقة والتنبؤ.
دراسة مجموعة بيانات التحضير والنمذجة النتائج
القرني وآخرون [27] صور تصوير الأوعية التاجية بالأشعة السينية المستخرجة من قاعدة بيانات سريرية. التدريب: 100 صورة الاختبار: 30 صورة نموذج ASCARIS (استنادًا إلى ميزات اللون والقطر والشكل). الدقة: 97%
أويار وإلهان [30] مجموعة بيانات كليفلاند لأمراض القلب. إزالة 6 حالات تحتوي على إدخالات مفقودة من مجموعة البيانات وتصنيف سمة التشخيص (num) إلى فئتين: الغياب (num ) ووجود (num ، أو 4) من أمراض القلب. الشبكة العصبية الضبابية التكرارية (RFNN) دقة مجموعة الاختبار: 97.78% الدقة الإجمالية: 96.63%
دينغ وآخرون [31] قاعدة بيانات فواي ECG وقاعدة بيانات PTB العامة مرحلة التدريب لاكتساب الديناميات ومرحلة الاختبار لإعادة استخدام الديناميات نموذج Res-BiLSTM-Net القائم على الانتباه درجات F1 تتراوح من 0.72 إلى 0.98
داس وآخرون [32] مجموعة بيانات UCI برمجيات الشبكات العصبية المعتمدة على SAS دقة التدريب: دقة التحقق: 89.011%

2.4. المناقشات حول قيود البحث

شمل استعراض الأدبيات استكشافًا عميقًا للأبحاث والمعرفة الحالية المتعلقة بتنبؤ أمراض القلب باستخدام تقنيات التعلم الآلي والتعلم العميق المتنوعة. استعرضت عدة دراسات التقدمات الحديثة والقيود المتعلقة بـ
تطبيق التعلم الآلي لاكتشاف أمراض القلب والأوعية الدموية [10،33-36]. على سبيل المثال، اقترحت الدراسات [8،37-40] طرقًا مختلفة للتنقيب عن البيانات والتعلم الآلي استنادًا إلى تقسيم نبضات القلب وعملية الاختيار، صور تخطيط القلب، صور الشرايين السباتية، وغيرها.
ركزت العديد من الدراسات على تطبيق خوارزميات التعلم الآلي مثل شجرة القرار، بايز الساذج، الغابة العشوائية، آلة الدعم الناقل، والانحدار اللوجستي على مجموعة بيانات أمراض القلب، مما أسفر عن معدلات دقة واعدة للتصنيف. علاوة على ذلك، اكتسبت طرق التعلم العميق، وخاصة الشبكات العصبية التلافيفية (CNN)، زخمًا كبيرًا في التعامل بفعالية مع المهام المعقدة والبيانات غير المهيكلة. كما استعرضت المراجعة المناقشات المتعلقة بتنفيذ تقنيات معالجة البيانات المسبقة، وطرق اختيار الميزات، ومقاييس تقييم الأداء لتحسين كفاءة النماذج التنبؤية. وأكدت بعض الدراسات على أهمية جودة البيانات وملاءمة ميزات معينة في تعزيز دقة النماذج.
تلعب خوارزميات التعلم الآلي دورًا حاسمًا في التنبؤ بدقة بأمراض القلب من خلال اكتشاف الأنماط المخفية في البيانات، وإجراء التنبؤات، وتحسين الأداء بناءً على البيانات التاريخية. تجعل هذه البرامج من الممكن لنا توقع وتشخيص أمراض القلب بدقة أكبر، بينما يُعتبر التعلم العميق، المدعوم بالشبكات العصبية الاصطناعية، عاملاً حاسمًا في التعامل مع الحسابات المعقدة على كميات كبيرة من البيانات. تلعب هذه الخوارزميات دورًا أساسيًا في تحديد السمات الرئيسية والأنماط في كل من البيانات المنظمة وغير المنظمة، مما يعزز تحليل البيانات ومعالجتها بشكل أكثر كفاءة.
تقديم تقنيات التعلم الآلي والتعلم العميق يوفر إمكانيات كبيرة في مجال تشخيص وعلاج أمراض القلب. تتيح هذه التقنيات المتطورة دمج مصادر بيانات متنوعة، مثل السجلات الطبية، وبيانات التصوير، والوراثة، وعوامل نمط الحياة، لإنشاء نهج شامل وفردي للرعاية الصحية. تعترف الطبيعة التكرارية للتعلم الآلي بالتعلم المستمر والتكيف، مما يؤدي إلى تحسين النماذج التشخيصية والتنبؤية مع مرور الوقت. يعد هذا بتحسين دقة وفعالية إدارة أمراض القلب، مما يؤدي في النهاية إلى نتائج أفضل للمرضى.
بعد مراجعة الأدبيات المتاحة، يتضح أن هناك نقصًا في التجارب الواسعة حول استخدام نماذج تعزيز التدرج في الكشف عن أمراض القلب. ومع ذلك، نظرًا للقدرات الفريدة لنماذج تعزيز التدرج في تحليل البيانات والتقاط الاعتمادات الزمنية، فإن إمكانياتها في هذا المجال تستحق الاستكشاف.
إن إمكانيات نماذج تعزيز التدرج في تحسين دقة التنبؤ بشكل تدريجي من خلال تحسين المتعلمين الأضعف داخل النموذج تجعلها مرشحة واعدة لتحسين دقة اكتشاف أمراض القلب. وبالتالي، هناك حاجة لمزيد من الاستكشاف والتجريب المخصص لاستغلال قدرات نماذج تعزيز التدرج في هذا السياق.
من خلال اعتماد استخدام نماذج تعزيز التدرج في اكتشاف أمراض القلب وإجراء تجارب أكثر استهدافًا، يمكننا فتح آفاق جديدة لتطوير التدخلات الصحية وفي النهاية تحسين نتائج المرضى ورفاهيتهم.

3. المواد والأساليب

الطرق التالية تم تكييفها لتحقيق أهداف هذا البحث. يتم تطبيقها لاستكشاف وفهم الأبعاد المختلفة للحالات المتعلقة بالقلب، مما يساهم في إنشاء نماذج دقيقة لتشخيص وتوقع هذه الحالات. الإطار العام لطريقة البحث في هذه الدراسة موضح في الشكل 1.
الشكل 1. سير عمل طريقة البحث.

3.1. مجموعات البيانات

لإجراء هذه الدراسة البحثية، تم فحص مجموعتين من البيانات، وهما مجموعة بيانات أمراض القلب والأوعية الدموية، التي تم استرجاعها من قاعدة بيانات ماندلي، ومجموعة بيانات أمراض القلب في كليفلاند، التي تم استرجاعها من قاعدة بيانات كاجل. تشير أعمدة “Cardio” و”Target” في كلا مجموعتي البيانات إلى العمود الذي نحاول التنبؤ به بقيم عددية 0 (لا توجد مرض) و1 (مرض). من المهم ملاحظة أن أيًا من مجموعتي البيانات لا تحتوي على قيم مفقودة. تم سرد الأوصاف التفصيلية لجميع هذه السمات أدناه:
تحتوي مجموعة بيانات أمراض القلب والأوعية الدموية (الجدول 3) على أهمية كبيرة في مجالات الرعاية الصحية وتعلم الآلة. إنها تعتبر أداة للمهام المرتبطة بتوقع وتصنيف أمراض القلب والأوعية الدموية، حيث تحتوي على 1000 عينة بيانات في 13 سمة، تمثل كل منها عامل خطر محتمل.
الجدول 3. مجموعة بيانات أمراض القلب والأوعية الدموية.
ميزات تفاصيل
1. رقم المريض معرّف فريد فردي.
2. العمر تمثيل رقمي لعمر المرضى بالسنوات.
3. الجنس ثنائي (1، أنثى ذكر))
4. ألم في الصدر اسمي ( (القيمة 0: الذبحة الصدرية النموذجية القيمة 1: الذبحة الصدرية غير النموذجية القيمة 2: ألم غير ذبحي القيمة 3: بدون أعراض)
5. ضغط الدم أثناء الراحة رقمي (94-200 (بالمليمتر زئبقي))
6. كوليسترول المصل رقمي (126-564 (ملغ/دل))
7. سكر الدم الصائم ثنائي ( كاذب، صحيح )
8. راحة كهربائية اسمي (0، 1، 2 (القيمة 0: طبيعي، القيمة 1: وجود شذوذ في موجة ST-T (انعكاسات موجة T و/أو ارتفاع أو انخفاض في ST القيمة 2: تظهر تضخم البطين الأيسر المحتمل أو المؤكد وفقًا لمعايير إستي
9. الحد الأقصى لمعدل ضربات القلب رقمي (71-202)
10. تمرين أنجيا ثنائي (0، 1 (0 = لا، نعم))
11. القمة القديمة رقمي (0-6.2)
12. انحدار اسمي (1، 2، 3 (1 مائل للأعلى، 2 مستوي، 3 مائل للأسفل))
13. عدد الأوعية الرئيسية رقمي (0، 1، 2، 3)
14. هدف ثنائي (0،1 (0 = غياب مرض القلب، 1 = وجود مرض القلب))
نحول تركيزنا إلى مجموعة بيانات مرض القلب في كليفلاند (الجدول 4)، وهي مجموعة بيانات معروفة على نطاق واسع تُستخدم بشكل متكرر في مجالات تعلم الآلة والرعاية الصحية، وقد تم استخدامها بشكل مكثف في المهام المتعلقة بتوقع وتصنيف مرض القلب. تتمتع هذه المجموعة بأهمية كبيرة لدورها المحوري في تقييم فعالية خوارزميات تعلم الآلة المتنوعة في تشخيص مرض القلب، حيث تحتوي على معلومات عن 303 مرضى في 14 سمة. الهدف الرئيسي منها يدور حول توقع ما إذا كان مرض القلب موجودًا أم لا.
الجدول 4. مجموعة بيانات أمراض القلب في كليفلاند.
ميزات تفاصيل
1. العمر ميزة فئوية تمثل الجنس، حيث يتم ترميز الذكر كـ 1 والأنثى كـ 0.
3. سي بي خاصية تصنيفية تشير إلى الأنواع المختلفة من آلام الصدر التي يشعر بها المريض. 0 للذبحة الصدرية النمطية، 1 للذبحة الصدرية غير النمطية، 2 للألم غير الذبحي، و3 للألم غير المصحوب بأعراض.
4. ضغط الدم القياس العددي لضغط دم المريض في حالة الراحة، المسجل في .
5. كول قيمة عددية تشير إلى شدة الكوليسترول في مصل الدم لدى المريض، محسوبة بـ .
7. تخطيط القلب أثناء الراحة ميزة فئوية تصف نتيجة تخطيط القلب الكهربائي الذي تم إجراؤه أثناء الراحة. 0 للنتيجة الطبيعية، 1 لوجود شذوذ في موجات ST-T، و2 للدلالات على احتمال أو تأكيد تضخم البطين الأيسر وفقًا لمعايير إستي.
8. ثلاخ ميزة فئوية تشير إلى ما إذا كانت الذبحة الصدرية الناتجة عن التمارين موجودة. 0 تعني لا، بينما 1 تعني نعم.
10. القمة القديمة قيمة عددية تشير إلى انخفاض ST الناتج عن التمرين مقارنة بحالة الراحة.
11. الميل خاصية تصنيفية تمثل ميل جزء ST خلال أقصى جهد بدني. يمكن أن تأخذ ثلاث قيم: 0 للميل الصاعد، 1 للأفقي، و2 للميل النازل.
12. كا ميزة تصنيفية تشير إلى عدد الأوعية الدموية الرئيسية، تتراوح من 0 إلى 3.
13 ثال تمثيل فئوي لاضطراب دموي يسمى الثلاسيميا. 0 للفراغ، 1 لتدفق الدم الطبيعي، 2 للعيوب الثابتة (تشير إلى عدم وجود تدفق دم في جزء من القلب)، و3 للعيوب القابلة للعكس (تشير إلى تدفق دم غير طبيعي ولكن يمكن ملاحظته).
14. هدف المتغير المستهدف للتنبؤ بأمراض القلب، مشفرًا كـ 1 للمرضى الذين يعانون من أمراض القلب و0 للمرضى الذين لا يعانون من أمراض القلب.

3.2. معالجة البيانات المسبقة

ت preprocessing البيانات هو خطوة أساسية ضمن تعلم الآلة تهدف إلى تحسين جودة وموثوقية مجموعة البيانات قبل التحليل والنمذجة. تتناول هذه المرحلة تحديات مثل البيانات المفقودة، وعدم التناسق، والقيم الشاذة، وتوزيعات الفئات المنحرفة. معالجة القيم المفقودة أمر حاسم لضمان الحصول على رؤى دقيقة من خلال استخدام تقنيات مثل التعويض. كما أن اكتشاف وإدارة القيم الشاذة أمر حيوي، حيث يمكن أن تؤثر هذه النقاط على النتائج. إحدى القضايا الرئيسية هي توازن توزيع الفئات، حيث تساعد طرق مثل زيادة العينة في التخفيف من تأثير مجموعات البيانات غير المتوازنة. بالنظر إلى هذه الاعتبارات، يمكن أن تسهم تقنيات مثل توسيع الميزات، والتطبيع، وتقليل الأبعاد في تحسين البيانات لتحليل فعال في تعلم الآلة.

3.3. تطوير النموذج

تصلنا خاتمة العمل الأدبي الشامل إلى المرحلة الحاسمة من تطوير النموذج. تشمل هذه القسم سبع تقنيات بارزة في تعلم الآلة:
الانحدار اللوجستي، الشبكة العصبية التلافيفية، آلة الدعم الناقل (SVM)، تعزيز التدرج، الجيران الأقرب (KNN)، XGBoost، والغابة العشوائية. كل خوارزمية تساهم بخصائص مميزة لكشف الرؤى التنبؤية في تحليل الأمراض القلبية والدماغية، باستخدام موارد مثل مكتبات Scikit-Learn وKeras.
كل من هذه النماذج يمتلك سمات فريدة، تتراوح بين الأساليب الخطية وتقنيات التجميع وهياكل التعلم العميق. من خلال تحقيقات تجريبية شاملة، قمنا بتقييم فعالية كل نموذج من حيث الاسترجاع والدقة والموثوقية ومقاييس F1.

3.4. تقييم النموذج

تقييم النموذج يُعتبر مرحلة حيوية في مجال تعلم الآلة، مكرسة لقياس مدى دقة النماذج المدربة في التنبؤ بالنتائج. تضمن هذه الخطوة الأساسية أن النماذج يمكن أن تعمم على بيانات جديدة بفعالية، مما يُساعد في اتخاذ القرارات بشأن النشر والتحسين. ستساهم التقنيات والمقاييس الرئيسية التالية في تقييم شامل لهذه الدراسة:
مصفوفة الالتباس: تقدم رؤى حول الإيجابيات الحقيقية، السلبيات الحقيقية، الإيجابيات الكاذبة، والسلبيات الكاذبة، تشكل هذه المصفوفة الأساس لحساب المقاييس الحيوية.
الدقة: تقديم نظرة عامة على أداء النموذج من خلال قياس الحالات التي تم التنبؤ بها بشكل صحيح مقابل إجمالي مجموعة البيانات.
الدقة والاسترجاع: تقيم الدقة دقة التنبؤات الإيجابية، بينما يقيس الاسترجاع قدرة النموذج على التقاط الحالات الإيجابية.
درجة F1: تحقيق توازن بين الدقة والاسترجاع، هذه الدرجة ضرورية لتنسيق جوانب الأداء.
التحقق المتقاطع: هذه التقنية تقسم البيانات للتدريب والاختبار، مما يحمي من الإفراط في التكيف.
ضبط المعلمات الفائقة: تحسين معلمات النموذج من خلال تقنيات مثل GridSearch يعزز الأداء.

4. النتائج

تستكشف هذه القسم التحليل المفصل لنماذج تعلم الآلة لتوقع أمراض القلب، مستفيدًا من مجموعتين بيانات متميزتين: مجموعة بيانات أمراض القلب الوعائية ومجموعة بيانات أمراض القلب في كليفلاند باستخدام لغة البرمجة بايثون.
هدفنا الأساسي هو تحديد النماذج التنبؤية الأكثر فعالية، مع الأخذ في الاعتبار كل من مجموعات البيانات التقليدية والجوانب المتعلقة بأهداف الدراسة.

4.1. نتائج المعالجة المسبقة

للاستفادة من إمكانيات مجموعة بيانات أمراض القلب والأوعية الدموية ومجموعة بيانات أمراض القلب في كليفلاند لتطبيقات التعلم الآلي، يصبح من الضروري تنفيذ إجراءات المعالجة المسبقة للبيانات. تشمل هذه الإجراءات مجموعة من الخطوات، بما في ذلك إدارة البيانات المفقودة، وترميز المتغيرات الفئوية، وتوحيد أو تطبيع قيم الميزات، وتقسيم مجموعة البيانات إلى مجموعات تدريب واختبار متميزة. بالإضافة إلى ذلك، فإن استخدام تقنيات تحليل البيانات الاستكشافية (EDA) وأدوات تصور البيانات يثبت أنه مفيد في الحصول على رؤى حول توزيعات البيانات والعلاقات بين المتغيرات.
أولاً، يتم إنشاء خريطة حرارية لمصفوفة الارتباط، كما هو موضح في الشكل 2. تقوم هذه الخريطة الحرارية بحساب معاملات الارتباط بين السمات المختلفة في مجموعات البيانات وتمثلها بشكل رسومي. الغرض منها هو تسهيل الفحص البصري للعلاقات بين الميزات المختلفة. يتم تصوير الارتباطات الإيجابية باستخدام درجات اللون الأخضر، بينما يتم تمثيل الارتباطات السلبية باللون الأحمر. تخدم هذه الخريطة الحرارية غرض تحديد الميزات التي تظهر أقوى الارتباطات مع المتغير المستهدف، مما يكشف عن تأثيرها على وجود أو غياب مرض القلب والأوعية الدموية. على الجانب الأيسر توجد مجموعة بيانات مرض القلب والأوعية الدموية، بينما على الجانب الأيمن توجد مجموعة بيانات مرض القلب في كليفلاند.
الشكل 2. توزيع خريطة الحرارة لميزات مجموعة البيانات.
توفر الرسوم البيانية المرتبطة بسمات مجموعة البيانات الفردية رؤى قيمة من خلال السماح باستكشاف توزيع كل ميزة، كما هو موضح في الشكل 3. إنها أداة مهمة في اكتشاف القيم الشاذة المحتملة وتوفر نظرة سريعة على خصائص هذه الميزات ومدى انتشارها. تعتبر هذه التصورات أداة مفيدة لفهم الشكل العام وتوزيع البيانات. يمكن رؤية الأدلة التصويرية لكلا مجموعتي البيانات أدناه، حيث توجد مجموعة بيانات أمراض القلب والأوعية الدموية على اليسار، ومجموعة بيانات أمراض القلب في كليفلاند على اليمين.
الشكل 3. توزيع هيستوجرام ميزات مجموعة البيانات.
كما هو موضح في الشكل 4، يتم استخدام الرسم البياني الدائري لتصوير توزيع المتغير المستهدف، الذي يشير إلى وجود أو عدم وجود مرض القلب والأوعية الدموية. يظهر الشكل توزيع الميزات في المتغير المستهدف، حيث يمثل الرقم 1 الميزات المرتبطة بمرض القلب، ويمثل الرقم 0 الميزات غير المرتبطة بمرض القلب. يعدّد الحالات لكل فئة ويعرض النسب كنسب مئوية في الرسم البياني الدائري، موضحًا وجود وغياب مرض القلب والأوعية الدموية. في الشكل 4، يمثل الرسم البياني الدائري على اليمين ميزات توزيع العمود المستهدف لمجموعة بيانات مرض القلب والأوعية الدموية، بينما يمثل اليسار ميزات توزيع العمود المستهدف لمجموعة بيانات مرض القلب في كليفلاند.

أمراض القلب كليفلاند

أمراض القلب والأوعية الدموية

الشكل 4. توزيع الميزات في المتغير المستهدف.
بعد الانتهاء بنجاح من معالجة البيانات مسبقًا وتصوير ميزات مجموعة البيانات، قمنا بإجراء استكشاف متعمق لمختلف نماذج التعلم الآلي لتمييز فعاليتها التنبؤية.

4.2. نتائج أقرب الجيران (KNN)

بدأنا التحليل باستخدام خوارزمية الجيران الأقرب (KNN) مع تغييرات في ‘ قيم ‘k’، التي تمثل عدد الجيران الأقرب الذين تم اعتبارهم أثناء التنبؤات. من خلال استخدام التحقق المتقاطع، قمنا بحساب الدرجات لكل قيمة ‘k’، وفي النهاية اكتشفنا أن ‘ ‘ حقق أعلى متوسط لدرجة التحقق المتقاطع. هذه النتيجة تؤكد أن تكوين KNN مع ‘ ‘ يظهر وعدًا كبيرًا.
كما هو موضح في الجداول 5-8، فإن تنفيذ هذا النموذج أسفر عن معدل دقة مثير للإعجاب من و على مجموعات البيانات، على التوالي، مما يعمل كقياس شامل لدقة النموذج في توقعاته. علاوة على ذلك، تم إجراء ضبط دقيق للمعلمات الفائقة لضمان الأداء الأمثل. وقد حقق معدل الدقة، الذي يقيس نسبة التوقعات الإيجابية الصحيحة من بين جميع التوقعات الإيجابية، مستوى ملحوظًا، حوالي و . بالإضافة إلى ذلك، أظهر الاسترجاع، الذي يمثل نسبة التنبؤات الإيجابية الحقيقية بين جميع الإيجابيات الفعلية، قيمة قوية، تقريبًا ، و “. وبالمثل، حقق مقياس F1 قيمة مثيرة للإعجاب، تتراوح حول و تؤكد هذه المقاييس مجتمعة الأداء الاستثنائي لنموذج KNN ضمن مجموعة البيانات.
الجدول 5. النتائج على مقياس الدقة.
نموذج التصنيف الدقة (بالنسبة المئوية)
مجموعة البيانات 1 مجموعة البيانات 2
KNN 96.50% 96.55%
RF 98.63% 94.44%
LR 96.55% 93.10%
جي بي 99.13% 90.00%
SVM 95.00% 80.65%
سي إن إن 99.14% 87.50%
إكس جي بوست 99.14% 90.00%
الجدول 6. النتائج على مقياس الاسترجاع.
نموذج التصنيف استرجاع (بالنسبة المئوية)
مجموعة البيانات 1 مجموعة البيانات 2
KNN 97.44% 87.50%
RF 98.97% 85.61%
LR 95.73% ٨٤.٣٨٪
جي بي 97.44% 84.38%
SVM 97.44% 78.12%
سي إن إن 98.29% 89.77%
إكس جي بوست 98.29% ٨٤.٣٨٪
الجدول 7. النتائج على مقياس F1-Score.
نموذج التصنيف درجة F1 (بالنسبة المئوية)
مجموعة البيانات 1 مجموعة البيانات 2
KNN 97.02% 91.80%
RF 98.80% 89.81%
LR 96.14% ٨٨.٥٢٪
جي بي 98.28% 87.10%
SVM 96.20% 79.37%
سي إن إن 97.80% 87.50%
إكس جي بوست 98.71% 87.10%
الجدول 8. النتائج على مقياس الدقة.
نموذج التصنيف الدقة (بالنسبة المئوية)
مجموعة البيانات 1 مجموعة البيانات 2
KNN 96.50% 91.80%
RF 98.60% 91.09%
LR 95.50% ٨٨.٥٢٪
جي بي ٩٨٫٠٠٪ 86.89%
SVM 95.50% 78.69%
سي إن إن 97.50% 86.89%
إكس جي بوست 98.50% 86.89%

4.3. نتائج الغابة العشوائية

من خلال إجراء عملية ضبط شاملة للمعلمات، قمنا بتعديل عدد الأشجار (n_estimators) إلى 200 ضمن نموذج الغابة العشوائية. كما هو موضح في الجداول 5-8، حقق النموذج المضبوط مستوى دقة ممتاز، حيث كان يتراوح حوالي و أظهر تقييم الدقة تحسينًا ملحوظًا، والذي تم الحصول عليه و .
وبالمثل، أظهر مقياس F1، الذي يجمع بين الدقة والاسترجاع، قوة النموذج، مسجلاً قيمة و 89.81 على التوالي. علاوة على ذلك،
وصلت درجة الاسترجاع، التي تقيس قدرة النموذج على التعرف على الحالات الإيجابية الحقيقية، إلى قيمة ملحوظة قدرها و 85.61.

4.4. نتائج الانحدار اللوجستي (LR)

من خلال تنفيذ عتبة مخصصة تبلغ 0.6، تم تكوين النموذج ليتبنى نهجًا حذرًا عند تصنيف الحالات على أنها إيجابية. على وجه التحديد، إذا كانت الاحتمالية المتوقعة لانتماء حالة ما إلى الفئة الإيجابية (الفئة 1) تساوي أو تتجاوز 0.6، فقد تم تصنيفها على أنها إيجابية؛ وإلا، فقد تم تحديدها على أنها سلبية. كان لاختيار هذه العتبة تأثير كبير على كيفية تحقيق النموذج توازنًا بين الدقة والاسترجاع. كما هو موضح في الجداول 5-8، كانت درجة دقة النموذج 96.55% و93.10%، مما يدل على كفاءته في تقليل التنبؤات الإيجابية الكاذبة.
تسجيلات الاسترجاع كانت عند و ، مع التأكيد على أهمية النموذج في التعرف بشكل صحيح على جميع الحالات الإيجابية، لا سيما في السيناريوهات التي يكون فيها فقدان الحالات المحتملة لأمراض القلب مصدر قلق حاسم. لقد سجلت درجة F1 الحالات الإيجابية الحقيقية عند و . فيما يتعلق بالدقة العامة، حقق النموذج درجة دقة قدرها و .

4.5. نتائج تعزيز التدرج (GB)

من خلال عملية GridSearchCV، قمنا بضبط معلمات النموذج بدقة. شملت المعلمات المثلى المختارة معدل تعلم قدره 0.2، وعمق أقصى قدره 3 للأشجار الفردية، و100 مرحلة تعزيز (n_estimators). تم اختيار هذه المعلمات بناءً على أدائها الاستثنائي في مجموعات بيانات التحقق. عند اختبارها على بيانات مستقلة، قدم نموذج تعزيز التدرج المصقول نتائج استثنائية باستمرار. كما هو موضح في الجداول 5-8، حقق درجة دقة مثيرة للإعجاب من و مؤشر على قدرتها على تقليل التنبؤات الإيجابية الكاذبة بشكل فعال.
علاوة على ذلك، أظهر النموذج درجة استرجاع قدرها و , والتي تحمل أهمية قصوى في التطبيقات الطبية حيث يكون تحديد الحالات المحتملة لأمراض القلب أمرًا حاسمًا. وقد وصل معدل F1، الذي يوازن بين الدقة والاسترجاع، إلى قيمة مثيرة للإعجاب قدرها و 87.10.
كانت دقة النموذج على مجموعة بيانات الاختبار مرتفعة باستمرار، حيث بلغت ، على الرغم من أنه حقق على مجموعة بيانات أمراض القلب في كليفلاند. تؤكد هذه النتائج مجتمعة على ملاءمة نموذج تعزيز التدرج الاستثنائية لمهمة تصنيف أمراض القلب، مما يبرز إمكانيته في الكشف بدقة عن الأفراد المصابين بأمراض القلب مع الحفاظ على معدل منخفض من الإيجابيات الكاذبة. تجعل هذه الأداء منه أداة قيمة للمهنيين في مجال الرعاية الصحية والباحثين في مجال أمراض القلب.

4.6. نتائج آلة الدعم الناقل (SVM)

أدى عملية ضبط المعلمات الفائقة، التي تمت من خلال GridSearchCV، إلى تحديد تكوين المعلمات الفائقة الأكثر ملاءمة لنموذج SVM. شمل هذا التكوين معلمة تنظيم (C) تم تعيينها إلى 10، ونواة متعددة الحدود بدرجة 2، واستخدام نواة خطية.
كما هو موضح في الجداول 5-8، بعد الضبط، حقق النموذج درجة دقة قدرها 95.00% و ، ودرجة استرجاع قدرها و ، ودرجة F1 قدرها و .
على مجموعة بيانات الاختبار، أظهر النموذج دقة تبلغ حوالي و ، مما يؤكد قدراته التنبؤية المستمرة والدقيقة.

4.7. نتائج الشبكة العصبية التلافيفية (CNN)

يتكون هيكل النموذج من ثلاث طبقات: طبقة أولية تحتوي على 128 وحدة تستخدم دالة تفعيل ReLU، تليها طبقة مخفية تحتوي على 64 وحدة مع تفعيل ReLU، وأخيرًا، طبقة إخراج تستخدم دالة تفعيل sigmoid. خلال تجميع النموذج، تم استخدام مُحسِّن آدم جنبًا إلى جنب مع خسارة الانتروبيا الثنائية، مع اعتبار الدقة كمقياس للتقييم.
لتقليل خطر الإفراط في التكيف، تم دمج إجراء احترازي يعرف بالتوقف المبكر في عملية التدريب. وقد شمل ذلك مراقبة خسارة التحقق لمدة أقصى 10 دورات واستعادة أوزان النموذج إلى تكوينها الأفضل. تم إجراء التدريب باستخدام بيانات تدريب مقاسة على مدى أقصى 100 دورة، مع استخدام حجم دفعة قدره 64.
كما هو موضح في الجداول 5-8، فإن أداء النموذج على مجموعة بيانات الاختبار جدير بالملاحظة بشكل خاص. حققت الدقة درجة مثيرة للإعجاب قدرها و .
يشير هذا إلى أنه عندما يتنبأ النموذج بأن فردًا ما مصاب بأمراض القلب، فمن المحتمل أن يكون دقيقًا للغاية. علاوة على ذلك، كانت درجات الاسترجاع و . تظهر درجة F1 مرونة عند و . تبلغ الدقة العامة، التي تعكس نسبة الحالات المتوقعة بشكل صحيح إلى إجمالي الحالات، و ، على التوالي.

4.8. نتائج XGBoost

من خلال استخدام GridSearchCV، تم إجراء عملية فعالة للغاية لضبط المعلمات الفائقة. أدت هذه العملية إلى اكتشاف المعلمات الفائقة المثلى لنموذج XGBoost، والتي شملت معدل تعلم قدره 0.2، وعمق شجرة أقصى قدره 3، و1000 دورة تعزيز (n_estimators)، ونسبة عينة فرعية قدرها 1.0. تم تأكيد استرجاع هذه المعلمات المختارة من خلال درجة تحقق ملحوظة تبلغ حوالي على مجموعة بيانات أمراض القلب الوعائية و على مجموعة بيانات أمراض القلب في كليفلاند، على التوالي.
على مجموعة بيانات الاختبار، حافظ نموذج XGBoost الذي تم ضبطه بدقة على أدائه الاستثنائي من خلال تحقيق درجة دقة قدرها و ، مما يدل على مهارته في تصنيف الحالات الإيجابية بدقة. علاوة على ذلك، فإن درجة الاسترجاع، عند و ، تحمل أهمية خاصة. تظهر درجة F1 مرونة عند و . تتراوح دقة النموذج العامة على بيانات الاختبار حول و . تؤكد هذه النتائج الملحوظة على ملاءمة نموذج XGBoost لتصنيف أمراض القلب.

5. المناقشة

تظهر النتائج التجريبية في الجداول 5-8 والشكل 5. يوفر التقييم الشامل لنماذج التعلم الآلي، وخاصة نماذج XGBoost وK-Nearest Neighbors، في سياق توقع أمراض القلب، رؤى قيمة. تتماشى هذه الرؤى مع البحث الذي أجراه زانغ وآخرون [41]، والذي يبرز فعالية خوارزمية XGBoost في هذا المجال المحدد.
الشكل 5. دقة نماذج التعلم الآلي على كلا المجموعتين.
عبر كلا المجموعتين، تظهر هذه النماذج أداءً استثنائيًا باستمرار، مما يبرز فعاليتها في توقع أمراض القلب. ومن الجدير بالذكر أن نموذج XGBoost يبرز بمعدل دقة مثير للإعجاب قدره في مجموعة بيانات أمراض القلب الوعائية، بينما يحقق نموذج K-Nearest Neighbors (KNN) دقة جديرة بالثناء قدرها
في مجموعة بيانات أمراض القلب في كليفلاند. تؤكد هذه المستويات العالية من الدقة على موثوقية النماذج، مما يجعلها أدوات قيمة لتشخيص أمراض القلب.
تعكس الدقة، وهي مقياس حاسم في الرعاية الصحية، قدرة النماذج على تحديد حالات أمراض القلب بدقة. تحقق كلا النموذجين دقة استثنائية، حيث يتصدر نموذج XGBoost بمعدل قدره ، يليه عن كثب نموذج KNN بمعدل قدره . تقلل هذه المستويات المرتفعة من الدقة بشكل كبير من حدوث تشخيصات إيجابية كاذبة، مما يخفف من المخاوف غير الضرورية للمرضى.
علاوة على ذلك، تسلط درجة F1، التي توازن بين الدقة والاسترجاع، الضوء على فعالية نموذج XGBoost في التعرف على حالات أمراض القلب مع تقليل خطر تجاهل الحالات الإيجابية. يحقق النموذج درجات F1 قدرها و في كلا المجموعتين، مما يظهر قدرته على تحقيق هذا التوازن الدقيق بفعالية.

6. الاستنتاجات وآفاق المستقبل

كما ناقشنا النطاق الأوسع لاختيار النماذج وآثاره على توقع أمراض القلب، فقد كشفت التحليلات المنجزة عن رؤى لا تقدر بثمن. من بين مجموعة النماذج التي تم فحصها، برزت نماذج K-Nearest Neighbors وXGBoost باستمرار كمرشحين بارزين من حيث الأداء عبر كلا مجموعتي البيانات، كما هو موضح أدناه. لقد أظهرت هذه النماذج دقة ونتائج استرجاع ملحوظة، مما يجعلها متنافسة قوية في التصنيف الدقيق لأمراض القلب. ومن الجدير بالذكر، مع ذلك، أن نماذج أخرى، بما في ذلك الانحدار اللوجستي، والشبكات العصبية التلافيفية، وتعزيز التدرج، والغابات العشوائية (RF)، وآلات الدعم الناقل (SVM)، قد أظهرت قدرات تنبؤية كبيرة بمجرد ضبط معلماتها الفائقة بدقة. في هذه المجموعة المتنوعة، يظهر XGBoost كأداء بارز، يتميز بدقته الاستثنائية ونتائج استرجاعه، بالإضافة إلى توازن متناغم في درجة F1 والدقة على مجموعة بيانات أمراض القلب والأوعية الدموية. وهذا يشير إلى الإمكانات التحولية لـ XGBoost في مجال توقع وتشخيص أمراض القلب، مما يجعله أداة لا تقدر بثمن للمهنيين في مجال الرعاية الصحية. النموذج يزرع مستوى عالٍ من الثقة في تحديد الحالات المحتملة لأمراض القلب، مما يرسخ مكانته كخيار نموذجي ضمن هذه المجموعة من البيانات. إن الدقة الاستثنائية والدقة التي تظهرها هذه النماذج تحمل آثارًا عميقة على تشخيص ورعاية الأفراد الذين يعانون من أمراض القلب. هذه الدقة لا تعزز فقط دقة التشخيص ولكنها تفتح أيضًا آفاقًا جديدة للتدخلات والعلاجات التي يمكن البدء بها بثقة متزايدة. في السعي لاختيار النموذج الأنسب، من الضروري مواءمة الاختيار مع المتطلبات والقيود المحددة للتطبيق المعني. يجب أن توجه الاعتبارات العملية مثل القابلية للتفسير، وتعقيد الحسابات، وتوافر البيانات عملية اتخاذ القرار، مما يضمن أن النموذج المختار مصمم لتلبية الاحتياجات الفريدة للمهمة. هذه النتائج تتوج بمورد قيم يمكن أن يمكّن من اتخاذ قرارات مستنيرة في مجال توقع أمراض القلب، لا سيما في البيئات السريرية. يتم التأكيد على الإمكانية الثورية لتشخيص أمراض القلب ورعاية المرضى، مما يعزز أهمية التعلم الآلي في مجال الرعاية الصحية. من الناحية العملية، يعني ذلك أنه عندما يشير النموذج إلى أن فردًا ما يعاني من مرض القلب، فإن احتمال الدقة مرتفع بشكل ملحوظ، مما يدل على تقدم كبير في مشهد التشخيص الطبي. قد تشمل الاتجاهات المستقبلية لهذه الدراسة توسيع النطاق من خلال دمج مجموعات بيانات التصوير الطبي الأكثر شمولاً. يمكن أن يؤدي الاستفادة من هذه البيانات إلى تحسين توقع أمراض القلب المستند إلى الصور، مما قد يؤدي إلى أدوات تشخيصية أكثر دقة وقوة في مجال صحة القلب والأوعية الدموية. علاوة على ذلك، قد توفر استكشاف النماذج التجميعية التي تدمج نقاط القوة لعدة خوارزميات طرقًا واعدة لتحسين الدقة التنبؤية في مجال توقع أمراض القلب. هذه الاعتبارات تسلط الضوء على الطبيعة متعددة الأوجه لأبحاث توقع أمراض القلب، مما يبرز الحاجة إلى التحسين المستمر والابتكار في هذا المجال الحرج. يجب أن تعطي الاتجاهات البحثية المستقبلية الأولوية أيضًا لتحسين النماذج وتوسيع مجموعات البيانات. على عكس [42،43]، تستخدم دراستنا مجموعة بيانات مميزة، مستفيدة من خصائصها الفريدة لتعزيز قوة وعمومية النماذج. علاوة على ذلك، يختلف اختيار نماذج التعلم الآلي في عملنا عن تلك المستخدمة في الدراسات المذكورة.
يساهم في الجانب الابتكاري من نهجنا. من المهم أن نتائج نماذجنا تظهر تحسناً ملحوظاً في دقة التنبؤ، مما يضع معيار أداء متفوق.
تُبرز هذه التركيبة الدقيقة من مجموعة البيانات، واختيار النموذج، والدقة العالية المساهمة المميزة لعملنا في مجال توقع أمراض القلب. إنها تضع دراستنا كخطوة متقدمة تتجاوز الأبحاث الحالية، مقدمة إطارًا تنبؤيًا أكثر دقة وتطورًا.
مساهمات المؤلفين: التصور، أ.ع. و ف.س.; المنهجية، أ.ع. و ف.س.; البرمجيات، أ.ع.; التحقق، س.ب.، أ.م.أ. و س.ن.ق.; التحليل الرسمي، أ.ع.، ف.س.، س.ب.، أ.م.أ. و س.ن.ق.; التحقيق، أ.ع.، س.ب.، أ.م.أ. و س.ن.ق.; الموارد، س.ب.، أ.م.أ. و س.ن.ق.; تنظيم البيانات، أ.ع.; كتابة – إعداد المسودة الأصلية، أ.ع. و ف.س.; كتابة – المراجعة والتحرير، أ.ع.، ف.س.، س.ب.، أ.م.أ. و س.ن.ق.; التصور، أ.ع.; الإشراف، ف.س.; إدارة المشروع، ف.س. و أ.م.أ.; الحصول على التمويل، أ.م.أ. و س.ن.ق. جميع المؤلفين قرأوا ووافقوا على النسخة المنشورة من المخطوطة.
تم دعم هذا العمل وتمويله من قبل عمادة البحث العلمي في جامعة الإمام محمد بن سعود الإسلامية (IMSIU) (رقم المنحة IMSIU-RG23077).
بيان مجلس المراجعة المؤسسية: غير قابل للتطبيق.
بيان الموافقة المستنيرة: غير قابل للتطبيق.
بيان توفر البيانات: تتوفر مجموعات البيانات عبر الإنترنت وعند الطلب.
الشكر والتقدير: يعبّر المؤلفون عن تقديرهم لعمادة البحث العلمي في جامعة الإمام محمد بن سعود الإسلامية لدعمها هذا العمل من خلال منحة رقم IMSIU-RG23077.
تعارض المصالح: يعلن المؤلفون عدم وجود أي تعارض في المصالح.

References

  1. World Health Organization. WHO Cardiovascular Diseases. Available online: https://www.who.int/health-topics/ cardiovascular-diseases#tab=tab_1 (accessed on 19 January 2022).
  2. Ramesh, A.N.; Kambhampati, C.; Monson, J.R.; Drew, P.J. Artificial intelligence in medicine. Ann. R. Coll. Surg. Engl. 2004, 86, 334. [CrossRef] [PubMed]
  3. Abdellatif, A.; Mubarak, H.; Abdellatef, H.; Kanesan, J.; Abdelltif, Y.; Chow, C.-O.; Chuah, J.H.; Gheni, H.M.; Kendall, G. Computational detection and interpretation of heart disease based on conditional variational auto-encoder and stacked ensemblelearning framework. Biomed. Signal Process. Control 2024, 88, 105644. [CrossRef]
  4. Tartarisco, G.; Cicceri, G.; Bruschetta, R.; Tonacci, A.; Campisi, S.; Vitabile, S.; Cerasa, A.; Distefano, S.; Pellegrino, A.; Modesti, P.A.; et al. An intelligent Medical Cyber-Physical System to support heart valve disease screening and diagnosis. Expert Syst. Appl. 2024, 238, 121772. [CrossRef]
  5. Cuevas-Chávez, A.; Hernández, Y.; Ortiz-Hernandez, J.; Sánchez-Jiménez, E.; Ochoa-Ruiz, G.; Pérez, J.; González-Serna, G. A Systematic Review of Machine Learning and IoT Applied to the Prediction and Monitoring of Cardiovascular Diseases. Healthcare 2023, 11, 2240. [CrossRef] [PubMed]
  6. Plati, D.K.; Tripoliti, E.E.; Bechlioulis, A.; Rammos, A.; Dimou, I.; Lakkas, L.; Watson, C.; McDonald, K.; Ledwidge, M.; Pharithi, R.; et al. A Machine Learning Approach for Chronic Heart Failure Diagnosis. Diagnostics 2021, 11, 1863. [CrossRef] [PubMed]
  7. Kim, J.O.; Jeong, Y.-S.; Kim, J.H.; Lee, J.-W.; Park, D.; Kim, H.-S. Machine Learning-Based Cardiovascular Disease Prediction Model: A Cohort Study on the Korean National Health Insurance Service Health Screening Database. Diagnostics 2021, 11, 943. [CrossRef]
  8. Mhamdi, L.; Dammak, O.; Cottin, F.; Ben Dhaou, I. Artificial Intelligence for Cardiac Diseases Diagnosis and Prediction Using ECG Images on Embedded Systems. Biomedicines 2022, 10, 2013. [CrossRef]
  9. Özbilgin, F.; Kurnaz, Ç.; Aydın, E. Prediction of Coronary Artery Disease Using Machine Learning Techniques with Iris Analysis. Diagnostics 2023, 13, 1081. [CrossRef]
  10. Brites, I.S.G.; da Silva, L.M.; Barbosa, J.L.V.; Rigo, S.J.; Correia, S.D.; Leithardt, V.R.Q. Machine Learning and IoT Applied to Cardiovascular Diseases Identification through Heart Sounds: A Literature Review. Repositório Comum (Repositório Científico de Acesso Aberto de Portugal). 2021. Available online: https://www.preprints.org/manuscript/202110.0161/v1 (accessed on 15 June 2023).
  11. Papandrianos, N.I.; Feleki, A.; Papageorgiou, E.I.; Martini, C. Deep Learning-Based Automated Diagnosis for Coronary Artery Disease Using SPECT-MPI Images. J. Clin. Med. 2022, 11, 3918. [CrossRef]
  12. Al-Absi, H.R.H.; Islam, M.T.; Refaee, M.A.; Chowdhury, M.E.H.; Alam, T. Cardiovascular Disease Diagnosis from DXA Scan and Retinal Images Using Deep Learning. Sensors 2022, 22, 4310. [CrossRef]
  13. El Naqa, I.; Murphy, M.J. What Is Machine Learning? Springer International Publishing: Berlin/Heidelberg, Germany, 2015; pp. 3-11.
  14. Bhardwaj, R.; Nambiar, A.R.; Dutta, D. A study of machine learning in healthcare. In Proceedings of the 2017 IEEE 41st Annual Computer Software and Applications Conference (COMPSAC), Torino, Italy, 4-8 July 2017; IEEE: New York, NY, USA, 2017; Volume 2, pp. 236-241.
  15. Brownlee, J. What is Machine Learning: A Tour of Authoritative Definitions and a Handy One-Liner You Can Use. Available online: www.machinelearningmastery.com (accessed on 25 November 2023).
  16. Oresko, J.J.; Jin, Z.; Cheng, J.; Huang, S.; Sun, Y.; Duschl, H.; Cheng, A.C. A wearable smartphone-based platform for real-time cardiovascular disease detection via electrocardiogram processing. IEEE Trans. Inf. Technol. Biomed. 2010, 14, 734-740. [CrossRef] [PubMed]
  17. Sharean, T.M.A.M.; Johncy, G. Deep learning models on Heart Disease Estimation-A review. J. Artif. Intell. 2022, 4, 122-130. [CrossRef]
  18. Sudha, V.K.; Kumar, D. Hybrid CNN and LSTM network For heart disease prediction. SN Comput. Sci. 2023, 4, 172. [CrossRef]
  19. Bhardwaj, R.; Sethi, A.; Nambiar, R. Big data in genomics: An overview. In Proceedings of the 2014 IEEE International Conference on Big Data (Big Data), Beijing, China, 4-7 August 2014; IEEE: New York, NY, USA, 2014; pp. 45-49.
  20. Kayyali, B.; Knott, D.; Van Kuiken, S. The Big-Data Revolution in US Health Care: Accelerating Value and Innovation; Mc Kinsey & Company: Chicago, IL, USA, 2013; Volume 2, pp. 1-13.
  21. Mohan, S.; Thirumalai, C.; Srivastava, G. Effective heart disease prediction using hybrid machine learning techniques. IEEE Access 2019, 7, 81542-81554. [CrossRef]
  22. Singh, A.; Kumar, R. February. Heart disease prediction using machine learning algorithms. In Proceedings of the 2020 International Conference on Electrical and Electronics Engineering (ICE3), Gorakhpur, India, 14-15 February 2020; IEEE: New York, NY, USA, 2020; pp. 452-457.
  23. Gavhane, A.; Kokkula, G.; Pandya, I.; Devadkar, K. March. Prediction of heart disease using machine learning. In Proceedings of the 2018 Second International Conference on Electronics, Communication and Aerospace Technology (ICECA), Coimbatore, India, 29-31 March 2018; IEEE: New York, NY, USA, 2018; pp. 1275-1278.
  24. Kavitha, M.; Gnaneswar, G.; Dinesh, R.; Sai, Y.R.; Suraj, R.S. Heart disease prediction using hybrid machine learning model. In Proceedings of the 2021 6th International Conference on Inventive Computation Technologies (ICICT), Coimbatore, India, 20-22 January 2021; IEEE: New York, NY, USA, 2021; pp. 1329-1333.
  25. Amiri, A.M.; Armano, G. Heart sound analysis for diagnosis of heart diseases in newborns. APCBEE Procedia 2013, 7, 109-116. [CrossRef]
  26. Liu, M.; Kim, Y. Classification of heart diseases based on ECG signals using long short-term memory. In Proceedings of the 2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), Honolulu, HI, USA, 18-21 July 2018; IEEE: New York, NY, USA, 2018; pp. 2707-2710.
  27. Algarni, M.; Al-Rezqi, A.; Saeed, F.; Alsaeedi, A.; Ghabban, F. Multi-constraints based deep learning model for automated segmentation and diagnosis of coronary artery disease in X-ray angiographic images. PeerJ Comput. Sci. 2022, 8, e993. [CrossRef] [PubMed]
  28. Hasan, A.M.; Shin, J.; Das, U.; Srizon, A.Y. Identifying prognostic features for predicting heart failure by using machine learning algorithm. In Proceedings of the ICBET’21: 2021 11th International Conference on Biomedical Engineering and Technology, Tokyo, Japan, 17-20 March 2021; pp. 40-46.
  29. Deepika, K.; Seema, S. Predictive analytics to prevent and control chronic diseases. In Proceedings of the 2016 2nd International Conference on Applied and Theoretical Computing and Communication Technology (iCATccT), Bangalore, India, 21-23 July 2016; IEEE: New York, NY, USA, 2016; pp. 381-386.
  30. Uyar, K.; Ilhan, A. Diagnosis of heart disease using genetic algorithm based trained recurrent fuzzy neural networks. Procedia Comput. Sci. 2017, 120, 588-593. [CrossRef]
  31. Deng, M.; Wang, C.; Tang, M.; Zheng, T. Extracting cardiac dynamics within ECG signal for human identification and cardiovascular diseases classification. Neural Netw. 2018, 100, 70-83. [CrossRef]
  32. Das, R.; Turkoglu, I.; Sengur, A. Effective diagnosis of heart disease through neural networks ensembles. Expert Syst. Appl. 2009, 36, 7675-7680. [CrossRef]
  33. Huang, J.-D.; Wang, J.; Ramsey, E.; Leavey, G.; Chico, T.J.A.; Condell, J. Applying artificial intelligence to wearable sensor data to diagnose and predict cardiovascular disease: A review. Sensors 2022, 22, 8002. [CrossRef]
  34. Moshawrab, M.; Adda, M.; Bouzouane, A.; Ibrahim, H.; Raad, A. Smart Wearables for the Detection of Cardiovascular Diseases: A Systematic Literature Review. Sensors 2023, 23, 828. [CrossRef] [PubMed]
  35. Alkayyali, Z.K.; Idris, S.A.B.; Abu-Naser, S.S. A Systematic Literature Review of Deep and Machine Learning Algorithms in Cardiovascular Diseases Diagnosis. J. Theor. Appl. Inf. Technol. 2023, 101, 1353-1365.
  36. Jafari, M.; Shoeibi, A.; Khodatars, M.; Ghassemi, N.; Moridian, P.; Alizadehsani, R.; Khosravi, A.; Ling, S.H.; Delfan, N.; Zhang, Y.-D.; et al. Automated diagnosis of cardiovascular diseases from cardiac magnetic resonance imaging using deep learning models: A review. Comput. Biol. Med. 2023, 160, 106998. [CrossRef] [PubMed]
  37. Kim, H.; Ishag, M.I.M.; Piao, M.; Kwon, T.; Ryu, K.H. A data mining approach for cardiovascular disease diagnosis using heart rate variability and images of carotid arteries. Symmetry 2016, 8, 47. [CrossRef]
  38. Boulares, M.; Alotaibi, R.; AlMansour, A.; Barnawi, A. Cardiovascular disease recognition based on heartbeat segmentation and selection process. Int. J. Environ. Res. Public Health 2021, 18, 10952. [CrossRef] [PubMed]
  39. Moradi, H.; Al-Hourani, A.; Concilia, G.; Khoshmanesh, F.; Nezami, F.R.; Needham, S.; Baratchi, S.; Khoshmanesh, K. Recent developments in modeling, imaging, and monitoring of cardiovascular diseases using machine learning. Biophys. Rev. 2023, 15, 19-33. [CrossRef]
  40. Bhatt, C.M.; Patel, P.; Ghetia, T.; Mazzeo, P.L. Effective heart disease prediction using machine learning techniques. Algorithms 2023, 16, 88. [CrossRef]
  41. Zhang, S.; Yuan, Y.; Yao, Z.; Wang, X.; Lei, Z. Improvement of the performance of models for predicting coronary artery disease based on XGBoost algorithm and feature processing technology. Electronics 2022, 11, 315. [CrossRef]
  42. Hagan, R.; Gillan, C.J.; Mallett, F. Comparison of machine learning methods for the classification of cardiovascular disease. Inform. Med. Unlocked 2021, 24, 100606. [CrossRef]
  43. Ghongade, O.S.; Reddy, S.K.S.; Tokala, S.; Hajarathaiah, K.; Enduri, M.K.; Anamalamudi, S. A Comparison of Neural Networks and Machine Learning Methods for Prediction of Heart Disease. In Proceedings of the 2023 3rd International Conference on Intelligent Communication and Computational Techniques (ICCT), Jaipur, India, 19-20 January 2023; pp. 1-7.
Disclaimer/Publisher’s Note: The statements, opinions and data contained in all publications are solely those of the individual author(s) and contributor(s) and not of MDPI and/or the editor(s). MDPI and/or the editor(s) disclaim responsibility for any injury to people or property resulting from any ideas, methods, instructions or products referred to in the content.

Journal: Diagnostics, Volume: 14, Issue: 2
DOI: https://doi.org/10.3390/diagnostics14020144
PMID: https://pubmed.ncbi.nlm.nih.gov/38248021
Publication Date: 2024-01-08

Machine Learning-Based Predictive Models for Detection of Cardiovascular Diseases

Adedayo Ogunpola , Faisal Saeed 1 DAAI Research Group, College of Computing and Digital Technology, Birmingham City University, Birmingham B4 7XG, UK; adedayo.ogunpola@mail.bcu.ac.uk (A.O.); shadi.basurra@bcu.ac.uk (S.B.)2 Computer Science Department, College of Computer and Information Sciences, Imam Mohammad Ibn Saud Islamic University (IMSIU), Riyadh 11432, Saudi Arabia; amsbarrak@imamu.edu.sa (A.M.A.); snmohammed@imamu.edu.sa (S.N.Q.)* Correspondence: faisal.saeed@bcu.ac.uk

Citation: Ogunpola, A.; Saeed, F.; Basurra, S.; Albarrak, A.M.; Qasem, S.N. Machine Learning-Based Predictive Models for Detection of Cardiovascular Diseases. Diagnostics 2024, 14, 144. https://doi.org/ 10.3390/diagnostics14020144
Academic Editor: Mugahed A. Al-antari
Received: 27 November 2023
Revised: 21 December 2023
Accepted: 25 December 2023
Published: 8 January 2024
Copyright: © 2024 by the authors. Licensee MDPI, Basel, Switzerland. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution (CC BY) license (https:// creativecommons.org/licenses/by/ 4.0/).

Abstract

Cardiovascular diseases present a significant global health challenge that emphasizes the critical need for developing accurate and more effective detection methods. Several studies have contributed valuable insights in this field, but it is still necessary to advance the predictive models and address the gaps in the existing detection approaches. For instance, some of the previous studies have not considered the challenge of imbalanced datasets, which can lead to biased predictions, especially when the datasets include minority classes. This study’s primary focus is the early detection of heart diseases, particularly myocardial infarction, using machine learning techniques. It tackles the challenge of imbalanced datasets by conducting a comprehensive literature review to identify effective strategies. Seven machine learning and deep learning classifiers, including K-Nearest Neighbors, Support Vector Machine, Logistic Regression, Convolutional Neural Network, Gradient Boost, XGBoost, and Random Forest, were deployed to enhance the accuracy of heart disease predictions. The research explores different classifiers and their performance, providing valuable insights for developing robust prediction models for myocardial infarction. The study’s outcomes emphasize the effectiveness of meticulously fine-tuning an XGBoost model for cardiovascular diseases. This optimization yields remarkable results: accuracy, precision, recall, and a F1 score. Such optimization significantly enhances the model’s diagnostic accuracy for heart disease.

Keywords: cardiovascular diseases; deep learning; disease detection; heart diseases; machine learning; ensemble learning; XGBoost

1. Introduction

The heart plays a crucial role in sustaining life by effectively pumping oxygenated blood and regulating important hormones to maintain optimal blood pressure levels. Any deviation from its functioning can lead to the development of heart conditions, collectively known as cardiovascular diseases (CVD). CVD includes a range of disorders that affect both the heart and blood vessels, such as cerebrovascular problems, congenital anomalies, pulmonary embolisms, irregular heart rhythms (arrhythmias), peripheral arterial issues, coronary artery disease (CAD), rheumatic heart ailments, coronary heart disease (CHD), and cardiomyopathies that affect the heart muscle.
Notably, CHD is the subtype among cardiovascular diseases, accounting for a significant of all cases. While it primarily affects men, women are also susceptible to its impact. Within the realm of CVDs, CAD is particularly concerning due to its association with global mortality rates. According to the World Health Organization (WHO) [1], the consequences of CVDs are profound, with staggering statistics indicating an estimated 17.9 million deaths annually are attributed to these diseases worldwide. These alarming numbers highlight the significance of research efforts and medical advancements dedicated
to combatting and lessening the impact of cardiovascular diseases worldwide. There are risk factors that contribute to the development of CVDs, including blood pressure, excess body weight and obesity, abnormal lipid profiles, glucose irregularities or diabetes conditions, tobacco usage or smoking habits, physical inactivity or sedentary lifestyle, alcohol consumption, and cholesterol levels. The WHO predicts that CVD will remain a cause of mortality, silently posing a substantial threat to human life for the foreseeable future, possibly even beyond 2030.
Machine learning, as highlighted by Ramesh et al. [2], enjoys major transformative capability within the healthcare industry. Its outstanding advancements can be ascribed to its exceptional data processing abilities, which are far superior to those of humans. Consequently, the field of healthcare has observed the development of several AI applications that leverage machine learning’s speed and accuracy, paving the way for revolutionary solutions to diverse healthcare challenges. Several machine learning methods have been applied for the purpose of detecting cardiovascular diseases. However, there is still a need to enhance the predictive models and address the research gaps in the existing detection approaches, such as the challenge of imbalanced datasets, which can lead to biased predictions.
By investigating the effectiveness of hybrid models combining different techniques, various researchers have explored diverse methodologies, including neural networks and various machine learning methods, to enhance prediction accuracy [3-12]. While these studies provide valuable insights, the variability in datasets, models, and outcomes underscores the complexity of the predictive task. Despite the advancements, there remains a pressing need for further investigations to refine existing models and improve the overall performance of cardiovascular disease prediction. The diverse landscape of machine learning applications in this domain emphasizes the importance of continued research to enhance the accuracy, reliability, and generalizability of predictive models, ultimately contributing to more effective clinical interventions and patient care.
In this paper, we have explored the strengths and limitations of the existing machine learning (ML) techniques in the context of heart disease analysis. Then, we investigated and applied seven machine learning-driven predictive models that can enhance the detection of cardiovascular and cerebrovascular diseases; these models include K-Nearest Neighbors, Support Vector Machine, Logistic Regression, Convolutional Neural Network, Gradient Boost, XGBoost, and Random Forest. Two datasets were used in this study, which were pre-processed using different techniques such as oversampling, feature scaling, normalization, and dimensionality reduction to optimize data for effective machine learning analysis. Finally, we evaluated and compared the efficacy of different machine learning (ML) techniques for analyzing heart diseases within the healthcare sector.
In this paper, we present a concise technical background and review pertinent literature related to research studies conducted on the early forecast of heart disease utilizing machine learning and deep learning techniques. We highlight the different methods that have been employed in these studies to foretell heart disease at an initial stage.

2.1. Machine Learning Approach

Machine learning remains a rapidly advancing discipline of computational algorithms that try to imitate human intelligence by learning through data and the surrounding environment. These algorithms play a crucial role in processing and analyzing large-scale data, often referred to as “big data”. Machine learning techniques have demonstrated their effectiveness in various domains, including pattern recognition, computer vision, spacecraft engineering, as well as biomedical and medical applications. Their versatility and success have made them indispensable tools in addressing complex challenges and extracting valuable insights from diverse datasets [13].
Machine learning is a specialized approach that automates the process of model building. Using algorithms, machines can discover hidden patterns and insights within
datasets. Importantly, in machine learning, we do not particularly instruct machines on where to explore for insights; instead, the algorithms enable the machines to learn and adapt their techniques and outputs as they uncover new-found data and scenarios. This iterative nature of machine learning allows for continuous improvement and adaptation, making it a powerful tool for processing and analyzing complex datasets [14].
There exist two main approaches in machine learning: supervised learning and unsupervised learning. In one approach, supervised learning, algorithms are trained using specific examples. The machine is provided with input data along with their corresponding correct outputs. Learning takes place by comparing the machine’s experimental outcomes with the accurate outputs to discover blunders. This sort of learning is suitable after previous data has been utilized to foretell future occurrences [15].
The other approach, unsupervised learning, involves the machine exploring the records and attempting to discover patterns or structures on its own. It needs to create models commencing from scratch and is not provided with any precise outputs to guide its learning process. Unsupervised learning is commonly employed to detect and distinguish outliers in the data. This approach is particularly useful when there is limited or no labeled data available for training [14]. Researchers worldwide have made significant efforts to combat cardiovascular disease (CVD) and improve patient outcomes [16]. These efforts include enhancing clinical decision support systems to achieve precise early detection and enable effective treatment. Machine learning (ML) and artificial intelligence (AI) techniques have played a pivotal role in the early detection and diagnosis of CVD.
CVD detection encompasses different distinct approaches. The first approach involves utilizing AI models that analyze various test reports to distinguish between CVD patients and healthy citizens. The second approach utilizes signals such as electrocardiogram (ECG) and heart sound signals as vital information for ML models to classify individuals as either healthy or having CVD [16].

2.2. Deep Learning Approach

In recent years, there has been remarkable progress in the field of deep learning, with a primary focus on developing intelligent automated systems that aid doctors in predicting and diagnosing diseases through the utilization of the Internet of Things (IoT). While conventional machine learning techniques were often restricted by their dependency on single datasets, the advent of deep learning has brought significant enhancements to the accuracy of existing algorithms. Deep learning leverages artificial neural networks, which consist of multiple hidden layers organized in a cascading pattern. This architecture enables the processing of non-linear datasets, allowing for more complex patterns and relationships to be captured and learned by the model. As a result, deep learning has emerged as a powerful tool in medical applications, providing improved predictive capabilities and enhancing disease diagnosis through the integration of IoT devices and data sources. This approach has shown promising results, outperforming older machine learning algorithms in terms of accuracy. As accurate medical support systems for detecting hidden patterns and predicting diseases are still lacking, deep learning offers the potential to accurately predict heart diseases at an early stage, allowing for timely intervention and treatment [17].
Sudha and Kumar [18] observed that the Convolutional Neural Network (CNN) is a suitable method for diagnosing heart disease. CNN’s ability to learn and represent features in a concise and conceptual manner is advantageous, especially as the network’s depth increases. Additionally, they proposed a hybrid model that combines Convolutional Neural Networks (CNN) with Long Short-Term Memory (LSTM) units, which are a type of recurrent neural network (RNN). LSTM units are known for their ability to store and transmit relevant information over long sequences, making them particularly useful for time-series data such as heart disease data. By integrating CNN and LSTM, the hybrid model aimed to enhance the accuracy of heart disease classification. The CNN component is adept at capturing spatial patterns in the data, while the LSTM component excels at recognizing temporal dependencies and patterns. This combination allows the model to
effectively learn complex features from the data, leading to improved classification accuracy. Experimental results from the study revealed promising outcomes, with the hybrid model achieving an accuracy of , sensitivity of , and specificity of . These results outperformed conventional machine learning classifiers, indicating the potential of the proposed hybrid approach in advancing the accuracy of heart disease classification [18].
The healthcare sector has emerged as a prime beneficiary of the growing volume and accessibility of data [19]. Various entities, such as healthcare providers, pharmacological firms, research institutions, and government parastatals, are now accumulating vast volumes of data from diverse sources, including research, clinical trials, public health programs, and insurance data. The merging of such data holds immense potential for advancing healthcare practices and decision-making [20]. Traditionally, doctors used to diagnose and treat patients based on their symptoms alone. However, evidence-based medicine has become the prevailing approach, where physicians review extensive datasets obtained from medical trials and treatment paths on a huge scale to make decisions built on the most comprehensive and up-to-date information available. This shift towards datadriven decision-making is transforming healthcare practices, improving patient outcomes, and driving further advancements in the medical field [14].
Numerous industry and research initiatives are actively working on implementing machine learning expertise in the healthcare sector to enhance patient care and well-being globally. One such initiative is the Shah Lab, based at Stanford University [14]. The Shah Lab focuses on leveraging machine learning and data science to address critical healthcare challenges and develop innovative solutions for various medical applications. Through these initiatives, researchers and experts aim to harness the power of machine learning to analyze large-scale healthcare data, including electronic health records, medical imaging, genomics, and patient outcomes. By extracting valuable insights and patterns from this data, they aim to improve disease diagnosis, treatment prediction, personalized medicine, and overall patient management. The goal is to provide healthcare professionals with advanced tools and technologies that can assist them in making more accurate and timely clinical decisions, leading to better patient outcomes and an overall improvement in healthcare services worldwide. Table 1 below presents a summary of the performance metrics related to the existing methods under evaluation, with each entry corresponding to specific evaluation criteria.
Table 1. Summary of the performance of the existing methods.
Study Method Results
Mohan et al. [21] Hybrid Random Forest with Linear Model (HRFLM)
Accuracy: 88%
Sensitivity: 92.8%
Specificity:
SVM 83% Accuracy SVM
Singh et al. [22]
SVM
K-Nearest Neighbors
Decision Tree
Linear Regression
79% (DT)
78% (LR)
Gavhane et al. [23] Neural Network
Precision rate: 91%
Recall rate: 89%
Kavitha et al. [24] Hybrid Model (Random Forest (RF) and Decision Tree (DT)) Accuracy: 88%
Accuracy: 99.14%
Amiri and Armano [25] Classification-CART
Sensitivity: 100%
Specificity: 98.28%
Liu and Kim [26]
Classifier—Long Short Term Memory
(LSTM)
Accuracy: 98.4%

2.3. Datasets Collection and Preprocessing

In their study, Algarni et al. [27] utilized a dataset of coronary artery X-ray angiography images obtained from a clinical database. These images exhibited challenging character-
istics, including uneven vessel thickness, complex vascular structures in the background, and the presence of noise. The dataset consisted of 130 X-ray coronary angiograms, each having a size of pixels. The data was collected from the cardiology department of the Mexican Social Security Institute, and ethical approval was obtained (reference number R-2019-1001-078) for the use of this medical database in heart disease diagnosis. To train and evaluate their proposed model, called ASCARIS, the dataset was randomly divided into two parts: a training set containing 100 images and a test set comprising 30 images. The ASCARIS model was developed based on color, diameter, and shape features extracted from the angiography images.
Al Mehedi et al. [28] utilized a dataset of 299 heart failure patients obtained from the Faisalabad Institute of Cardiology and the Allied Hospital in Faisalabad. The dataset consisted of 13 attributes, including features such as Age, Anemia, High Blood Pressure, Creatinine Phosphokinase (CPK), Diabetes, Ejection Fraction, Sex, Serum Creatinine, Serum Sodium, Smoking, Time, and a target column labeled as “Death Event”, which was used for binary classification. The dataset underwent preprocessing to ensure its quality and consistency. After preprocessing, the dataset was divided into separate train and test sets for model training and evaluation. Two feature selection methods were applied to the train set to identify the most relevant features for the heart failure prediction task.
Deepika and Seema [29] conducted a study on heart disease with datasets available online from the UCI Machine Learning Repository at the University of California, Irvine. They comprise 76 attributes, including the target property, but only 14 of these attributes were considered essential for analysis. The researchers used two specific datasets for their study: the Cleveland Clinic Foundation dataset, with records from 303 patients, and the Hungarian Institute of Cardiology dataset, with records from 294 patients. Various machine learning algorithms, including Naïve Bayes (NB), Support Vector Machine (SVM), Decision Tree (DT), and Artificial Neural Networks, were employed in the analysis to predict heart disease. Within the broader context, Table 2 clarifies the preprocessing approaches and predictive methodologies utilized in previous studies.
Table 2. Preprocessing and predictive methods.
Study Dataset Preprocessing and Modeling Results
Algarni et al. [27] Coronary artery X-ray angiography images obtained from a clinical database. Training: 100 images Test: 30 images ASCARIS model (based on color, diameter, and shape features). Accuracy: 97%
Uyar and İlhan [30] Cleveland dataset for heart disease. Removal of 6 instances with missing entries from the dataset and categorization of the diagnosis attribute (num) into two classes: absence (num ) and presence (num , or 4 ) of heart disease. Recursive Fuzzy Neural Network (RFNN) Testing set accuracy: 97.78% Overall accuracy: 96.63%
Deng et al. [31] Fuwai ECG database and public PTB database training phase for dynamics acquisition and a test phase for dynamics reuse Attention-based Res-BiLSTM-Net model F1 scores ranging from 0.72 to 0.98
Das et al. [32] UCI dataset SAS-based software Neural Networks Training accuracy: , Validation accuracy: 89.011%

2.4. Discussions on the Research Limitations

The literature review involved an in-depth exploration of the existing research and knowledge pertaining to heart disease prediction using diverse machine learning and deep learning techniques. Several studies reviewed the recent advancements and limitations of
applying machine learning for cardiovascular disease detection [10,33-36]. For instance, the studies [8,37-40] proposed different data mining and machine learning methods based on heartbeat segmentation and selection process, ECG images, images of carotid arteries, and others.
Numerous studies have concentrated on applying machine learning algorithms such as Decision Tree, Naïve Bayes, Random Forest, Support Vector Machine, and Logistic Regression on the Heart Disease Dataset, yielding promising accuracy rates for classification. Moreover, deep learning methods, particularly Convolutional Neural Networks (CNN), have gained significant traction for effectively handling complex tasks and unstructured data. The review also examined discussions regarding the implementation of data preprocessing techniques, feature selection methods, and performance evaluation metrics to optimize the efficiency of predictive models. Some studies underscored the importance of data quality and the relevance of specific features in enhancing the accuracy of the models.
Machine learning algorithms play a crucial role in precisely foretelling heart disease by discovering suppressed patterns in data, making predictions, and improving performance based on historical data. These programs make it possible for us to anticipate and diagnose heart disease more accurately, while deep learning, fueled by artificial neural networks, is a critical factor in handling complex computations on large volumes of data. These algorithms play an essential role in identifying key attributes and patterns in both structured and unstructured data, enhancing more efficient data analysis and processing.
Employing machine learning and deep learning approaches offers considerable potential in the field of heart disease diagnosis and treatment. These sophisticated techniques enable the integration of various data sources, such as medical records, imaging data, genetics, and lifestyle factors, to create a universal and individualized approach to healthcare. The iterative nature of machine learning acknowledges continuous learning and adaptation, resulting in progressed diagnostic and predictive models over time. This promises to enhance the accuracy and effectiveness of heart disease management, ultimately leading to better patient outcomes.
After reviewing the available literature, it is evident that there is a lack of extensive experimentation on the use of Gradient Boosting models in the detection of heart disease. However, considering the unique capabilities of Gradient Boosting models in analyzing data and capturing temporal dependencies, their potential in this domain is worth exploring.
The potential of Gradient Boosting models to progressively enhance predictive accuracy by refining weaker learners within the model positions them as promising contenders for improving the precision of heart disease detection. Consequently, there is a need for further exploration and experimentation dedicated to harnessing the capabilities of Gradient Boosting models in this context.
By embracing the use of Gradient Boosting models in heart disease detection and conducting more targeted experiments, we can unlock new possibilities for advancing healthcare interventions and ultimately enhancing patient outcomes and well-being.

3. Materials and Methods

The following methods are adapted to achieve the goals of this research. They are applied to explore and comprehend various dimensions of heart-related conditions, ultimately contributing to the creation of precise models for the diagnosis and prediction of these conditions. The general research method framework of this study is shown in Figure 1.
Figure 1. Research method workflow.

3.1. Datasets

To carry out this research study, two datasets were examined, namely the Cardiovascular Heart Disease Dataset, which was retrieved from the Mendeley database, and the Heart Disease Cleveland Dataset, which was retrieved from the Kaggle database. The “Cardio” and “Target” columns on both datasets refer to the column we are trying to predict with numeric values 0 (no disease) and 1 (disease). It is important to note that neither dataset has any missing values. The detailed descriptions of all these attributes are listed below:
The Cardiovascular Heart Disease Dataset (Table 3) holds significant importance within the healthcare and machine learning domains. It serves as an asset for tasks associated with the prediction and classification of cardiovascular diseases while holding data of 1000 data samples in 13 attributes, each representing a potential risk factor.
Table 3. Cardiovascular Heart Disease Dataset.
Features Details
1. Patient Id Individual unique identifier.
2. Age Numeric representation of patients’ age in years.
3. Gender Binary (1, female, male))
4. Chestpain Nominal ( (Value 0: typical angina Value 1: atypical angina Value 2: non-anginal pain Value 3: asymptomatic))
5. restingBP Numeric (94-200 (in mm HG))
6. serumcholestrol Numeric (126-564 (in mg/dL))
7. fastingbloodsugar Binary ( false, true )
8. restingrelectro Nominal (0, 1, 2 (Value 0: normal, Value 1: having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of ), Value 2: showing probable or definite left ventricular hypertrophy by Estes’ criteria))
9. maxheartrate Numeric (71-202)
10. exerciseangia Binary (0, 1 (0 = no, yes))
11. oldpeak Numeric (0-6.2)
12. slope Nominal (1, 2, 3 (1-upsloping, 2-flat, 3-downsloping))
13. noofmajorvessels Numeric (0, 1, 2, 3)
14. target Binary (0,1 (0 = Absence of Heart Disease, 1= Presence of Heart Disease))
Shifting our focus to the Heart Disease Cleveland Dataset (Table 4), a widely recognized dataset frequently employed in the fields of machine learning and healthcare, which has been extensively used in tasks related to predicting and classifying heart disease. This dataset holds prominence for its pivotal role in assessing the effectiveness of diverse machine learning algorithms in diagnosing heart disease with 303 patients’ information in 14 attributes. Its primary objective revolves around predicting whether heart disease is present or absent.
Table 4. Heart Disease Cleveland Dataset.
Features Details
1. Age Categorical feature representing gender, where Male is encoded as 1 and Female as 0.
3. cp Categorical attribute indicating the various types of chest pain felt by the patient. 0 for typical angina, 1 for atypical angina, 2 for non-anginal pain, and 3 for asymptomatic.
4. trestbps Numerical measurement of the patient’s blood pressure at rest, recorded in .
5. chol Numeric value indicating the serum cholesterol intensity of the patient, calculated in .
7. restecg Categorical feature describing the result of the electrocardiogram conducted at rest. 0 for normal, 1 for ST-T wave abnormalities, and 2 for indications of probable or definite left ventricular hypertrophy according to Estes’ criteria.
8. thalach Categorical feature denoting whether exercise-induced angina is present. 0 signifies no, while 1 signifies yes.
10. oldpeak Numeric value indicating exercise-induced ST-depression relative to the rest state.
11. slope Categorical attribute representing the slope of the ST segment during peak exercise. It can take three values: 0 for up-sloping, 1 for flat, and 2 for down-sloping.
12. ca Categorical feature indicating the number of major blood vessels, ranging from 0 to 3.
13 thal Categorical representation of a blood disorder called thalassemia. 0 for NULL, 1 for normal blood flow, 2 for fixed defects (indicating no blood flow in a portion of the heart), and 3 for reversible defects (indicating abnormal but observable blood flow).
14. target The target variable to predict heart disease, encoded as 1 for patients with heart disease and 0 for patients without heart disease.

3.2. Data Pre-Processing

Data preprocessing is an essential step within machine learning that aims to improve dataset quality and reliability before analysis and modeling. This phase tackles challenges such as missing data, inconsistencies, outliers, and skewed class distributions. Addressing missing values is crucial to ensure accurate insights by utilizing techniques such as imputation. Detecting and managing outliers is also vital, as these data points can skew results. A key concern is class distribution balance, where methods like oversampling mitigate imbalanced datasets. Considering these considerations, employing techniques such as feature scaling, normalization, and dimensionality reduction can optimize data for effective machine learning analysis.

3.3. Model Development

The conclusion of the thorough literature work brings us to the pivotal stage of model development. This section encompasses seven notable machine learning techniques:
Logistic Regression, Convolutional Neural Network, Support Vector Machine (SVM), Gradient Boosting, K-Nearest Neighbors (KNN), XGBoost, and Random Forest. Each algorithm contributes distinct characteristics to unveil predictive revelations in the analysis of cardiovascular and cerebrovascular diseases, utilizing resources such as Scikit-Learn and Keras libraries.
Each of these models possesses unique traits, spanning from linear approaches to ensemble techniques and deep learning architectures. Through thorough empirical investigations, we assessed the effectiveness of every model in terms of recall, precision, accuracy, and F1-score metrics.

3.4. Model Evaluation

Model Evaluation stands as a pivotal phase in the realm of machine learning, dedicated to thoroughly gauging how well-trained models predict outcomes. This essential step ensures that models can generalize to new data effectively, informing decisions about deployment and refinement. The following key techniques and metrics will contribute to a comprehensive evaluation of this study:
Confusion Matrix: Offering insight into true positives, true negatives, false positives, and false negatives, this matrix forms the basis for calculating vital metrics.
Accuracy: Providing an overall view of model performance by measuring correctly predicted instances against the total dataset.
Precision and Recall: Precision assesses positive prediction accuracy, while recall gauges the model’s ability to capture positive instances.
F1-Score: Striking a balance between precision and recall, this score is essential for harmonizing performance aspects.
Cross-Validation: This technique partitions data for training and testing, guarding against overfitting.
Hyperparameter Tuning: Optimizing model parameters through techniques like GridSearch enhances performance.

4. Results

This section explores the detailed analysis of machine learning models for heart disease prediction, leveraging two distinct datasets: the Cardiovascular Heart Disease Dataset and the Heart Disease Cleveland Dataset using the Python programming language.
Our primary objective is to identify the most effective predictive models, considering both traditional tabular datasets while keeping in mind the aims of the study.

4.1. Pre-Processing Results

To harness the potential of the Cardiovascular Heart Disease Dataset and the Heart Disease Cleveland Dataset for machine learning applications, it becomes imperative to execute preliminary data preprocessing procedures. These procedures encompass a range of actions, including managing missing data, encoding categorical variables, standardizing or normalizing feature values, and partitioning the dataset into distinct training and testing subsets. Additionally, the utilization of exploratory data analysis (EDA) techniques and data visualization tools proves instrumental in gaining insights into data distributions and inter-variable relationships.
Firstly, a correlation matrix heatmap is created, as shown in Figure 2. This heatmap computes the correlation coefficients among diverse attributes in the datasets and represents them graphically. Its purpose is to facilitate the visual examination of associations between various features. Positive correlations are depicted using green hues, whereas negative correlations are represented in red. This heatmap serves the purpose of identifying the features that exhibit the most substantial correlations with the target variable, thereby revealing their impact on the presence or absence of cardiovascular disease. On the left side is the Cardiovascular Heart Disease Dataset, while on the right is the Heart Disease Cleveland Dataset.
Figure 2. Heatmap distribution of the dataset features.
The histograms corresponding to individual dataset attributes provide valuable insights by allowing exploration of each feature’s distribution, as shown in Figure 3. They are instrumental in the detection of potential outliers and provide a rapid overview of the characteristics and spans of these features. This visualization is a helpful tool for comprehending the overall shape and distribution of the data. The pictorial evidence of both datasets can be seen below, where the Cardiovascular Heart Disease Dataset is on the left, and the Heart Disease Cleveland Dataset can be seen on the right.
Figure 3. Histogram distribution of the dataset features.
As shown in Figure 4, the pie chart is utilized to depict the distribution of the target variable, which signifies the existence or non-existence of cardiovascular disease. The figure shows the distribution of features in the target variable, where 1 represents features with heart disease, and 0 represents features without heart disease. It enumerates the instances of each class and exhibits the proportions as percentages in the pie chart, illustrating the presence and absence of cardiovascular disease. In Figure 4, the pie chart on the right represents features of the target column distribution of the Cardiovascular Heart Disease Dataset, while the left represents the feature of the target column distribution of the Heart Disease Cleveland Dataset.

Heart Disease Cleveland

Cardiovascular Heart Disease

Figure 4. The distribution of features in the target variable.
After successfully preprocessing and visualizing the features of the dataset, we conducted an in-depth exploration of various machine learning models to discern their predictive efficacy.

4.2. K-Nearest Neighbors (KNN) Results

We commenced the analysis by employing the K-Nearest Neighbors (KNN) algorithm with varying ‘ ‘ values, representing the number of nearest neighbors considered during the predictions. Employing cross-validation, we computed scores for each ‘ k ‘ value, ultimately discerning that ‘ ‘ yielded the most favorable mean cross-validation score. This outcome underscores that configuring KNN with ‘ ‘ exhibits significant promise.
As shown in Tables 5-8, the implementation of this model yielded an impressive accuracy rate of and on the datasets, respectively, serving as an overarching measure of the model’s correctness in its predictions. Furthermore, meticulous hyperparameter tuning was carried out to guarantee optimal performance. The precision score, gauging the proportion of true positive predictions among all positive predictions, achieved a notable level, approximately and . Additionally, the recall, representing the proportion of true positive predictions among all actual positives, exhibited a strong value, approximately , and . Similarly, the F1 Score attained an impressive value, hovering around and . These metrics collectively affirm the exceptional performance of the KNN model within the dataset.
Table 5. Results on Precision measure.
Classification Model Precision (in %)
Dataset 1 Dataset 2
KNN 96.50% 96.55%
RF 98.63% 94.44%
LR 96.55% 93.10%
GB 99.13% 90.00%
SVM 95.00% 80.65%
CNN 99.14% 87.50%
XGBoost 99.14% 90.00%
Table 6. Results on Recall measure.
Classification Model Recall (in %)
Dataset 1 Dataset 2
KNN 97.44% 87.50%
RF 98.97% 85.61%
LR 95.73% 84.38%
GB 97.44% 84.38%
SVM 97.44% 78.12%
CNN 98.29% 89.77%
XGBoost 98.29% 84.38%
Table 7. Results on F1-Score measure.
Classification Model F1-Score (in %)
Dataset 1 Dataset 2
KNN 97.02% 91.80%
RF 98.80% 89.81%
LR 96.14% 88.52%
GB 98.28% 87.10%
SVM 96.20% 79.37%
CNN 97.80% 87.50%
XGBoost 98.71% 87.10%
Table 8. Results on Accuracy measure.
Classification Model Accuracy (in %)
Dataset 1 Dataset 2
KNN 96.50% 91.80%
RF 98.60% 91.09%
LR 95.50% 88.52%
GB 98.00% 86.89%
SVM 95.50% 78.69%
CNN 97.50% 86.89%
XGBoost 98.50% 86.89%

4.3. Random Forest Results

By conducting an extensive hyperparameter tuning process, we modified the number of trees (n_estimators) to 200 within the Random Forest ensemble model. As shown in Tables 5-8, the tuned model achieved an outstanding accuracy level, hovering at around and . The assessment of precision showed a significant enhancement, which obtained and .
Similarly, the F1 Score, which amalgamates precision and recall, demonstrated the model’s robustness, registering a value of and 89.81 , respectively. Furthermore,
the recall score, measuring the model’s aptitude for recognizing genuine positive cases, reached a remarkable value of and 85.61.

4.4. Logistic Regression (LR) Results

By implementing a custom threshold of 0.6, the model was configured to adopt a cautious approach when classifying instances as positive. To be specific, if the predicted probability of an instance belonging to the positive class (class 1) equaled or exceeded 0.6, it was categorized as positive; otherwise, it was designated as negative. This threshold selection significantly influenced how the model struck a balance between precision and recall. As shown in Tables 5-8, the model’s precision score was 96.55% and 93.10%, signifying its proficiency in minimizing false positive predictions.
The recall scores stood at and , emphasizing the model’s importance in correctly identifying all positive cases, particularly in scenarios where missing potential cases of heart disease is a critical concern. The F1 Score captured genuine positive cases at and . Regarding overall accuracy, the model achieved an accuracy score of and .

4.5. Gradient Boosting (GB) Results

Through the GridSearchCV process, we effectively fine-tuned the model’s hyperparameters. The optimal hyperparameters selected encompassed a learning rate of 0.2 , a maximum depth of 3 for individual trees, and 100 boosting stages (n_estimators). These hyperparameters were chosen based on their exceptional performance on the validation datasets. When tested on independent data, the refined Gradient Boosting model consistently delivered exceptional results. As shown in Tables 5-8, it attained an impressive precision score of and , indicative of its ability to minimize false positive predictions effectively.
Furthermore, the model exhibited a recall score of and , which holds paramount importance in medical applications where identifying potential cases of heart disease is critical. The F1 Score, which harmonizes precision and recall, reached an impressive value of and 87.10.
The model’s accuracy on the test dataset was consistently high, measuring , although it achieved on the Heart Disease Cleveland Dataset. These findings collectively underscore the Gradient Boosting model’s exceptional suitability for the task of heart disease classification, highlighting its potential to accurately detect individuals with heart disease while maintaining a low rate of false positives. Such performance makes it an asset for healthcare professionals and researchers in the cardiology field.

4.6. Support Vector Machine (SVM) Results

The process of tuning hyperparameters, carried out through GridSearchCV, effectively determined the most suitable hyperparameter configuration for the SVM model. This configuration included a regularization parameter (C) set to 10, a polynomial kernel with a degree of 2 , and the utilization of a linear kernel.
As shown in Tables 5-8, for post-tuning, the model achieved a precision score of 95.00% and , a recall score of and , and an F1 Score of and .
On the test dataset, the model exhibited an accuracy of approximately and , affirming its consistent and accurate predictive capabilities.

4.7. Convolutional Neural Network (CNN) Results

The model architecture consists of three layers: an initial layer with 128 units employing the ReLU activation function, followed by a hidden layer featuring 64 units with ReLU activation, and ultimately, an output layer utilizing the sigmoid activation function. During model compilation, the Adam optimizer was employed alongside binary cross-entropy loss, with accuracy serving as the evaluation metric.
To mitigate the risk of overfitting, a precautionary measure known as early stopping was integrated into the training process. This involved monitoring the validation loss for a maximum of 10 epochs and restoring the model’s weights to their best configuration. The training was conducted using scaled training data over a maximum of 100 epochs, employing a batch size of 64 .
As shown in Tables 5-8, the model’s performance on the test dataset is particularly noteworthy. Precision achieved an impressive score of and .
This suggests that when the model predicts an individual as having heart disease, it is highly likely to be accurate. Furthermore, the recall scores were and . The F1 Score demonstrates resilience at and . Overall accuracy, which reflects the ratio of correctly predicted cases to the total cases, stands at and , respectively.

4.8. XGBoost Results

Through the utilization of GridSearchCV, a highly effective process of hyperparameter tuning was carried out. This process led to the discovery of optimal hyperparameters for the XGBoost model, which included a learning rate of 0.2 , a maximum tree depth of 3,100 boosting rounds (n_estimators), and a subsample fraction of 1.0. The recall of these chosen hyperparameters was substantiated by a remarkable validation score of approximately on the Cardiovascular Heart Disease Dataset and on the Heart Disease Cleveland Dataset, respectively.
On the test dataset, the fine-tuned XGBoost model upheld its exceptional performance by achieving a precision score of and , signifying its adeptness in accurately categorizing positive cases. Moreover, the recall score, at and , holds particular significance. The F1 Score exhibits resilience at and . The model’s overall accuracy on the test data hovers at and . These remarkable outcomes underscore the XGBoost model’s aptness for heart disease classification.

5. Discussion

The experimental results are shown in Tables 5-8 and Figure 5. The thorough assessment of machine learning models, specifically the XGBoost and K-Nearest Neighbors models, in the context of heart disease prediction, provides valuable insights. These insights align with the research conducted by Zhang et al. [41], which underscores the effectiveness of the XGBoost algorithm in this specific domain.
Figure 5. Accuracy of machine learning models on both datasets.
Across both datasets, these models consistently demonstrate exceptional performance, emphasizing their efficacy in heart disease prediction. Notably, the XGBoost model stands out with an impressive accuracy rate of in the Cardiovascular Heart Disease Dataset, while the K-Nearest Neighbors (KNN) model achieves a commendable accuracy of
in the Heart Disease Cleveland Dataset. These high levels of accuracy emphasize the models’ reliability, positioning them as valuable tools for diagnosing heart disease.
Precision, a critical metric in healthcare, reflects the models’ ability to identify heart disease cases precisely. Both models achieve outstanding precision, with the XGBoost model leading at , closely followed by the KNN model at . These elevated precision levels significantly reduce the occurrence of false positive diagnoses, alleviating unnecessary concerns for patients.
Furthermore, the F1 Score, which balances precision and recall, highlights the XGBoost model’s effectiveness in recognizing heart disease cases while minimizing the risk of overlooking positive instances. The model achieves F1 Scores of and in both datasets, showcasing its ability to strike this delicate balance effectively.

6. Conclusions and Future Scope

As we discussed the broader scope of model selection and its implications for heart disease prediction, the conducted analysis has unearthed invaluable insights. Among the array of models under scrutiny, K-Nearest Neighbors and XGBoost have consistently risen to prominence as top-performing candidates across both datasets, as shown below. These models have exhibited remarkable accuracy and recall scores, rendering them robust contenders for the precise classification of heart disease. It is noteworthy, however, that other models, including Logistic Regression, Convolutional Neural Network, Gradient Boost, Random Forest (RF), and Support Vector Machines (SVM), have showcased significant predictive capabilities once their hyperparameters were meticulously tuned. In this diverse ensemble, XGBoost emerges as a standout performer, marked by its exceptional accuracy and recall scores, coupled with a harmoniously balanced F1 Score and precision on the Cardiovascular Heart Disease Dataset. This points out XGBoost’s transformative potential in the realm of heart disease prediction and diagnosis, positioning it as an invaluable tool for healthcare professionals. The model instills a high level of confidence in identifying potential cases of heart disease, firmly establishing itself as an exemplary choice within this dataset. The exceptional precision and accuracy exhibited by these models bear profound implications for the diagnosis and care of individuals with heart disease. Such precision not only enhances diagnostic accuracy but also opens new avenues for interventions and treatments that can be initiated with heightened confidence. In the quest for the most suitable model, it is imperative to align the selection with the specific requirements and constraints of the application at hand. Practical considerations such as interpretability, computational complexity, and data availability should guide the decision-making process, ensuring that the chosen model is tailored to meet the unique needs of the task. These findings culminate in a valuable resource that can empower informed decision-making within the realm of heart disease prediction, particularly in clinical settings. The potential to revolutionize heart disease diagnosis and patient care is emphasized, further cementing the significance of machine learning in the field of healthcare. In practical terms, this implies that when the model indicates an individual as having heart disease, the likelihood of accuracy is notably high, signifying a significant advancement in the landscape of medical diagnostics. Future directions for this study could involve expanding the scope by incorporating more extensive medical imaging datasets. Leveraging such data could enhance image-based heart disease prediction, potentially leading to even more accurate and robust diagnostic tools in the field of cardiovascular health. Furthermore, exploring ensemble models that merge the strengths of multiple algorithms may offer promising avenues for further improving predictive accuracy in the field of heart disease prediction. These considerations shed light on the multifaceted nature of heart disease prediction research, emphasizing the need for ongoing refinement and innovation in this critical domain. Future research directions should also prioritize the refinement of models and expansion of datasets. In contrast to [42,43], our study employs a distinct dataset, leveraging its unique characteristics to enhance the robustness and generalizability of the models. Furthermore, the selection of machine learning models in our work deviates from those used in the cited studies,
contributing to the innovative aspect of our approach. Importantly, the outcomes of our models exhibit a noteworthy improvement in predictive accuracy, establishing a superior performance benchmark.
This nuanced combination of dataset, model selection, and elevated accuracy underscores the distinctive contribution of our work to the field of heart disease prediction. It positions our study as an advancement beyond existing research, offering a more refined and accurate predictive framework.
Author Contributions: Conceptualization, A.O. and F.S.; methodology, A.O. and F.S.; software, A.O.; validation, S.B., A.M.A. and S.N.Q.; formal analysis, A.O., F.S., S.B., A.M.A. and S.N.Q.; investigation, A.O., S.B., A.M.A. and S.N.Q.; resources, S.B., A.M.A. and S.N.Q.; data curation, A.O.; writing-original draft preparation, A.O. and F.S.; writing-review and editing, A.O., F.S., S.B., A.M.A. and S.N.Q.; visualization, A.O.; supervision, F.S.; project administration, F.S. and A.M.A.; funding acquisition, A.M.A. and S.N.Q. All authors have read and agreed to the published version of the manuscript.
Funding: This work was supported and funded by the Deanship of Scientific Research at Imam Mohammad Ibn Saud Islamic University (IMSIU) (grant number IMSIU-RG23077).
Institutional Review Board Statement: Not applicable.
Informed Consent Statement: Not applicable.
Data Availability Statement: The datasets are available online and upon request.
Acknowledgments: The authors extend their appreciation to the Deanship of Scientific Research at Imam Mohammad Ibn Saud Islamic University for funding this work through Grant Number IMSIU-RG23077.
Conflicts of Interest: The authors declare no conflicts of interest.

References

  1. World Health Organization. WHO Cardiovascular Diseases. Available online: https://www.who.int/health-topics/ cardiovascular-diseases#tab=tab_1 (accessed on 19 January 2022).
  2. Ramesh, A.N.; Kambhampati, C.; Monson, J.R.; Drew, P.J. Artificial intelligence in medicine. Ann. R. Coll. Surg. Engl. 2004, 86, 334. [CrossRef] [PubMed]
  3. Abdellatif, A.; Mubarak, H.; Abdellatef, H.; Kanesan, J.; Abdelltif, Y.; Chow, C.-O.; Chuah, J.H.; Gheni, H.M.; Kendall, G. Computational detection and interpretation of heart disease based on conditional variational auto-encoder and stacked ensemblelearning framework. Biomed. Signal Process. Control 2024, 88, 105644. [CrossRef]
  4. Tartarisco, G.; Cicceri, G.; Bruschetta, R.; Tonacci, A.; Campisi, S.; Vitabile, S.; Cerasa, A.; Distefano, S.; Pellegrino, A.; Modesti, P.A.; et al. An intelligent Medical Cyber-Physical System to support heart valve disease screening and diagnosis. Expert Syst. Appl. 2024, 238, 121772. [CrossRef]
  5. Cuevas-Chávez, A.; Hernández, Y.; Ortiz-Hernandez, J.; Sánchez-Jiménez, E.; Ochoa-Ruiz, G.; Pérez, J.; González-Serna, G. A Systematic Review of Machine Learning and IoT Applied to the Prediction and Monitoring of Cardiovascular Diseases. Healthcare 2023, 11, 2240. [CrossRef] [PubMed]
  6. Plati, D.K.; Tripoliti, E.E.; Bechlioulis, A.; Rammos, A.; Dimou, I.; Lakkas, L.; Watson, C.; McDonald, K.; Ledwidge, M.; Pharithi, R.; et al. A Machine Learning Approach for Chronic Heart Failure Diagnosis. Diagnostics 2021, 11, 1863. [CrossRef] [PubMed]
  7. Kim, J.O.; Jeong, Y.-S.; Kim, J.H.; Lee, J.-W.; Park, D.; Kim, H.-S. Machine Learning-Based Cardiovascular Disease Prediction Model: A Cohort Study on the Korean National Health Insurance Service Health Screening Database. Diagnostics 2021, 11, 943. [CrossRef]
  8. Mhamdi, L.; Dammak, O.; Cottin, F.; Ben Dhaou, I. Artificial Intelligence for Cardiac Diseases Diagnosis and Prediction Using ECG Images on Embedded Systems. Biomedicines 2022, 10, 2013. [CrossRef]
  9. Özbilgin, F.; Kurnaz, Ç.; Aydın, E. Prediction of Coronary Artery Disease Using Machine Learning Techniques with Iris Analysis. Diagnostics 2023, 13, 1081. [CrossRef]
  10. Brites, I.S.G.; da Silva, L.M.; Barbosa, J.L.V.; Rigo, S.J.; Correia, S.D.; Leithardt, V.R.Q. Machine Learning and IoT Applied to Cardiovascular Diseases Identification through Heart Sounds: A Literature Review. Repositório Comum (Repositório Científico de Acesso Aberto de Portugal). 2021. Available online: https://www.preprints.org/manuscript/202110.0161/v1 (accessed on 15 June 2023).
  11. Papandrianos, N.I.; Feleki, A.; Papageorgiou, E.I.; Martini, C. Deep Learning-Based Automated Diagnosis for Coronary Artery Disease Using SPECT-MPI Images. J. Clin. Med. 2022, 11, 3918. [CrossRef]
  12. Al-Absi, H.R.H.; Islam, M.T.; Refaee, M.A.; Chowdhury, M.E.H.; Alam, T. Cardiovascular Disease Diagnosis from DXA Scan and Retinal Images Using Deep Learning. Sensors 2022, 22, 4310. [CrossRef]
  13. El Naqa, I.; Murphy, M.J. What Is Machine Learning? Springer International Publishing: Berlin/Heidelberg, Germany, 2015; pp. 3-11.
  14. Bhardwaj, R.; Nambiar, A.R.; Dutta, D. A study of machine learning in healthcare. In Proceedings of the 2017 IEEE 41st Annual Computer Software and Applications Conference (COMPSAC), Torino, Italy, 4-8 July 2017; IEEE: New York, NY, USA, 2017; Volume 2, pp. 236-241.
  15. Brownlee, J. What is Machine Learning: A Tour of Authoritative Definitions and a Handy One-Liner You Can Use. Available online: www.machinelearningmastery.com (accessed on 25 November 2023).
  16. Oresko, J.J.; Jin, Z.; Cheng, J.; Huang, S.; Sun, Y.; Duschl, H.; Cheng, A.C. A wearable smartphone-based platform for real-time cardiovascular disease detection via electrocardiogram processing. IEEE Trans. Inf. Technol. Biomed. 2010, 14, 734-740. [CrossRef] [PubMed]
  17. Sharean, T.M.A.M.; Johncy, G. Deep learning models on Heart Disease Estimation-A review. J. Artif. Intell. 2022, 4, 122-130. [CrossRef]
  18. Sudha, V.K.; Kumar, D. Hybrid CNN and LSTM network For heart disease prediction. SN Comput. Sci. 2023, 4, 172. [CrossRef]
  19. Bhardwaj, R.; Sethi, A.; Nambiar, R. Big data in genomics: An overview. In Proceedings of the 2014 IEEE International Conference on Big Data (Big Data), Beijing, China, 4-7 August 2014; IEEE: New York, NY, USA, 2014; pp. 45-49.
  20. Kayyali, B.; Knott, D.; Van Kuiken, S. The Big-Data Revolution in US Health Care: Accelerating Value and Innovation; Mc Kinsey & Company: Chicago, IL, USA, 2013; Volume 2, pp. 1-13.
  21. Mohan, S.; Thirumalai, C.; Srivastava, G. Effective heart disease prediction using hybrid machine learning techniques. IEEE Access 2019, 7, 81542-81554. [CrossRef]
  22. Singh, A.; Kumar, R. February. Heart disease prediction using machine learning algorithms. In Proceedings of the 2020 International Conference on Electrical and Electronics Engineering (ICE3), Gorakhpur, India, 14-15 February 2020; IEEE: New York, NY, USA, 2020; pp. 452-457.
  23. Gavhane, A.; Kokkula, G.; Pandya, I.; Devadkar, K. March. Prediction of heart disease using machine learning. In Proceedings of the 2018 Second International Conference on Electronics, Communication and Aerospace Technology (ICECA), Coimbatore, India, 29-31 March 2018; IEEE: New York, NY, USA, 2018; pp. 1275-1278.
  24. Kavitha, M.; Gnaneswar, G.; Dinesh, R.; Sai, Y.R.; Suraj, R.S. Heart disease prediction using hybrid machine learning model. In Proceedings of the 2021 6th International Conference on Inventive Computation Technologies (ICICT), Coimbatore, India, 20-22 January 2021; IEEE: New York, NY, USA, 2021; pp. 1329-1333.
  25. Amiri, A.M.; Armano, G. Heart sound analysis for diagnosis of heart diseases in newborns. APCBEE Procedia 2013, 7, 109-116. [CrossRef]
  26. Liu, M.; Kim, Y. Classification of heart diseases based on ECG signals using long short-term memory. In Proceedings of the 2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), Honolulu, HI, USA, 18-21 July 2018; IEEE: New York, NY, USA, 2018; pp. 2707-2710.
  27. Algarni, M.; Al-Rezqi, A.; Saeed, F.; Alsaeedi, A.; Ghabban, F. Multi-constraints based deep learning model for automated segmentation and diagnosis of coronary artery disease in X-ray angiographic images. PeerJ Comput. Sci. 2022, 8, e993. [CrossRef] [PubMed]
  28. Hasan, A.M.; Shin, J.; Das, U.; Srizon, A.Y. Identifying prognostic features for predicting heart failure by using machine learning algorithm. In Proceedings of the ICBET’21: 2021 11th International Conference on Biomedical Engineering and Technology, Tokyo, Japan, 17-20 March 2021; pp. 40-46.
  29. Deepika, K.; Seema, S. Predictive analytics to prevent and control chronic diseases. In Proceedings of the 2016 2nd International Conference on Applied and Theoretical Computing and Communication Technology (iCATccT), Bangalore, India, 21-23 July 2016; IEEE: New York, NY, USA, 2016; pp. 381-386.
  30. Uyar, K.; Ilhan, A. Diagnosis of heart disease using genetic algorithm based trained recurrent fuzzy neural networks. Procedia Comput. Sci. 2017, 120, 588-593. [CrossRef]
  31. Deng, M.; Wang, C.; Tang, M.; Zheng, T. Extracting cardiac dynamics within ECG signal for human identification and cardiovascular diseases classification. Neural Netw. 2018, 100, 70-83. [CrossRef]
  32. Das, R.; Turkoglu, I.; Sengur, A. Effective diagnosis of heart disease through neural networks ensembles. Expert Syst. Appl. 2009, 36, 7675-7680. [CrossRef]
  33. Huang, J.-D.; Wang, J.; Ramsey, E.; Leavey, G.; Chico, T.J.A.; Condell, J. Applying artificial intelligence to wearable sensor data to diagnose and predict cardiovascular disease: A review. Sensors 2022, 22, 8002. [CrossRef]
  34. Moshawrab, M.; Adda, M.; Bouzouane, A.; Ibrahim, H.; Raad, A. Smart Wearables for the Detection of Cardiovascular Diseases: A Systematic Literature Review. Sensors 2023, 23, 828. [CrossRef] [PubMed]
  35. Alkayyali, Z.K.; Idris, S.A.B.; Abu-Naser, S.S. A Systematic Literature Review of Deep and Machine Learning Algorithms in Cardiovascular Diseases Diagnosis. J. Theor. Appl. Inf. Technol. 2023, 101, 1353-1365.
  36. Jafari, M.; Shoeibi, A.; Khodatars, M.; Ghassemi, N.; Moridian, P.; Alizadehsani, R.; Khosravi, A.; Ling, S.H.; Delfan, N.; Zhang, Y.-D.; et al. Automated diagnosis of cardiovascular diseases from cardiac magnetic resonance imaging using deep learning models: A review. Comput. Biol. Med. 2023, 160, 106998. [CrossRef] [PubMed]
  37. Kim, H.; Ishag, M.I.M.; Piao, M.; Kwon, T.; Ryu, K.H. A data mining approach for cardiovascular disease diagnosis using heart rate variability and images of carotid arteries. Symmetry 2016, 8, 47. [CrossRef]
  38. Boulares, M.; Alotaibi, R.; AlMansour, A.; Barnawi, A. Cardiovascular disease recognition based on heartbeat segmentation and selection process. Int. J. Environ. Res. Public Health 2021, 18, 10952. [CrossRef] [PubMed]
  39. Moradi, H.; Al-Hourani, A.; Concilia, G.; Khoshmanesh, F.; Nezami, F.R.; Needham, S.; Baratchi, S.; Khoshmanesh, K. Recent developments in modeling, imaging, and monitoring of cardiovascular diseases using machine learning. Biophys. Rev. 2023, 15, 19-33. [CrossRef]
  40. Bhatt, C.M.; Patel, P.; Ghetia, T.; Mazzeo, P.L. Effective heart disease prediction using machine learning techniques. Algorithms 2023, 16, 88. [CrossRef]
  41. Zhang, S.; Yuan, Y.; Yao, Z.; Wang, X.; Lei, Z. Improvement of the performance of models for predicting coronary artery disease based on XGBoost algorithm and feature processing technology. Electronics 2022, 11, 315. [CrossRef]
  42. Hagan, R.; Gillan, C.J.; Mallett, F. Comparison of machine learning methods for the classification of cardiovascular disease. Inform. Med. Unlocked 2021, 24, 100606. [CrossRef]
  43. Ghongade, O.S.; Reddy, S.K.S.; Tokala, S.; Hajarathaiah, K.; Enduri, M.K.; Anamalamudi, S. A Comparison of Neural Networks and Machine Learning Methods for Prediction of Heart Disease. In Proceedings of the 2023 3rd International Conference on Intelligent Communication and Computational Techniques (ICCT), Jaipur, India, 19-20 January 2023; pp. 1-7.
Disclaimer/Publisher’s Note: The statements, opinions and data contained in all publications are solely those of the individual author(s) and contributor(s) and not of MDPI and/or the editor(s). MDPI and/or the editor(s) disclaim responsibility for any injury to people or property resulting from any ideas, methods, instructions or products referred to in the content.