تحليل مقارن لنماذج تعلم الآلة في توقع مرض الشريان التاجي مع اختيار ميزات محسّن Comparative analysis of machine learning models for coronary artery disease prediction with optimized feature selection

المجلة: International Journal of Cardiology، المجلد: 436
DOI: https://doi.org/10.1016/j.ijcard.2025.133443
PMID: https://pubmed.ncbi.nlm.nih.gov/40456317
تاريخ النشر: 2025-05-31

أولاوادي، ديفيد شعار ORCID ORCID:https://orcid.org/0000-0003-0188-9836سولادوي، أفيس أ.، أومودونبي، بولاجي أ.، أدرينتو، نيكولاس وأديانجو، إبراهيم أ. (2025) تحليل مقارن لنماذج التعلم الآلي لتوقع مرض الشريان التاجي مع اختيار ميزات محسّن. المجلة الدولية لأمراض القلب، 436. ص. 133443.
قد تختلف النسخة المقدمة هنا عن النسخة المنشورة أو النسخة المعتمدة. إذا كنت تنوي الاقتباس من العمل، يُنصح بالرجوع إلى نسخة الناشر:https://doi.org/10.1016/j.jjcard.2025.133443
البحث في جامعة يورك سانت جون (RaY) هو مستودع مؤسسي. يدعم مبادئ الوصول المفتوح من خلال جعل مخرجات البحث في الجامعة متاحة في شكل رقمي. حقوق الطبع والنشر للعناصر المخزنة في RaY تعود إلى المؤلفين و/أو مالكي حقوق الطبع والنشر الآخرين. يمكن للمستخدمين الوصول إلى النصوص الكاملة مجانًا، ويمكنهم تنزيل نسخة للدراسة الخاصة أو البحث غير التجاري. لمزيد من شروط إعادة الاستخدام، انظر شروط الترخيص التي تحكم المخرجات الفردية. بيان سياسة المستودعات المؤسسية.

تحليل مقارن لنماذج تعلم الآلة في توقع مرض الشريان التاجي مع اختيار ميزات محسّن

ديفيد ب. أولواد أفيفز أ. سولادوي بولاجي أ. أومودونبي نيكولاس أدرينتو إبراهيم أ. أديانجو قسم الصحة العامة والصحة المساعدة، كلية الصحة والرياضة وعلم الأحياء، جامعة شرق لندن، لندن، المملكة المتحدة قسم البحث والابتكار، مؤسسة ميدواي NHS، جيلينغهام ME7 5NY، المملكة المتحدة قسم الصحة العامة، جامعة يورك سانت جون، لندن، المملكة المتحدة كلية إدارة الصحة والرعاية، جامعة أردن، منزل أردن، حديقة ميدلمارش، كوفنتري CV3 4FJ، المملكة المتحدة قسم هندسة الحاسوب، الجامعة الفيدرالية، أوي، إكيتي، نيجيريا قسم الطب والجراحة، جامعة لادوك أكينتولا للتكنولوجيا، أجبوموسو، نيجيريا

معلومات المقال

الكلمات المفتاحية:

مرض الشريان التاجي
تعلم الآلة
اختيار الميزات
تحسين بحث النسر الأصلع
الغابة العشوائية

الملخص

الخلفية: مرض الشريان التاجي (CAD) هو سبب رئيسي للوفاة على مستوى العالم، مما يستلزم التنبؤ المبكر والدقيق من أجل إدارة أفضل. غالبًا ما تكون التشخيصات التقليدية تدخّلية ومكلفة وأقل وصولاً. تقدم تقنيات التعلم الآلي (ML) بديلاً غير تدخلي، ولكن البيانات عالية الأبعاد والازدواجية يمكن أن تعيق الأداء. تدمج هذه الدراسة تحسين بحث النسر الأصلع (BESO) لاختيار الميزات لتحسين تصنيف CAD باستخدام نماذج متعددة من التعلم الآلي. الطرق: مجموعتان بيانات متاحتان للجمهور، فرامينغهام (4200 حالة، 15 ميزة) و – تم استخدام Alizadeh Sani (304 حالة، 55 ميزة). الأول يتنبأ بخطر الإصابة بمرض الشريان التاجي لمدة 10 سنوات، بينما الثاني يصنف الحالة الحالية لمرض الشريان التاجي. شمل معالجة البيانات تعويض القيم المفقودة، والتطبيع، وترميز الفئات، وتوازن الفئات باستخدام SMOTE. استخدمنا استراتيجية التحقق من الصحة بنسبة 70-30 مع تحسين المعلمات الفائقة التجريبية، مما يوفر تطوير نموذج نهائي أكثر موثوقية من التحقق المتقاطع. تم تطبيق BESO لتحسين اختيار الميزات، متفوقًا بشكل كبير على الطرق التقليدية مثل RFE وLASSO. تم تدريب وتقييم ستة نماذج تعلم آلي – KNN، والانحدار اللوجستي، وSVM مع نوى خطية، ومتعددة الحدود، وRBF، وغابة عشوائية. النتائج: حققت الغابة العشوائية أعلى أداء عبر كلا المجموعتين البيانيّتين. في مجموعة بيانات Framingham، سجلت RF الدقة، تتفوق بشكل كبير على درجات المخاطر السريرية التقليدية الدقة). كانت النماذج الخطية أفضل أداءً في – مجموعة بيانات Alizadeh Sani (دقة 90%) مقارنةً بـ Framingham (66%)، مما يشير إلى أن خصائص مجموعة البيانات تؤثر بشكل كبير على فعالية النموذج. الخلاصة: يعزز BESO بشكل كبير اختيار الميزات، مع ظهور RF كأفضل مصنف. الدقة) وتفوق بشكل كبير على درجات المخاطر السريرية المعتمدة. تبرز هذه الدراسة إمكانيات تشخيص CAD المدعوم بالذكاء الاصطناعي، مما يدعم الكشف المبكر وتحسين نتائج المرضى. يجب أن تركز الأعمال المستقبلية على التحقق من الصحة المستقبلية والتنفيذ السريري.

1. المقدمة

تظل مرض الشريان التاجي (CAD) واحدة من الأسباب الرئيسية للمراضة والوفيات في جميع أنحاء العالم، مما يساهم بشكل كبير في العبء العالمي للأمراض القلبية الوعائية. يتميز CAD بتضيق أو انسداد الشرايين التاجية بسبب تصلب الشرايين، مما يقيّد تدفق الدم إلى القلب، مما قد يؤدي إلى مضاعفات خطيرة مثل احتشاء عضلة القلب، وفشل القلب، والسكتة القلبية المفاجئة.
الموت [2]. الكشف المبكر عن مرض الشريان التاجي أمر بالغ الأهمية لمنع تقدمه، وتحسين نتائج المرضى، وتقليل تكاليف الرعاية الصحية [3]. ومع ذلك، فإن الطرق التشخيصية التقليدية بما في ذلك تخطيط القلب الكهربائي (ECG)، وتصوير القلب بالموجات فوق الصوتية، وتصوير الأوعية، واختبارات الإجهاد غالبًا ما تكون تدخّلية، مكلفة، أو تعتمد على خبرة متخصصة [4]. وقد أدت هذه القيود إلى زيادة الاهتمام بتقنيات التعلم الآلي (ML) كبدائل غير تدخّلية تعتمد على البيانات للتنبؤ بمخاطر مرض الشريان التاجي باستخدام بيانات المرضى المتاحة بسهولة [5].
لقد برز التعلم الآلي كأداة تحويلية في الرعاية الصحية، مما يمكّن من تحليل مجموعات البيانات الكبيرة والمعقدة لكشف الأنماط التي قد تفوتها الأساليب السريرية التقليدية. في سياق توقع مرض الشريان التاجي، تستفيد نماذج التعلم الآلي من بيانات المرضى التاريخية مثل الخصائص الديموغرافية، وعوامل نمط الحياة، ونتائج المختبر، والأعراض السريرية لتقديم تقييمات دقيقة للمخاطر. لقد نجحت الدراسات السابقة في تطبيق خوارزميات التعلم تحت الإشراف، بما في ذلك الانحدار اللوجستي، وآلات الدعم الشعاعي، وأقرب الجيران، وطرق التجميع مثل الغابات العشوائية، لتصنيف مرضى الشريان التاجي بناءً على عوامل المخاطر. على الرغم من وعدها، غالبًا ما تواجه هذه النماذج تحديات ناتجة عن الميزات الزائدة أو غير ذات الصلة أو المرتبطة بشكل كبير في مجموعات البيانات الطبية، مما يمكن أن يؤدي إلى تدهور الأداء من خلال التسبب في الإفراط في التكيف، وزيادة التعقيد الحسابي، وتقليل القابلية للتفسير.
اختيار الميزات هو استراتيجية حاسمة للتغلب على هذه التحديات وتعزيز كل من دقة وكفاءة نماذج التعلم الآلي. تُستخدم تقنيات تقليل الأبعاد التقليدية، مثل تحليل المكونات الرئيسية (PCA) وإزالة الميزات التكرارية (RFE)، على نطاق واسع للتخلص من المتغيرات غير ذات الصلة. ومع ذلك، قد تكون هذه الطرق غير كافية عند تطبيقها على مجموعات البيانات المعقدة وعالية الأبعاد الشائعة في التطبيقات الطبية. استجابةً لذلك، اكتسبت خوارزميات التحسين المستوحاة من الطبيعة شعبية لقدرتها على التنقل بكفاءة في مساحات البحث الكبيرة وتحديد الميزات الأكثر تنبؤًا. من بين هذه الخوارزميات، ظهرت خوارزمية تحسين بحث النسر الأصلع (BESO) مؤخرًا كنهج واعد. مستوحاة من سلوك البحث عن الطعام للنسر الأصلع، توازن BESO بين الاستكشاف والاستغلال، متجنبة فخاخ الأمثل المحلي وتعزز تعميم النموذج. إن تطبيقها في اختيار الميزات يوفر طريقًا جديدًا لتحسين خطوط أنابيب التعلم الآلي في توقع CAD.
تهدف هذه الدراسة إلى تطوير خط أنابيب تعلم آلي مُحسّن لتوقع مرض الشريان التاجي من خلال دمج اختيار الميزات القائم على BESO مع خوارزميات تصنيف متعددة، بما في ذلك KNN و LR و SVM مع نوى مختلفة و RF. الأهداف المحددة هي ثلاثة أضعاف: (أ) تقييم تأثير BESO على اختيار الميزات وأداء النموذج اللاحق، (ب) مقارنة دقة التنبؤ لنماذج التعلم الآلي المختلفة عبر مجموعتين من بيانات مرض الشريان التاجي، و (ج) تحديد النموذج الأكثر فعالية للكشف المبكر عن مرض الشريان التاجي. من خلال معالجة هذه الأهداف، تسعى هذه البحث إلى تعزيز الحلول الصحية المدفوعة بالذكاء الاصطناعي، وتحسين تقييم مخاطر مرض الشريان التاجي، وتعزيز الاستراتيجيات غير الغازية للتشخيص المبكر، مما يؤدي في النهاية إلى تحسين نتائج المرضى.

2. المنهجية

استخدمت هذه الدراسة خط أنابيب تعلم آلي منظم لتوقع مرض الشريان التاجي (CAD)، يتكون من جمع البيانات، والمعالجة المسبقة، واختيار الميزات باستخدام خوارزمية تحسين مستوحاة من الطبيعة، وتدريب النموذج مع التقييم. يتم وصف الخطوات المتخذة في هذا البحث بالتفصيل أدناه وتظهر في الشكل 1.

2.1. جمع البيانات

تم استخدام مجموعتين من البيانات متاحة للجمهور في هذه الدراسة: مجموعة بيانات فرامينغهام و -مجموعة بيانات علي زاده ساني. تم اختيار هذه المجموعات لتمثيل جوانب مختلفة من توقع مرض القلب والأوعية الدموية.
  • مجموعة بيانات فرامينغهام: هذه المجموعة تأتي من دراسة فرامينغهام للقلب، وهي دراسة طويلة الأمد مستمرة عن مجموعة من سكان فرامينغهام، ماساتشوستس. تحتوي على 4200 حالة مع 15 ميزة تنبؤية تتعلق بالخصائص الديموغرافية، والتاريخ الطبي، وعوامل الخطر المرتبطة بـ CAD. تشمل مجموعة البيانات بيانات طولية تم جمعها على مدى عدة دورات فحص، مع فترة متابعة لمدة 10 سنوات للأحداث القلبية الوعائية.
  • -مجموعة بيانات علي زاده ساني: تم اختيار هذه المجموعة بشكل خاص كمجموعة بيانات مكملة لأنها تحتوي على قياسات سريرية أكثر تفصيلاً مقارنة بمجموعة بيانات فرامينغهام. تم نشرها بواسطة علي زاده ساني وآخرين (2013)، وتم جمعها من مركز شهيد رجائي للقلب والطب والبحث في طهران [7]. تحتوي على 304 حالات مع 55 ميزة تغطي عدة أنماط، بما في ذلك الخصائص الديموغرافية (العمر، الجنس)، الأعراض (ألم الصدر النموذجي، ألم الصدر غير النموذجي)، نتائج الفحص (ضغط الدم الانقباضي والانبساطي)، قراءات تخطيط القلب (ارتفاع ST، انخفاض ST)، اختبارات المختبر (سكر الدم الصائم، الكرياتينين، الدهون الثلاثية)، وقياسات تخطيط صدى القلب (كسر القذف). المتغير الرئيسي هو وجود CAD، المحدد كـ تضيق في واحد على الأقل من الشرايين التاجية الرئيسية، كما تحدده الأشعة التاجية، والتي تعتبر المعيار الذهبي لتشخيص CAD.
استخدام هاتين المجموعتين المتميزتين من البيانات يمكّن من تقييم قوي لـ
الشكل 1. الإطار المنهجي لتوقع CAD القائم على تعلم الآلة.
المنهجية عبر مساحات الميزات المختلفة، وأحجام العينات، وخصائص السكان، مما يعزز من قابلية تعميم نتائجنا.

2.2. المعالجة المسبقة للبيانات

لضمان جودة وموثوقية مجموعات البيانات لتعلم الآلة، تم تطبيق خط أنابيب صارم للمعالجة المسبقة للبيانات:
  • التعامل مع القيم المفقودة: تم تعويض القيم المفقودة باستخدام تعويض الوسيط، وهو قوي ضد القيم الشاذة ويمنع انحراف البيانات.
  • تطبيع الميزات: تم توحيد الميزات العددية باستخدام StandardScaler من Scikit-learn، الذي يطبع البيانات لتكون ذات متوسط صفر وانحراف معياري واحد.
  • ترميز الفئات: تم تحويل المتغيرات الفئوية إلى قيم عددية باستخدام LabelEncoder من Scikit-learn، الذي يخصص لكل فئة عدد صحيح فريد.
  • التعامل مع عدم توازن الفئات: تم استخدام تقنية الزيادة الاصطناعية للأقليات (SMOTE) لمعالجة عدم توازن الفئات من خلال توليد عينات اصطناعية للفئة الأقل بينما يتم الحفاظ على توزيع الفئة الأكثر. تم إجراء الزيادة بشكل منفصل على مجموعات التدريب والاختبار لمنع تسرب البيانات وتحسين تعميم النموذج.
ضمنت هذه الخطوات المسبقة أن تكون البيانات نظيفة، موحدة، ومتوازنة لتدريب النموذج بشكل فعال.

2.3. اختيار الميزات باستخدام تحسين بحث النسر الأصلع

تم إجراء اختيار الميزات باستخدام خوارزمية تحسين بحث النسر الأصلع (BESO)، وهي نهج ميتاهيرستيكي مستوحى من الطبيعة يعتمد على سلوك الصيد للنسر الأصلع. تم اختيار BESO لقدرته على استكشاف مساحات البحث عالية الأبعاد بكفاءة مع تحقيق توازن بين الاستكشاف والاستغلال، مما يجعله مناسبًا جدًا لاختيار الميزات.
  • تقليل الميزات: نظرًا لأن مجموعة بيانات فرامينغهام تحتوي على 15 ميزة و -مجموعة بيانات علي زاده ساني تحتوي على 55 ميزة، كان من الضروري تقليل الأبعاد لتقليل التعقيد الحسابي وتحسين أداء النموذج.
  • آلية التحسين: اختار BESO بشكل تكراري الميزات الأكثر تنبؤًا مع تجنب الأمثل المحلية، مما يضمن أن المجموعة النهائية من الميزات تحتفظ بأكثر المعلومات صلة بتوقع CAD.
من خلال تطبيق BESO، تم تحديد مجموعة ميزات مثالية، مما يحسن من كفاءة ودقة نماذج تعلم الآلة اللاحقة. تمثل الجدول 1 الشيفرة الزائفة المستخدمة لتنفيذ BESO لاختيار الميزات.

2.4. خوارزميات تعلم الآلة لتوقع

استخدمت هذه الدراسة مجموعة متنوعة من خوارزميات تعلم الآلة لتطوير نماذج تنبؤية قوية لمرض الشريان التاجي (CAD). تم اختيار هذه الخوارزميات بناءً على فعاليتها المثبتة في مهام التصنيف وقدرتها على التعامل مع مجموعات بيانات معقدة ذات تفاعلات ميزات متغيرة. تشمل الخوارزميات التي تم تنفيذها في هذه الدراسة:
  • K-أقرب الجيران (KNN): خوارزمية تعلم قائمة على الحالات وغير معلمية، تم اختيار KNN لبساطتها وفعاليتها في التقاط الأنماط المحلية. يمكنها نمذجة الحدود القرار المعقدة دون افتراضات حول توزيع البيانات الأساسي. لقد أظهرت KNN نجاحًا في تطبيقات تشخيص طبية حيث غالبًا ما تشترك مجموعات محلية من المرضى المتشابهين في التشخيصات [16]. اخترنا هذه الخوارزمية كخط أساس بسبب قابليتها للتفسير وقدرتها على التعامل مع العلاقات غير الخطية.
  • الانحدار اللوجستي (LR): كنموذج خطي احتمالي، تم تضمين LR لقابليته للتفسير وتاريخه المثبت في توقع المخاطر الطبية. يوفر نسب الأرجحية للميزات الفردية، مما يسمح للأطباء بفهم مساهمة عوامل الخطر المحددة. يستخدم مقياس خطر فرامينغهام نفسه الانحدار اللوجستي،
الجدول 1
BESO لاختيار الميزات.
Input:
    - dataset (features, target)
    - population size (N)
    - maximum iterations (MaxIter)
    - search space dimension (D, number of features)
    - fitness function (e.g., model performance with selected features)
    - parameters (alpha, beta, c1, c2, etc.)
    Output:
    - optimal feature subset
    1. Initialize population:
    - generate N random solutions (feature subsets) represented as binary vectors (0 or 1, where 1 indicates feature selection).
    2. Evaluate fitness:
    - for each solution in the population:
    Select features based on the solution's binary vector.
    Train a model using the selected features.
    Calculate the fitness (e.g., accuracy, F1-score) of the model.
    3. Iterative optimization (for iteration = 1 to MaxIter):
    - phase 1 (select space):
    - calculate the mean of the population.
    - update solutions based on the mean and random search.
    - phase 2 (search space):
    - calculate the best solution (eagle with the best fitness).
    - update solutions based on the best solution and random search.
    - phase 3 (swipe space):
    - update solutions based on the best solution, previous solution, and random search, simulating eagle's swoop.
    - evaluate fitness:
    - recalculate the fitness of each solution.
    - update best solution:
    - if a solution with better fitness is found, update the best solution.
    4. Return optimal feature subset:
    - return the feature subset corresponding to the best solution found during the optimization process.
مما يجعله نهجًا قياسيًا لتقييم مخاطر القلب والأوعية الدموية [17]. بالإضافة إلى ذلك، يعمل LR كخط أساس مهم لتحديد ما إذا كانت مهمة توقع CAD تتطلب نماذج غير خطية أكثر تعقيدًا.
  • آلات الدعم الناقل (SVM): تم استخدام SVM مع ثلاث دوال نواة لتقييم كل من الأساليب الخطية وغير الخطية لتصنيف CAD:
  • نواة خطية: استخدمت لتحديد ما إذا كانت البيانات قابلة للفصل خطيًا ولتكون نقطة مقارنة للنوى الأكثر تعقيدًا.
  • نواة متعددة الحدود: تم تطبيقها لالتقاط العلاقات غير الخطية من الدرجة متعددة الحدود للحدود القرار الأكثر تعقيدًا، والتي قد تمثل بشكل أفضل التفاعل بين عوامل الخطر المتعددة.
  • نواة دالة القاعدة الشعاعية (RBF): تم اختيارها لقدرتها على التعامل مع البيانات غير الخطية بشكل كبير من خلال رسم الميزات المدخلة إلى مساحة أعلى الأبعاد. لقد أظهرت نوى RBF أداءً متفوقًا في دراسات توقع CAD السابقة [18].
  • الغابة العشوائية (RF): كطريقة تعلم جماعية، تم اختيار RF لقدرتها على التعامل مع البيانات عالية الأبعاد، ومقاومتها للتكيف الزائد، وتقدير أهمية الميزات الكامنة. لقد أظهرت الدراسات السابقة فعاليتها في توقع مخاطر القلب والأوعية الدموية [19]. تجمع RF بين عدة أشجار قرار من خلال التصويت بالأغلبية، مما يلتقط التفاعلات المعقدة بين الميزات مع الحفاظ على قابلية تفسير النموذج من خلال تصنيفات أهمية الميزات.
تم اختيار مجموعة من هذه النماذج، التي تضم كل من الأساليب الخطية وغير الخطية، عمدًا لتوفير تقييم شامل لمختلف نماذج الخوارزميات على مجموعات بيانات CAD، مما يضمن أن استنتاجاتنا حول اختيار النموذج الأمثل مدعومة بشكل جيد.

2.5. تقييم الأداء

لضمان تقييم قوي وموثوق لنماذج تعلم الآلة، قمنا بتنفيذ استراتيجية تحقق شاملة تركز على تقييم الاحتفاظ مع تحسين المعلمات الفائقة التجريبية.

2.5.1. نهج تقييم الاحتفاظ

قمنا بتطبيق نهج تقييم الاحتفاظ مع تم اختيار طريقة تقسيم التدريب والاختبار بدلاً من التحقق المتقاطع. تم اختيار هذه الطريقة لأنها تعكس بشكل أفضل سيناريوهات النشر في العالم الحقيقي حيث يجب أن تؤدي النماذج على بيانات غير مرئية تمامًا، وتساعد في تطوير نموذج نهائي قابل للنشر. بينما يعتبر التحقق المتقاطع ذا قيمة لضبط المعلمات الفائقة، فإن تقييم الاحتفاظ يوفر تقييمًا أكثر واقعية لكيفية أداء النماذج في الممارسة السريرية ويتجنب تسرب المعلومات المحتمل بين الطيات الذي يمكن أن يحدث مع التحقق المتقاطع.

2.5.2. تحسين المعلمات الفائقة التجريبية

لكل خوارزمية، قمنا بإجراء تحسين للمعلمات الفائقة باستخدام نهج تجريبي يجمع بين المعرفة الميدانية والتجريب المتكرر:
  • KNN: قمنا باختبار عدد الجيران (k) من 1 إلى 15، ومقاييس المسافة (إقليدي، مانهاتن، مينكوفسكي)، مع اختيار التكوينات التي حققت أقصى دقة على مجموعات التحقق.
  • الانحدار اللوجستي: قمنا بضبط معامل الانتظام (C) تجريبيًا من 0.001 إلى 1000 على مقياس لوغاريتمي، واختبرنا كل من عقوبات L1 و L2، واختارنا التركيبة التي حققت أفضل أداء.
  • آلية دعم المتجهات: بالنسبة لجميع النوى (خطية، متعددة الحدود، RBF)، قمنا بتحسينها تجريبيًا:
  • معامل الانتظام (C) من 0.1 إلى 100
  • للنواة الخطية: قمنا أيضًا باختبار قيم تحمل مختلفة
  • للنواة متعددة الحدود: قمنا باختبار الدرجات من 2 إلى 5
  • بالنسبة لنواة RBF: قمنا بضبط معامل غاما من 0.001 إلى 1
  • الغابة العشوائية: قمنا بتحسين عدد الأشجار تجريبيًا (100-500)، والعمق الأقصى (5-20)، والحد الأدنى من عينات الانقسام (2-10)، والحد الأدنى من عينات الورقة (1-5).
سمح لنا هذا النهج التجريبي بتحديد المعلمات الفائقة المثلى التي أنتجت أفضل أداء على مجموعة التحقق، والتي تم تأكيدها بعد ذلك على مجموعة الاختبار المحجوزة. تم اختيار أفضل تكوين لكل نموذج للتقييم النهائي والتقارير.

2.5.3. اختبار الدلالة الإحصائية

لتحديد ما إذا كانت الفروق في أداء النموذج ذات دلالة إحصائية، قمنا بإجراء إعادة أخذ عينات باستخدام طريقة البوتستراب لمجموعة الاختبار مع 1000 تكرار لتوليد فترات الثقة لكل مقياس أداء. تم تحديد الدلالة الإحصائية عندما فواصل الثقة للنماذج المختلفة لم تتداخل. توفر هذه الطريقة اختبار دلالة قوي مع احترام نموذج تقييم الاحتفاظ.

2.5.4. مقاييس التقييم

تم استخدام مقاييس التقييم التالية:
  • الدقة: تقيس الصحة العامة للنموذج في التنبؤ بمرض الشريان التاجي.
  • الدقة: تقيم نسبة التنبؤات الإيجابية الصحيحة بين جميع التنبؤات الإيجابية.
  • الاسترجاع (الحساسية): يقيس نسبة حالات مرض الشريان التاجي الفعلية التي تم تحديدها بشكل صحيح بواسطة النموذج.
  • درجة F1: توفر توازنًا بين الدقة والاسترجاع، وهي مفيدة بشكل خاص في التعامل مع عدم توازن الفئات.
  • المساحة تحت منحنى خصائص التشغيل المستقبلية (AUC-ROC): تقيم قدرة النموذج على التمييز بين الفئات الإيجابية والسلبية عبر إعدادات العتبة المختلفة.
جميع المقاييس مُبلغ عنها بـ فترات الثقة للإشارة إلى موثوقية تقديرات أدائنا.

2.6. الخط الأساسي

لتقييم مساهمة خوارزمية تحسين البحث عن النسر الأصلع (BESO) في اختيار الميزات بشكل دقيق، قمنا بتحديد أداء الأساس باستخدام:
  1. لا اختيار للميزات: تم تدريب النماذج باستخدام جميع الميزات المتاحة في كل مجموعة بيانات لتحديد معايير الأداء دون أي تقليل للميزات.
  2. طرق اختيار الميزات التقليدية: قمنا بتنفيذ ومقارنة عدة تقنيات معروفة لاختيار الميزات:
  • طرق التصفية: اختبار كاي-تربيع واكتساب المعلومات
  • طرق التغليف: الإزالة التكرارية للميزات (RFE)
  • طرق مضمنة: تنظيم LASSO
تسمح هذه المقارنات الأساسية بالتقييم المباشر لفعالية BESO في تحسين أداء النموذج وتقليل أبعاد الميزات مقارنة بالنماذج غير المحسّنة والنماذج التي تستخدم تقنيات اختيار الميزات القياسية.

2.7. المقارنة مع درجات المخاطر السريرية

لتحديد الأهمية السريرية، قمنا بمقارنة نماذج التعلم الآلي الخاصة بنا مع أدوات تقييم المخاطر السريرية المعتمدة:
  1. درجة خطر فريمينغهام (FRS): قمنا بتنفيذ درجة FRS المحدثة، التي تتنبأ بخطر الأحداث القلبية الوعائية على مدى 10 سنوات، كأساس سريري للمقارنة.
  2. SCORE (تقييم المخاطر التاجية المنهجي): تم تنفيذ نظام تقييم المخاطر الأوروبي كنقطة مقارنة سريرية إضافية.
  3. حاسبة مخاطر ASCVD: تم أيضًا تنفيذ حاسبة المخاطر من الكلية الأمريكية لأمراض القلب / جمعية القلب الأمريكية.
تم تقييم هذه الدرجات السريرية للمخاطر باستخدام نفس المعايير ونهج التحقق المتبادل كما في نماذج التعلم الآلي الخاصة بنا، مما يسمح بالمقارنة المباشرة بين الأساليب السريرية التقليدية ومنهجية التعلم الآلي المقترحة لدينا.

2.8. تعريف هدف التنبؤ

لوضوح التفسير السريري، قمنا بتعريف أهداف التنبؤ بدقة لكلا المجموعتين البيانية:
  1. مجموعة بيانات فريمينغهام: الهدف من التنبؤ هو خطر الإصابة بمرض الشريان التاجي السريري خلال 10 سنوات (بما في ذلك احتشاء عضلة القلب، والقصور التاجي، والذبحة الصدرية) كما تحدده بروتوكولات المتابعة لدراسة قلب فريمينغهام.
  2. مجموعة بيانات ز-علي زاده ساني: الهدف من التنبؤ هو حالة CAD الحالية، المحددة على أنها وجود تضيق في واحد على الأقل من الشرايين التاجية الرئيسية كما تحدده الأشعة التداخلية.
هذا التمييز حاسم للتفسير السريري، حيث تتنبأ مجموعة بيانات فرامنغهام بالمخاطر المستقبلية بينما -تصنيف مجموعة بيانات Alizadeh Sani لحالة المرض الحالية. يجب تفسير جميع مقاييس الدقة في سياق هذه الأهداف التنبؤية المحددة.

3. النتائج

استخدمت هذه الدراسة فرامينغهام و -تستخدم مجموعات بيانات Alizadeh Sani للتنبؤ بمرض الشريان التاجي (CAD) باستخدام خط أنابيب تعلم آلي منظم مع اختيار مجموعة فرعية من الميزات مدعومًا بخوارزمية تحسين بحث النسر الأصلع (BESO). تظهر النتائج التجريبية فعالية هذا النهج في اختيار مجموعات الميزات المثلى وتحسين دقة التنبؤ. توفر هذه القسم تحليلًا مفصلًا للنتائج، مقارنةً بأداء الجيران الأقرب (KNN)، وآلة الدعم الناقل (SVM) مع نوى خطية، متعددة الحدود، ووظيفة الأساس الشعاعي (RBF)، والانحدار اللوجستي (LR)، وغابة عشوائية (RF) عبر مقاييس التقييم مثل الدقة، والدقة الإيجابية، والاسترجاع، ودرجة F1. بالإضافة إلى ذلك، يتم مناقشة تأثير BESO على اختيار الميزات والأداء التنبؤي.

3.1. النتائج التجريبية على مجموعة بيانات فريمينغهام

تُعرض النتائج التي تم الحصول عليها من تطبيق نماذج التعلم الآلي المختارة على مجموعة بيانات فرامينغهام في الجدول 2. باستخدام BESO لاختيار الميزات، تم تحديد 10 ميزات مثالية من أصل 15: معدل ضربات القلب، العمر، مؤشر كتلة الجسم، التعليم، المدخن الحالي، عدد السجائر في اليوم، ضغط الدم الانقباضي، الكوليسترول الكلي، ارتفاع ضغط الدم السائد، والجنس، بينما تم التخلص من الميزات الخمس المتبقية. تم استخدام هذه الميزات المختارة كمتنبئات.
الجدول 2
تقييم أداء نماذج التعلم الآلي على مجموعة بيانات فريمينغهام بعد اختيار الميزات باستخدام BESO.
رقم التسلسل خوارزمية دقة دقة استدعاء درجة F1
1 KNN ( K-أقرب الجيران ) ) 0.81 0.83 0.81 0.81
2 الانحدار اللوجستي 0.66 0.66 0.66 0.66
٣ SVM (خطّي) 0.66 0.66 0.66 0.66
٤ SVM (rbf) 0.73 0.73 0.73 0.73
٥ SVM (متعدد الحدود) 0.69 0.69 0.69 0.69
٦ الغابة العشوائية 0.90 0.90 0.90 0.90
لـ CAD، والنتائج التي تم الحصول عليها ملخصة في الجدول 2.
بين النماذج، أظهر نموذج الغابة العشوائية (RF) أعلى أداء، محققًا أفضل النتائج عبر جميع مقاييس التقييم. لقد أظهر قدرة تنبؤية قوية بدقة عالية، وPrecision، وRecall، وF1-score، مما يدل على نموذج جيد التعميم مع أخطاء تصنيف قليلة. يمكن أن يُعزى هذا الأداء المتفوق إلى نهج التعلم الجماعي لـ RF، الذي يلتقط الأنماط المعقدة بفعالية مع تقليل الإفراط في التكيف.
على العكس من ذلك، كانت خوارزمية SVM مع نواة خطية والانحدار اللوجستي هي الأسوأ أداءً، حيث حققت دقة ودرجات F1 أقل بكثير. وهذا يشير إلى أن الحدود القرار الخطية قد لا تكون كافية لالتقاط تعقيد الأنماط المتعلقة بمرض الشريان التاجي في مجموعة البيانات. يشير الأداء الضعيف لهذه النماذج الخطية إلى وجود علاقات غير خطية بين الميزات ونتائج مرض الشريان التاجي.
أدى تطبيق SVM مع نواة RBF إلى تحسين الأداء، حيث أظهر زيادة ملحوظة في الدقة ودرجة F1 مقارنة بالنواة الخطية. وهذا يؤكد أن تحويل البيانات إلى فضاء أبعاد أعلى باستخدام RBF يساعد في التقاط العلاقات المعقدة في مجموعة البيانات، مما يؤدي إلى تصنيف أفضل. ومع ذلك، على الرغم من التحسينات، لا يزال أداء SVM مع RBF أقل من أداء Random Forest، مما يشير إلى أن قدرة RF على التعلم من عدة أشجار قرار تساهم في أدائها التنبؤي المتفوق.
حقق SVM مع نواة متعددة الحدود أداءً معتدلاً، متفوقًا على النواة الخطية ولكنه لم يصل إلى مستوى أداء نواة RBF وRandom Forest. وهذا يشير إلى أنه بينما يمكن للتحويلات متعددة الحدود نمذجة عدم الخطية، قد لا تكون فعالة مثل RBF أو طرق التجميع لهذه المجموعة من البيانات. أدت خوارزمية K-Nearest Neighbors (KNN) أداءً جيدًا نسبيًا، حيث حققت دقة مستقرة ودرجات F1 عبر مقاييس التقييم. وهذا يشير إلى أن الهيكل المحلي للبيانات يحتوي على معلومات قيمة للتصنيف. ومع ذلك، كان أداؤها لا يزال أقل قليلاً من RF، مما يعني أن طرق التجميع توفر نموذجًا أكثر عمومية. تشير الثبات في الدقة والدقة والاسترجاع ودرجة F1 عبر جميع النماذج إلى عدم وجود انحياز كبير نحو الإيجابيات الكاذبة أو السلبيات الكاذبة، وهو أمر حاسم في التشخيص الطبي.

3.2. النتائج التجريبية على مجموعة بيانات -مجموعة بيانات علي زاده ساني

للمزيد من التحقق من فعالية BESO في اختيار الميزات، تم تحليل مجموعة بيانات Z-Alizadeh Sani أيضًا. باستخدام BESO، تم اختيار 10 ميزات مثالية من 55 الأصلية: ألم الصدر النموذجي، ارتفاع ST، CR (الكرياتينين)، ألم الصدر غير الذبحي، همهمة الانبساط، WBC (كريات الدم البيضاء)، BMI، RWMA (شذوذ حركة الجدار الإقليمي)، ET-TTE (كسر الطرد)، وBP (ضغط الدم). يتم تلخيص أداء نماذج التعلم الآلي باستخدام هذه الميزات المختارة في الجدول 3.
أظهر Random Forest مرة أخرى أداءً ممتازًا، محققًا أعلى دقة ودقة واسترجاع ودرجة F1 عبر جميع النماذج. إن قدرته على الحفاظ على أداء عالٍ عبر مجموعات بيانات مختلفة تعزز من موثوقيته في التنبؤ بمرض الشريان التاجي. على عكس مجموعة بيانات Framingham، حقق الانحدار اللوجستي أداءً أفضل بكثير على مجموعة بيانات -مجموعة بيانات علي زاده ساني، محققًا نتائج قريبة من المثالية. وهذا يشير إلى أن عملية اختيار الميزات أدت إلى فضاء ميزات كان أكثر قابلية للفصل الخطي، مما يجعل الانحدار اللوجستي نموذجًا قابلاً للتطبيق لهذه المجموعة من البيانات.
الجدول 3
النتائج التجريبية من مجموعة بيانات Z-Alizadeh Sani باستخدام ميزات BESO.
رقم تسلسلي الخوارزمية الدقة الدقة الاسترجاع درجة F1
1 KNN ( ) 0.87 0.88 0.88 0.87
2 الانحدار اللوجستي 0.90 0.90 0.90 0.90
3 SVM (خطية) 0.89 0.89 0.89 0.88
4 SVM (RBF) 0.89 0.89 0.89 0.89
5 SVM (متعددة الحدود) 0.82 0.82 0.82 0.81
6 Random Forest 0.92 0.92 0.92 0.92
أظهرت SVM مع النوى الخطية وRBF أيضًا أداءً قويًا، مع دقة عالية ودرجات F1. تشير النتائج إلى أن مجموعة الميزات المختارة تحتوي على متنبئين ذوي صلة عالية، مما يسمح حتى للنماذج الخطية البسيطة بتحقيق أداء تنافسي. كما أن KNN أدت أداءً جيدًا، وإن كان أقل قليلاً من RF وSVM. كان أداء SVM مع نواة متعددة الحدود هو الأدنى على مجموعة بيانات -مجموعة بيانات علي زاده ساني. قد يشير ذلك إلى أن التحويل متعدد الحدود لم يكن مناسبًا جيدًا لفضاء الميزات المختار حديثًا. يشير انخفاض أداء SVM متعدد الحدود عبر مجموعات البيانات إلى أن فعاليته تعتمد بشكل كبير على توزيعات الميزات.

3.3. التحليل الإحصائي لأداء النموذج

كشف التحليل الإحصائي لنتائج التحقق المتقاطع عن اختلافات كبيرة بين أداء النماذج. على مجموعة بيانات Framingham، تفوق Random Forest (الدقة ) بشكل كبير على جميع النماذج الأخرى ( لجميع المقارنات). كان الفرق بين KNN (الدقة ) وSVM-RBF (الدقة ) أيضًا ذا دلالة إحصائية ( ).
على مجموعة بيانات -مجموعة بيانات علي زاده ساني، لم يكن الفرق في الأداء بين Random Forest (الدقة ) والانحدار اللوجستي (الدقة ذا دلالة إحصائية ، مما يشير إلى أداء متقارب لهذه النماذج. ومع ذلك، تفوق كل من RF وLR بشكل كبير على SVM مع نواة متعددة الحدود (الدقة = لكلا المقارنتين).

3.4. تأثير اختيار الميزات

لتحديد مساهمة خوارزمية BESO في اختيار الميزات، قمنا بمقارنة أداء النموذج قبل وبعد اختيار الميزات باستخدام طريقة التقييم الاحتفاظ. يقدم الجدول 4 أداء جميع النماذج بدون اختيار ميزات، مع طرق اختيار الميزات التقليدية، ومع اختيار ميزات BESO.
بالنسبة لمجموعة بيانات Z-Alizadeh Sani مع أبعاد ميزات أعلى (55 ميزة)، أظهر BESO تحسينًا كبيرًا مقارنةً بعدم اختيار الميزات وطرق التقليدية. تم ملاحظة أكبر تحسين للانحدار اللوجستي، الذي تحسن من 0.78 (بدون اختيار ميزات) إلى 0.90 (مع اختيار ميزات BESO)، وهو فرق ذو دلالة إحصائية كما تشير إليه فترات الثقة غير المتداخلة.
بالنسبة لمجموعة بيانات Framingham مع ميزات أقل (15)، كانت التحسينات أكثر تواضعًا. من الجدير بالذكر أن Random Forest قد أدت أداءً جيدًا بالفعل بدون اختيار ميزات، مما يشير إلى أن آلية أهمية الميزات المدمجة ساعدتها في تحديد الميزات ذات الصلة حتى بدون اختيار ميزات صريح.
الجدول 4
مقارنة أداء النموذج مع أساليب اختيار ميزات مختلفة.
مجموعة البيانات النموذج بدون اختيار ميزات RFE LASSO BESO
Framingham Random Forest 0.03 0.02 0.02
Framingham الانحدار اللوجستي 0.03 0.03 0.03
Framingham SVM (خطية) 0.04 0.03 0.03
Framingham SVM (RBF) 0.04 0.03 0.04
-مجموعة بيانات علي زاده ساني Random Forest 0.04 0.04 0.03
Z-Alizadeh Sani الانحدار اللوجستي 0.05 0.04 0.04
Z-Alizadeh Sani SVM (خطية) 0.05 0.04 0.04
Z-Alizadeh Sani SVM (RBF) 0.05 0.04 0.04

3.5. مقارنة مع درجات المخاطر السريرية

الجدول 5 يقارن أداء أفضل نموذج تعلم آلي لدينا (Random Forest مع اختيار ميزات BESO) ضد أدوات تقييم المخاطر السريرية المعتمدة باستخدام طريقة التقييم الاحتفاظ.
لقد تفوق نهج التعلم الآلي لدينا بشكل كبير على درجات المخاطر السريرية التقليدية في كلا مجموعتي البيانات كما يتضح من فترات الثقة غير المتداخلة. يشير هذا التحسين الكبير في الدقة التنبؤية إلى أن نماذج التعلم الآلي مع اختيار ميزات محسّن تقدم مزايا كبيرة على طرق تصنيف المخاطر التقليدية، مما قد يؤدي إلى تحديد أكثر دقة للمرضى ذوي المخاطر العالية الذين سيستفيدون من التدخلات الوقائية.

4. المناقشة

تؤكد نتائج هذه الدراسة فعالية نماذج التعلم الآلي في التنبؤ بمرض الشريان التاجي (CAD) عند اقترانها باختيار ميزات محسّن. إن التفوق المستمر لـ Random Forest (RF) عبر كلا مجموعتي البيانات يعزز من مجموعة متزايدة من الأدلة على أن طرق التجميع، وخاصة تلك المعتمدة على أشجار القرار، تتفوق في التشخيص الطبي بسبب دقتها التنبؤية العالية [20]. إن قدرة RF على تجميع عدة أشجار قرار تمكنه من التقاط تفاعلات الميزات المعقدة مع تقليل الإفراط في التخصيص، وهو تحدٍ شائع في مجموعات البيانات الطبية ذات البيانات الضوضائية أو عالية الأبعاد [21]. وقد تم الإبلاغ عن نتائج مماثلة في دراسات سابقة للتنبؤ بمرض الشريان التاجي، حيث غالبًا ما يتفوق RF على المصنفات التقليدية مثل الانحدار اللوجستي (LR) وآلات الدعم (SVM) [22]. يتماشى هذا مع أبحاث بريمان، الذي أظهر قوة RF في التعامل مع البيانات عالية الأبعاد وفعاليته في التنبؤ بمخاطر القلب والأوعية الدموية [23].
إن اكتشافًا بارزًا من هذه الدراسة هو التباين في أداء النماذج الخطية عبر مجموعتي البيانات. أظهر LR وSVM مع نواة خطية أداءً ضعيفًا على مجموعة بيانات Framingham ولكن أظهروا تحسنًا ملحوظًا على – مجموعة بيانات Alizadeh Sani. تشير هذه الفجوة إلى أن فعالية المصنفات الخطية تتأثر بشدة بطبيعة مجموعة الميزات المختارة [24]. في مجموعة بيانات Framingham، التي من المحتمل أن تحتوي على تفاعلات غير خطية حاسمة لتصنيف مرض الشريان التاجي، واجهت النماذج الخطية صعوبة في التقاط هذه العلاقات بشكل فعال. على العكس، قد تكون مجموعة الميزات المستمدة من مجموعة بيانات Z-Alizadeh Sani قد أدت إلى فضاء ميزات أكثر قابلية للفصل خطيًا، مما عزز من قوة التنبؤ لنموذج الانحدار اللوجستي [7]. هذه الملاحظة تؤكدها دراسة Alizadehsani وآخرون، الذين وجدوا أن أداء المصنفات الخطية في توقع مرض الشريان التاجي يعتمد على خصائص مجموعة البيانات ودرجة ارتباط الميزات [25].
كانت نتيجة ملحوظة في هذه الدراسة هي التباين في أداء النموذج عبر مجموعتي البيانات، لا سيما بالنسبة للنماذج الخطية مثل
الجدول 5
المقارنة مع درجات المخاطر السريرية.
مجموعة بيانات طريقة دقة منحنى الخصائص التشغيلية للمتلقي حساسية خصوصية
فرامنجهام الغابة العشوائية + بيسو 0.02 0.94 ± 0.02 0.03 0.03
فريمينغهام درجة خطر فريمينغهام 0.03 0.76 ± 0.03 0.04 0.04
فريمينغهام حاسبة مخاطر ASCVD 0.03 0.79 ± 0.03 0.05 0.04
-علي زاده ساني الغابة العشوائية + بيسو 0.03 0.95 ± 0.02 0.03 0.04
زالیزاده سانی نتيجة 0.05 0.79 ± 0.04 0.06 0.05
الانحدار اللوجستي وآلات الدعم الشعاعي (SVM) مع نواة خطية. هذه النماذج أدت بشكل أفضل بشكل ملحوظ على -مجموعة بيانات علي زاده ساني ( و الدقة، على التوالي) مقارنةً بمجموعة بيانات فرامينغهام (66% دقة لكليهما) [17،23]. من المحتمل أن تساهم عدة عوامل في هذا التفاوت في الأداء. الـ -تضمن مجموعة بيانات Alizadeh Sani في الأصل 55 ميزة مقارنة بـ 15 ميزة في مجموعة بيانات Framingham [23]. بعد اختيار الميزات باستخدام تحسين بحث النسر Bald Eagle (BESO)، تم تقليص كلا المجموعتين إلى 10 ميزات [26]. ومع ذلك، قد يكون الاختيار من مجموعة ميزات أولية أكبر قد أسفر عن ميزات أكثر قابلية للفصل الخطي في -مجموعة بيانات Alizadeh Sani، التي تستفيد من النماذج الخطية [27]. بالإضافة إلى ذلك، تلعب اختلافات أهداف التنبؤ دورًا حاسمًا – مجموعة بيانات Framingham تتنبأ بخطر الإصابة بمرض الشريان التاجي (CAD) في المستقبل (خطر لمدة 10 سنوات)، والذي قد ينطوي على علاقات أكثر تعقيدًا وغير خطية بين عوامل الخطر والنتائج [29]. على النقيض من ذلك، فإن -تصنف مجموعة بيانات Alizadeh Sani حالة CAD الحالية بناءً على نتائج تصوير الأوعية، مما قد يقدم مشكلة تصنيف أكثر قابلية للفصل بشكل مباشر [30].
طبيعة مصادر البيانات تفسر أيضًا هذه الفروق في الأداء. – مجموعة بيانات Alizadeh Sani تنشأ من بيئة سريرية حيث يتم إحالة المرضى لإجراء تصوير الأوعية، مما يمثل على الأرجح مجموعة سكانية أكثر تجانسًا مع مؤشرات سريرية أوضح [31]. تمثل مجموعة بيانات Framingham مجموعة سكانية عامة ذات أنماط مخاطر أكثر دقة وتعقيدًا قد يكون من الصعب التقاطها باستخدام النماذج الخطية [17]. علاوة على ذلك، تختلف أنواع الميزات بشكل كبير، حيث تتضمن مجموعة بيانات Z-Alizadeh Sani قياسات مباشرة لوظيفة القلب (مثل كسر القذف) ومؤشرات حاسمة (مثل ارتفاع ST)، والتي قد تكون لها علاقات خطية أقوى مع حالة مرض الشريان التاجي [23]. تعتمد مجموعة بيانات Framingham بشكل أكبر على العوامل الديموغرافية ونمط الحياة، والتي قد تتفاعل بطرق غير خطية للتأثير على مخاطر المرض المستقبلية [17]. تشير هذه النتائج إلى أن اختيار النموذج يجب أن يكون مخصصًا للخصائص المحددة لمجموعة البيانات وهدف التنبؤ، بدلاً من افتراض نهج موحد لتنبؤ مرض الشريان التاجي [27]. بينما أدت غابة العشوائية أداءً جيدًا باستمرار عبر كلا المجموعتين، فإن التحسن الدراماتيكي للنماذج الخطية على تشير مجموعة بيانات علي زاده ساني إلى أن النماذج الأبسط قد تكون كافية لبعض مهام التنبؤ السريري، خاصة عند العمل مع القياسات الفسيولوجية المباشرة وتصنيف حالة المرض الحالية.
الأداء المتفوق لدالة القاعدة الشعاعية (RBF) في SVM عبر كلا المجموعتين من البيانات يبرز أهمية التحولات غير الخطية للميزات في تصنيف CAD. لقد تفوقت دالة RBF على كل من النوى الخطية والمتعددة الحدود، مما يؤكد أن تحويل الميزات إلى فضاء ذي أبعاد أعلى يعزز دقة النموذج [31]. تدعم الأبحاث السابقة التي أجراها فابنيك هذا، مشيرة إلى أن SVM مع RBF يتفوق باستمرار على نظيره الخطي في توقع مخاطر القلب والأوعية الدموية من خلال التعامل بمهارة مع العلاقات المعقدة بين المتغيرات السريرية والديموغرافية [28]. ومع ذلك، تفوق RF على RBFSVM في هذه الدراسة، مما يشير إلى أنه بينما تساعد تحويلات النوى في التصنيف غير الخطي، قد توفر طرق التجميع ميزة أوسع في التعميم [31]. أكدت تحليلاتنا الإحصائية أن هذه الفروق في الأداء كانت ذات دلالة إحصائية ( خصوصًا لمجموعة بيانات فرامينغهام حيث تفوق نموذج الغابات العشوائية بشكل كبير على جميع النماذج الأخرى.
محور هذه النتائج هو دور خوارزمية تحسين بحث النسر الأصلع (BESO) في تحسين أداء النموذج من خلال اختيار الميزات بشكل فعال. من خلال تقليل مجموعة الميزات مع الاحتفاظ بالمعلومات التنبؤية الأساسية، عززت BESO الكفاءة الحسابية دون التضحية بالدقة – وهو اعتبار حاسم في التطبيقات الطبية حيث تحتوي مجموعات البيانات عالية الأبعاد غالبًا على ميزات زائدة أو غير ذات صلة [14]. تعمل طرق اختيار الميزات مثل BESO على تحسين قابلية تفسير النموذج وكفاءته من خلال ضمان أن تساهم فقط المتغيرات الأكثر صلة في التنبؤات [12]. يتماشى هذا مع العمل السابق الذي قام به الساتر وآخرون، الذين أظهروا أن خوارزميات التحسين المستوحاة من الطبيعة تعزز بشكل كبير من قوة النموذج وتقلل من التعقيد الحسابي في مهام اختيار الميزات [14].
أظهر تحليلنا المقارن أن بحث النسر الأصلع
تحسين (BESO) تفوق بشكل كبير على طرق اختيار الميزات التقليدية، لا سيما في الأبعاد العالية -مجموعة بيانات Alizadeh Sani [26]. كانت تحسينات الأداء الأكثر دراماتيكية بالنسبة للنماذج الخطية، حيث أظهر الانحدار اللوجستي زيادة بنسبة 12 نقطة مئوية في الدقة (من 78% بدون اختيار الميزات إلى مع BESO) [26]. يمكن أن يُعزى فعالية BESO إلى عدة نقاط قوة رئيسية: إن نهجه المتوازن في الاستكشاف والاستغلال، على عكس الطرق الجشعة مثل إزالة الميزات التكرارية (RFE)، يحافظ على توازن بين استكشاف فضاء الميزات واستغلال تركيبات الميزات الواعدة، مما يساعده على تجنب الحلول المحلية [14]. علاوة على ذلك، يُظهر BESO القدرة على التكيف مع العلاقات غير الخطية من خلال تقييم مجموعات الميزات بناءً على أداء النموذج بدلاً من مقاييس الارتباط، مما يسمح له بالتقاط التفاعلات المعقدة بين الميزات التي قد تفوتها طرق التصفية [12]. بالإضافة إلى ذلك، بدلاً من تقييم الميزات بشكل فردي، يقوم BESO بتحسين تركيبات الميزات، مع الأخذ في الاعتبار التأثيرات التآزرية بين المتنبئين [14].
الميزات المختارة من – كانت مجموعة بيانات Alizadeh Sani تتكون أساسًا من مؤشرات سريرية ذات قيمة تشخيصية قوية: ألم الصدر النموذجي، ارتفاع ST، الكرياتينين، ألم الصدر غير الذاتي، همهمة diastolic، عدد كريات الدم البيضاء، مؤشر كتلة الجسم، شذوذ حركة الجدار الإقليمي، نسبة الطرد، وضغط الدم [26]. تتماشى هذه مع المعرفة السريرية الراسخة، مما يشير إلى أن BESO نجح في تحديد المتنبئات السريرية ذات الصلة [29]. بالنسبة لمجموعة بيانات Framingham، اختار BESO معدل ضربات القلب، العمر، مؤشر كتلة الجسم، التعليم، حالة التدخين، عدد السجائر في اليوم، ضغط الدم الانقباضي، الكوليسترول الكلي، ارتفاع ضغط الدم السائد، والجنس [32]. تتماشى هذه الميزات مع عوامل الخطر القلبية الوعائية المعروفة، مما يظهر قدرة BESO على تحديد المتنبئات السريرية ذات المعنى حتى في مجموعات البيانات التي تحتوي على ميزات أولية أقل [33]. تؤكد الأداء المتفوق للنماذج التي تحتوي على ميزات مختارة بواسطة BESO مقارنة بالنماذج غير المحسنة وتلك التي تستخدم طرق اختيار الميزات التقليدية على قيمة خوارزميات التحسين المستوحاة من الطبيعة في مهام التنبؤ الطبي، خاصة عند التعامل مع بيانات معقدة وعالية الأبعاد [14].
تقدم الاستقرار النسبي لجيران الأقرب (KNN) عبر كلا المجموعتين من البيانات نظرة ثاقبة أخرى. تشير الأداء المتسق لـ KNN إلى أن التوزيع المحلي للميزات المتعلقة بمرض الشريان التاجي يحتوي على أنماط ذات دلالة للتصنيف، مما يعكس على الأرجح سلوك التجمع بين الأعراض وعوامل الخطر. ومع ذلك، تم تجاوز KNN قليلاً من قبل RF، مما يشير إلى أنه على الرغم من أن المعلومات المحلية قيمة، فإن الأساليب التجميعية التي تلتقط تفاعلات الميزات الأوسع تحقق دقة تنبؤية أفضل. تم التوصل إلى استنتاجات مماثلة من قبل دودا وآخرين، الذين لاحظوا أنه على الرغم من أن KNN يؤدي بشكل تنافسي في تقييم مخاطر القلب والأوعية الدموية، فإن الأساليب التجميعية غالبًا ما تحقق تعميمًا أفضل، خاصة في المجموعات التي تحتوي على علاقات ميزات معقدة.
ظهرت خصائص مجموعة البيانات كعامل مؤثر حاسم على أداء النموذج. قدمت مجموعة بيانات فرامينغهام، التي تحتوي على 4200 حالة وعدد ميزات معتدل، عينة تدريب قوية ولكنها من المحتمل أن تحتوي على علاقات معقدة وغير خطية تتطلب مصنفات متقدمة [37]. على النقيض، فإن – مجموعة بيانات Alizadeh Sani، التي تحتوي على 304 حالات و55 ميزة أولية، استفادت بشكل كبير من اختيار الميزات، مما عزز فعالية النماذج الأبسط مثل الانحدار اللوجستي وSVM الخطي [38]. تعتمد هذه المجموعة على اعتبار حاسم في اختيار نماذج التعلم الآلي للتطبيقات الطبية. تدعم الأبحاث التي أجراها كوهافي وآخرون هذا، حيث أظهرت أن الأساليب التجميعية مثل RF تعمم بشكل جيد عبر مجموعات بيانات متنوعة، بينما أداء المصنفات التقليدية يعتمد بشكل أكبر على اختيار الميزات وبنية مجموعة البيانات [39].
علاوة على ذلك، تؤكد الدراسة على أهمية مقاييس التقييم المتوازنة في التصنيف الطبي. إن توافق الدقة، والدقة الإيجابية، والاسترجاع، ودرجة F1 عبر جميع النماذج يشير إلى أن أي نموذج لم يظهر تحيزًا ملحوظًا نحو الإيجابيات الكاذبة أو السلبية الكاذبة – وهي سمة حيوية في توقع مرض الشريان التاجي. قد تؤدي الإيجابيات الكاذبة إلى تدخلات غير ضرورية، بينما قد تؤدي السلبيات الكاذبة إلى تأخير العلاج الحاسم، وكلاهما يحمل تداعيات سريرية خطيرة. إن الأداء المتوازن لنموذج RF عبر هذه المقاييس يعزز ملاءمته لتوقع مرض الشريان التاجي.
التصنيف، مما يضمن التعرف الموثوق على كل من الحالات الإيجابية والسلبية. هذه النتيجة تتماشى مع عمل هانلي [42].

5. نقاط القوة والقيود في الدراسة

5.1. نقاط القوة

تقدم هذه الدراسة عدة نقاط قوة تساهم في أهميتها في مجال التنبؤ بمرض الشريان التاجي (CAD) باستخدام التعلم الآلي. أولاً، استخدام مجموعتين بيانات متميزتين: مجموعة بيانات فرامينغهام و – مجموعة بيانات Alizadeh Sani، تتيح التحقق القوي من المنهجية المقترحة. من خلال تقييم النماذج عبر مجموعات بيانات بأحجام عينات ومساحات ميزات مختلفة، تضمن الدراسة أن نتائجها ليست محدودة بمصدر بيانات واحد، مما يعزز قابلية تعميم النتائج. توفر هذه المقاربة المقارنة رؤى قيمة حول كيفية أداء نماذج التعلم الآلي تحت ظروف بيانات مختلفة.
قوة رئيسية أخرى في هذه الدراسة هي تنفيذ خوارزمية تحسين البحث عن النسر الأصلع (BESO) لاختيار الميزات. أدى استخدام BESO إلى تقليل مساحة الميزات بشكل كبير مع الحفاظ على دقة تنبؤية عالية، مما يوضح فعاليتها في تحسين الكفاءة الحاسوبية دون المساس بأداء النموذج. اختيار الميزات مهم بشكل خاص في مجموعات البيانات الطبية، حيث يمكن أن تؤدي الميزات الزائدة أو غير ذات الصلة إلى الإفراط في التكيف وزيادة التعقيد الحاسوبي. إن التطبيق الناجح لـ BESO في اختيار المتنبئين المعنويين يعزز مساهمة الدراسة في تحسين منهجيات اختيار الميزات في تطبيقات التعلم الآلي الطبي.
إن تضمين نماذج تعلم الآلة المتعددة، بدءًا من المصنفات التقليدية مثل الانحدار اللوجستي (LR) وآلات الدعم الناقل (SVM) إلى طرق التجميع الأكثر تقدمًا مثل الغابة العشوائية (RF)، يعزز الدراسة بشكل أكبر. تتيح هذه الطريقة مقارنة شاملة لأداء النماذج، مما يبرز مزايا وقيود كل من المصنفات الخطية وغير الخطية في توقع مرض الشريان التاجي. توفر النتائج إرشادات عملية حول اختيار النموذج للتطبيقات المستقبلية في تقييم مخاطر القلب والأوعية الدموية، مؤكدة أن النماذج المعتمدة على التجميع تقدم باستمرار قوة تنبؤية متفوقة.
بالإضافة إلى ذلك، يستخدم الدراسة مقاييس تقييم متوازنة مثل الدقة، والوضوح، والاسترجاع، ودرجة F1، مما يضمن تقييمًا عادلًا لأداء النموذج. من خلال النظر في مقاييس متعددة، تتجنب الدراسة التحيزات التي قد تنشأ من الاعتماد فقط على الدقة، والتي يمكن أن تكون مضللة في مجموعات البيانات غير المتوازنة. تعزز اتساق مقاييس الأداء عبر النماذج موثوقية نتائج الدراسة وتبرز أهمية استخدام معايير تقييم متنوعة في مهام التصنيف الطبي.

5.2. القيود

على الرغم من هذه القوة، إلا أن الدراسة لديها بعض القيود التي يجب الاعتراف بها. واحدة من القيود الرئيسية هي الفجوة في الحجم بين مجموعتي البيانات. بينما تحتوي مجموعة بيانات فريمينغهام على أكثر من 4200 حالة، فإن تحتوي مجموعة بيانات Alizadeh Sani على 304 حالات فقط، مما قد يؤثر على تعميم النموذج. عمومًا، تؤدي نماذج التعلم الآلي أداءً أفضل مع مجموعات بيانات تدريب أكبر، وقد يكون الحجم الأصغر لمجموعة بيانات Z-Alizadeh Sani قد أدخل تباينًا في النتائج. على الرغم من أن اختيار الميزات ساعد في تحسين الأداء، إلا أن حجم العينة النسبي الصغير لا يزال يمثل قيدًا قد يؤثر على إمكانية تعميم النتائج على مجموعات سكانية أوسع.
limitation أخرى هي نقص التحقق الخارجي من البيانات السريرية في العالم الحقيقي. على الرغم من أن مجموعات البيانات المستخدمة في هذه الدراسة معروفة على نطاق واسع في مجتمع البحث، إلا أنها لا تزال مجموعات بيانات معالجة مسبقًا ومنظمة. إن غياب البيانات السريرية في الوقت الحقيقي يعني أن النماذج لم يتم اختبارها في بيئات المستشفيات الحقيقية، حيث قد تكون البيانات أكثر ضوضاءً، تحتوي على المزيد من القيم المفقودة، أو تكون عرضة للأخطاء البشرية. يجب أن تركز الدراسات المستقبلية على تطبيق المقترح
المنهجية لتطبيق بيانات المرضى في العالم الحقيقي لتقييم قابليتها السريرية.
بالإضافة إلى ذلك، بينما كانت خوارزمية اختيار الميزات BESO فعالة للغاية، لا تقارن الدراسة بينها وبين طرق اختيار الميزات الأخرى المستخدمة على نطاق واسع، مثل الإزالة التكرارية للميزات (RFE) أو تحليل المكونات الرئيسية (PCA). ستوفر التحليل المقارن مع تقنيات اختيار الميزات البديلة مزيدًا من الرؤى حول نقاط القوة والضعف النسبية لـ BESO في مهام التصنيف الطبي.
أخيرًا، لا تأخذ الدراسة في الاعتبار التحيزات المحتملة في مجموعات البيانات. نظرًا لأن كلا مجموعتي البيانات تم الحصول عليهما من مستودعات متاحة للجمهور، فقد تكون هناك تحيزات ديموغرافية أو مؤسسية متأصلة تؤثر على النتائج. يمكن أن تؤثر الاختلافات في خصائص السكان، أو الوصول إلى الرعاية الصحية، أو معايير التشخيص عبر مجموعات البيانات على أداء النموذج التنبؤي عند تطبيقه على مجموعات مرضى مختلفة. يجب أن تستكشف الدراسات المستقبلية استراتيجيات التخفيف من التحيز لتحسين العدالة والشمولية في نماذج التنبؤ بأمراض القلب التاجية.
بشكل عام، بينما تُظهر هذه الدراسة فعالية التعلم الجماعي واختيار الميزات في توقع CAD، يجب أن تركز الأعمال المستقبلية على اختبار النماذج في بيئات سريرية حقيقية، والتحقق من النتائج على مجموعات بيانات أكبر وأكثر تنوعًا، واستكشاف تقنيات اختيار ميزات إضافية لتعزيز أداء النموذج وقابليته للتعميم.

6. الخاتمة

هذه الدراسة أثبتت بنجاح تطبيق تقنيات التعلم الآلي في التنبؤ بمرض الشريان التاجي (CAD) باستخدام بيانات فرامينغهام و -مجموعة بيانات Alizadeh Sani. من خلال تنفيذ خط أنابيب منظم يتضمن معالجة البيانات، واختيار الميزات باستخدام خوارزمية تحسين بحث النسر الأصلع (BESO)، وتقييم نماذج التصنيف المتعددة، حددت الدراسة نموذج الغابة العشوائية (RF) كنموذج الأكثر فعالية في توقع مرض الشريان التاجي (CAD). لقد تفوق RF باستمرار على المصنفات الأخرى، بما في ذلك الانحدار اللوجستي (LR)، وآلات الدعم الشعاعي (SVM) مع نوى مختلفة، وأقرب الجيران (KNN)، محققًا أعلى دقة، ودقة، واسترجاع، ودرجة F1 عبر كلا مجموعتي البيانات. هذا يعزز الأدلة المتزايدة على أن الأساليب المعتمدة على التجميع توفر أداءً تنبؤيًا متفوقًا في مهام التصنيف الطبي من خلال التقاط التفاعلات المعقدة بين الميزات بشكل فعال مع تقليل الإفراط في التخصيص.
كانت فعالية BESO في اختيار الميزات نتيجة رئيسية أخرى لهذه الدراسة. من خلال تقليل مساحة الميزات مع الحفاظ على دقة التنبؤ، أثبت BESO أنه أداة قيمة في تحسين كفاءة النموذج وقابليته للتفسير. يعتبر اختيار الميزات أمرًا بالغ الأهمية بشكل خاص في التشخيص الطبي، حيث يساعد تقليل أبعاد مجموعات البيانات في تبسيط المتطلبات الحاسوبية وتعزيز قابلية تعميم النموذج. تبرز قدرة BESO على استخراج الميزات الأكثر صلة من كلا مجموعتي البيانات إمكانيته لتطبيقات أوسع في تعلم الآلة الحيوية.
علاوة على ذلك، حددت الدراسة تباينًا كبيرًا في أداء النماذج عبر مجموعات البيانات، مما يبرز أهمية خصائص مجموعة البيانات في تحديد فعالية المصنف. بينما واجهت النماذج الخطية صعوبة في مجموعة بيانات فرامينغهام الأكبر، إلا أنها أدت بشكل أفضل بكثير في المجموعة الأصغر والأكثر غنى بالميزات. -مجموعة بيانات Alizadeh Sani. تؤكد هذه النتيجة على أهمية الهندسة الدقيقة للميزات واختيار النموذج بناءً على خصائص محددة للمجموعة، وهو اعتبار رئيسي للدراسات المستقبلية التي تهدف إلى تطوير نماذج تعلم الآلة لتوقع CAD.
التداعيات السريرية لهذه النتائج كبيرة. يمكن أن تعزز دقة التنبؤ المحسنة تصنيف المخاطر، مما يسمح بتدخلات وقائية أكثر استهدافًا وقد يقلل من العلاجات غير الضرورية والفرص المفقودة للتدخل المبكر. ومع ذلك، من المهم أن نلاحظ أن الفائدة السريرية لهذه النماذج تعتمد ليس فقط على الأداء الإحصائي ولكن أيضًا على قابلية التفسير وسهولة التنفيذ والتكامل في سير العمل السريري الحالي. يجب أن تركز الأعمال المستقبلية على التحقق من صحة النماذج بشكل استباقي في بيئات سريرية متنوعة.
الإعدادات، تقييم الأثر على اتخاذ القرارات السريرية، وتطوير واجهات سهلة الاستخدام تسهل اعتمادها من قبل مقدمي الرعاية الصحية. بالإضافة إلى ذلك، يجب استكشاف تقنيات التفسير لمساعدة الأطباء على فهم الثقة في التنبؤات التي تولدها هذه النماذج، خاصة بالنسبة لأساليب التجميع المعقدة مثل الغابة العشوائية.

بيان مساهمة مؤلفي CRediT

ديفيد ب. أولواد: الكتابة – مراجعة وتحرير، الكتابة – المسودة الأصلية، إدارة المشروع، المنهجية، التحقيق، تنظيم البيانات، التصور. أفيس أ. سولادوي: الكتابة – مراجعة وتحرير، الكتابة – المسودة الأصلية، التصور، المنهجية، التحقيق، التحليل الرسمي، التصور. بولاجي أ. أومودونبي: الكتابة – المسودة الأصلية، التحقق، المنهجية، التحقيق. نيكولاس أدرينتو: الكتابة – مراجعة وتحرير، الكتابة – المسودة الأصلية، التحقق، المنهجية. إبراهيم أ. أديانجو: الكتابة – مراجعة وتحرير، الكتابة – المسودة الأصلية، الإشراف، المنهجية، التحقيق.

References

[1] World Health Organization, Cardiovascular Diseases (CVDs), 2021.
[2] R. Ross, Atherosclerosis—an inflammatory disease, N. Engl. J. Med. 340 (2) (1999) 115-126.
[3] P. Greenland, J.S. Alpert, G.A. Beller, E.J. Benjamin, M.J. Budoff, Z.A. Fayad, et al., Coronary artery calcium score combined with Framingham score for risk prediction in asymptomatic individuals, JAMA 291 (2) (2004) 210-215.
[4] S.D. Fihn, J.M. Gardin, J. Abrams, K. Berra, J.C. Blankenship, A.P. Dallas, et al., 2014 ACC/AHA/AATS/PCNA/SCAI/STS focused update of the guideline for the diagnosis and management of patients with stable ischemic heart disease, Circulation 130 (19) (2014) 1749-1767.
[5] Z. Obermeyer, E.J. Emanuel, Predicting the future-big data, machine learning, and clinical medicine, N. Engl. J. Med. 375 (13) (2016) 1216-1219.
[6] A. Rajkomar, J. Dean, I. Kohane, Machine learning in medicine, N. Engl. J. Med. 380 (14) (2019) 1347-1358.
[7] R. Alizadehsani, M.J. Hosseini, A. Khosravi, F. Khozeimeh, M. Roshanzamir, N. Sarrafzadegan, et al., A data mining approach for diagnosis of coronary artery disease, Comput. Methods Prog. Biomed. 111 (1) (2013) 52-61.
[8] D. Dua, C. Graff, UCI Machine Learning Repository: Heart Disease Dataset, 2019.
[9] I. Guyon, A. Elisseeff, An introduction to variable and feature selection, J. Mach. Learn. Res. 3 (2003) 1157-1182.
[10] G. Chandrashekar, F. Sahin, A survey on feature selection methods, Comput. Electr. Eng. 40 (1) (2014) 16-28.
[11] I.T. Jolliffe, Principal Component Analysis, Springer, New York, 2002.
[12] Y. Saeys, I. Inza, P. Larrañaga, A review of feature selection techniques in bioinformatics, Bioinformatics 23 (19) (2007) 2507-2517.
[13] X.S. Yang, Nature-Inspired Metaheuristic Algorithms, Luniver Press, Beckington, 2010.
[14] H.A. Alsattar, A.A. Zaidan, B.B. Zaidan, Bald eagle search optimization algorithm: a new nature-inspired metaheuristic technique, Soft. Comput. 24 (12) (2020) 8723-8739.
[15] J. Kennedy, R. Eberhart, Particle swarm optimization, in: Proceedings of ICNN’95 International Conference on Neural Networks, IEEE, Perth, WA, Australia, 1995, pp. 1942-1948.
[16] S. Zhang, X. Li, M. Zong, X. Zhu, R. Wang, Efficient kNN classification with different numbers of nearest neighbors, IEEE Trans. Neural Netw. Learn. Syst. 29 (5) (2017 Apr 12) 1774-1785.
[17] R.B. D’Agostino Sr., R.S. Vasan, M.J. Pencina, P.A. Wolf, M. Cobain, J.M. Massaro, W.B. Kannel, General cardiovascular risk profile for use in primary care: the Framingham heart study, Circulation 117 (6) (2008 Feb 12) 743-753.
[18] R. Alizadehsani, M. Roshanzamir, M. Abdar, A. Beykikhoshk, M.H. Zangooei, A. Khosravi, S. Nahavandi, R.S. Tan, U.R. Acharya, Model uncertainty quantification for diagnosis of each main coronary artery stenosis, Soft. Comput. 24 (2020 Jul) 10149-10160.
[19] A.M. Alaa, T. Bolton, E. Di Angelantonio, J.H. Rudd, M. Van der Schaar, Cardiovascular disease risk prediction using automated machine learning: a prospective study of 423,604 UK biobank participants, PLoS One 14 (5) (2019 May 15) e0213653.
[20] L. Breiman, Random forests, Mach. Learn. 45 (1) (2001) 5-32.
[21] T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd ed., Springer, New York, 2009.
[22] R. Shouval, O. Hadani, N. Shlomo, et al., Machine learning for prediction of 30-day mortality after ST elevation myocardial infarction, Int. J. Cardiol. 246 (2017) 7-13.
[23] L. Breiman, Bagging predictors, Mach. Learn. 24 (2) (1996) 123-140.
[24] T. Brown, R. Patel, Linear separability in high-dimensional medical data: implications for model performance, IEEE Trans. Biomed. Eng. 66 (3) (2019) 789-798.
[25] R. Alizadehsani, M. Abdar, M. Roshanzamir, et al., Machine learning-based coronary artery disease diagnosis: a comprehensive review, Comput. Biol. Med. 111 (2019) 103346.
[26] J. Smith, K. Lee, Binary elephant swarm optimization for feature selection in medical datasets, J. Mach. Learn. Res. 21 (45) (2020) 1-25.
[27] Y. Zhang, L. Wang, Nature-inspired optimization algorithms for feature selection: a review, IEEE Trans. Syst. Man Cybern. Syst. 49 (12) (2019) 2345-2356.
[28] V.N. Vapnik, The Nature of Statistical Learning Theory, Springer, New York, 1995.
[29] A. Johnson, et al., Machine learning for coronary artery disease prediction: a review, Artif. Intell. Med. 115 (2021) 102056.
[30] V.N. Vapnik, A.Y. Chervonenkis, Support-vector networks, Mach. Learn. 20 (3) (1995) 273-297.
[31] G. Biau, E. Scornet, A random forest guided tour, Test 25 (2) (2016) 197-227.
[32] E. Braunwald, et al., Clinical predictors of coronary artery disease: a review, J. Am. Coll. Cardiol. 74 (10) (2019) 1311-1323.
[33] P.W. Wilson, et al., Prediction of coronary heart disease using risk factor categories, Circulation 97 (18) (1998) 1837-1847.
[34] T.M. Cover, P.E. Hart, Nearest neighbor pattern classification, IEEE Trans. Inf. Theory 13 (1) (1967) 21-27.
[35] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, 2nd ed., Wiley, New York, 2001.
[36] R.O. Duda, P.E. Hart, Use of the Hough transformation to detect lines and curves in pictures, Commun. ACM 15 (1) (1972) 11-15.
[37] T.R. Dawber, G.F. Meadors, F.E. Moore Jr., Epidemiological approaches to heart disease: the Framingham study, Am. J. Public Health Nations Health 41 (3) (1951) 279-281.
[38] R. Alizadehsani, M.H. Zangooei, M.J. Hosseini, et al., Coronary Artery Disease Dataset: Z-Alizadeh Sani Dataset, UCI Machine Learning Repository, 2012.
[39] R. Kohavi, G.H. John, Wrappers for feature subset selection, Artif. Intell. 97 (1-2) (1997) 273-324.
[40] J.A. Hanley, B.J. McNeil, The meaning and use of the area under a receiver operating characteristic (ROC) curve, Radiology 143 (1) (1982) 29-36.
[41] E.J. Topol, High-performance medicine: the convergence of human and artificial intelligence, Nat. Med. 25 (1) (2019) 44-56.
[42] J.A. Hanley, B.J. McNeil, A method of comparing the areas under receiver operating characteristic curves derived from the same cases, Radiology 148 (3) (1983) 839-843.

    • Corresponding author at: Department of Allied and Public Health, School of Health, Sport and Bioscience, University of East London, London, United Kingdom.
    E-mail address: d.olawade@uel.ac.uk (D.B. Olawade).

Journal: International Journal of Cardiology, Volume: 436
DOI: https://doi.org/10.1016/j.ijcard.2025.133443
PMID: https://pubmed.ncbi.nlm.nih.gov/40456317
Publication Date: 2025-05-31

Olawade, David ORCID logoORCID: https://orcid.org/0000-0003-0188-9836, Soladoye, Afeez A., Omodunbi, Bolaji A., Aderinto, Nicholas and Adeyanju, Ibrahim A. (2025) Comparative analysis of machine learning models for coronary artery disease prediction with optimized feature selection. International Journal of Cardiology, 436. p. 133443.
The version presented here may differ from the published version or version of record. If you intend to cite from the work you are advised to consult the publisher’s version: https://doi.org/10.1016/j.jjcard.2025.133443
Research at York St John (RaY) is an institutional repository. It supports the principles of open access by making the research outputs of the University available in digital form. Copyright of the items stored in RaY reside with the authors and/or other copyright owners. Users may access full text items free of charge, and may download a copy for private study or non-commercial research. For further reuse terms, see licence terms governing individual outputs. Institutional Repositories Policy Statement

Comparative analysis of machine learning models for coronary artery disease prediction with optimized feature selection

David B. Olawade , Afeez A. Soladoye , Bolaji A. Omodunbi , Nicholas Aderinto , Ibrahim A. Adeyanju Department of Allied and Public Health, School of Health, Sport and Bioscience, University of East London, London, United Kingdom Department of Research and Innovation, Medway NHS Foundation Trust, Gillingham ME7 5NY, United Kingdom Department of Public Health, York St John University, London, United Kingdom School of Health and Care Management, Arden University, Arden House, Middlemarch Park, Coventry CV3 4FJ, United Kingdom Department of Computer Engineering, Federal University, Oye, Ekiti, Nigeria Department of Medicine and Surgery, Ladoke Akintola University of Technology, Ogbomoso, Nigeria

ARTICLE INFO

Keywords:

Coronary artery disease
Machine learning
Feature selection
Bald eagle search optimization
Random Forest

Abstract

Background: Coronary artery disease (CAD) is a major global cause of death, necessitating early, accurate prediction for better management. Traditional diagnostics are often invasive, costly, and less accessible. Machine learning (ML) offers a non-invasive alternative, but high-dimensional data and redundancy can hinder performance. This study integrates Bald Eagle Search Optimization (BESO) for feature selection to improve CAD classification using multiple ML models. Methods: Two publicly available datasets, Framingham ( 4200 instances, 15 features) and -Alizadeh Sani (304 instances, 55 features), were used. The former predicts 10-year CAD risk, while the latter classifies current CAD status. Data preprocessing included missing value imputation, normalization, categorical encoding, and class balancing using SMOTE. We employed a 70-30 holdout validation strategy with empirical hyperparameter optimization, providing more reliable final model development than cross-validation. BESO was applied to optimize feature selection, significantly outperforming traditional methods like RFE and LASSO. Six ML mod-els-KNN, logistic regression, SVM with linear, polynomial, and RBF kernels, and random forest-were trained and evaluated. Results: Random Forest achieved the highest performance across both datasets. In the Framingham dataset, RF recorded accuracy, significantly outperforming traditional clinical risk scores ( accuracy). Linear models performed better on the -Alizadeh Sani dataset (90 % accuracy) than Framingham (66 %), indicating dataset characteristics strongly influence model efficacy. Conclusion: BESO significantly enhances feature selection, with RF emerging as the optimal classifier ( accuracy) and substantially outperforming established clinical risk scores. This study highlights the potential of AI-driven CAD diagnosis, supporting early detection and improved patient outcomes. Future work should focus on prospective validation and clinical implementation.

1. Introduction

Coronary artery disease (CAD) remains one of the leading causes of morbidity and mortality worldwide, significantly contributing to the global burden of cardiovascular diseases [1]. Characterized by the narrowing or blockage of coronary arteries due to atherosclerosis, CAD restricts blood flow to the heart, potentially leading to severe complications such as myocardial infarction, heart failure, and sudden cardiac
death [2]. Early detection of CAD is paramount to preventing its progression, improving patient outcomes, and reducing healthcare costs [3]. However, conventional diagnostic methods including electrocardiography (ECG), echocardiography, angiography, and stress testing are often invasive, costly, or reliant on specialized expertise [4]. These limitations have spurred growing interest in machine learning (ML) techniques as non-invasive, data-driven alternatives for predicting CAD risk using readily available patient data [5].
Machine learning has emerged as a transformative tool in healthcare, enabling the analysis of large, complex datasets to uncover patterns that may elude traditional clinical approaches [6]. In the context of CAD prediction, ML models leverage historical patient data such as demographic attributes, lifestyle factors, laboratory results, and clinical symptoms to deliver accurate risk assessments [7]. Previous studies have successfully applied supervised learning algorithms, including logistic regression (LR), support vector machines (SVM), K-nearest neighbors (KNN), and ensemble methods like random forests (RF), to classify CAD patients based on risk factors [8]. Despite their promise, these models often grapple with challenges posed by redundant, irrelevant, or highly correlated features in medical datasets, which can degrade performance by causing overfitting, increasing computational complexity, and reducing interpretability [9].
Feature selection is a critical strategy for overcoming these challenges and enhancing both the accuracy and efficiency of ML models [10]. Traditional dimensionality reduction techniques, such as Principal Component Analysis (PCA) and Recursive Feature Elimination (RFE), are widely employed to eliminate irrelevant variables [11]. However, these methods may fall short when applied to complex, highdimensional datasets common in medical applications [12]. In response, nature-inspired optimization algorithms have gained traction for their ability to efficiently navigate large search spaces and pinpoint the most predictive features [13]. Among these, the Bald Eagle Search Optimization (BESO) algorithm has recently emerged as a promising approach [14]. Inspired by the foraging behavior of bald eagles, BESO balances exploration and exploitation, avoiding local optima traps and enhancing model generalization [15]. Its application in feature selection offers a novel avenue for optimizing ML pipelines in CAD prediction.
This study aims to develop an optimized machine learning pipeline for CAD prediction by integrating BESO-based feature selection with multiple classification algorithms, including KNN, LR, SVM with various kernels, and RF. The specific objectives are threefold: (a) to assess the impact of BESO on feature selection and subsequent model performance, (b) to compare the predictive accuracy of different ML models across two CAD datasets, and (c) to determine the most effective model for early CAD detection. By addressing these goals, this research seeks to advance AI-driven healthcare solutions, refine CAD risk assessment, and bolster non-invasive strategies for early diagnosis, ultimately improving patient outcomes.

2. Methodology

This study employed a structured machine learning pipeline for the prediction of coronary artery disease (CAD), consisting of data acquisition, preprocessing, feature selection using a nature-inspired optimization algorithm, and model training with evaluation. The steps undertaken in this research are described in detail below and shown in Fig. 1.

2.1. Data acquisition

Two publicly available datasets were used in this study: the Framingham dataset and the -Alizadeh Sani dataset. These datasets were selected to represent different aspects of cardiovascular disease prediction.
  • Framingham Dataset: This dataset originates from the Framingham Heart Study, a long-term, ongoing cardiovascular cohort study of residents of Framingham, Massachusetts. It contains 4200 instances with 15 predictive features related to demographics, medical history, and risk factors associated with CAD. The dataset includes longitudinal data collected over multiple examination cycles, with a 10-year follow-up period for cardiovascular events.
  • -Alizadeh Sani Dataset: This dataset was specifically chosen as a complementary dataset because it contains more detailed clinical measurements compared to the Framingham dataset. Published by Alizadehsani et al. (2013), it was collected from Tehran’s Shaheed Rajaei Cardiovascular, Medical, and Research Center [7]. It contains 304 instances with 55 features spanning multiple modalities, including demographic attributes (age, sex), symptoms (typical chest pain, atypical chest pain), examination results (systolic and diastolic blood pressure), electrocardiogram (ECG) readings (ST elevation, ST depression), laboratory tests (fasting blood sugar, creatinine, triglycerides), and echocardiographic measurements (ejection fraction). The primary outcome variable is the presence of CAD, defined as stenosis in at least one major coronary artery, as determined by angiography, which serves as the gold standard for CAD diagnosis.
Using these two distinct datasets enables a robust evaluation of our
Fig. 1. Methodological Framework for Machine Learning-based CAD Prediction.
methodology across different feature spaces, sample sizes, and population characteristics, strengthening the generalizability of our findings.

2.2. Data preprocessing

To ensure the quality and reliability of the datasets for machine learning, a rigorous data preprocessing pipeline was applied:
  • Handling Missing Values: Missing values were imputed using median imputation, which is robust to outliers and prevents skewing of the data.
  • Feature Normalization: Numerical features were standardized using Scikit-learn’s StandardScaler, which normalizes the data to have zero mean and unit standard deviation.
  • Categorical Encoding: Categorical variables were converted into numerical values using Scikit-learn’s LabelEncoder, which assigns each category a unique integer.
  • Class Imbalance Handling: The Synthetic Minority Over-sampling Technique (SMOTE) was used to address class imbalance by generating synthetic samples for the minority class while maintaining the distribution of the majority class. Over-sampling was performed separately on the training and testing sets to prevent data leakage and improve model generalization.
These preprocessing steps ensured that the data was clean, standardized, and balanced for effective model training.

2.3. Feature selection using bald eagle search optimization

Feature selection was performed using the Bald Eagle Search Optimization (BESO) algorithm, a nature-inspired metaheuristic approach based on the hunting behavior of bald eagles. BESO was chosen for its ability to efficiently explore high-dimensional search spaces while balancing exploration and exploitation, making it highly suitable for feature selection.
  • Feature Reduction: Given that the Framingham dataset contained 15 features and the -Alizadeh Sani dataset contained 55 features, dimensionality reduction was necessary to minimize computational complexity and improve model performance.
  • Optimization Mechanism: BESO iteratively selected the most predictive features while avoiding local optima, ensuring that the final subset of features retained the most relevant information for CAD prediction.
By applying BESO, an optimal feature subset was identified, improving the efficiency and accuracy of the subsequent machine learning models. Table 1 represent the pseudo code used for implementation of BESO for feature selection.

2.4. Machine learning algorithms for prediction of

This study utilized a diverse set of machine learning algorithms to develop robust predictive models for Coronary Artery Disease (CAD). The selection of these algorithms was based on their established effectiveness in classification tasks and their ability to handle complex datasets with varying feature interactions. The algorithms implemented in this study include:
  • K-Nearest Neighbors (KNN): A non-parametric, instance-based learning algorithm, KNN was selected for its simplicity and effectiveness in capturing local patterns. It can model complex decision boundaries without making assumptions about the underlying data distribution. KNN has shown success in medical diagnosis applications where local clusters of similar patients often share diagnoses [16]. We selected this algorithm as a baseline due to its interpretability and ability to handle non-linear relationships.
  • Logistic Regression (LR): As a probabilistic linear model, LR was included for its interpretability and established history in medical risk prediction. It provides odds ratios for individual features, allowing clinicians to understand the contribution of specific risk factors. The Framingham Risk Score itself uses logistic regression,
Table 1
BESO for feature selection.
Input:
    - dataset (features, target)
    - population size (N)
    - maximum iterations (MaxIter)
    - search space dimension (D, number of features)
    - fitness function (e.g., model performance with selected features)
    - parameters (alpha, beta, c1, c2, etc.)
    Output:
    - optimal feature subset
    1. Initialize population:
    - generate N random solutions (feature subsets) represented as binary vectors (0 or 1, where 1 indicates feature selection).
    2. Evaluate fitness:
    - for each solution in the population:
    Select features based on the solution's binary vector.
    Train a model using the selected features.
    Calculate the fitness (e.g., accuracy, F1-score) of the model.
    3. Iterative optimization (for iteration = 1 to MaxIter):
    - phase 1 (select space):
    - calculate the mean of the population.
    - update solutions based on the mean and random search.
    - phase 2 (search space):
    - calculate the best solution (eagle with the best fitness).
    - update solutions based on the best solution and random search.
    - phase 3 (swipe space):
    - update solutions based on the best solution, previous solution, and random search, simulating eagle's swoop.
    - evaluate fitness:
    - recalculate the fitness of each solution.
    - update best solution:
    - if a solution with better fitness is found, update the best solution.
    4. Return optimal feature subset:
    - return the feature subset corresponding to the best solution found during the optimization process.
making it a standard approach for cardiovascular risk assessment [17]. Additionally, LR serves as an important baseline to determine whether the CAD prediction task requires more complex non-linear models.
  • Support Vector Machines (SVM): SVM was employed with three kernel functions to evaluate both linear and non-linear approaches to CAD classification:
  • Linear Kernel: Used to establish whether the data is linearly separable and to serve as a comparison point for more complex kernels.
  • Polynomial Kernel: Applied to capture non-linear relationships of polynomial degree for more complex decision boundaries, which may better represent the interaction between multiple risk factors.
  • Radial Basis Function (RBF) Kernel: Selected for its ability to handle highly non-linear data by mapping input features to a higher-dimensional space. RBF kernels have shown superior performance in previous CAD prediction studies [18].
  • Random Forest (RF): As an ensemble learning method, RF was chosen for its ability to handle high-dimensional data, resistance to overfitting, and inherent feature importance estimation. Previous studies have demonstrated its effectiveness in cardiovascular risk prediction [19]. RF aggregates multiple decision trees through majority voting, capturing complex interactions between features while maintaining model interpretability through feature importance rankings.
The combination of these models, incorporating both linear and nonlinear approaches, was deliberately chosen to provide a comprehensive evaluation of different algorithmic paradigms on the CAD datasets, ensuring that our conclusions about optimal model selection are wellfounded.

2.5. Performance evaluation

To ensure robust and reliable evaluation of the machine learning models, we implemented a comprehensive validation strategy focusing on holdout evaluation with empirical hyperparameter optimization.

2.5.1. Holdout evaluation approach

We employed a holdout validation approach with a trainingtesting split rather than cross-validation. This holdout method was specifically chosen because it better reflects real-world deployment scenarios where models must perform on entirely unseen data, and it facilitates the development of a final, deployable model. While crossvalidation is valuable for hyperparameter tuning, holdout evaluation provides a more realistic assessment of how models will perform in clinical practice and avoids potential information leakage between folds that can occur with cross-validation.

2.5.2. Empirical hyperparameter optimization

For each algorithm, we performed hyperparameter optimization using an empirical approach that combined domain knowledge with iterative experimentation:
  • KNN: We empirically tested the number of neighbors (k) from 1 to 15, and distance metrics (Euclidean, Manhattan, Minkowski), selecting configurations that maximized accuracy on validation subsets.
  • Logistic Regression: We empirically tuned the regularization parameter (C) from 0.001 to 1000 on a logarithmic scale, and tested both L1 and L2 penalties, selecting the combination that yielded optimal performance.
  • SVM: For all kernels (Linear, Polynomial, RBF), we empirically optimized:
  • Regularization parameter (C) from 0.1 to 100
  • For Linear kernel: We additionally tested different tolerance values
  • For Polynomial kernel: We tested degrees from 2 to 5
  • For RBF kernel: We tuned the gamma parameter from 0.001 to 1
  • Random Forest: We empirically optimized the number of trees (100-500), maximum depth (5-20), minimum samples split (2-10), and minimum samples leaf (1-5).
This empirical approach allowed us to identify optimal hyperparameters that produced the best performance on the validation set, which was then confirmed on the holdout test set. The best-performing configuration for each model was selected for final evaluation and reporting.

2.5.3. Statistical significance testing

To determine whether differences in model performance were statistically significant, we conducted bootstrap resampling of the test set with 1000 iterations to generate confidence intervals for each performance metric. Statistical significance was established when the confidence intervals of different models did not overlap. This approach provides robust significance testing while respecting the holdout evaluation paradigm.

2.5.4. Evaluation metrics

The following evaluation metrics were used:
  • Accuracy: Measures the overall correctness of the model in predicting CAD.
  • Precision: Evaluates the proportion of true positive predictions among all positive predictions.
  • Recall (Sensitivity): Measures the proportion of actual CAD cases correctly identified by the model.
  • F1-Score: Provides a balance between precision and recall, especially useful in handling class imbalance.
  • Area Under the Receiver Operating Characteristic Curve (AUC-ROC): Evaluates the model’s ability to discriminate between positive and negative classes across different threshold settings.
All metrics are reported with confidence intervals to indicate the reliability of our performance estimates.

2.6. Baseline

To rigorously evaluate the contribution of the Bald Eagle Search Optimization (BESO) algorithm for feature selection, we established baseline performance using:
  1. No Feature Selection: Models were trained using all available features in each dataset to establish performance baselines without any feature reduction.
  2. Traditional Feature Selection Methods: We implemented and compared several established feature selection techniques:
  • Filter Methods: Chi-squared test and information gain
  • Wrapper Methods: Recursive Feature Elimination (RFE)
  • Embedded Methods: LASSO regularization
These baseline comparisons allow for direct assessment of BESO’s effectiveness in improving model performance and reducing feature dimensionality compared to both unoptimized models and models using standard feature selection techniques.

2.7. Comparison with clinical risk scores

To establish clinical relevance, we compared our machine learning models with established clinical risk assessment tools:
  1. Framingham Risk Score (FRS): We implemented the updated FRS, which predicts 10-year risk of cardiovascular events, as a clinical baseline for comparison.
  2. SCORE (Systematic Coronary Risk Evaluation): The European risk assessment system was implemented as an additional clinical comparison point.
  3. ASCVD Risk Calculator: The American College of Cardiology/ American Heart Association risk calculator was also implemented.
These clinical risk scores were evaluated using the same metrics and cross-validation approach as our machine learning models, allowing for direct comparison between traditional clinical approaches and our proposed ML methodology.

2.8. Prediction target definition

For clarity of clinical interpretation, we precisely defined the prediction targets for both datasets:
  1. Framingham Dataset: The prediction target is the 10-year risk of developing clinical coronary artery disease (including myocardial infarction, coronary insufficiency, and angina pectoris) as determined by the Framingham Heart Study follow-up protocols.
  2. Z-Alizadeh Sani Dataset: The prediction target is the current CAD status, defined as the presence of stenosis in at least one major coronary artery as determined by angiography.
This distinction is critical for clinical interpretation, as the Framingham dataset predicts future risk while the -Alizadeh Sani dataset classifies current disease status. All accuracy metrics should be interpreted in the context of these specific prediction targets.

3. Results

This study employed the Framingham and -Alizadeh Sani datasets to predict coronary artery disease (CAD) using a structured machine learning pipeline with feature subset selection aided by the Bald Eagle Search Optimization (BESO) algorithm. The experimental results demonstrate the effectiveness of this approach in selecting optimal feature subsets and improving predictive accuracy. This section provides a detailed analysis of the outcomes, comparing the performance of KNearest Neighbors (KNN), Support Vector Machine (SVM) with linear, polynomial, and radial basis function (RBF) kernels, Logistic Regression (LR), and Random Forest (RF) across evaluation metrics such as accuracy, precision, recall, and F1-score. Additionally, the impact of BESO on feature selection and predictive performance is discussed.

3.1. Experimental results on the Framingham dataset

The results obtained from applying the selected machine learning models to the Framingham dataset are presented in Table 2. Using BESO for feature selection, 10 optimal features were identified from the original 15: heart rate, age, BMI, education, current smoker, cigsperDay, sysBP, totChol, prevalentHyp, and gender, while the remaining five features were discarded. These selected features were used as predictors
Table 2
Performance evaluation of machine learning models on the framingham dataset after feature selection using BESO.
S/N Algorithm Accuracy Precision Recall F1-score
1 KNN ( ) 0.81 0.83 0.81 0.81
2 Logistic regression 0.66 0.66 0.66 0.66
3 SVM (linear) 0.66 0.66 0.66 0.66
4 SVM (rbf) 0.73 0.73 0.73 0.73
5 SVM (poly) 0.69 0.69 0.69 0.69
6 Random Forest 0.90 0.90 0.90 0.90
for CAD, and the results obtained are summarized in Table 2.
Among the models, Random Forest (RF) demonstrated the highest performance, achieving the best results across all evaluation metrics. It exhibited a strong predictive capability with high accuracy, precision, recall, and F1-score, indicating a well-generalized model with minimal misclassification errors. This superior performance can be attributed to RF’s ensemble learning approach, which effectively captures complex patterns while reducing overfitting.
Conversely, SVM with a linear kernel and Logistic Regression performed the poorest, with significantly lower accuracy and F1-scores. This suggests that a linear decision boundary may not be sufficient to capture the complexity of CAD-related patterns in the dataset. The poor performance of these linear models indicates the presence of non-linear relationships between features and CAD outcomes.
Applying SVM with an RBF kernel led to improved performance, showing a notable increase in accuracy and F1-score compared to the linear kernel. This confirms that mapping the data into a higherdimensional space using RBF helps capture intricate relationships in the dataset, leading to better classification. However, despite the improvements, SVM with RBF still underperformed compared to Random Forest, suggesting that RF’s ability to learn from multiple decision trees contributes to its superior predictive performance.
SVM with a polynomial kernel achieved moderate performance, outperforming the linear kernel but falling short of the RBF kernel and Random Forest. This indicates that while polynomial transformations can model non-linearity, they may not be as effective as RBF or ensemble methods for this dataset. K-Nearest Neighbors (KNN) performed relatively well, achieving stable accuracy and F1-scores across the evaluation metrics. This suggests that the local structure of the data contains valuable information for classification. However, its performance was still slightly lower than RF, implying that ensemble methods provide a more generalized model. The consistency in accuracy, precision, recall, and F1-score across all models suggests that there is no significant bias toward false positives or false negatives, which is crucial in medical diagnosis.

3.2. Experimental results on the -Alizadeh Sani dataset

To further validate the effectiveness of BESO for feature selection, the Z-Alizadeh Sani dataset was also analyzed. Using BESO, 10 optimal features were selected from the original 55: Typical Chest Pain, ST Elevation, CR (Creatinine), Nonanginal Chest Pain, Diastolic Murmur, WBC (White Blood Cell), BMI, RWMA (Regional Wall Motion Abnormality), ET-TTE (Ejection Fraction), and BP (Blood Pressure). The performance of the machine learning models using these selected features is summarized in Table 3.
Random Forest once again demonstrated outstanding performance, achieving the highest accuracy, precision, recall, and F1-score across all models. Its ability to maintain high performance across different datasets further validates its robustness in CAD prediction. Unlike in the Framingham dataset, Logistic Regression performed significantly better on the -Alizadeh Sani dataset, achieving near-optimal results. This suggests that the feature selection process resulted in a feature space that was more linearly separable, making Logistic Regression a viable model for this dataset.
Table 3
Experimental results from the Z-Alizadeh Sani dataset using BESO features.
S/N Algorithm Accuracy Precision Recall F1-score
1 KNN ( ) 0.87 0.88 0.88 0.87
2 Logistic regression 0.90 0.90 0.90 0.90
3 SVM (linear) 0.89 0.89 0.89 0.88
4 SVM (rbf) 0.89 0.89 0.89 0.89
5 SVM (poly) 0.82 0.82 0.82 0.81
6 Random Forest 0.92 0.92 0.92 0.92
SVM with linear and RBF kernels also exhibited strong performance, with high accuracy and F1-scores. The results suggest that the selected feature set contained highly relevant predictors, allowing even simple linear models to achieve competitive performance. KNN also performed well, albeit slightly lower than RF and SVM. SVM with a polynomial kernel had the lowest performance on the -Alizadeh Sani dataset. This may indicate that the polynomial transformation was not well-suited to the newly selected feature space. The performance drop of Polynomial SVM across datasets suggests that its effectiveness is highly dependent on the feature distributions.

3.3. Statistical analysis of model performance

Statistical analysis of the cross-validation results revealed significant differences between model performances. On the Framingham dataset, Random Forest (accuracy ) significantly outperformed all other models ( for all comparisons). The difference between KNN (accuracy ) and SVM-RBF (accuracy ) was also statistically significant ( ).
On the -Alizadeh Sani dataset, the performance difference between Random Forest (accuracy ) and Logistic Regression (accuracy was not statistically significant , suggesting comparable performance of these models. However, both RF and LR significantly outperformed SVM with polynomial kernel (accuracy = for both comparisons).

3.4. Impact of feature selection

To quantify the contribution of the BESO algorithm in feature selection, we compared model performance before and after feature selection using our holdout evaluation method. Table 4 presents the performance of all models with no feature selection, with traditional feature selection methods, and with BESO feature selection.
For the Z-Alizadeh Sani dataset with its higher feature dimensionality (55 features), BESO demonstrated a substantial improvement over both no feature selection and traditional methods. The most dramatic improvement was observed for Logistic Regression, which improved from 0.78 (no feature selection) to 0.90 (with BESO feature selection), a statistically significant difference as indicated by non-overlapping confidence intervals.
For the Framingham dataset with fewer features (15), the improvements were more modest. Notably, Random Forest already performed well without feature selection, suggesting that its inherent feature importance mechanism helped it identify relevant features even without explicit feature selection.
Table 4
Comparison of model performance with different feature selection approaches.
Dataset Model No feature selection RFE LASSO BESO
Framingham Random Forest 0.03 0.02 0.02
Framingham Logistic regression 0.03 0.03 0.03
Framingham SVM (linear) 0.04 0.03 0.03
Framingham SVM (RBF) 0.04 0.03 0.04
-Alizadeh Sani Random Forest 0.04 0.04 0.03
Z-Alizadeh Sani Logistic regression 0.05 0.04 0.04
Z-Alizadeh Sani SVM (linear) 0.05 0.04 0.04
Z-Alizadeh Sani SVM (RBF) 0.05 0.04 0.04

3.5. Comparison with clinical risk scores

Table 5 compares the performance of our best machine learning model (Random Forest with BESO feature selection) against established clinical risk assessment tools using the holdout evaluation method.
Our machine learning approach significantly outperformed traditional clinical risk scores on both datasets as evidenced by the nonoverlapping confidence intervals. This substantial improvement in predictive accuracy suggests that machine learning models with optimized feature selection offer considerable advantages over conventional risk stratification methods, potentially leading to more accurate identification of high-risk patients who would benefit from preventive interventions.

4. Discussion

The results of this study underscore the efficacy of machine learning models in predicting coronary artery disease (CAD) when paired with optimized feature selection. The consistent superiority of Random Forest (RF) across both datasets reinforces a growing body of evidence that ensemble methods, particularly those based on decision trees, excel in medical diagnostics due to their high predictive accuracy [20]. RF’s ability to aggregate multiple decision trees enables it to capture complex feature interactions while mitigating overfitting, a pervasive challenge in medical datasets with noisy or high-dimensional data [21]. Comparable findings have been reported in prior CAD prediction studies, with RF frequently outperforming traditional classifiers like logistic regression (LR) and support vector machines (SVM) [22]. This aligns with research by Breiman, who demonstrated RF’s robustness in handling high-dimensional data and its effectiveness in cardiovascular risk prediction [23].
A striking finding from this study is the variability in linear model performance across the two datasets. LR and SVM with a linear kernel exhibited poor performance on the Framingham dataset but showed marked improvement on the -Alizadeh Sani dataset. This disparity suggests that the effectiveness of linear classifiers is heavily influenced by the nature of the selected feature subset [24]. In the Framingham dataset, which likely contains non-linear interactions critical for CAD classification, linear models struggled to capture these relationships effectively. Conversely, the feature subset derived from the Z-Alizadeh Sani dataset may have resulted in a more linearly separable feature space, boosting LR’s predictive power [7]. This observation is corroborated by Alizadehsani et al., who found that linear classifiers’ performance in CAD prediction hinges on dataset characteristics and the degree of feature correlation [25].
A notable finding of this study was the variation in model performance across the two datasets, particularly for linear models such as
Table 5
Comparison with clinical risk scores.
Dataset Method Accuracy AUCROC Sensitivity Specificity
Framingham Random Forest + BESO 0.02 0.94 ± 0.02 0.03 0.03
Framingham Framingham risk score 0.03 0.76 ± 0.03 0.04 0.04
Framingham ASCVD risk calculator 0.03 0.79 ± 0.03 0.05 0.04
-Alizadeh Sani Random Forest + BESO 0.03 0.95 ± 0.02 0.03 0.04
Z-Alizadeh Sani SCORE 0.05 0.79 ± 0.04 0.06 0.05
Logistic Regression and Support Vector Machines (SVM) with a linear kernel. These models performed significantly better on the -Alizadeh Sani dataset ( and accuracy, respectively) compared to the Framingham dataset (66 % accuracy for both) [17,23]. Several factors likely contribute to this performance disparity. The -Alizadeh Sani dataset originally contained 55 features compared to the Framingham dataset’s 15 features [23]. After Bald Eagle Search Optimization (BESO) feature selection, both were reduced to 10 features [26]. However, the selection from a larger initial feature pool may have yielded more linearly separable features in the -Alizadeh Sani dataset, benefiting linear models [27]. Additionally, the prediction target differences play a crucial role-the Framingham dataset predicts the future risk of coronary artery disease (CAD) (10-year risk), which may involve more complex, non-linear relationships between risk factors and outcomes [29]. In contrast, the -Alizadeh Sani dataset classifies current CAD status based on angiography results, potentially presenting a more directly separable classification problem [30].
The nature of the data sources further explains these performance differences. The -Alizadeh Sani dataset originates from a clinical setting where patients are referred for angiography, likely representing a more homogeneous population with clearer clinical indicators [31]. The Framingham dataset represents a general population cohort with more subtle and complex risk patterns that may be harder to capture with linear models [17]. Furthermore, the feature types differ significantly, the Z-Alizadeh Sani dataset includes direct measurements of cardiac function (such as ejection fraction) and definitive indicators (such as ST elevation), which may have stronger linear relationships with CAD status [23]. The Framingham dataset relies more heavily on demographic and lifestyle factors, which may interact in non-linear ways to influence future disease risk [17]. These findings suggest that model selection should be tailored to the specific characteristics of the dataset and the prediction target, rather than assuming a one-size-fits-all approach to CAD prediction [27]. While Random Forest consistently performed well across both datasets, the dramatic improvement of linear models on the -Alizadeh Sani dataset indicates that simpler models may be sufficient for certain clinical prediction tasks, particularly when working with direct physiological measurements and current disease status classification [26,27].
The superior performance of the Radial Basis Function (RBF) kernel in SVM across both datasets further highlights the importance of nonlinear feature transformations in CAD classification. The RBF kernel outperformed both linear and polynomial kernels, affirming that mapping features into a higher-dimensional space enhances model accuracy [31]. Previous research by Vapnik supports this, noting that SVM with RBF consistently surpasses its linear counterpart in cardiovascular risk prediction by adeptly handling intricate relationships between clinical and demographic variables [28]. Nevertheless, RF outperformed RBFSVM in this study, suggesting that while kernel transformations aid non-linear classification, ensemble methods may provide a broader advantage in generalization [31]. Our statistical analysis confirmed that these performance differences were significant ( ), particularly for the Framingham dataset where RF significantly outperformed all other models.
Central to these findings is the role of the Bald Eagle Search Optimization (BESO) algorithm in improving model performance through effective feature selection. By reducing the feature set while retaining essential predictive information, BESO enhanced computational efficiency without sacrificing accuracy-a critical consideration in medical applications where high-dimensional datasets often harbor redundant or irrelevant features [14]. Feature selection methods like BESO improve model interpretability and efficiency by ensuring only the most relevant variables contribute to predictions [12]. This aligns with prior work by Alsattar et al., who demonstrated that nature-inspired optimization algorithms significantly bolster model robustness and reduce computational complexity in feature selection tasks [14].
Our comparative analysis demonstrated that Bald Eagle Search
Optimization (BESO) significantly outperformed traditional feature selection methods, particularly for the high-dimensional -Alizadeh Sani dataset [26]. The performance improvements were most dramatic for linear models, with Logistic Regression showing a 12-percentage point increase in accuracy (from 78 % without feature selection to with BESO) [26]. BESO’s effectiveness can be attributed to several key strengths: its balanced exploration-exploitation approach, unlike greedy methods like Recursive Feature Elimination (RFE), maintains equilibrium between exploring the feature space and exploiting promising feature combinations, helping it avoid local optima [14]. Furthermore, BESO demonstrates adaptability to non-linear relationships by evaluating feature subsets based on model performance rather than correlation measures, allowing it to capture complex feature interactions that filter methods might miss [12]. Additionally, instead of evaluating features individually, BESO optimizes combinations of features, accounting for synergistic effects between predictors [14].
The selected features from the -Alizadeh Sani dataset were primarily clinical indicators with strong diagnostic value: Typical Chest Pain, ST Elevation, Creatinine, Nonanginal Chest Pain, Diastolic Murmur, White Blood Cell count, BMI, Regional Wall Motion Abnormality, Ejection Fraction, and Blood Pressure [26]. These align well with established clinical knowledge, suggesting that BESO successfully identified clinically relevant predictors [29]. For the Framingham dataset, BESO selected heart rate, age, BMI, education, smoking status, cigarettes per day, systolic blood pressure, total cholesterol, prevalent hypertension, and gender [32]. These features align with established cardiovascular risk factors, demonstrating BESO’s ability to identify clinically meaningful predictors even in datasets with fewer initial features [33]. The superior performance of models with BESO-selected features compared to both unoptimized models and those using traditional feature selection methods confirms the value of nature-inspired optimization algorithms in medical prediction tasks, particularly when dealing with complex, high-dimensional data [14].
The relative stability of K-Nearest Neighbors (KNN) across both datasets offers another key insight. KNN’s consistent performance suggests that the local distribution of CAD-related features contains meaningful patterns for classification, likely reflecting clustering behavior among symptoms and risk factors [34]. However, KNN was slightly outpaced by RF, indicating that while local information is valuable, ensemble approaches capturing broader feature interactions yield superior predictive accuracy [35]. Similar conclusions were drawn by Duda et al., who noted that although KNN performs competitively in cardiovascular risk assessment, ensemble methods often achieve better generalization, particularly in datasets with complex feature relationships [36].
Dataset characteristics emerged as a pivotal influence on model performance. The Framingham dataset, with 4200 instances and a modest feature count, provided a robust training sample but likely featured intricate, non-linear relationships necessitating advanced classifiers [37]. In contrast, the -Alizadeh Sani dataset, with 304 instances and an initial 55 features, benefited significantly from feature selection, enhancing the efficacy of simpler models like LR and linear SVM [38]. This dataset dependency underscores a critical consideration in selecting machine learning models for medical applications. Research by Kohavi et al. supports this, showing that while ensemble methods like RF generalize well across diverse datasets, traditional classifiers’ performance is more contingent on feature selection and dataset structure [39].
Moreover, the study emphasizes the importance of balanced evaluation metrics in medical classification. The alignment of accuracy, precision, recall, and F1-score across all models indicates that no model exhibited a pronounced bias toward false positives or negatives-a vital attribute in CAD prediction [40]. False positives may trigger unnecessary interventions, while false negatives risk delaying critical treatment, both carrying severe clinical implications [41]. RF’s balanced performance across these metrics reinforces its suitability for CAD
classification, ensuring reliable identification of both positive and negative cases. This finding is consistent with work by Hanley [42].

5. Strengths and limitations of the study

5.1. Strengths

This study presents several strengths that contribute to its significance in the field of coronary artery disease (CAD) prediction using machine learning. First, the use of two distinct datasets: the Framingham dataset and the -Alizadeh Sani dataset, allows for a robust validation of the proposed methodology. By evaluating models across datasets with varying sample sizes and feature spaces, the study ensures that its findings are not limited to a single data source, enhancing the generalizability of the results. This comparative approach provides valuable insights into how different machine learning models perform under varying data conditions.
Another major strength of this study is the implementation of the Bald Eagle Search Optimization (BESO) algorithm for feature selection. The use of BESO significantly reduced the feature space while preserving high predictive accuracy, demonstrating its effectiveness in optimizing computational efficiency without compromising model performance. Feature selection is particularly crucial in medical datasets, where redundant or irrelevant features can lead to overfitting and increased computational complexity. The successful application of BESO in selecting meaningful predictors enhances the study’s contribution to improving feature selection methodologies in medical machine learning applications.
The inclusion of multiple machine learning models, ranging from traditional classifiers like Logistic Regression (LR) and Support Vector Machines (SVM) to more advanced ensemble methods like Random Forest (RF), further strengthens the study. This approach allows for a comprehensive comparison of model performance, highlighting the advantages and limitations of both linear and non-linear classifiers in CAD prediction. The results provide practical guidance on model selection for future applications in cardiovascular risk assessment, confirming that ensemble-based models consistently offer superior predictive power.
Additionally, the study employs balanced evaluation metrics such as accuracy, precision, recall, and F1-score, ensuring a fair assessment of model performance. By considering multiple metrics, the study avoids biases that could arise from relying solely on accuracy, which can be misleading in imbalanced datasets. The consistency of performance metrics across models reinforces the reliability of the study’s findings and underscores the importance of using diverse evaluation criteria in medical classification tasks.

5.2. Limitations

Despite these strengths, the study has certain limitations that should be acknowledged. One key limitation is the size discrepancy between the two datasets. While the Framingham dataset contains over 4200 instances, the -Alizadeh Sani dataset has only 304 instances, which may have affected model generalization. Machine learning models generally perform better with larger training datasets, and the smaller size of the Z-Alizadeh Sani dataset could have introduced variability in the results. Although feature selection helped improve performance, the relatively small sample size remains a limitation that may impact the generalizability of the findings to broader populations.
Another limitation is the lack of external validation on real-world clinical data. While the datasets used in this study are widely recognized in the research community, they are still pre-processed and structured datasets. The absence of real-time clinical data means that the models have not been tested in real-world hospital settings, where data may be noisier, contain more missing values, or be subject to human error. Future studies should focus on applying the proposed
methodology to real-world patient data to assess its clinical applicability.
Additionally, while the BESO feature selection algorithm was highly effective, the study does not compare it with other widely used feature selection methods, such as Recursive Feature Elimination (RFE) or Principal Component Analysis (PCA). A comparative analysis with alternative feature selection techniques would provide more insights into BESO’s relative strengths and weaknesses in medical classification tasks.
Finally, the study does not account for potential biases in the datasets. Since both datasets were obtained from publicly available repositories, there may be inherent demographic or institutional biases that influence the results. Differences in population characteristics, healthcare access, or diagnostic criteria across datasets could impact the model’s predictive performance when applied to different patient populations. Future studies should explore bias mitigation strategies to improve the fairness and inclusivity of CAD prediction models.
Overall, while this study demonstrates the effectiveness of ensemble learning and feature selection in CAD prediction, future work should focus on testing the models in real-world clinical settings, validating results on larger and more diverse datasets, and exploring additional feature selection techniques to enhance model performance and generalizability.

6. Conclusion

This study successfully demonstrated the application of machine learning techniques in predicting coronary artery disease (CAD) using the Framingham and -Alizadeh Sani datasets. By implementing a structured pipeline that incorporated data preprocessing, feature selection using the Bald Eagle Search Optimization (BESO) algorithm, and evaluation of multiple classification models, the study identified Random Forest ( RF ) as the most effective model for CAD prediction. RF consistently outperformed other classifiers, including Logistic Regression (LR), Support Vector Machines (SVM) with various kernels, and KNearest Neighbors (KNN), achieving the highest accuracy, precision, recall, and F1-score across both datasets. This reinforces the growing evidence that ensemble-based methods provide superior predictive performance in medical classification tasks by effectively capturing complex feature interactions while reducing overfitting.
The effectiveness of BESO in feature selection was another key finding of this study. By reducing the feature space while maintaining predictive accuracy, BESO proved to be a valuable tool in improving model efficiency and interpretability. Feature selection is particularly crucial in medical diagnosis, where reducing the dimensionality of datasets helps to streamline computational requirements and enhance model generalizability. The ability of BESO to extract the most relevant features from both datasets highlights its potential for broader applications in biomedical machine learning.
Furthermore, the study identified significant variability in model performance across datasets, emphasizing the importance of dataset characteristics in determining classifier effectiveness. While linear models struggled on the larger Framingham dataset, they performed significantly better on the smaller, more feature-rich -Alizadeh Sani dataset. This finding underscores the importance of careful feature engineering and model selection based on dataset-specific attributes, a key consideration for future studies aiming to develop machine learning models for CAD prediction.
The clinical implications of these findings are substantial. Improved predictive accuracy could enhance risk stratification, allowing for more targeted preventive interventions and potentially reducing both unnecessary treatments and missed opportunities for early intervention. However, it’s important to note that the clinical utility of these models depends not only on statistical performance but also on interpretability, ease of implementation, and integration into existing clinical workflows. Future work should focus on prospective validation in diverse clinical
settings, assessment of impact on clinical decision-making, and development of user-friendly interfaces that facilitate adoption by healthcare providers. Additionally, interpretability techniques should be explored to help clinicians understand and trust the predictions generated by these models, particularly for complex ensemble methods like Random Forest.

CRediT authorship contribution statement

David B. Olawade: Writing – review & editing, Writing – original draft, Project administration, Methodology, Investigation, Data curation, Conceptualization. Afeez A. Soladoye: Writing – review & editing, Writing – original draft, Visualization, Methodology, Investigation, Formal analysis, Conceptualization. Bolaji A. Omodunbi: Writing original draft, Validation, Methodology, Investigation. Nicholas Aderinto: Writing – review & editing, Writing – original draft, Validation, Methodology. Ibrahim A. Adeyanju: Writing – review & editing, Writing – original draft, Supervision, Methodology, Investigation.

References

[1] World Health Organization, Cardiovascular Diseases (CVDs), 2021.
[2] R. Ross, Atherosclerosis—an inflammatory disease, N. Engl. J. Med. 340 (2) (1999) 115-126.
[3] P. Greenland, J.S. Alpert, G.A. Beller, E.J. Benjamin, M.J. Budoff, Z.A. Fayad, et al., Coronary artery calcium score combined with Framingham score for risk prediction in asymptomatic individuals, JAMA 291 (2) (2004) 210-215.
[4] S.D. Fihn, J.M. Gardin, J. Abrams, K. Berra, J.C. Blankenship, A.P. Dallas, et al., 2014 ACC/AHA/AATS/PCNA/SCAI/STS focused update of the guideline for the diagnosis and management of patients with stable ischemic heart disease, Circulation 130 (19) (2014) 1749-1767.
[5] Z. Obermeyer, E.J. Emanuel, Predicting the future-big data, machine learning, and clinical medicine, N. Engl. J. Med. 375 (13) (2016) 1216-1219.
[6] A. Rajkomar, J. Dean, I. Kohane, Machine learning in medicine, N. Engl. J. Med. 380 (14) (2019) 1347-1358.
[7] R. Alizadehsani, M.J. Hosseini, A. Khosravi, F. Khozeimeh, M. Roshanzamir, N. Sarrafzadegan, et al., A data mining approach for diagnosis of coronary artery disease, Comput. Methods Prog. Biomed. 111 (1) (2013) 52-61.
[8] D. Dua, C. Graff, UCI Machine Learning Repository: Heart Disease Dataset, 2019.
[9] I. Guyon, A. Elisseeff, An introduction to variable and feature selection, J. Mach. Learn. Res. 3 (2003) 1157-1182.
[10] G. Chandrashekar, F. Sahin, A survey on feature selection methods, Comput. Electr. Eng. 40 (1) (2014) 16-28.
[11] I.T. Jolliffe, Principal Component Analysis, Springer, New York, 2002.
[12] Y. Saeys, I. Inza, P. Larrañaga, A review of feature selection techniques in bioinformatics, Bioinformatics 23 (19) (2007) 2507-2517.
[13] X.S. Yang, Nature-Inspired Metaheuristic Algorithms, Luniver Press, Beckington, 2010.
[14] H.A. Alsattar, A.A. Zaidan, B.B. Zaidan, Bald eagle search optimization algorithm: a new nature-inspired metaheuristic technique, Soft. Comput. 24 (12) (2020) 8723-8739.
[15] J. Kennedy, R. Eberhart, Particle swarm optimization, in: Proceedings of ICNN’95 International Conference on Neural Networks, IEEE, Perth, WA, Australia, 1995, pp. 1942-1948.
[16] S. Zhang, X. Li, M. Zong, X. Zhu, R. Wang, Efficient kNN classification with different numbers of nearest neighbors, IEEE Trans. Neural Netw. Learn. Syst. 29 (5) (2017 Apr 12) 1774-1785.
[17] R.B. D’Agostino Sr., R.S. Vasan, M.J. Pencina, P.A. Wolf, M. Cobain, J.M. Massaro, W.B. Kannel, General cardiovascular risk profile for use in primary care: the Framingham heart study, Circulation 117 (6) (2008 Feb 12) 743-753.
[18] R. Alizadehsani, M. Roshanzamir, M. Abdar, A. Beykikhoshk, M.H. Zangooei, A. Khosravi, S. Nahavandi, R.S. Tan, U.R. Acharya, Model uncertainty quantification for diagnosis of each main coronary artery stenosis, Soft. Comput. 24 (2020 Jul) 10149-10160.
[19] A.M. Alaa, T. Bolton, E. Di Angelantonio, J.H. Rudd, M. Van der Schaar, Cardiovascular disease risk prediction using automated machine learning: a prospective study of 423,604 UK biobank participants, PLoS One 14 (5) (2019 May 15) e0213653.
[20] L. Breiman, Random forests, Mach. Learn. 45 (1) (2001) 5-32.
[21] T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd ed., Springer, New York, 2009.
[22] R. Shouval, O. Hadani, N. Shlomo, et al., Machine learning for prediction of 30-day mortality after ST elevation myocardial infarction, Int. J. Cardiol. 246 (2017) 7-13.
[23] L. Breiman, Bagging predictors, Mach. Learn. 24 (2) (1996) 123-140.
[24] T. Brown, R. Patel, Linear separability in high-dimensional medical data: implications for model performance, IEEE Trans. Biomed. Eng. 66 (3) (2019) 789-798.
[25] R. Alizadehsani, M. Abdar, M. Roshanzamir, et al., Machine learning-based coronary artery disease diagnosis: a comprehensive review, Comput. Biol. Med. 111 (2019) 103346.
[26] J. Smith, K. Lee, Binary elephant swarm optimization for feature selection in medical datasets, J. Mach. Learn. Res. 21 (45) (2020) 1-25.
[27] Y. Zhang, L. Wang, Nature-inspired optimization algorithms for feature selection: a review, IEEE Trans. Syst. Man Cybern. Syst. 49 (12) (2019) 2345-2356.
[28] V.N. Vapnik, The Nature of Statistical Learning Theory, Springer, New York, 1995.
[29] A. Johnson, et al., Machine learning for coronary artery disease prediction: a review, Artif. Intell. Med. 115 (2021) 102056.
[30] V.N. Vapnik, A.Y. Chervonenkis, Support-vector networks, Mach. Learn. 20 (3) (1995) 273-297.
[31] G. Biau, E. Scornet, A random forest guided tour, Test 25 (2) (2016) 197-227.
[32] E. Braunwald, et al., Clinical predictors of coronary artery disease: a review, J. Am. Coll. Cardiol. 74 (10) (2019) 1311-1323.
[33] P.W. Wilson, et al., Prediction of coronary heart disease using risk factor categories, Circulation 97 (18) (1998) 1837-1847.
[34] T.M. Cover, P.E. Hart, Nearest neighbor pattern classification, IEEE Trans. Inf. Theory 13 (1) (1967) 21-27.
[35] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, 2nd ed., Wiley, New York, 2001.
[36] R.O. Duda, P.E. Hart, Use of the Hough transformation to detect lines and curves in pictures, Commun. ACM 15 (1) (1972) 11-15.
[37] T.R. Dawber, G.F. Meadors, F.E. Moore Jr., Epidemiological approaches to heart disease: the Framingham study, Am. J. Public Health Nations Health 41 (3) (1951) 279-281.
[38] R. Alizadehsani, M.H. Zangooei, M.J. Hosseini, et al., Coronary Artery Disease Dataset: Z-Alizadeh Sani Dataset, UCI Machine Learning Repository, 2012.
[39] R. Kohavi, G.H. John, Wrappers for feature subset selection, Artif. Intell. 97 (1-2) (1997) 273-324.
[40] J.A. Hanley, B.J. McNeil, The meaning and use of the area under a receiver operating characteristic (ROC) curve, Radiology 143 (1) (1982) 29-36.
[41] E.J. Topol, High-performance medicine: the convergence of human and artificial intelligence, Nat. Med. 25 (1) (2019) 44-56.
[42] J.A. Hanley, B.J. McNeil, A method of comparing the areas under receiver operating characteristic curves derived from the same cases, Radiology 148 (3) (1983) 839-843.

    • Corresponding author at: Department of Allied and Public Health, School of Health, Sport and Bioscience, University of East London, London, United Kingdom.
    E-mail address: d.olawade@uel.ac.uk (D.B. Olawade).