تعزيز تصنيف أمراض القلب استنادًا إلى خوارزمية تحسين الإوز الرمادي وذاكرة المدى الطويل والقصير Enhancing heart disease classification based on greylag goose optimization algorithm and long short-term memory

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-024-83592-0
PMID: https://pubmed.ncbi.nlm.nih.gov/39779779
تاريخ النشر: 2025-01-08

افتح

تعزيز تصنيف أمراض القلب استنادًا إلى خوارزمية تحسين الإوز الرمادي وذاكرة المدى الطويل والقصير

أحمد م. الشوي , أميرة حسن عبد , دعاء سامي خفاجة , أمل علي الحصان , مروة م. عيد & السيد م. الكناوي

الملخص

أمراض القلب هي فئة من الحالات المختلفة التي تؤثر على القلب، والتي تشمل العديد من الأمراض التي تؤثر على هيكله وعمله. قد تتضمن هذه الحالات مرض الشريان التاجي، الذي يتميز بضيق أو تجلط الشرايين التي تزود عضلة القلب بالدم، مع التهديد الناتج عن النوبات القلبية. اضطرابات نظم القلب (عدم انتظام ضربات القلب)، مشاكل صمامات القلب، العيوب الخلقية في القلب الموجودة عند الولادة، واضطرابات عضلة القلب (اعتلال عضلة القلب) هي أنواع أخرى من أمراض القلب. الهدف من هذا العمل هو تقديم خوارزمية تحسين الإوز الرمادي (GGO)، التي تسعى لتحسين دقة تصنيف أمراض القلب. تم تصميم تنسيق GGO الثنائي بشكل خاص لاختيار المجموعة الأكثر فعالية من الميزات التي يمكن أن تحسن دقة التصنيف عند مقارنتها بستة خوارزميات تحسين ثنائية أخرى. تعتبر خوارزمية bGGO هي الأكثر فعالية في اختيار الميزات المثلى لتعزيز دقة التصنيف. تستخدم مرحلة التصنيف العديد من المصنفات، وأشارت النتائج إلى أن ذاكرة المدى الطويل والقصير (LSTM) ظهرت كأكثر مصنف فعالية، محققة معدل دقة قدره . يتم ضبط المعلمات الفائقة لنموذج LSTM باستخدام GGO، ويتم مقارنة النتيجة بستة محسنات بديلة. حصل نموذج GGO مع LSTM على أعلى أداء، بمعدل دقة قدره . استخدمت التحليل الإحصائي اختبار ويلكوكسون واختبار ANOVA لتقييم نتائج اختيار الميزات والتصنيف. علاوة على ذلك، تم تقديم مجموعة من التمثيلات المرئية للنتائج لتأكيد قوة وفعالية النهج الهجين المقترح (GGO + LSTM).

الكلمات الرئيسية: bGGO، تحسين، تصنيف أمراض القلب، اختيار الميزات، LSTM
على مدار السنوات الأخيرة، زادت الأبحاث بشكل كبير حول الرعاية الصحية، خاصة بعد تأثير جائحة كوفيد-19. تحدد منظمة الصحة العالمية (WHO) أمراض القلب كأحد أخطر الحالات في العالم، المسؤولة عن أكبر عدد من الوفيات. تشمل أمراض القلب طيفًا واسعًا من الحالات التي تؤثر على وظيفة القلب. تؤكد بيانات منظمة الصحة العالمية أن الأمراض القلبية الوعائية تمثل حاليًا السبب الرئيسي للوفاة على مستوى العالم، مما يؤدي إلى حوالي 17.9 مليون وفاة سنويًا. بالإضافة إلى ذلك، تُفقد الحياة بسبب أمراض القلب كل 34 ثانية على مستوى العالم. وغالبًا ما تكون غير مكتشفة حتى تحدث أحداث حادة مثل النوبات القلبية، حيث تقدم أمراض القلب تحديات تشخيصية بسبب نطاقها الواسع من العوامل المؤثرة، كما هو موضح من خلال عدم انتظام ضربات القلب غير الطبيعي في الشكل 1. يعد تشخيص أمراض القلب معقدًا بطبيعته، حيث تساهم العديد من عوامل الخطر في ظهورها. تزيد عناصر الخطر مثل استخدام التبغ، والاستهلاك المفرط للكحول، والسمنة، وقلة النشاط البدني، واضطرابات الصحة النفسية، والعمر المتقدم، والجنس، وقلة النوم، والعديد من العوامل الأخرى من القابلية للخطر. تؤدي خيارات نمط الحياة الضارة مثل العادات الغذائية السيئة إلى ارتفاع الكوليسترول، وزيادة الدهون الثلاثية،

عدم انتظام ضربات القلب المرضي

الشكل 1. عدم انتظام ضربات القلب المرضي.

السمنة، وارتفاع ضغط الدم تزيد بشكل كبير من احتمال الإصابة بالأمراض القلبية الوعائية . تشمل الأعراض المعترف بها من قبل الكلية الأمريكية لأمراض القلب اضطرابات النوم، وعدم انتظام ضربات القلب (النمط غير المنتظم)، وتورم الأطراف، وأحيانًا زيادة سريعة في الوزن (حوالي في اليوم). تتداخل هذه الأعراض مع أعراض العديد من الحالات الأخرى، خاصة تلك التي تؤثر على كبار السن، مما يعقد التشخيص الدقيق ويزيد من خطر النتائج المميتة. مع مرور الوقت، تظهر مجموعة متزايدة من الأبحاث والبيانات السريرية، مما يوفر رؤى قيمة. توفر العديد من قواعد البيانات العامة الآن معلومات شاملة عن المرضى، مما يسهل الدراسات حول كيفية استغلال التقدم التكنولوجي لتحسين دقة التشخيص واكتشاف الأمراض قبل الوصول إلى مراحل مميتة. المحفز الرئيسي لأمراض القلب، الذي يُطلق عليه غالبًا مرض الشريان التاجي، يكون غالبًا بسبب تضيق الشرايين التاجية التي تزود القلب بالدم. على الرغم من أن إجراءات مثل القسطرة فعالة في تشخيص حالات القلب، إلا أنها مكلفة ويمكن أن تثير استجابات جسدية سلبية لدى بعض المرضى. وبالتالي، فإن هذه الطرق أقل قابلية للتطبيق على نطاق واسع، خاصة في الدول التي تعاني من نسبة كبيرة من السكان ذوي الدخل المنخفض.
تطوير حلول الرعاية الصحية التي تضمن نتائج عالية الجودة وفعالية من حيث التكلفة أمر ضروري، خاصة مع سعي المؤسسات الصحية بشكل متزايد إلى طرق اختبار غير مكلفة وغير جراحية . لتلبية هذه الاحتياجات للتشخيصات الواسعة والمتاحة، يمكن بناء نظام اتخاذ قرار مدعوم بالكمبيوتر للمساعدة في تحديد الحالات الطبية المختلفة. لقد استفادت التقدم السريع في الذكاء الاصطناعي (AI)، وتعلم الآلة (ML)، ونماذج التعلم العميق بشكل كبير من مجالات مثل الرعاية الصحية، حيث تسهل مجموعات البيانات الكبيرة من التشخيصات الطبية تدريب الخوارزميات بشكل قوي . تدعم هذه النماذج الأنظمة السريرية التي تعزز دقة التشخيص. تعتبر نماذج التحسين واعدة بشكل خاص في مهام الانحدار والتصنيف، بينما يمكن أن توفر الأنظمة الطبية تقييمًا تشخيصيًا أوليًا، مما يشير إلى مشكلات صحية محتملة . يتطلب تطوير تشخيصات عالية لأورام الرئة اختيار ميزات دقيقة، وهو أمر حاسم لإنشاء أنظمة استرجاع الصور المعتمدة على المحتوى (CBIR) والتشخيص المدعوم بالكمبيوتر (CAD) . يتضمن CAD عادةً مرحلتين: استخراج الميزات والتصنيف. غالبًا ما تتطلب أنظمة CBIR مجموعة قوية من الخصائص البصرية مثل الملمس، والشكل، والحبيبية لبناء فهرس بحث شامل . بناء هياكل ML المثلى، يتطلب تكوينًا ماهرًا للمعلمات الفائقة لتعظيم أداء التصنيف ودقته. نظرًا لتعقيد التحسينات التوافقية، غالبًا ما تفشل الطرق اليدوية؛ وبالتالي، تقدم الخوارزميات الميتا-هيوريستية، المستوحاة من العمليات الطبيعية، حلاً فعالًا . تتفوق هذه الخوارزميات، باستخدام تقنيات البحث العالمية والمحلية مع العشوائية، في العثور على حلول محسّنة للغاية بتكاليف حسابية منخفضة، مما يجعلها لا تقدر بثمن عبر مجالات مثل الهندسة والرعاية الصحية. أثبتت الخوارزميات الميتا-هيوريستية فعاليتها في حل مشاكل التحسين المعقدة لمجالات متنوعة. على سبيل المثال، تم تطبيق خوارزمية تحسين الدب البني متعدد الأهداف (MOBBO) وخوارزمية تحسين الصقور متعددة الأهداف (MOHO) بنجاح على تحسين الهياكل المقيدة وتصميم الأقواس المثلى، مما يظهر قدرتها على تحقيق توازن بين الاستكشاف والاستغلال في فضاءات البحث . أيضًا، تم استخدام تقنيات الميتا-هيوريستية في تحديد الأنظمة في تطبيقات الطائرات بدون طيار، مما يظهر عدالتها وقوتها . تعتبر تقنيات التحسين مفيدة لحل مشاكل غير محدبة معقدة عبر مجالات متنوعة. أظهرت التقدمات الأخيرة، مثل خوارزمية التخفيف المتناوب المعتمدة على التعلم الميتا، إمكانات كبيرة في تحسين أداء هذه التقنيات . كما لعبت طرق تعلم الآلة دورًا مهمًا في تقدم تطبيقات الرعاية الصحية التي تستخدم المعلوماتية الحيوية وتعلم الآلة لتشخيص سرطان القولون وتصنيف المراحل . تظل أمراض القلب سببًا رئيسيًا للوفيات على مستوى العالم مدفوعة بآليات مرضية معقدة. من بين هذه الآليات، تلعب تنشيط الخلايا الليفية القلبية دورًا مهمًا في إعادة تشكيل القلب والتليف، وهي عمليات
المركزية في تقدم أمراض القلب. الزانثوهومول هو مركب طبيعي، يثبط بشكل فعال TGF- تفعيل الخلايا الليفية القلبية المستحثة عن طريق تعديل مسار إشارة PTEN/Akt/mTOR، مما يوفر رؤى قيمة حول الأهداف العلاجية المحتملة لقد أظهرت العملية الخلوية للميتوفاجي دورًا مزدوجًا في إصابة نقص تروية القلب/إعادة التروية. هذا يبرز تعقيد التوازن بين العمليات الحامية والضارة خلال تقدم مرض القلب. بناءً على هذه الرؤى البيولوجية، تدمج هذه الدراسة مثل هذه الآليات في إطار نمذجة تنبؤية، تهدف إلى تعزيز دقة التشخيص والإرشاد العلاجي في مرض القلب. تستخدم هذه الدراسة منهجيات ميتا-هيوريستيك للتنقل في التحديات المعقدة لاستخراج الميزات والتصنيف في تشخيص مرض القلب. تقوم هذه التقنيات بتحسين الحلول المرشحة بشكل تكراري، مما يسهل تحديد الميزات المحورية مع تحسين أداء المصنف. من بين الخوارزميات المستكشفة، برزت خوارزمية تحسين الإوز الرمادي (GGO) كخيار فعال بشكل خاص، متفوقة في مهام اختيار الميزات وضبط المعلمات. إن فعالية GGO المثبتة عبر مجالات متنوعة، بما في ذلك الرعاية الصحية والمالية والهندسة، تؤكد ملاءمتها لهذا البحث. الهدف الرئيسي من دمج التعلم الآلي مع إطار ميتا-هيوريستيك مثل GGO هو رفع دقة التشخيص، خاصة في اكتشاف مرض القلب. تعزز هذه التآزر قدرة النموذج على تمييز الأنماط المعقدة، مما يمكّن من تقييمات أكثر دقة وتدخلات سريرية سريعة. تجمع الدراسة بين GGO وشبكات الذاكرة طويلة وقصيرة المدى (LSTM) لتحسين ضبط المعلمات الفائقة، مما يعزز قدرة النموذج على تصنيف أنماط مرض القلب المعقدة. لضمان دقة تصنيف قوية، تم اتخاذ خطوات معالجة مسبقة صارمة، بما في ذلك التقييس، والتطبيع، وإدخال القيم المفقودة. بعد المعالجة المسبقة، تم تطبيق GGO في نسخته الثنائية لاستخراج الميزات الأكثر تأثيرًا التي تساهم في أداء التصنيف. تم تقييم عدة مصنفات، تشمل تصنيف الدعم المتجه (SVC)، وهبوط التدرج العشوائي (SGD)، ونايف بايز (NB)، وأقرب الجيران (KNN)، وشجرة القرار (DT)، والغابة العشوائية (RF)، وLSTM. من بين هذه، أظهرت LSTM فعالية متفوقة، مقدمة أدق نتائج التصنيف. بعد ذلك، تم استخدام GGO لضبط المعلمات الفائقة لنموذج LSTM، وتمت مقارنة أدائه مع ستة خوارزميات تحسين بديلة: نصف قطر الأرض لابن سينا (BER)، وتحسين الثعلب ذو الحنجرة (DTO)، وتحسين سرب الجسيمات (PSO)، وخوارزمية تحسين الحوت (WOA)، ومُحسّن الذئب الرمادي (GWO)، وخوارزمية تحسين الصقر (FOA). تفوقت تكوين GGO-LSTM على نظرائها، محققة أعلى دقة تصنيف وأثبتت نفسها كأكثر الطرق فعالية في توقع مرض القلب.
يتكشف هيكل الورقة على النحو التالي: القسم “الأعمال ذات الصلة” يقدم مراجعة شاملة للأدبيات المعاصرة، القسم “المواد والأساليب” يحدد المنهجية المقترحة، القسم “الإطار المقترح” يقدم تحليلًا شاملاً للنتائج التجريبية، والقسم “النتائج التجريبية” يختتم بالنتائج الرئيسية والاتجاهات البحثية المحتملة.
نظرًا لإمكانية زيادة معدلات البقاء على قيد الحياة، يركز الباحثون بشكل أساسي على تطوير طرق جديدة للتعرف الآلي وتشخيص أمراض القلب الكبيرة، حيث إن الكشف المبكر أمر حاسم في حالة أمراض القلب. تقدم هذه الفقرة نتائج البحث حول تصنيف أمراض القلب استنادًا إلى التعلم الآلي/التعلم العميق وتحليل الملمس/الصورة. هارشيت جيندال وآخرون. جمع بين ثلاث تقنيات تعلم آلي: الغابة العشوائية، الانحدار اللوجستي، وKNN. كانت دقة نموذجهم المدمج استنتجوا أن دقتهم الممتازة تعود أساسًا إلى استخدام المزيد من الميزات الطبية. كانت معدل ضربات القلب، التقدم في العمر، الكوليسترول، سكر الصيام، الألم في الصدر، الجنس، وعوامل أخرى من بين الثلاثة عشر سمة التي استخدموها. كان هناك 304 عناصر في مجموعة البيانات بشكل عام. أوطوم وآخرون. تم وضع طريقة للتحليل والمراقبة. النظام المقترح يكشف ويتتبع مرض الشريان التاجي. جامعة كاليفورنيا في إيرفين هي المكان الذي يتم فيه الحصول على إحصائيات قلب كليفلاند. تحتوي هذه المجموعة على 76 سمة/خاصية و303 حالة. من بين 76 وظيفة، يتم استخدام 13 حاليًا. للكشف، يتم إجراء اختبارين باستخدام ثلاثة خوارزميات مختلفة – بايز نايف، SVM، وأشجار الدالة FT. يتم استخدام أداة WEKA للكشف. باستخدام نهج SVM، يتم تحقيق الدقة بعد إجراء اختبار الاحتفاظ. في اختبار التحقق المتقاطع، تكون دقة SVM وشبكة بايز هي يؤدي استخدام FT إلى دقة قدرها تم استخدام أكثر خوارزميات الاختيار الأول كفاءة لاختيار أفضل سبعة سمات. تُستخدم اختبارات التحقق المتقاطع للتحقق. باستخدام السمات السبعة الأفضل التي تم اختيارها للاختبار، حصل بايز نايف على الدقة، قدمت SVM الدقة، وقد صنف FT بدقة من الميزات. بعد اختبار شامل مع مجموعة واسعة من الخوارزميات، أبورب راجدان وآخرون. خلصت إلى أن تقنية الغابات العشوائية أثبتت دقتها الاستثنائية، حيث كانت دقتها التنبؤية في التنبؤ بالأمراض القلبية. اختاروا 14 ميزة من أصل 76 ميزة في مجموعة بيانات أمراض القلب في كليفلاند من UCI. تشمل هذه الخصائص الحد الأقصى لنبض قلب المريض، العمر، الجنس، وشدة انزعاج الصدر. كما جربوا خوارزميات بايز البسيط، وأشجار القرار، والانحدار اللوجستي بالإضافة إلى الغابة العشوائية، مع نتائج من ، و ، بشكل متناسب. تم استخدام مجموعة بيانات مرض القلب في كليفلاند من قبل أمين الحق وآخرين. لاختبار سبعة خوارزميات مختلفة: KNN، SVM، الانحدار اللوجستي، شجرة القرار، الغابة العشوائية، بايز الساذج، والشبكات العصبية. لتحديد الخصائص الأكثر أهمية في مجموعة البيانات، استخدموا Lasso. كانت الأرقام الأكثر بروزًا هي ، و لآلة الدعم الناقل، والانحدار اللوجستي، والشبكات العصبية في و على التوالي. ومن الجدير بالذكر أنه في اختبار التحقق المتقاطع بواقع 10 طيات، تفوقت الانحدار اللوجستي، مع الدقة. تم التحقيق في تسعة خوارزميات بواسطة راهول كاتاريا وآخرين. : الإدراك متعدد الطبقات، شجرة القرار، بايز الساذج، أقرب الجيران K، SVM، الغابة العشوائية، الشبكات العصبية الاصطناعية، الشبكات العصبية العميقة، بالإضافة إلى الانحدار اللوجستي. بعد الحصول على قاعدة البيانات من مستودع UCI، اختاروا 14 ميزة من أصل 76 ميزة، وقاموا بتطبيعها، واستخدموا وحدة Python NAN لملء أي بيانات مفقودة. كانت العمر، الجنس، الكوليسترول، نوع انزعاج الصدر، السكر، ضغط الدم الجالس، صيام الدم، وعوامل أخرى من بين الخصائص المختارة. كانت الخوارزميات الثلاثة ذات الدقة الأفضل، الغابة العشوائية، الانحدار اللوجستي، الشبكات العصبية الاصطناعية، وآلات الدعم الناقل، ، و على التوالي. وفقًا ليونس خورديفي وآخرين. ، كل خوارزمية أدت بشكل أفضل تحت الظروف.
باستخدام مجموعة البيانات التي استخدموها، كانت خوارزميات الغابة العشوائية، وأقرب الجيران، والشبكات العصبية هي الأكثر أداءً. بالإضافة إلى ذلك، أظهرت نتائجهم أن استراتيجية التحسين الهجينة حسنت بشكل كبير التنبؤات في سجلات الرعاية الصحية. كما أوصوا بتحسين سرب الجسيمات (PSO) وتحسين مستعمرة النمل (ACO)، وهما تقنيتان لتحسين مجموعة البيانات. قاموا بإنشاء مزيج من الطريقتين وطبقوه على الغابة العشوائية، مما أسفر عن دقة قدرها ، و K-Nearest Neighbor، الذي أنتج الدقة. تم الحصول على مجموعة البيانات الخاصة بهم من مكتبة تعلم آلي آلية في جامعة كاليفورنيا، إيرفين.
كما هو موضح في الجدول 1، استخدم العديد من الباحثين تركيبات مختلفة من خوارزميات التعلم الآلي ومجموعات البيانات لتصنيف أمراض القلب. على سبيل المثال، استخدم هارشيت جيندال وزملاؤه مزيجًا من الغابة العشوائية، والانحدار اللوجستي، وKNN، محققين دقة قدرها باستخدام مجموعة بيانات تحتوي على 304 عنصر و 13 ميزة. طبق أوطوم وآخرون خوارزميات بايز الساذج، SVM، وأشجار الدالة (FT) على مجموعة بيانات مرض القلب في كليفلاند، حيث حققت SVM أعلى دقة عند . وبالمثل، وجد أبورب راجدان وآخرون أن الغابة العشوائية كانت الأكثر دقة عند بين الخوارزميات التي اختبروها. أفاد أمين الحق وآخرون بنتائج ملحوظة مع SVM والانحدار اللوجستي، حيث حققوا دقة قدرها و على التوالي، من خلال التحقق المتقاطع. أظهر راهول كاتاريا وآخرون الأداء المتفوق للغابة العشوائية، والانحدار اللوجستي، والشبكات العصبية الاصطناعية، مع معدلات دقة تصل إلى عند تحسينها باستخدام PSO و KNN. أخيرًا، أبرز يونس خورديفي وآخرون فعالية استراتيجيات التحسين الهجينة، حيث حققت الغابة العشوائية المدمجة مع ACO و KNN المدمجة مع ACO دقة قدرها و على التوالي.
توضح هذه الجدول الملخصي المنهجيات المتنوعة ودقتها، مما يظهر التقدم في أبحاث تصنيف مرض القلب. لقد حسّن الباحثون بشكل كبير من دقة التنبؤ بتشخيص مرض القلب من خلال الاستفادة من مجموعة من خوارزميات التحسين وتقنيات التعلم الآلي. توفر هذه الدراسات أساسًا قويًا لمزيد من الاستكشاف وتطوير نماذج وتقنيات أكثر تعقيدًا في هذا المجال.

المواد والأساليب

توضح هذه القسم الإطار المنهجي وتخصيص الموارد التي تدعم الدراسة، التي تسعى إلى تعزيز تصنيف مرض القلب من خلال الاستفادة بشكل متكامل من خوارزمية تحسين غازة غريلا (GGO) وشبكات الذاكرة طويلة وقصيرة الأجل (LSTM). تم هيكلة العمارة المقترحة إلى مراحل محورية، تشمل معالجة البيانات بدقة، واستخراج الميزات المنفذة عبر آلية الترميز الثنائي لخوارزمية GGO، والنشر الاستراتيجي لمجموعة من المصنفات لتحقيق مستويات مرتفعة من دقة التصنيف.

خوارزمية تحسين غازة غريلا (GGO)

تبدأ خوارزمية تحسين غازة غريلا (GGO) بتجميع مجموعة عشوائية من الحلول المرشحة، كل منها ممثلة كـ . تشكل هذه المجموعة سرب GGO. يتم تطبيق دالة هدف، Fn، لتقييم كل فرد، مما يوجه البحث نحو الحل الأمثل Z، الذي يظهر من خلال تقييم Fn عبر المجموعة بأكملها. تقسم خوارزمية GGO السكان إلى مجموعتين متميزتين: مجموعة استغلالية ومجموعة استكشافية ، مع تعديل النسبة بينهما ديناميكيًا وفقًا للحل الأمثل المحدد حتى الآن. في البداية، يتم تخصيص الجهود بالتساوي، حيث يتم توجيه نحو الاستكشاف و نحو الاستغلال. ومع ذلك، إذا ظل الحل الأمثل ثابتًا على مدى ثلاث تكرارات متتالية، توسع الخوارزمية المجموعة الاستكشافية لتجنب الوقوع في الأمثل المحلي. تكشف مرحلة الاستكشاف عن مناطق واعدة داخل فضاء البحث، مما يمنع الركود من خلال التقدم نحو الحل الأفضل الحالي. يقيم المستكشفون من الغازيات الخيارات المحتملة في محيطهم، ويختارون الخيار الأمثل بناءً على تقييم اللياقة. ثم تقوم GGO بتحديث المتجهات الفردية، مما ينقي المواقع بما يتماشى مع أفضل حل تم العثور عليه. في مرحلة الاستغلال، تقوم هذه المجموعة بتنقيح الحلول الحالية، متقدمة نحو الحل الأمثل بتوجيه من ثلاثة وكلاء مراقبة يوجهون الأعضاء الآخرين. لضمان استغلال قوي وتجنب التقارب على الأمثل المحلي، تستخدم الخوارزمية مبادئ عدم المساواة مثلث وقانون الأعداد الكبيرة. في نهاية كل تكرار، تقوم GGO بتغيير المواقع داخل فضاء البحث وتوزيع الأدوار الفردية بشكل عشوائي للانتقال بين الاستكشاف والاستغلال. تقوم خوارزمية GGO بتنقيح المواقع الفردية ديناميكيًا داخل كل مجموعة من خلال تعديلات تكرارية وخلط عشوائي،
المؤلفون التقنيات المستخدمة الدقة مجموعة البيانات
هارشيت جيندال وآخرون الغابة العشوائية، الانحدار اللوجستي، KNN 87.50% 304 عنصر، 13 ميزة
أوطوم وآخرون بايز الساذج، SVM، أشجار الدالة (FT) 88.3% (SVM)، 83.8% (SVM و بايز نت)، 81.5% (FT) مجموعة بيانات مرض القلب في كليفلاند، 303 حالة، 76 ميزة (13 مستخدمة)
أبورب راجدان وآخرون الغابة العشوائية، بايز الساذج، أشجار القرار، الانحدار اللوجستي 90.16% (الغابة العشوائية)، 85.25% (بايز الساذج)، 85.25% (أشجار القرار)، 81.97% (الانحدار اللوجستي) مجموعة بيانات مرض القلب في كليفلاند، 14 ميزة من 76
أمين الحق وآخرون KNN، SVM، الانحدار اللوجستي، شجرة القرار، الغابة العشوائية، بايز الساذج، الشبكات العصبية 88% (SVM)، 87% (الانحدار اللوجستي)، 86% (الشبكات العصبية)، 89% (الانحدار اللوجستي مع التحقق المتقاطع 10 مرات) مجموعة بيانات مرض القلب في كليفلاند
راهول كاتاريا وآخرون الإدراك متعدد الطبقات، شجرة القرار، بايز الساذج، أقرب جار K، SVM، الغابة العشوائية، ANN، الشبكات العصبية العميقة، الانحدار اللوجستي 95.6% (الغابة العشوائية)، 93.4% (الانحدار اللوجستي)، 92.3% (ANN)، 99.6% (PSO + الغابة العشوائية)، 99.65% (PSO + KNN) مستودع UCI، 14 ميزة من 76
يونس خورديفي وآخرون الغابة العشوائية، أقرب جار K، الشبكات العصبية، تحسين سرب الجسيمات (PSO)، تحسين مستعمرة النمل (ACO) 99.6% (الغابة العشوائية + ACO)، 99.65% (KNN + ACO) مستودع UCI
الجدول 1. ملخص الأعمال ذات الصلة حول تصنيف مرض القلب.
الحفاظ على تنوع السكان. تستمر هذه العملية حتى التقارب على الحل الأمثل، كما هو موضح في الخوارزمية 1.
Initialize GGO population $mathbf{X}_{i}(i=1,2, ldots, n)$, size $n$, iterations $t_{text {max }}$, objective function $F_{n}$.
Initialize GGO parameters $mathbf{a}, mathbf{A}, mathbf{C}, b, l, c, r_{1}, r_{2}, r_{3}, r_{4}, r_{5}, w, w_{1}, w_{2}, w_{3}, w_{4}, mathbf{A}_{1}, mathbf{A}_{2}, mathbf{A}_{3}, mathbf{C}_{1}, mathbf{C}_{2}, mathbf{C}_{3}, t=1$
Calculate objective function $F_{n}$ for each agents $mathbf{X}_{i}$
Set $mathbf{P}=$ best agent position
Update Solutions in exploration group $left(n_{1}right)$ and exploitation group $left(n_{2}right)$
while $t leq t_{text {max }}$ do
        for ( $i=1: i<n_{1}+1$ ) do
            if $(t % 2==0)$ then
                    if $left(r_{3}<0.5right)$ then
                        if $(|A|<1)$ then
                            Update position of current search agent as $mathbf{X}(t+1)=mathbf{X}^{*}(t)-mathbf{A} cdotleft|mathbf{C} cdot mathbf{X}^{*}(t)-mathbf{X}(t)right|$
                        else
                                Select three random search agents $mathbf{X}_{text {Paddle } 1}, mathbf{X}_{text {Paddle } 2}$, and $mathbf{X}$ Paddle 3
                            Update (z) by the exponential form of $boldsymbol{z}=mathbf{1}-left(frac{boldsymbol{t}}{boldsymbol{t}_{text {max }}}right)^{mathbf{2}}$
                            Update position of current search agent as
                                $mathbf{X}(t+1)=w 1 * mathbf{X}$ Paddle $1+mathbf{z} * w 2 *(mathbf{X}$ Paddle $2-mathbf{X}$ Paddle 3$)+(1-mathbf{z}) * w 3 *(mathbf{X}-mathbf{X}$ Paddle 1$)$
                        end if
                    else
                                Update position of current search agent as
                        $mathbf{X}(t+1)=w_{4} *|mathbf{X} *(t)-mathbf{X}(t)| . e^{b l} . cos (2 pi l)+left[2 w_{1}left(r_{4}+r_{5}right)right] * mathbf{X}^{*}(t)$
                    end if
            else
                        Update individual positions as
                    $mathbf{X}(t+1)=mathbf{X}(t)+mathbf{D}(1+mathbf{z}) * w *left(mathbf{X}-mathbf{X}_{text {Flock } 1}right)$
            end if
    end for
        for ( $i=1: i<n_{2}+1$ ) do
                if ( $t % 2==0$ ) then
                        Calculate $mathbf{X} 1=mathbf{X}$ Sentry1-A1. $mid mathbf{C} 1 . mathbf{X}$ Sentry1-X $mid, mathbf{X} 2=mathbf{X}$ Sentry2- A2. $mid mathbf{C} 2 . mathbf{X}$ Sentry2 $-mathbf{X} mid$,
                        $mathbf{X} mathbf{3}=mathbf{X}$ Sentry3 $-mathbf{A} mathbf{3} . mid mathbf{C} mathbf{3} . mathbf{X}$ Sentry3 $-mathbf{X} mid$
                    Update individual positions as $left.overline{mathbf{X}_{mathbf{i}}}right|_{0} ^{3}$
            else
                        Update position of current search agent as
                        $mathbf{X}(t+1)=mathbf{X}(t)+mathbf{D}(1+mathbf{z}) * w *left(mathbf{X}-mathbf{X}_{text {Flock } 1}right)$
            end if
    end for
    Calculate objective function $F_{n}$ for each $mathbf{X}_{i}$
        Update parameters
        Set $t=t+1$
        Adjust beyond the search space solutions
            if (Best $F_{n}$ is same as previous two iterations) then
                Increase solutions of exploration group ( $n_{1}$ )
                Decrease solutions of exploitation group ( $n_{2}$ )
    end if
end while
Return best agent $mathbf{P}$
الخوارزمية 1. خوارزمية GGO.

خوارزمية تحسين GGO الثنائية

تقدم خوارزمية تحسين GGO نهجًا قويًا لتعزيز اختيار الميزات لبارامترات LSTM. في هذه الطريقة، تعتمد GGO تنسيق ترميز ثنائي مصمم لعملية اختيار الميزات، والتي تعمل ضمن فضاء بحث مقيد محدود بالقيم الثنائية، 0 و 1. الهدف هو تقييم أهمية ميزات معينة؛ وبالتالي، يتم تحويل قيم GGO إلى مخطط ضمن إطار GGO الثنائي المقترح في هذا القسم. تتم هذه العملية، الموضحة من خلال المعادلتين 1 و 2، باستخدام دالة سيغمويد لتحويل البيانات المستمرة إلى شكل ثنائي، بما يتماشى مع متطلبات اختيار الميزات.
حيث تشير إلى الحل الأمثل في تكرار معين . توضح الخوارزمية 2 مراحل طريقة GGO الثنائية المقترحة (bGGO)، والتي تستخدم لاختيار مجموعة الميزات الأكثر صلة، مما يحسن دقة التصنيف لحالات التسوس.
Initialize GGO population, objective function, and GGO parameters
Convert solution to binary [0 or 1]
Calculate objective function for each agent and get best agent position
Update Solutions in exploration group and exploitation group
while $mathrm{t} leq mathrm{t}_{text {max }}$ do
    for ( $mathrm{i}=1: mathrm{i}<mathrm{n}_{1}+1$ ) do
        if $(mathrm{t} % 2==0)$ then
            if $left(mathrm{r}_{3}<0.5right)$ then
                if $(|mathrm{A}|<1)$ then
                            Update position of current search agent in exploration group
                        else
                            Update position of current search agent based on three random search agents
                        end if
                    else
                        Update position of current search agent
                            end if
                    else
                        Update individual positions
                    end if
        end for
        for ( $mathrm{i}=1: mathrm{i}<mathrm{n} 2+1$ ) do
            if $(mathrm{t} % 2==0)$ then
                    Update position of current search agent in exploitation group
            else
                    Update position of current search agent
                end if
        end for
        Convert updated solution to binary
        Calculate objective function
        Update parameters
        Adjust beyond the search space solutions
        Update Solutions in exploration group and exploitation group
    end while
Return best agent
الخوارزمية 2. خوارزمية bGGO.

الذاكرة طويلة وقصيرة الأجل (LSTM)

تعتبر شبكات الذاكرة طويلة وقصيرة الأجل (LSTM) شكلًا متخصصًا من الشبكات العصبية التكرارية (RNNs) مصممة للتغلب على بعض القيود الموجودة في هياكل RNN التقليدية. في عملية تدريب RNN، يتم تمرير البيانات التسلسلية عبر الشبكة، من المتجه المدخل إلى خلايا الإخراج،
بينما يتم حساب الأخطاء وإرسالها للخلف لضبط معلمات الشبكة. تتضمن هذه الشبكات حلقات تغذية راجعة داخل طبقاتها المخفية، مما يسمح للمعلومات بالتداول في اتجاهين، مما يمكّن الحالة المخفية من الاحتفاظ بالمعرفة من خطوات الزمن السابقة. نتيجة لذلك، يتأثر ناتج النموذج بالتنبؤات السابقة. ومع ذلك، تكافح RNN التقليدية لالتقاط الاعتماديات طويلة الأجل، ويرجع ذلك أساسًا إلى مشكلة تلاشي التدرجات، حيث يتناقص تأثير المعلومات السابقة مع انتشارها عبر المزيد من خطوات الزمن. تؤدي هذه الظاهرة إلى تشفير الشبكة بشكل أساسي للاعتماديات قصيرة الأجل، مع تلاشي المعلومات من الخطوات السابقة مع مرور الوقت. يقترب تدرج دالة الخسارة من الصفر مع إضافة المزيد من الطبقات مع دوال تنشيط، مما يزيد من تفاقم هذه المشكلة. تتعامل شبكات LSTM، أو LSTM-ANNs، مع هذا التحدي من خلال إدخال وحدات الذاكرة وآليات البوابات التي تمكّن النموذج من التقاط الاعتماديات طويلة الأجل. يسمح تضمين حالات الخلايا وثلاث بوابات متميزة لـ LSTMs بالاحتفاظ أو التخلص من المعلومات بشكل انتقائي، مما يجعلها قادرة على تعلم الاعتماديات عبر آلاف خطوات الزمن. وبالتالي، فإن شبكات LSTM بارعة في تذكر ونسيان المعلومات الحرجة، مما يسمح لها بنمذجة العلاقات الزمنية طويلة الأجل بفعالية أكبر بكثير من RNN التقليدية. .

الإطار المقترح

تبدأ الإطار المنهجي لهذه الورقة بمرحلة أولية مخصصة لعمليات معالجة البيانات الشاملة، والتي تشمل إزالة الإدخالات الفارغة، والتطبيع، والتقييس لضمان بيانات مدخلة موحدة ومجهزة بشكل جيد للمراحل التحليلية اللاحقة. ويعتبر اعتماد منهجيات اختيار الميزات مركزياً في هذه المرحلة، حيث يتم استخدام سبع تقنيات تحسين في شكل ثنائي: تحسين الإوز الرمادي (GGO)، ونصف قطر الأرض لابن سينا (BER). تحسين ذو حنجرة الغطاس (DTO) محسن سرب الجسيمات (PSO) خوارزمية تحسين الحيتان (WOA) محسن الذئب الرمادي (GWO) ، وخوارزمية تحسين الصقر (FOA) في المرحلة التالية، تستخدم الدراسة آلية اختيار الميزات المقترحة، مستفيدة من الترميز الثنائي لـ GGO (bGGO) لعزل الميزات الأكثر صلة. هذه المرحلة حاسمة في تحديد الخصائص المثلى، مما يعزز دقة التصنيف من خلال التخلص من النقاط البيانية الزائدة أو غير ذات الصلة. يتم استخدام مجموعة البيانات المنقحة بعد ذلك للتصنيف من خلال مجموعة من نماذج التعلم الآلي، حيث تُستخدم نتائج اختيار الميزات لإبلاغ اختيار المصنفات. تتكون مجموعة المصنفات المستكشفة في هذه الدراسة من مصنف دعم المتجهات (SVC). الانحدار العشوائي التدرجي (SGD) مصنف الغابة العشوائية (RFC) أقرب الجيران (KNN) بايزي الغاوسي الساذج (NB)، شجرة القرار (DT)، وذاكرة طويلة وقصيرة المدى (LSTM) لضمان الأداء الأمثل، يتم ضبط معلمات LSTM الفائقة باستخدام استراتيجية التحسين المقترحة. تبدأ عملية التحسين من خلال توليد مجموعة من الحلول المرشحة، حيث يمثل كل منها تكوين معلمات مميز. يتم تقييم كل مرشح، الذي يرمز إلى الإوز الرمادي، مقابل دالة ملاءمة بناءً على أدائه في التصنيف على مجموعة بيانات التحقق. مسترشدين بالمتجهات الموزونة حسب الملاءمة، تتنقل الأفراد في المجموعة عبر فضاء البحث، متقاربة بشكل تكراري نحو التكوينات المثلى. من خلال التعديلات المنهجية، يقوم الخوارزم بتكرير المجموعة تدريجياً، مما يؤدي إلى تحديد أفضل تكوين لمعلمات LSTM. يحدث إنهاء العملية بمجرد الوصول إلى عتبة التقارب المحددة مسبقًا أو الحد الأقصى لعدد التكرارات، حيث يتم تعريف الحل الأمثل من خلال أعلى درجة ملاءمة. يتم تقديم تمثيل بصري لهذه العملية التسلسلية في الشكل 2، مما يوضح قوة الإطار. من خلال دمج GGO لكل من اختيار الميزات وتحسين المعلمات الفائقة، تليها التصنيف القائم على LSTM، تظهر المنهجية فعاليتها. سيثري المزيد من التوضيح حول بنية LSTM والدوافع لاختيار GGO النقاش. يتم تلخيص تفاصيل تكوين معلمات LSTM في الجدول 2.
السبب وراء اختيار GGO هو أن GGO يوازن بشكل فعال بين الاستكشاف والاستغلال، وهو أمر حاسم لتجنب الحلول المحلية المثلى. يقوم الخوارزم بتعديل سلوك البحث ديناميكيًا بناءً على تقدم التكرارات، مما يضمن تقاربًا فعالًا. عند مقارنة GGO بخوارزميات أخرى مثل PSO وGWO التي تُستخدم على نطاق واسع، أظهر GGO أداءً متفوقًا من حيث اختيار الميزات والتحسين. تكلفة حساب GGO تنافسية مع خوارزميات التحسين الأخرى، مما يجعله مناسبًا لمجموعة بيانات مرض القلب ذات الأبعاد العالية نسبيًا المستخدمة في هذه الدراسة.
تستكشف هذه الدراسة كيف يمكن لـ GGO تحسين ضبط معلمات LSTM. إن تحسين معلمات LSTM أمر ضروري لتعظيم الأداء وتحقيق أعلى دقة تصنيف. قبل استخدام GGO لضبط القيم في LSTM، من الضروري تحديد المعلمات التي تتطلب تحسينًا.

النتائج التجريبية

تتناول هذه القسم تقييم الخوارزمية المقترحة تحت سيناريوهات تجريبية متنوعة. استخدمت التجارب دوال رياضية معروفة كمعايير لتحديد قيمها الدنيا ضمن مجالات البحث المحددة. تُعتبر هذه الدوال معروفة على نطاق واسع في الأدبيات لتقييم فعالية تقنيات التحسين، مما يجعلها مقياسًا ثابتًا للمقارنة. لتسليط الضوء على الأداء المتفوق وفعالية الخوارزمية المقترحة، التي تُسمى تحسين الإوز الرمادي (GGO)، تم إجراء تحليل مقارن ضد سبع منهجيات تحسين بارزة. الخوارزميات المختارة هي GGO وBER وDTO وPSO وWAO وGWO وFOA، وقد تم اختيارها لاعترافها الكبير وأهميتها المعروفة في التطبيقات العملية، مما يبرز فائدتها كأسس قوية لتقييم الأداء.

وصف مجموعة البيانات

تقدم هذه المجموعة من البيانات موردًا قيمًا لمتخصصي تعلم الآلة وعلوم البيانات لتطوير نماذج تنبؤية لتشخيص أمراض القلب، واستكشاف تأثير العوامل المختلفة المتعلقة بالمرض، وإنشاء خوارزميات تعزز استراتيجيات علاج والوقاية من أمراض القلب. تستخدم الدراسة “مجموعة بيانات فشل القلب”، التي تم جمعها وجعلها متاحة للجمهور على كاجل. تتيح فعالية أنظمة تصنيف وتنبؤ أمراض القلب للأفراد تقييم مخاطرهم من أمراض القلب بتكلفة منخفضة، بينما تمكن مقدمي الرعاية الصحية من اتخاذ قرارات مستندة إلى البيانات بناءً على ملف مخاطر المريض. يتم الحصول على البيانات من
الشكل 2. الإطار المقترح لتصنيف أمراض القلب.
معاملات فرعية القيم
عدد العقد 256
عدد الطبقات المخفية ٤
التسرب الدراسي 0.5
دالة التنشيط ريلو
معدل التعلم 0.001
عدد العصور 100
حجم الدفعة 64
الجدول 2. المعلمات الفائقة لنموذج LSTM.
نظام توقع أمراض القلب عبر الإنترنت مستضاف على كاجل، يمكن الوصول إليه على:https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction?%20resource=download. تتضمن مجموعة البيانات ميزات إدخال رئيسية مثل العمر، ضغط الدم أثناء الراحة (RestingBP)، مستويات الكوليسترول، سكر الدم الصائم (FastingBS)، الحد الأقصى لمعدل ضربات القلب (MaxHR)، OldPeak، ووجود مرض القلب. تُستخدم هذه الميزات لتصنيف المتغير الناتج لمرض القلب. توضح الشكل 3 هيستوجرام يمثل بصريًا العلاقة بين ميزات الإدخال والمتغير الناتج في مجموعة بيانات مرض القلب.
تقدم الشكل 4 مصفوفة الارتباط، وهي أداة إحصائية أساسية لتحليل العلاقات بين المتغيرات داخل مجموعة البيانات. عادةً ما توفر هذه المصفوفة عرضًا تفصيليًا للاختلافات الزوجية عبر جميع المتغيرات، مع قيم تتراوح من -1 إلى +1 تشير إلى قوة واتجاه هذه العلاقات. من خلال الاستفادة من مصفوفة الارتباط، يمكننا اكتشاف أنماط مهمة، وتقييم اتجاه الارتباطات، و
الشكل 3. رسم بياني للتوزيع لكل ميزة في مجموعة البيانات.
تحديد المؤشرات المحتملة ضمن البيانات. هذه الرؤية ضرورية للنمذجة التنبؤية، حيث تساعد في اختيار الميزات ذات الصلة، وتقليل الأبعاد، ومعالجة القضايا المتعلقة بالتعدد الخطي، مما يؤدي في النهاية إلى تحسين كفاءة النموذج ودقته. .

نتائج اختيار الميزات

استخدمت هذه الدراسة منهجيات متقدمة لاختيار الميزات لتنفيذ سبعة خوارزميات تحسين متميزة في نسخها الثنائية: GGO، BER، DTO، PSO، WOA، GWO، وFOA. يتم تحليل الأداء المقارن لهذه التقنيات بشكل منهجي في الجدول 3، الذي يوضح النتائج التي تم الحصول عليها من خلال كل نهج. ومن الجدير بالذكر أن النتائج تبرز الفعالية المتفوقة لطريقة تحسين الإوز الرمادي الثنائي المقترحة (bGGO)، التي تتفوق باستمرار على نظرائها عبر مؤشرات الأداء الرئيسية، كما يتضح من هيمنتها على خوارزميات اختيار الميزات الثنائية الأخرى. .
تقدم الشكل 5 تحليلًا مقارنًا لمعدلات الخطأ المتوسطة عبر عشر منهجيات مختلفة لاختيار الميزات، بما في ذلك الطريقة المقترحة bGGO. يبرز التمثيل البياني الفعالية الملحوظة لتقنية bGGO، كما يتضح من متوسط خطأها المنخفض، مما يبرز مرونتها وأدائها المتفوق مقارنة بالاستراتيجيات المنافسة.
تجسد الشكل 6 تصويرًا متعدد الأبعاد للنتائج التي تم الحصول عليها من خلال تقنية اختيار الميزات المقترحة، باستخدام مجموعة من التصورات التحليلية، بما في ذلك مخططات المتبقيات، ومخططات الربع الربع (QQ)، وتقييمات التماثل في التباين، وخرائط الحرارة. تبرز هذه الأدوات البصرية مجتمعة قوة وموثوقية المنهجية، مقدمة رؤى دقيقة حول فعاليتها عبر مقاييس تقييم متنوعة.
تظهر النتائج المعروضة في مخطط QQ توافقًا بارزًا مع اتجاه خطي، مما يؤكد موثوقية الميزات المختارة في تشخيص أمراض القلب بدقة. تكمل هذه النتائج، حيث تعزز النتائج الموضحة في مخططات التماثل والتبقيات التركيز على مقاييس الأداء القوية. بالإضافة إلى ذلك، تؤكد خريطة الحرارة فعالية منهجية bGGO، مما يوضح قدرتها على تحقيق نتائج مثالية عند مقارنتها بأساليب اختيار الميزات البديلة. كما تدعم الجدول 4 فعالية تقنية bGGO المقترحة، مما يبرز أدائها المتفوق عبر مجموعة متنوعة من المقاييس التقييمية مقارنة بالاستراتيجيات السابقة. كشفت التحليلات الإحصائية التي تتضمن حسابات قيمة p للمقارنات الزوجية الخوارزمية أن نهج bGGO يظهر مزايا ذات دلالة إحصائية. تختبر الدراسة الفرضيات الرئيسية بدقة، بما في ذلك السيناريوهات الصفرية والبديلة، لاستنتاج استنتاجات حاسمة حول هيمنة التقنية المقترحة.
تظهر الأهمية الإحصائية للتقنية المقترحة على المنهجيات الحالية من خلال قيمتها p المنخفضة بشكل ملحوظ. لتعزيز هذه النتائج، تم إجراء تحليل التباين أحادي الاتجاه (ANOVA) لتحديد وجود اختلافات ذات دلالة إحصائية بين أداء نهج bGGO المقترح وتقنيات التحسين الثنائي الأخرى. النتائج التفصيلية لهذا التحليل
الشكل 4. مصفوفة الارتباط بين الميزات في مجموعة البيانات.
بغو ببر بي دي تي أو BPSO بواو bGWO بفاو
خطأ متوسط 0.286625 0.303825 0.317425 0.337625 0.337425 0.323925 0.336025
متوسط حجم الاختيار 0.239425 0.439425 0.381825 0.439425 0.602825 0.362225 0.473925
لياقة بدنية متوسطة 0.349825 0.366025 0.377425 0.364425 0.372225 0.372125 0.416325
أفضل لياقة 0.251625 0.286325 0.280725 0.344725 0.336325 0.349925 0.335025
أسوأ لياقة 0.350125 0.353225 0.395825 0.412425 0.412425 0.426125 0.432625
لياقة الانحراف المعياري 0.172125 0.176825 0.178425 0.176225 0.178425 0.177425 0.213025
الجدول 3. تقييم تقنية اختيار الميزات المقترحة (bGGO) مقارنةً بتقنيات المنافسة الأخرى.
التحليلات مضمّنة في الجدول 5، الذي يؤكد بلا لبس تفوق التقنية المقترحة، والأهمية الإحصائية، والفعالية القوية في مهام اختيار الميزات.

نتائج التصنيف

تم إجراء التجربة لتسليط الضوء على تأثير منهجية اختيار الميزات على نتائج التصنيف. تم استخدام مصنفات التعلم الآلي لتصنيف بيانات الإدخال، مستفيدين من السمات التي تم تحديدها من خلال إطار عمل bGGO. هذه التقنية حسنت بشكل كبير من فضاء الميزات وعززت أداء المصنف بشكل عام. تم تلخيص نتائج التصنيف لمختلف خوارزميات التعلم الآلي، بعد اختيار الميزات، في الجدول 6. تشمل المصنفات التي تم تقييمها SVC وSGD وGaussian NB وK-Nearest Neighbors Classifier (KNC) وDecision Tree (DT) وRandom Forest (RF) وLSTM. من بين هذه، برز نموذج LSTM.

متوسط الخطأ

الشكل 5. متوسط خطأ النتائج التي تم الحصول عليها باستخدام bGGO، تقنية اختيار الميزات المقترحة.
الشكل 6. مخططات التحليل للنتائج المستخلصة بناءً على bGGO، تقنية اختيار الميزات المقترحة.
بغو ببر بي دي تي أو بي.بي.إس.أو بواو bGWO بفاو
قيمة P (ذو طرفين) 0.002 0.002 0.002 0.002 0.002 0.002 0.002
دقيق أم تقديري؟ دقيق دقيق دقيق دقيق دقيق دقيق دقيق
مهم (ألفا نعم نعم نعم نعم نعم نعم نعم
تباين 0.2866 0.3038 0.3174 0.٣٣٧٦ 0.3374 0.3239 0.336
الجدول 4. اختبار ويلكوكسون للرتب الموقعة لتقييم فعالية تقنية اختيار الميزات المقترحة (bGGO) مقارنة بتقنيات التحسين الثنائي الموجودة.
جدول ANOVA SS DF MS F (DFن، DFد) قيمة P
علاج 0.02167 ٦ 0.003612
متبقي 0.002002 63
إجمالي 0.02368 69
الجدول 5. اختبار تحليل التباين (ANOVA) لتقييم تقنية البGGO المقترحة.
نماذج دقة الحساسية (TRP) الخصوصية (TNP) القيمة (PPV) صافي القيمة الحالية (NPV) درجة F
مصنف SVC 0.8294393 0.856031128 0.789473684 0.859375 0.7848837 0.8577
مصنف SGD 0.840909 0.86614173 0.80645161 0.859375 0.8152174 0.86274
مصنف Gaussian NB 0.845474 0.87265917 0.80645161 0.86617100 0.8152174 0.86940
مصنف الجار الأقرب (KNN) 0.849137 0.87265917 0.81725888 0.86617100 0.8256410 0.86940
مصنف شجرة القرار (DT) 0.864806 0.88345864 0.84 0.88014981 0.84422110 0.88180
مصنف الغابة العشوائية (RF) 0.894736 0.88679245 0.90163934 0.88679245 0.90163934 0.88679
LSTM 0.917948 0.90733590 0.92638036 0.90733590 0.92638036 0.90733
الجدول 6. مصنفات متنوعة لتصنيف أمراض القلب.
نماذج دقة الحساسية (TRP) الخصوصية (TNP) القيمة (PPV) قيمة N (NPV) درجة F
جي جي أو + إل إس تي إم 0.995763 0.996086 0.995516 0.994141 0.997006 0.995112
BER + LSTM 0.978346 0.978846 0.977823 0.978846 0.977823 0.978846
DTO + LSTM 0.970742 0.969432 0.971944 0.969432 0.971944 0.969432
PSO + LSTM 0.950363 0.951777 0.949074 0.944584 0.955711 0.948167
جي دبليو أو + إل إس تي إم 0.944223 0.937695 0.949074 0.931889 0.953488 0.934783
FAO + LSTM 0.935103 0.937695 0.932773 0.926154 0.943343 0.931889
واو + LSTM 0.930556 0.934783 0.92638 0.926154 0.934985 0.930448
الجدول 7. نتائج طرق التحسين لنموذج LSTM في تصنيف أمراض القلب.
كالأكثر كفاءة، محققًا مقاييس ملحوظة لـ 0.907336 للدقة، الحساسية، النوعية، قيمة p، قيمة n، ودرجة F، على التوالي. كعمل وظيفة للياقة، تم تحسين نموذج LSTM بشكل أكبر من خلال تحسينه باستخدام خوارزمية GGO جنبًا إلى جنب مع ست استراتيجيات تحسين أخرى، مما يظهر قدرته على تحقيق نتائج تصنيف متفوقة.
تُعرض نتائج التصنيف لسبعة خوارزميات تحسين، باستخدام نموذج LSTM كدالة للياقة، في الجدول 7. يتم مقارنة أداء مجموعة GGO-LSTM مع تقنيات تحسين أخرى معززة بـ LSTM، مثل BER وDTO وPSO وGWO وWAO وFOA، مما يبرز الفعالية المتفوقة لنهج GGO-LSTM. أظهر أسلوب GGO-LSTM أداءً استثنائيًا، محققًا قيمًا مثيرة للإعجاب تبلغ 0.995763 للدقة، 0.996086 للحساسية، 0.995516 للخصوصية، 0.994141 لقيمة p، 0.997006 لقيمة n، و0.995112 لدرجة F. تم استخدام عدة محسنات لضبط معلمات LSTM، وتم تقييم نتائجها بشكل شامل. البيانات المعروضة في هذه الجدول توضح بوضوح أن نهج GGO-LSTM المقترح يتفوق على جميع استراتيجيات التحسين الأخرى. تؤكد هذه النتائج بشكل قاطع على الدور الحاسم لاختيار الميزات في تعزيز دقة التصنيف.
يوفر الشكل 7 تقييمًا شاملاً للدقة التي حققها نهج GGO + LSTM الهجين مقارنةً بخوارزميات التحسين الأخرى المطبقة على نموذج LSTM، مع التركيز على الدالة الهدف. يقيم هذا التحليل كفاءة طريقة GGO+LSTM في تحسين الدالة الهدف لتصنيف أمراض القلب، مقارنًا أدائها مع استراتيجيات تحسين أخرى متنوعة.
دقة
الشكل 7. تقييم دقة نهج GGO + LSTM وخوارزميات التحسين باستخدام نموذج LSTM، مع الأخذ في الاعتبار دالة الهدف.
هيستوغرام الدقة
الشكل 8. المدرجات التكرارية لنتائج الدقة التي حققها نهج GGO + LSTM، بالإضافة إلى تركيبات بديلة من تقنيات التحسين مع نماذج LSTM.
جدول ANOVA SS DF MS F (DFن، DFد) قيمة P
علاج 0.0334 ٦ 0.005567
متبقي 0.001638 63 0.000026
إجمالي 0.03504 69
الجدول 8. نتائج تحليل التباين (ANOVA) لخوارزمية GGO المقترحة مع نموذج LSTM لتصنيف أمراض القلب.
تساعد النتائج المقدمة في تعزيز فهم الفعالية النسبية لهذه التقنيات، مما يضع معيارًا لتطبيقها العملي. من خلال هذا التمثيل البصري، يتم تجهيز الباحثين والممارسين لتمييز نقاط القوة والقيود المميزة لكل خوارزمية تحسين، مما يمكنهم من اختيار الطريقة الأكثر ملاءمة لتحسين نماذج تصنيف أمراض القلب.
تظهر الشكل 8 المدرجات التي تصف توزيع نتائج الدقة لنهج GGO + LSTM الهجين مقارنة بتقنيات التحسين البديلة المستخدمة مع نماذج LSTM. هذه المدرجات
الشكل 9. مخططات تحليل نتائج نهج GGO + LSTM المقترح وخوارزميات أخرى.
GGO + LSTM BER + LSTM DTO + LSTM PSO + LSTM GWO + LSTM FAO + LSTM WAO + LSTM
قيمة P (ذيلين) 0.002 0.002 0.002 0.002 0.002 0.002 0.002
دقيق أم تقديري؟ دقيق دقيق دقيق دقيق دقيق دقيق دقيق
ذو دلالة ؟ نعم نعم نعم نعم نعم نعم نعم
اختلاف 0.9958 0.9783 0.9707 0.9504 0.9442 0.9351 0.9306
الجدول 9. نتائج اختبار ويلكوكسون للرتب الموقعة للنهج المقترح (GGO + LSTM)، مع تكوينات مختلفة من خوارزميات تحسين أخرى مع نموذج LSTM لتصنيف أمراض القلب.
تمثل بصريًا تباين وتشتت درجات الدقة عبر طرق التحسين المختلفة، مما يوفر رؤى قيمة حول أدائها. من خلال تحليل هذه التمثيلات الرسومية، يمكن للباحثين الحصول على فهم أعمق لكيفية توزيع النتائج، مما يمكّن من تحديد الأنماط، والقيم الشاذة، والمجالات المحتملة للتحسين عبر الطرق. تسهل المدرجات المقدمة في الشكل 8 استخلاص استنتاجات ذات مغزى بشأن فعالية استراتيجيات التحسين المختلفة عند دمجها مع نماذج LSTM لمهام تصنيف أمراض القلب.
يعرض الجدول 8 نتائج ANOVA لنهج GGO + LSTM المقترح، مع تسليط الضوء على قدرته على تحقيق أداء متميز من خلال التطبيق الفعال لتقنيات استكشاف فضاء البحث. لتعظيم إمكانيات التقنية، من الضروري تحقيق توازن متوازن بين الاستكشاف والاستغلال داخل مجال البحث. بالإضافة إلى ذلك، من الضروري بدء مرحلة الاستغلال مبكرًا في كل تكرار وزيادة عدد المشاركين في مجموعة الاستغلال تدريجيًا مع تقدم العملية. يضمن هذا النهج الاستراتيجي الاستخدام الأمثل لفضاء البحث، مما يؤدي إلى نتائج متفوقة.
يقدم الشكل 9 سلسلة من التصورات، بما في ذلك خريطة الحرارة، ومخطط QQ، ومخطط المتبقيات، ومخطط التباين، لتوضيح أداء تقنية GGO + LSTM المقترحة. يبرز استخدام التباين، ومخططات الربع-ربع (QQ)، ومخططات المتبقيات قوة وفعالية النهج. يكشف مخطط QQ عن توافق وثيق مع اتجاه خطي، مما يعزز ملاءمة الميزات المختارة لتصنيف أمراض القلب. يتم تقديم تحقق إضافي لهذه النتائج من خلال الرؤى المستمدة من مخططات التباين والمتبقيات، مما يعزز دقة وموثوقية النتائج.
يقدم الجدول 9 نتائج اختبار ويلكوكسون لمجموع الرتب، والذي يُستخدم لتقييم ما إذا كانت هناك اختلافات ذات دلالة إحصائية في النتائج التي تنتجها الخوارزميات المختلفة. تشير قيمة P أقل من 0.05 إلى ميزة ذات دلالة إحصائية. تظهر نتائج هذا التحليل أن نهج GGO + LSTM يتفوق على التقنيات الأخرى، مما يثبت تفوقه ويؤكد الأهمية الإحصائية لأدائه.

تحليل نتائج التصنيف

في تحليل نتائج التصنيف، يتم إجراء تقييم متعمق لتقييم أداء الخوارزميات المختلفة، بما في ذلك نهج GGO + LSTM الجديد، في التنبؤ بأمراض القلب. يتضمن هذا التقييم الشامل تدقيق عدة مقاييس رئيسية – مثل الدقة، والدقة، والاسترجاع، ودرجة F1، والحساسية، والخصوصية – التي توفر رؤى قيمة حول نقاط القوة والضعف في قدرات كل خوارزمية التنبؤية. من خلال تحليل هذه المقاييس بعناية، نحصل على فهم شامل لكيفية أداء كل خوارزمية في تحديد حالات أمراض القلب. هذه الخطوة الحاسمة لا تبرز فقط مزايا وقيود الطرق المختلفة، ولكنها تساعد أيضًا في تحديد الخوارزمية الأكثر فعالية لتنبؤ أمراض القلب. .

مخطط الانحدار: الدقة مقابل درجة F

الشكل 10. مخطط الانحدار: الدقة مقابل درجة F للنهج المقترح GGO + LSTM وخوارزميات أخرى.
يظهر الشكل 10 مخطط انحدار يوضح العلاقة بين الدقة ودرجة F للنهج المقترح GGO + LSTM والعديد من الخوارزميات المتنافسة. يتيح هذا التمثيل الرسومي فهمًا واضحًا للتفاعل بين هذين المقياسين الرئيسيين للأداء، مع تمثيل كل خوارزمية كنقطة بيانات. يوفر خط الانحدار الملائم لهذه النقاط رؤى حول العلاقة العامة بين الدقة ودرجة F، مما يبرز ما إذا كان هناك نمط ثابت. تكشف التباينات عن خط الانحدار عن التبادلات المميزة بين الدقة ودرجة F لكل خوارزمية، مما يعكس قدراتها الفردية. تعتبر هذه التصور أداة قوية للباحثين لمقارنة أداء نهج GGO + LSTM ضد الخوارزميات الأخرى، وتحديد أي الطرق توازن بين الدقة العالية ودرجة F قوية في تنبؤ أمراض القلب.
يقدم الشكل 11 مخطط تقدير كثافة النواة (KDE)، الذي يوضح توزيع درجات الدقة لكل من نهج GGO + LSTM والعديد من الخوارزميات المرجعية. يوفر هذا المخطط تقدير كثافة نواة مفصل، مما يوفر فهمًا أكثر دقة لتباين وانتشار درجات الدقة عبر الخوارزميات المختلفة. يتم تمثيل كل خوارزمية بواسطة منحنى كثافة احتمالية، مع قمم أعلى تشير إلى مناطق ذات تركيز أكبر، حيث تتجمع درجات الدقة بشكل أكثر كثافة. يتيح مخطط KDE للباحثين تمييز أي أنماط أساسية في التوزيع ومقارنة أداء الدقة لنهج GGO + LSTM ضد الطرق الأخرى. تعتبر هذه التصور أداة شاملة لتقييم القوة التنبؤية العامة والفعالية المقارنة لكل خوارزمية في سياق تصنيف أمراض القلب.
يعرض الشكل 12 الحساسية، أو معدل الإيجابيات الحقيقية (TPR)، لكل من نهج GGO + LSTM المقترح والعديد من الخوارزميات الأخرى. تعتبر الحساسية مقياسًا حيويًا في مهام التصنيف الثنائي، مثل تنبؤ أمراض القلب، حيث تشير إلى قدرة النموذج على تحديد الحالات الإيجابية بشكل صحيح (أي حالات أمراض القلب). يتم تمثيل كل نموذج كنقطة بيانات أو عمود يعكس قيمته الحساسية المقابلة. من خلال تقييم حساسية نهج GGO + LSTM مقابل الخوارزميات الأخرى، يمكن للباحثين تقييم مدى فعالية كل نموذج في اكتشاف الحالات الإيجابية الفعلية. يبرز هذا المقارنة الخوارزميات ذات الحساسية الأعلى، مما يظهر كفاءتها في تحديد حالات أمراض القلب بدقة. في النهاية، يسمح هذا التحليل

مخطط KDE للدقة

الشكل 11. مخطط KDE للدقة للنهج المقترح GGO + LSTM وخوارزميات أخرى.
فهمًا أعمق لفعالية نهج GGO + LSTM في تصنيف أمراض القلب مقارنة بالطرق الأخرى.
توضح الشكل 13 الخصوصية، أو معدل السلبية الحقيقية (TNR)، للطريقة المقترحة GGO + LSTM جنبًا إلى جنب مع نماذج أخرى. الخصوصية هي مقياس أساسي في مهام التصنيف الثنائي، مثل توقع أمراض القلب، حيث تعكس قدرة النموذج على تحديد السلبية الحقيقية بشكل صحيح (أي الحالات التي لا توجد فيها أمراض قلبية). يتم تمثيل كل نموذج بنقطة بيانات أو شريط يتوافق مع قيمته المحددة. من خلال مقارنة قيم الخصوصية عبر نماذج مختلفة، يمكننا قياس نجاح كل خوارزمية في تقليل الإيجابيات الكاذبة. تسلط هذه التمثيل البصري الضوء على الخوارزميات التي تتفوق في تحديد الحالات التي لا تعاني من أمراض القلب، مما يوفر رؤى حول فعاليتها. يوفر تحليل الخصوصية عبر نماذج مختلفة فهمًا شاملاً لأداء طريقة GGO + LSTM النسبي وإسهامها المحتمل في تصنيف أمراض القلب.
تقدم الشكل 14 مخططات الصندوق التي تقارن مقاييس الأداء لطريقة GGO + LSTM مع نماذج أخرى. توفر هذه المخططات تمثيلًا رسوميًا واضحًا لمؤشرات الأداء الرئيسية، مثل الدقة، ودرجة F1، والحساسية، والخصوصية، مما يسمح بإجراء تحليل مقارن مفصل لتوزيعاتها عبر خوارزميات مختلفة. يتم عرض كل مقياس في مخطط صندوق خاص به، حيث يتم وضع القيمة الوسيطة بواسطة خط في وسط الصندوق، ويتم تمثيل النطاق الربعي (IQR) بواسطة حواف الصندوق، وتمتد الشعيرات إلى القيم الدنيا والقصوى ضمن 1.5 مرة من IQR. يتم تمييز القيم الشاذة كنقاط بيانات فردية تتجاوز هذا النطاق. يتيح الفحص الدقيق لهذه المخططات للباحثين تقييم الاتجاه المركزي، والانتشار، والتباين لكل مقياس لطريقة GGO + LSTM والنماذج الأخرى. يساعد هذا التمثيل البصري في تحديد الفروق في الأداء بين الخوارزميات، مما يوفر رؤى حول نقاط القوة والضعف النسبية لكل طريقة في توقع أمراض القلب.
تظهر الشكل 15 مخططًا ثنائيًا مكتملًا بخطوط انحدار، مما يوفر تمثيلًا شاملاً للعلاقات المتبادلة بين مقاييس الأداء المختلفة لكل من طريقة GGO + LSTM والخوارزميات الأخرى. يتيح هذا المخطط استكشاف الروابط بين مقاييس مختلفة مثل الدقة، ودرجة F1، والحساسية، والخصوصية، المقدمة في أزواج. يتم عرض كل زوج من المقاييس باستخدام مخططات تشتت، مع خط انحدار مطابق يشير إلى اتجاه وقوة ارتباطها. هذه الخطوط الانحدارية مفيدة بشكل خاص في تحديد الاتجاهات أو الأنماط داخل البيانات، مما يبرز الارتباطات المحتملة عبر مقاييس الأداء المختلفة. من خلال فحص هذا المخطط الثنائي، يمكن للباحثين الحصول على رؤى قيمة حول كيفية تفاعل المقاييس مع بعضها البعض عبر خوارزميات مختلفة. بالإضافة إلى ذلك، فإن مقارنة خطوط الانحدار لطريقة GGO + LSTM مع تلك الخاصة بالخوارزميات الأخرى تقدم تقييمًا نسبيًا للأداء، مما يحدد مجالات القوة وفرص التحسين في مهمة تصنيف أمراض القلب.

الحساسية (TRP) حسب النموذج

الشكل 12. الحساسية (TRP) حسب النموذج للطريقة المقترحة GGO + LSTM والخوارزميات الأخرى.
الشكل 13. الخصوصية (TNP) حسب النموذج للطريقة المقترحة GGO + LSTM والخوارزميات الأخرى.
الشكل 14. مخططات الصندوق لمقاييس النموذج للطريقة المقترحة GGO + LSTM والخوارزميات الأخرى.
تعتبر هذه الخطوط مفيدة بشكل خاص في تحديد الاتجاهات أو الأنماط داخل البيانات، مما يبرز الارتباطات المحتملة عبر مقاييس الأداء المختلفة. من خلال فحص هذا المخطط الثنائي، يمكن للباحثين الحصول على رؤى قيمة حول كيفية تفاعل المقاييس مع بعضها البعض عبر خوارزميات مختلفة. بالإضافة إلى ذلك، فإن مقارنة خطوط الانحدار لطريقة GGO + LSTM مع تلك الخاصة بالخوارزميات الأخرى تقدم تقييمًا نسبيًا للأداء، مما يحدد مجالات القوة وفرص التحسين في مهمة تصنيف أمراض القلب. توضح الجدول 10 مقارنة شاملة مع الطرق الحديثة الموجودة بين النموذج المقترح والدراسات السابقة لتصنيف أمراض القلب.

الاستنتاج والعمل المستقبلي

تقدم هذه الدراسة خوارزمية تحسين الإوز الرمادي (GGO) بهدف تعزيز دقة تصنيف أمراض القلب. في البداية، يتم إجراء خطوات معالجة البيانات الأساسية مثل التقييس، والتطبيع، وإزالة القيم المفقودة. ثم يتم إجراء اختيار الميزات باستخدام النسخة الثنائية من GGO (bGGO)، المصممة خصيصًا لتحديد مجموعة الميزات الأكثر مثالية التي تحسن دقة التصنيف. يتم تقييم هذه النسخة الثنائية من GGO مقابل ستة خوارزميات تحسين ثنائية أخرى، وهي: BER، DTO، PSO، WAO، GWO، وFOA. في مرحلة التصنيف، يتم استخدام عدة مصنفات تعلم آلي، بما في ذلك SVC، SGD، Naïve Bayes (NB)، KNN، شجرة القرار (DT)، الغابة العشوائية (RF)، وLSTM. من بين هذه، يظهر نموذج LSTM أداءً متفوقًا، محققًا دقة قدرها . يتم إجراء تحسين إضافي لفرط المعلمات الخاصة بـ LSTM باستخدام GGO، مما يحقق أعلى دقة قدرها . يتم إجراء تقييمات إحصائية باستخدام ANOVA واختبارات رتبة ويلكوكسون لتقييم أهمية اختيار الميزات ونتائج التصنيف. بالإضافة إلى ذلك، يتم إنشاء عدة تمثيلات رسومية لإظهار قوة وكفاءة المنهجية المقترحة. تشير النتائج بوضوح إلى أن الطريقة المقترحة تتفوق على الطرق البديلة، حيث أن الاختيار الفعال للميزات المتعلقة بالمرض وتقليل الأبعاد يعزز بشكل كبير من دقة التنبؤ ويخفف من الإفراط في التكيف في تحليل أمراض القلب. في المستقبل، يمكن تحسين معدلات التنبؤ المبكر لأمراض القلب من خلال جمع وتحليل بيانات المستشعر، تليها تطبيق الطرق المثلى. تسلط هذه الدراسة الضوء على فعالية خوارزمية GGO لاختيار الميزات وضبط فرط المعلمات. ستستكشف الأبحاث المستقبلية استخدام خوارزميات تحسين أخرى، مثل الخوارزميات الجينية (GA)، التطور التفاضلي (DE)، وتحسين سرب الجسيمات التكيفية (APSO)، جنبًا إلى جنب مع تنفيذ التعلم الانتقالي باستخدام نماذج مدربة مسبقًا على مجموعات بيانات أكبر وأكثر تنوعًا. تهدف هذه الجهود إلى تعزيز أداء النموذج، وتقليل وقت التدريب، ومعالجة التحديات المتعلقة بالبيانات المحدودة المعلّمة، مما يسهم في تطوير أدوات تشخيصية عملية لتصنيف أمراض القلب.
الشكل 15. مخطط ثنائي مع خطوط انحدار للطريقة المقترحة GGO + LSTM والخوارزميات الأخرى.
دراسة نماذج الدقة (%)
مرجع مجموعة من (الغابة العشوائية، والانحدار اللوجستي، وKNN) 87.5
مرجع آلة الدعم الناقل 88.3
مرجع الغابة العشوائية 90.16
مرجع SVM، الانحدار اللوجستي، الشبكات العصبية 89
هذه الدراسة GGO لاختيار الميزات، LSTM للتصنيف 99.58
الجدول 10. مقارنة شاملة بين النموذج المقترح والعديد من الدراسات لتصنيف أمراض القلب.

توفر البيانات

البيانات موجودة في مستودع كبيانات عامة في https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction ?%20resource=download.
تاريخ الاستلام: 13 نوفمبر 2024؛ تاريخ القبول: 16 ديسمبر 2024
تم النشر عبر الإنترنت: 08 يناير 2025

References

  1. World Health Organization, Cardiovascular Diseases, WHO, Geneva, Switzerland. https://www.who.int/healthtopics/cardiovascu lar-diseases/ (2020).
  2. American Heart Association, Classes of Heart Failure, American Heart Association,Chicago, IL, USA. https://www.heart.org/en/h ealth-topics/heart-failure/what-is-heartfailure/%20classes-of-heart-failure (2020).
  3. American Heart Association, Heart Failure, American Heart Association, Chicago,IL, USA. https://www.heart.org/en/health-topi cs/heart-failure (2020).
  4. Elshewey, A. M. & Osman, A. M. Orthopedic disease classification based on breadth-first search algorithm. Sci. Rep. 14 (1), 23368 (2024).
  5. Elkenawy, E. S., Alhussan, A. A., Khafaga, D. S., Tarek, Z. & Elshewey, A. M. Greylag goose optimization and multilayer perceptron for enhancing lung cancer classification. Sci. Rep. 14 (1), 23784 (2024).
  6. Elshewey, A. M., Alhussan, A. A., Khafaga, D. S., Elkenawy, E. S. & Tarek, Z. EEG-based optimization of eye state classification using modified-BER metaheuristic algorithm. Sci. Rep. 14 (1), 24489 (2024).
  7. El-Rashidy, N., Tarek, Z., Elshewey, A. M. & Shams, M. Y. Multitask multilayer-prediction model for predicting mechanical ventilation and the associated mortality rate. Neural Comput. Appl. 1-23 (2024).
  8. Hosny, K. M., Mohammed, M. A., Salama, R. A. & Elshewey, A. M. Explainable ensemble deep learning-based model for brain tumor detection and classification. Neural Comput. Appl. 1-18 (2024).
  9. Alzakari, S. A., Alhussan, A. A., Qenawy, A. S., Elshewey, A. M. & Eed, M. An enhanced long short-term memory recurrent neural network deep learning model for potato price prediction. Potato Res. 1-9 (2024).
  10. Elshewey, A. M. et al. Optimizing HCV Disease Prediction in Egypt: The hyOPTGB Framework. Diagnostics 13 (22), 3439 (2023).
  11. Deserno, T. M., Antani, S. & Long, R. Ontology of gaps in content-based image retrieval. J. Digit. Imaging 22, 202-215 (2009).
  12. Ezugwu, A. E. et al. Metaheuristics: A comprehensive overview and classification along with bibliometric analysis. Artif. Intell. Rev. 54, 4237-4316 (2021).
  13. Mehta, P., Kumar, S. & Tejani, G. G. MOBBO: A multiobjective brown bear optimization algorithm for solving constrained structural optimization problems. J. Optim. 2024 (1), 5546940 (2024).
  14. Mashru, N., Tejani, G. G., Patel, P. & Khishe, M. Optimal truss design with MOHO: A multi-objective optimization perspective. Plos One 19 (8), e0308474 (2024).
  15. Nonut, A. et al. A small fixed-wing UAV system identification using metaheuristics. Cogent Eng. 9 (1), 2114196 (2022).
  16. Xia, J. Y. et al. Metalearning-based alternating minimization algorithm for nonconvex optimization. IEEE Trans. Neural Netw. Learn. Syst. 34 (9), 5366-5380 (2022).
  17. Su, Y. et al. Colon cancer diagnosis and staging classification based on machine learning and bioinformatics analysis. Comput. Biol. Med. 145, 105409 (2022).
  18. Jiang, C. et al. Xanthohumol inhibits TGF- -induced cardiac fibroblasts activation via mediating PTEN/Akt/mTOR signaling pathway. Drug. Des. Devel. Ther. 14, 5431-5439(2020).
  19. Deng, J. et al. The Janus face of mitophagy in myocardial ischemia/reperfusion injury and recovery. Biomed. Pharmacother. 173, 116337 (2024).
  20. Katarya, R. & Meena, S. K. Machine learning techniques for heart disease prediction: A comparative study and analysis, Health and Technology. 11(1), 87-97 (2023).
  21. Otoom, A. F., Abdallah, E. E., Kilani, Y., Kefaye, A. & Ashour, M. Effective diagnosis and monitoring of heart disease. Int. J. Softw. Eng. Its Appl. 9 (1), 143-156 (2023).
  22. Rajdhan, A., Agarwal, A., Sai, M. & Ghuli, P. Heart disease prediction using machine learning. Int. J. Res. Technol. 9 (04), 659-662 (2024).
  23. Haq, A. U., Li, J. P., Memon, M. H., Nazir, S. & Sun, R. A hybrid intelligent system framework for the prediction of heart disease using machine learning algorithms. Mob. Inf. Syst. 2018 (2018).
  24. Rimm, E. B., Stampfer, M. J. & Willett, W. C. Body size and fat distribution as predictors of coronary heart disease among middleaged and older us men. Am. J. Epidemiol. 141 (12), 1117-1127 (2022).
  25. Khourdifi, Y. & Bahaj, M. Heart disease prediction and classification using machine learning algorithms optimized by particle swarm optimization and ant colony optimization. Int. J. Intell. Eng. Syst. 12 (1), 242-252 (2019).
  26. El-kenawy, E. S. M. et al. Greylag goose optimization: Nature-inspired optimization algorithm. Expert Syst. Appl. 238, 122147 (2024).
  27. Hayrettin, O. Deep learning for subtyping and prediction of diseases: Long-short term memory. Energy Rep. 6, 1147-1159 (2022).
  28. Mirjalili, S. SCA: A sine cosine algorithm for solving optimization problems. Knowl. Based Syst. 96, 120-133 (2016).
  29. Zaki, A. M., Towfek, S. K., Gee, W., Zhang, W. & Soliman, M. A. Advancing parking space surveillance using a neural network approach with feature extraction and dipper throated optimization integration. J. Artif. Intell. Metaheuristics 6 (Issue 2), 16-25 (2023).
  30. Piotrowski, A. P., Napiorkowski, J. J. & Piotrowska, A. E. Particle swarm optimization or differential evolution-A comparison. Eng. Appl. Artif. Intell. 121, 106008 (2023).
  31. Mirjalili, S. & Lewis, A. The whale optimization algorithm. Adv. Eng. Softw. 95, 51-67 (2016).
  32. Al-Tashi, Q., Md Rais, H., Abdulkadir, S. J., Mirjalili, S. & Alhussian, H. A review of grey wolf optimizer-based feature selection methods for classification. Evol. Mach. Learn. Tech. Algorithms Appl. ;273-286. (2020).
  33. de Vasconcelos Segundo, E. H., Mariani, V. C. & dos Santos Coelho, L. Design of heat exchangers using falcon optimization algorithm. Appl. Therm. Eng. 156, 119-144 (2019).
  34. Saigal, P. & Khanna, V. Multi-category news classification using support vector machine based classifiers. SN Appl. Sci. 2 (3), 458 (2020).
  35. Shams, M. Y. et al. A machine learning-based model for predicting temperature under the effects of climate change. in The Power of Data: Driving Climate Change with Data Science and Artificial Intelligence Innovations 61-81 (Springer, 2023).
  36. Fouad, Y., Osman, A. M., Hassan, S. A., El-Bakry, H. M. & Elshewey, A. M. Adaptive visual sentiment prediction model based on event concepts and object detection techniques in social media. Int. J. Adv. Comput. Sci. Appl. 14 (7), 252-256 (2023).
  37. Elshewey, A. M., Shams, M. Y., Tarek, Z., Megahed, M. & El-kenawy, E. S. M., El-dosuky, M. A. Weight prediction using the hybrid stacked-LSTM food selection model. Comput. Syst. Sci. Eng. 46 (1), 765-781 (2023).
  38. Al Bataineh, A., Kaur, D. & Jalali, S. M. J. Multi-layer perceptron training optimization using nature inspired computing. IEEE Access 10, 36963-36977 (2022).
  39. Saeed, M. et al. Electrical power output prediction of combined cycle power plants using a recurrent neural network optimized by waterwheel plant algorithm. Front. Energy Res. 11, 1234624 (2023).
  40. Shams, M. Y., Tarek, Z., El-kenawy, E. S., Eid, M. M. & Elshewey, A. M. Predicting gross domestic product (GDP) using a PC-LSTM-RNN model in urban profiling areas. Comput. Urban Sci. 4 (1), 3 (2024).
  41. Sun, F. et al. Solid component ratio influences prognosis of GGO-featured IA stage invasive lung adenocarcinoma. Cancer Imaging 20 (1), 87 (2020).
  42. Rabehi, A. & Kumar, P. Improving tuberculosis diagnosis and forecasting through machine learning techniques: A systematic review. Metaheuristic Optim. Rev. 1 (1), 35-44 (2024).
  43. Tarek, Z. et al. An optimized model based on deep learning and gated recurrent unit for COVID-19 death prediction. Biomimetics 8 (7), 552 (2023).
  44. Wang, D., Tan, D. & Liu, L. Particle swarm optimization algorithm: An overview. Soft Comput. 22 (2), 387-408 (2018).
  45. Gaber, K. S., Elsebaey, M. A. & Ibrahim, A. A. Weather prediction: Predicting rain using weather conditions. J. Artif. Intell. Metaheuristics 8 (1), 60-69 (2024).
  46. Rezaei, H., Bozorg-Haddad, O. & Chu, X. Grey Wolf Optimization (GWO) Algorithm. in Advanced Optimization by NatureInspired Algorithms [Internet]. (Studies in Computational Intelligence) (ed Bozorg-Haddad, O.) 81-91 ( Springer, 2018). https://doi .org/10.1007/978-981-10-5221-7_9.
  47. Tang, H. et al. A novel hybrid algorithm based on PSO and FOA for target searching in unknown environments. Appl. Intell. 49 (7), 2603-2622 (2019).
  48. Alkhammash, E. H., Kamel, A. F., Al-Fattah, S. M. & Elshewey, A. M. Optimized multivariate adaptive regression splines for predicting crude oil demand in Saudi arabia. Discrete Dyn. Nat. Soc. 2022 (1), 8412895 (2022).
  49. El-kenawy, E. S. et al. Optimized ensemble algorithm for predicting metamaterial antenna parameters. CMC 71 (3), 4989-5003 (2022).
  50. El-kenawy, E. S. M. et al. Improved weighted ensemble learning for predicting the daily reference evapotranspiration under the semi-arid climate conditions. Environ. Sci. Pollut Res. 29 (54), 81279-81299 (2022).
  51. Shams, M. Y., El-Kenawy, E. S., Ibrahim, A. & Elshewey, A. M. A hybrid dipper throated optimization algorithm and particle swarm optimization (DTPSO) model for hepatocellular carcinoma (HCC) prediction. Biomed. Signal Process. Control 85, 104908 (2023).
  52. Alkhammash, E. H., Hadjouni, M. & Elshewey, A. M. A hybrid ensemble stacking model for gender voice recognition approach. Electronics 11 (11), 1750 (2022).
  53. Alzakari, S. A., Alhussan, A. A., Qenawy, A. S. & Elshewey, A. M. Early detection of potato disease using an enhanced convolutional neural network-long short-term memory deep learning model. Potato Res. 1-9 (2024).
  54. Alkhammash, E. H. et al. Application of machine learning to predict COVID-19 spread via an optimized BPSO model. Biomimetics .
  55. Abdelhamid, A. A. et al. Potato harvesting prediction using an Improved ResNet-59 model. Potato Res. 1-20 (2024).

الشكر والتقدير

مشروع دعم الباحثين بجامعة الأميرة نورة بنت عبد الرحمن رقم (PNURSP2024R 308)، جامعة الأميرة نورة بنت عبد الرحمن، الرياض، المملكة العربية السعودية.

مساهمات المؤلفين

ساهم جميع المؤلفين بالتساوي.

التمويل

مشروع دعم الباحثين بجامعة الأميرة نورة بنت عبد الرحمن رقم (PNURSP2024R 308)، جامعة الأميرة نورة بنت عبد الرحمن، الرياض، المملكة العربية السعودية.

الإعلانات

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.

معلومات إضافية

يجب توجيه المراسلات وطلبات المواد إلى A.M.E.
معلومات إعادة الطبع والإذن متاحة في www.nature.com/reprints.
ملاحظة الناشر تظل Springer Nature محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح. هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسب-غير التجاري-عدم الاشتقاق 4.0 الدولية، التي تسمح بأي استخدام غير تجاري، ومشاركة، وتوزيع، وإعادة إنتاج في أي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح إذا قمت بتعديل المادة المرخصة. ليس لديك إذن بموجب هذه الرخصة لمشاركة المواد المعدلة المشتقة من هذه المقالة أو أجزاء منها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، ستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارة http://creativecommo ns.org/licenses/by-nc-nd/4.0/.
© المؤلفون 2025

  1. قسم علوم الحاسوب، كلية الحاسبات والمعلومات، جامعة السويس، صندوق بريد: 43221، السويس، مصر. قسم نظم المعلومات، المؤسسة العليا للتسويق والتجارة ونظم المعلومات، القاهرة، مصر. قسم علوم الحاسوب، كلية علوم الحاسوب والمعلومات، جامعة الأميرة نورة بنت عبد الرحمن، صندوق بريد 84428، الرياض 11671، المملكة العربية السعودية. كلية الذكاء الاصطناعي، جامعة دلتا للعلوم والتكنولوجيا، المنصورة 11152، مصر. قسم الاتصالات والإلكترونيات، المعهد العالي للهندسة والتكنولوجيا، المنصورة 35111، مصر. مدرسة تكنولوجيا المعلومات والاتصالات، كلية الهندسة، تصميم وتكنولوجيا المعلومات والاتصالات (EDICT)، بوليتكنك البحرين، صندوق بريد 33349، مدينة عيسى، البحرين. مركز أبحاث العلوم التطبيقية، الجامعة الخاصة للعلوم التطبيقية، عمان، الأردن. مركز أبحاث جامعة جدارا، جامعة جدارا، إربد، الأردن. البريد الإلكتروني: ahmed.elshewey@fci.suezuni.edu.eg

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-024-83592-0
PMID: https://pubmed.ncbi.nlm.nih.gov/39779779
Publication Date: 2025-01-08

OPEN

Enhancing heart disease classification based on greylag goose optimization algorithm and long short-term memory

Ahmed M. Elshewey , Amira Hassan Abed , Doaa Sami Khafaga , Amel Ali Alhussan , Marwa M. Eid & El-Sayed M. El-kenawy

Abstract

Heart disease is a category of various conditions that affect the heart, which includes multiple diseases that influence its structure and operation. Such conditions may consist of coronary artery disease, which is characterized by the narrowing or clotting of the arteries that supply blood to the heart muscle, with the resulting threat of heart attacks. Heart rhythm disorders (arrhythmias), heart valve problems, congenital heart defects present at birth, and heart muscle disorders (cardiomyopathies) are other types of heart disease. The objective of this work is to introduce the Greylag Goose Optimization (GGO) algorithm, which seeks to improve the accuracy of heart disease classification. GGO algorithm’s binary format is specifically intended to choose the most effective set of features that can improve classification accuracy when compared to six other binary optimization algorithms. The bGGO algorithm is the most effective optimization algorithm for selecting the optimal features to enhance classification accuracy. The classification phase utilizes many classifiers, the findings indicated that the Long Short-Term Memory (LSTM) emerged as the most effective classifier, achieving an accuracy rate of . The hyperparameter of the LSTM model is tuned using GGO, and the outcome is compared to six alternative optimizers. The GGO with LSTM model obtained the highest performance, with an accuracy rate of . The statistical analysis employed the Wilcoxon signedrank test and ANOVA to assess the feature selection and classification outcomes. Furthermore, a set of visual representations of the results was provided to confirm the robustness and effectiveness of the proposed hybrid approach (GGO + LSTM).

Keywords bGGO, Optimization, Heart disease classification, Feature selection, LSTM
Over recent years, substantial research has intensified around healthcare, particularly following the Covid-19 pandemic’s impact. The World Health Organization (WHO) identifies heart diseases as some of the deadliest conditions worldwide, responsible for the largest number of fatalities. Heart disease encompasses a broad spectrum of conditions impairing cardiac function. Data from the WHO underscores that cardiovascular diseases currently stand as the predominant global cause of death, leading to approximately 17.9 million deaths annually. Additionally, life is claimed by heart disease every 34 s globally. Often undetected until acute events such as heart attacks occur, heart disease presents diagnostic challenges due to its vast range of influencing factors, as illustrated by the abnormal heart rhythm in Fig. 1. Diagnosing heart disease is inherently complex, as numerous risk factors contribute to its onset. Risk elements such as tobacco use, excessive alcohol consumption, obesity, physical inactivity, mental health disorders, advanced age, sex, inadequate sleep, and several others intensify vulnerability. Harmful lifestyle choices like poor dietary habits lead to high cholesterol, elevated triglycerides,

Pathological Heart Rhythm

Fig. 1. Pathological heart rhythm.

obesity, and hypertension significantly heighten the probability of cardiovascular ailments . Symptoms recognized by the American College of Cardiology encompass sleep disturbances, erratic heartbeat (irregular rhythm), limb swelling, and occasionally rapid weight gain (around per day). These manifestations overlap with symptoms of various other conditions, particularly those affecting the elderly, complicating accurate diagnosis and heightening the risk of fatal outcomes. As time progresses, an expanding pool of research and clinical data is emerging, offering valuable insights. Numerous public databases now provide extensive patient information, facilitating studies on how technological advancements can be harnessed to improve diagnostic precision and detect diseases before reaching fatal stages. The primary catalyst for heart disease, often termed coronary heart disease, is frequently due to the narrowing of coronary arteries that supply blood to the heart. Although procedures like angioplasty are effective for diagnosing heart conditions, they are costly and can provoke adverse physical responses in some patients. Consequently, these methods are less feasible for extensive application, particularly in nations with significant low-income populations.
Developing healthcare solutions that ensure both high-quality outcomes and cost-effectiveness is essential, especially as healthcare institutions increasingly seek affordable, non-invasive testing methods . To address these needs for widespread, accessible diagnostics, a computer-assisted decision-making system could be constructed to aid in identifying various medical conditions. The rapid advancement of artificial intelligence (AI), machine learning (ML), and deep learning models has greatly benefited fields such as healthcare, where extensive datasets from medical diagnostics facilitate robust algorithm training . These models support clinical systems that enhance diagnostic accuracy. Optimizing models are particularly promising in regression and classification tasks, while medical systems can provide an initial diagnostic assessment, signaling potential health issues . Developing highly diagnostics for pulmonary nodules demands precise feature selection, critical for establishing effective Content-Based Image Retrieval (CBIR) and Computer-Aided Diagnosis (CAD) systems . CAD typically involves two phases: feature extraction and classification. CBIR systems often require a robust set of visual attributes such as texture, shape, and granularity to construct a comprehensive search index . Building optimal ML architectures, a skillful configuration of hyperparameters to maximize classification performance and accuracy. Given the complexity of combinatorial optimizations, manual methods often fall short; thus, meta-heuristic algorithms, inspired by natural processes, offer an effective solution . These algorithms, using global and local search techniques with randomization, excel at finding highly optimized solutions with minimal computational costs, making them invaluable across fields such as engineering and healthcare. Metaheuristic algorithms have proven their effectiveness in solving complex optimization problems for various domains. For instance, the Multiobjective Brown Bear Optimization (MOBBO) algorithm and the Multiobjective Harris Hawks Optimization (MOHO) algorithm have been successfully applied to constrained structural optimization and optimal truss design, demonstrating their ability to balance exploration and exploitation in search spaces . Also, metaheuristic techniques have been employed for system identification in UAV applications, showcasing their fairness and robustness . Optimization techniques are useful for solving complex nonconvex problems across various domains. Recent advancements, such as the meta learning-based alternating minimization algorithm have demonstrated significant potential in enhancing the performance of these techniques . Also, machine learning methods have played an important role in advancing healthcare applications employing bioinformatics and machine learning for colon cancer diagnosis and staging classification . Heart disease remains a leading cause of mortality worldwide driven by complex pathophysiological mechanisms. Among these, the activation of cardiac fibroblasts plays an important role in cardiac remodeling and fibrosis, processes
central to heart disease progression. Xanthohumol is a natural compound, effectively inhibits TGF- induced cardiac fibroblast activation by modulating the PTEN/Akt/mTOR signaling pathway, offering valuable insights into potential therapeutic targets . The cellular process of mitophagy has been shown to have a dual role in myocardial ischemia/reperfusion injury . This underscores the complexity of balancing protective and detrimental processes during heart disease progression. Building on these biological insights, this study integrates such mechanisms into a predictive modeling framework, aiming to enhance diagnostic accuracy and therapeutic guidance in heart disease. This study employs meta-heuristic methodologies to navigate the intricate challenges of feature extraction and classification in heart disease diagnosis. These techniques iteratively refine candidate solutions, facilitating the identification of pivotal features while optimizing classifier performance. Among the explored algorithms, the Greylag Goose Optimization (GGO) algorithm emerged as particularly effective, excelling in feature selection and parameter tuning tasks. GGO’s proven efficacy across diverse domains, including healthcare, finance, and engineering, underscores its suitability for this research. The primary aim of integrating machine learning with a meta-heuristic framework like GGO is to elevate diagnostic precision, especially in detecting heart disease. This synergy enhances the model’s capability to discern complex patterns, enabling more accurate evaluations and prompt clinical interventions. The research combines GGO with Long Short-Term Memory (LSTM) networks to optimize hyperparameter tuning, thereby enhancing the model’s ability to classify intricate heart disease patterns. To ensure robust classification accuracy, rigorous preprocessing steps were undertaken, including scaling, normalization, and imputation of missing values. Following preprocessing, GGO was applied in its binary variant to extract the most influential features contributing to classification performance. Several classifiers were evaluated, encompassing Support Vector Classification (SVC), Stochastic Gradient Descent (SGD), Naive Bayes (NB), K-Nearest Neighbors (KNN), Decision Tree (DT), Random Forest (RF), and LSTM. Among these, LSTM demonstrated superior efficacy, delivering the most accurate classification outcomes. Subsequently, GGO was deployed for fine-tuning the LSTM model’s hyperparameters, and its performance was benchmarked against six alternative optimization algorithms: AlBiruni Earth Radius (BER), Dipper Throated Optimization (DTO), Particle Swarm Optimization (PSO), Whale Optimization Algorithm (WOA), Grey Wolf Optimizer (GWO), and Falcon Optimization Algorithm (FOA). The GGO-LSTM configuration outperformed its counterparts, achieving the highest classification accuracy and establishing itself as the most effective approach for heart disease prediction.
The paper’s structure unfolds as follows: Sect. “Related work” provides an extensive review of contemporary literature, Sect. “Materials and methods” delineates the proposed methodology, Sect. “The proposed framework” presents a comprehensive analysis of experimental results, and Sect. “Experimental results” concludes with key findings and prospective research directions.
Due to the potential for increased survival rates, researchers are primarily focused on developing novel methods for the automated identification and diagnosis of significant heart disease, as early detection is crucial in the case of heart disease. This section presents research findings on heart disease classification based on ML/DL and textural/image analysis. Harshit Jindal et al. combined three machine learning techniques: Random Forest, Logistic Regression, and KNN. The accuracy of their combined model was . They concluded that their excellent precision was primarily attributable to the utilization of more medical features. Heart rate, getting older, cholesterol, fasting sugar, pain in the chest, sexuality, and other factors were among the thirteen characteristics they utilized. There were 304 items in the dataset overall. Otoom et al. devised a method for analysis and monitoring. The suggested system detects and tracks coronary artery disease. The UCI is where Cleveland Heart statistics are obtained. There are 76 attributes/features and 303 cases in this collection. Of the 76 functionalities, 13 are currently in use. For detection, two tests using three different algorithms-Bayes Naive, SVM, and Function Trees FT-are run. For detection, the WEKA tool is employed. Using the SVM approach, the accuracy is attained following the Holdout test. In the cross-validation examination the accuracy of SVM and Bayes net is . The use of FT results in an accuracy of . The most efficient First selection algorithm is used to choose the top seven attributes. Cross-validation examines are used for validation. Using the seven best features that were chosen for the test, Bayes Naive obtained accuracy, SVM yielded accuracy, and FT accurately classified of the features. Following extensive testing with a wide range of algorithms, Apurb Rajdhan et al. concluded that the technique of Random Forests proved exceptionally accurate, having a predictive accuracy of in predicting cardiac illnesses. They selected 14 features out of the 76 features in the UCI Cleveland cardiovascular disease dataset. These characteristics include the patient’s maximum heartbeat, age, sex, and the intensity of their chest discomfort. They also experimented with Naive Bayes, Decision trees, and Logistic Regression in addition to Random Forest, with outcomes of , and , correspondingly. The Cleveland Heart Disease dataset was used by Amin Ul Haq et al. to test seven different algorithms: KNN, SVM, Logistic Regression, Decision Tree, Random Forest, Naïve Bayes, and Neural Networks. To determine which characteristics in the dataset were most crucial, they employed Lasso. The most noteworthy numbers were , and for the Support Vector Machine, Logistic Regression, and Neural Networks at and , respectively. Notably, at fold cross-validation of 10, Logistic Regression outperformed, with accuracy. Nine algorithms were investigated by Rahul Katarya et al. : Multilayer Perception, Decision Tree, Naïve Bayes, K Nearest Neighbor, SVM, Random Forest, ANN, Deep Neural Networks, as well as Logistic Regression. After obtaining the database from the UCI repository, they selected 14 features out of the 76 features, normalized them, and used the Python module NAN to fill in any missing data. Age, sex, cholesterol, kind of chest discomfort, sugar, sitting arterial pressure, blood fasting, and other factors were among the selected characteristics. The three algorithms with the best accuracy, Random Forest, Logistic Regression, Artificial Neural Networks, and Support Vector Machines, were , and , respectively. According to Youness Khourdifi et al. , every algorithm performed better under conditions.
With the dataset they utilized, Random Forest, K-Nearest Neighbor, and Neural Networks were the algorithms that performed the best. Additionally, their findings demonstrated that the hybrid optimization strategy greatly improved predictions in healthcare records. Additionally, they recommended Particle Swarm Optimization (PSO) and Ant Colony Optimization (ACO), two techniques for dataset optimization. They created a hybrid of the two approaches and applied it to Random Forest, yielding an accuracy of , and K-Nearest Neighbor, which produced a accuracy. Their dataset was obtained from an automated learning library at UCI.
As shown in Table 1, several researchers have employed different combinations of machine learning algorithms and datasets to classify heart diseases. For instance, Harshit Jindal et al. utilized a combination of Random Forest, Logistic Regression, and KNN, achieving an accuracy of using a dataset with 304 items and 13 features. Otoom et al. applied Bayes Naive, SVM, and Function Trees (FT) on the Cleveland Heart Disease dataset, with SVM yielding the highest accuracy at . Similarly, Apurb Rajdhan et al. found Random Forest to be the most accurate at among the algorithms they tested. Amin Ul Haq et al. reported notable results with SVM and Logistic Regression, achieving accuracies of and , respectively, through cross-validation. Rahul Katarya et al. demonstrated the superior performance of Random Forest, Logistic Regression, and ANN, with accuracy rates as high as when optimized with PSO and KNN. Finally, Youness Khourdifi et al. highlighted the effectiveness of hybrid optimization strategies, with Random Forest combined with ACO and KNN combined with ACO achieving accuracies of and , respectively.
This summary table illustrates the diverse methodologies and their respective accuracies, demonstrating the advancements in heart disease classification research. Researchers have significantly improved the predictive accuracy of heart disease diagnoses by leveraging a combination of optimization algorithms and machine learning techniques. These studies provide a solid foundation for further exploration and development of more sophisticated models and techniques in the field.

Materials and methods

This section articulates the methodological framework and resource allocation underpinning the study, which seeks to enhance heart disease classification by synergistically leveraging the Greylag Goose Optimization (GGO) algorithm and Long Short-Term Memory (LSTM) networks. The proposed architecture is structured into pivotal stages, encompassing meticulous data preprocessing, feature extraction executed via the binary encoding mechanism of the GGO algorithm, and the strategic deployment of an array of classifiers to achieve elevated levels of classification precision.

Greylag goose optimization (GGO) algorithm

The Greylag Goose Optimization (GGO) algorithm begins by assembling a randomized population of candidate solutions, each represented as . This collection constitutes the GGO swarm. A target function, Fn, is applied to assess every individual, guiding the search toward the optimal solution Z , which emerges through evaluating Fn across the entire population. The GGO algorithm segments the population into two distinct groups: an exploitative group and an exploratory group , dynamically adjusting the ratio between them according to the optimal solution identified thus far. At the outset, efforts are evenly allocated, with directed toward exploration and toward exploitation. However, if the optimal solution remains stagnant over three consecutive iterations, the algorithm expands the exploratory group to circumvent entrapment in local optima. The exploration phase uncovers promising zones within the search space, preventing stagnation by advancing toward the current best solution. The geese explorers assess potential choices within their vicinity, selecting the optimal one based on fitness evaluation. GGO then updates individual vectors, refining positions in alignment with the best solution found. In the exploitation phase, this subset refines existing solutions, progressing towards the optimal solution with guidance from three sentinel agents who direct the other members. To ensure robust exploitation and avoid convergence on local optima, the algorithm employs the triangle inequality and the law of large numbers principles. At the end of each iteration, GGO alters the positions within the search space and randomizes individual roles to transition members between exploration and exploitation. The GGO algorithm dynamically refines individual positions within each group through iterative adjustments and random shuffling,
Authors Techniques used Accuracy Dataset
Harshit Jindal et al. Random forest, logistic regression, KNN 87.50% 304 items, 13 features
Otoom et al. Bayes naive, SVM, function trees (FT) 88.3% (SVM), 83.8% (SVM and Bayes Net), 81.5% (FT) Cleveland heart disease dataset, 303 cases, 76 features (13 used)
Apurb Rajdhan et al. Random forest, Naive bayes, decision trees, logistic regression 90.16% (Random Forest), 85.25% (Naive Bayes), 85.25% (Decision Trees), 81.97% (Logistic Regression) Cleveland heart disease dataset, 14 features out of 76
Amin Ul Haq et al. KNN, SVM, logistic regression, decision tree, random forest, Naive Bayes, neural networks 88% (SVM), 87% (Logistic Regression), 86% (Neural Networks), 89% (Logistic Regression with 10-fold cross-validation) Cleveland heart disease dataset
Rahul Katarya et al. Multilayer perception, decision tree, Naive Bayes, K nearest neighbor, SVM, random forest, ANN, deep neural networks, logistic regression 95.6% (Random Forest), 93.4% (Logistic Regression), 92.3% (ANN), 99.6% (PSO + Random Forest), 99.65% (PSO + KNN) UCI repository, 14 features out of 76
Youness Khourdifi et al. Random forest, K-nearest neighbor, neural networks, particle swarm optimization (PSO), ant colony optimization (ACO) 99.6% (Random Forest + ACO), 99.65% (KNN + ACO) UCI repository
Table 1. Summary of related work on heart disease classification.
preserving population diversity. This process persists until convergence on the optimal solution, as outlined in Algorithm 1.
Initialize GGO population $mathbf{X}_{i}(i=1,2, ldots, n)$, size $n$, iterations $t_{text {max }}$, objective function $F_{n}$.
Initialize GGO parameters $mathbf{a}, mathbf{A}, mathbf{C}, b, l, c, r_{1}, r_{2}, r_{3}, r_{4}, r_{5}, w, w_{1}, w_{2}, w_{3}, w_{4}, mathbf{A}_{1}, mathbf{A}_{2}, mathbf{A}_{3}, mathbf{C}_{1}, mathbf{C}_{2}, mathbf{C}_{3}, t=1$
Calculate objective function $F_{n}$ for each agents $mathbf{X}_{i}$
Set $mathbf{P}=$ best agent position
Update Solutions in exploration group $left(n_{1}right)$ and exploitation group $left(n_{2}right)$
while $t leq t_{text {max }}$ do
        for ( $i=1: i<n_{1}+1$ ) do
            if $(t % 2==0)$ then
                    if $left(r_{3}<0.5right)$ then
                        if $(|A|<1)$ then
                            Update position of current search agent as $mathbf{X}(t+1)=mathbf{X}^{*}(t)-mathbf{A} cdotleft|mathbf{C} cdot mathbf{X}^{*}(t)-mathbf{X}(t)right|$
                        else
                                Select three random search agents $mathbf{X}_{text {Paddle } 1}, mathbf{X}_{text {Paddle } 2}$, and $mathbf{X}$ Paddle 3
                            Update (z) by the exponential form of $boldsymbol{z}=mathbf{1}-left(frac{boldsymbol{t}}{boldsymbol{t}_{text {max }}}right)^{mathbf{2}}$
                            Update position of current search agent as
                                $mathbf{X}(t+1)=w 1 * mathbf{X}$ Paddle $1+mathbf{z} * w 2 *(mathbf{X}$ Paddle $2-mathbf{X}$ Paddle 3$)+(1-mathbf{z}) * w 3 *(mathbf{X}-mathbf{X}$ Paddle 1$)$
                        end if
                    else
                                Update position of current search agent as
                        $mathbf{X}(t+1)=w_{4} *|mathbf{X} *(t)-mathbf{X}(t)| . e^{b l} . cos (2 pi l)+left[2 w_{1}left(r_{4}+r_{5}right)right] * mathbf{X}^{*}(t)$
                    end if
            else
                        Update individual positions as
                    $mathbf{X}(t+1)=mathbf{X}(t)+mathbf{D}(1+mathbf{z}) * w *left(mathbf{X}-mathbf{X}_{text {Flock } 1}right)$
            end if
    end for
        for ( $i=1: i<n_{2}+1$ ) do
                if ( $t % 2==0$ ) then
                        Calculate $mathbf{X} 1=mathbf{X}$ Sentry1-A1. $mid mathbf{C} 1 . mathbf{X}$ Sentry1-X $mid, mathbf{X} 2=mathbf{X}$ Sentry2- A2. $mid mathbf{C} 2 . mathbf{X}$ Sentry2 $-mathbf{X} mid$,
                        $mathbf{X} mathbf{3}=mathbf{X}$ Sentry3 $-mathbf{A} mathbf{3} . mid mathbf{C} mathbf{3} . mathbf{X}$ Sentry3 $-mathbf{X} mid$
                    Update individual positions as $left.overline{mathbf{X}_{mathbf{i}}}right|_{0} ^{3}$
            else
                        Update position of current search agent as
                        $mathbf{X}(t+1)=mathbf{X}(t)+mathbf{D}(1+mathbf{z}) * w *left(mathbf{X}-mathbf{X}_{text {Flock } 1}right)$
            end if
    end for
    Calculate objective function $F_{n}$ for each $mathbf{X}_{i}$
        Update parameters
        Set $t=t+1$
        Adjust beyond the search space solutions
            if (Best $F_{n}$ is same as previous two iterations) then
                Increase solutions of exploration group ( $n_{1}$ )
                Decrease solutions of exploitation group ( $n_{2}$ )
    end if
end while
Return best agent $mathbf{P}$
Algorithm 1. GGO Algorithm.

Binary GGO optimization algorithm

The GGO optimization algorithm presents a robust approach to enhancing feature selection for LSTM parameters. In this method, GGO adopts a binary encoding format tailored to the feature selection process, which operates within a constrained search space limited to binary values, 0 and 1 . The aim is to evaluate the relevance of specific features; thus, GGO values are translated into a binary scheme within the binary GGO framework proposed in this section. This process, articulated through Eq. 1 and Eq. 2, utilizes the Sigmoid function to transform continuous data into binary form, aligning with the requirements of feature selection.
where denotes the optimal solution at a given iteration . Algorithm 2 outlines the stages of the proposed binary GGO (bGGO) method, which is employed to select the most relevant feature subset, thereby improving the classification accuracy for caries cases.
Initialize GGO population, objective function, and GGO parameters
Convert solution to binary [0 or 1]
Calculate objective function for each agent and get best agent position
Update Solutions in exploration group and exploitation group
while $mathrm{t} leq mathrm{t}_{text {max }}$ do
    for ( $mathrm{i}=1: mathrm{i}<mathrm{n}_{1}+1$ ) do
        if $(mathrm{t} % 2==0)$ then
            if $left(mathrm{r}_{3}<0.5right)$ then
                if $(|mathrm{A}|<1)$ then
                            Update position of current search agent in exploration group
                        else
                            Update position of current search agent based on three random search agents
                        end if
                    else
                        Update position of current search agent
                            end if
                    else
                        Update individual positions
                    end if
        end for
        for ( $mathrm{i}=1: mathrm{i}<mathrm{n} 2+1$ ) do
            if $(mathrm{t} % 2==0)$ then
                    Update position of current search agent in exploitation group
            else
                    Update position of current search agent
                end if
        end for
        Convert updated solution to binary
        Calculate objective function
        Update parameters
        Adjust beyond the search space solutions
        Update Solutions in exploration group and exploitation group
    end while
Return best agent
Algorithm 2. bGGO Algorithm.

The long short-term memory (LSTM)

Long Short-Term Memory (LSTM) networks are a specialized form of recurrent neural networks (RNNs) designed to overcome certain limitations inherent in traditional RNN architectures. In the training process of an RNN, sequential data is propagated through the network, moving from the input vector to the output neurons,
while errors are computed and sent backward to adjust the network parameters. These networks incorporate feedback loops within their hidden layers, allowing information to circulate bidirectionally, thereby enabling the hidden state to retain knowledge from previous time steps. As a result, the model’s output is influenced by earlier predictions. However, traditional RNNs struggle to capture long-term dependencies, primarily due to the issue of vanishing gradients, where the influence of earlier information diminishes as it propagates through more time steps. This phenomenon leads to the network primarily encoding short-term dependencies, with information from earlier steps fading over time. The gradient of the loss function approaches zero as more layers with activation functions are added, exacerbating this issue. LSTM networks, or LSTM-ANNs, address this challenge by introducing memory units and gating mechanisms that enable the model to capture long-term dependencies. The inclusion of cell states and three distinct gates allows LSTMs to selectively retain or discard information, making them capable of learning dependencies across thousands of time steps. Thus, LSTM networks are adept at remembering and forgetting critical information, allowing them to model long-term temporal relationships with far greater effectiveness than conventional RNNs .

The proposed framework

This paper methodological framework commences with an initial phase dedicated to comprehensive data preprocessing, encompassing the removal of null entries, normalization, and scaling to ensure standardized and well-prepared input data for subsequent analytical stages. Central to this phase is the adoption of feature selection methodologies, wherein seven binary-form optimization techniques are employed: Greylag Goose Optimization (GGO), Al-Biruni Earth Radius (BER) , Dipper Throated Optimization (DTO) , Particle Swarm Optimizer (PSO) , Whale Optimization Algorithm (WOA) , Grey Wolf Optimizer (GWO) , and Falcon Optimization Algorithm (FOA) . In the subsequent phase, the study employs the proposed feature selection mechanism, leveraging the binary encoding of GGO (bGGO) to isolate the most relevant features. This stage is pivotal in identifying optimal attributes, enhancing classification precision by discarding superfluous or irrelevant data points. The refined dataset is then utilized for classification via a suite of machine learning models, with feature selection outcomes informing the choice of classifiers. The ensemble of classifiers explored in this study comprises Support Vector Classifier (SVC) , Stochastic Gradient Descent (SGD) , Random Forest Classifier (RFC) , K-Nearest Neighbors (KNN) , Gaussian Naïve Bayes (NB), Decision Tree (DT), and Long Short-Term Memory (LSTM) . To ensure peak performance, LSTM hyperparameters are fine-tuned using the proposed optimization strategy. The optimization process begins by generating a population of candidate solutions, each representing a distinct parameter configuration. Each candidate, symbolizing a Greylag Goose, is evaluated against a fitness function based on its classification performance on a validation dataset. Guided by fitness-weighted vectors, individuals in the population traverse the search space, iteratively converging toward optimal configurations. Through systematic adjustments, the algorithm incrementally refines the population, culminating in the identification of the most effective LSTM parameterization. Termination occurs once the predefined convergence threshold or maximum iteration count is reached, with the optimal solution defined by the highest fitness score. A visual representation of this sequential process is provided in Fig. 2, illustrating the robustness of the framework. By integrating GGO for both feature selection and hyperparameter optimization, followed by LSTM-based classification, the methodology demonstrates its efficacy. Further elaboration on the LSTM architecture and the motivations for selecting GGO would enrich the discussion. Details of the LSTM’s hyperparameter configuration are summarized in Table 2.
The rationale for choosing GGO is that GGO effectively balances exploration and exploitation, which is critical in avoiding local optima. The algorithm dynamically adjusts the search behavior based on the progress of iterations, ensuring efficient convergence. GGO is compared to other algorithms such as PSO and GWO are widely used, GGO demonstrated superior performance in terms of feature selection and optimization. GGO computational cost is competitive with other metaheuristics algorithms, making it suitable for the relatively high-dimensional heart disease dataset used in this study.
This research explores how GGO can enhance the tuning of LSTM parameters. Optimizing LSTM parameters is essential for maximizing performance and achieving the highest classification accuracy. Before using GGO to adjust the values in LSTM, it is crucial to determine the parameters that require optimization.

Experimental results

This section elaborates on the evaluation of the proposed algorithm under diverse experimental scenarios. The experiments utilized established mathematical functions as benchmarks to determine their minimum values within specified search domains. These functions are widely recognized in the literature for assessing the efficacy of optimization techniques, serving as a consistent metric for comparison. To highlight the superior performance and efficacy of the proposed algorithm, termed Greylag Goose Optimization (GGO), a comparative analysis was conducted against seven prominent optimization methodologies. The selected algorithms are GGO, BER, DTO, PSO, WAO, GWO, and FOA and were chosen for their substantial recognition and established relevance in practical applications, underscoring their utility as robust baselines for performance evaluation.

Dataset description

This dataset offers a valuable resource for machine learning and data science professionals to develop predictive models for diagnosing heart disease, explore the impact of various disease-related factors, and create algorithms that enhance heart disease treatment and prevention strategies. The study utilizes the “Heart Failure Dataset,” which was collected and made publicly available on Kaggle. The effectiveness of heart disease classification and prediction systems enables individuals to assess their risk of heart disease at a low cost, while also empowering healthcare providers to make data-driven decisions based on the patient’s risk profile. The data is sourced from
Fig. 2. The proposed heart disease classification framework.
Hyperparameter Values
Number of nodes 256
Number of hidden layers 4
Dropout 0.5
Activation function Relu
Learning rate 0.001
Number of epochs 100
Batch size 64
Table 2. Hyperparameters of the LSTM model.
an online heart disease prediction system hosted on Kaggle, accessible at: https://www.kaggle.com/datasets/f edesoriano/heart-failure-prediction?%20resource=download. The dataset includes key input features such as Age, Resting Blood Pressure (RestingBP), Cholesterol levels, Fasting Blood Sugar (FastingBS), Maximum Heart Rate (MaxHR), OldPeak, and the presence of heart disease. These features are utilized to classify the outcome variable of heart disease. Figure 3 illustrates a histogram that visually represents the correlation between the input features and the output variable in the heart disease dataset.
Figure 4 presents the correlation matrix, a fundamental statistical tool for analyzing the relationships between variables within a dataset. Typically, this matrix provides a detailed display of pairwise correlations across all variables, with values ranging from -1 to +1 that indicate the strength and direction of these relationships. By leveraging the correlation matrix, we can uncover significant patterns, assess the direction of associations, and
Fig. 3. Histogram plot for each feature in the dataset.
identify potential predictors within the data. This insight is vital for predictive modeling, as it assists in selecting relevant features, reducing dimensionality, and addressing issues related to multicollinearity, ultimately refining the model’s efficiency and accuracy .

Feature selection results

This research utilized advanced feature selection methodologies to implement seven distinct optimization algorithms in their binary variants: GGO, BER, DTO, PSO, WOA, GWO, and FOA . The comparative performance of these techniques is systematically analyzed in Table 3, which delineates the results obtained through each approach. Notably, the findings underscore the superior efficacy of the proposed binary Greylag Goose Optimization (bGGO) method, which consistently outperforms its counterparts across key performance metrics, as evidenced by its dominance over other binary feature selection algorithms .
Figure 5 presents a comparative analysis of the average error rates across ten distinct feature selection methodologies, including the proposed bGGO approach. The graphical representation highlights the pronounced efficacy of the bGGO technique, as evidenced by its minimal average error, thereby underscoring its resilience and superior performance relative to competing strategies.
Figure 6 encapsulates a multifaceted depiction of the outcomes obtained through the proposed feature selection technique, utilizing an array of analytical visualizations, including residual plots, quartile-quartile (QQ) plots, homoscedasticity assessments, and heatmaps. These visual tools collectively highlight the robustness and dependability of the methodology, offering nuanced insights into its efficacy across diverse evaluation metrics.
The results presented in the QQ plot exhibit a pronounced alignment with a linear trend, affirming the reliability of the selected features in accurately diagnosing heart disease. Complementing these findings, the outcomes depicted in the homoscedasticity and residual plots reinforce the focus on robust performance metrics. Additionally, the heatmap validates the effectiveness of the bGGO methodology, demonstrating its capacity to achieve optimal outcomes when benchmarked against alternative feature selection approaches. Table 4 further substantiates the exceptional efficacy of the proposed bGGO technique, highlighting its superior performance across a diverse array of evaluative metrics relative to prior strategies. Statistical analysis involving p-value computations for algorithmic pairwise comparisons revealed that the bGGO approach exhibits statistically significant advantages. The study rigorously tests the primary hypotheses, encompassing both null and alternative scenarios, to draw definitive conclusions about the proposed technique’s dominance.
The statistical preeminence of the proposed technique over existing methodologies is evidenced by its notably lower p -value . To further substantiate these findings, a one-way analysis of variance (ANOVA) was conducted to determine the presence of statistically significant discrepancies between the performance of the proposed bGGO approach and other binary optimization techniques. The detailed outcomes of this ANOVA
Fig. 4. Correlation matrix between features in the dataset.
bGGO bBER bDTO BPSO bWAO bGWO bFAO
Average error 0.286625 0.303825 0.317425 0.337625 0.337425 0.323925 0.336025
Average select size 0.239425 0.439425 0.381825 0.439425 0.602825 0.362225 0.473925
Average fitness 0.349825 0.366025 0.377425 0.364425 0.372225 0.372125 0.416325
Best fitness 0.251625 0.286325 0.280725 0.344725 0.336325 0.349925 0.335025
Worst fitness 0.350125 0.353225 0.395825 0.412425 0.412425 0.426125 0.432625
Standard deviation fitness 0.172125 0.176825 0.178425 0.176225 0.178425 0.177425 0.213025
Table 3. Evaluation of the suggested feature selection technique (bGGO) in comparison to other competitive techniques.
analysis are encapsulated in Table 5, which unequivocally affirms the proposed technique’s superiority, statistical significance, and robust efficacy in feature selection tasks.

Classification results

The experiment was conducted to underscore the impact of the feature selection methodology on classification outcomes. Machine learning classifiers were utilized to categorize the input data, leveraging the attributes identified through the bGGO framework. This technique significantly enhanced the feature space and optimized overall classifier performance. The classification results for various machine learning algorithms, post-feature selection, are summarized in Table 6. The classifiers evaluated include SVC, SGD, Gaussian NB, K-Nearest Neighbors Classifier (KNC), Decision Tree (DT), Random Forest (RF), and LSTM. Among these, the LSTM model emerged

Average Error

Fig. 5. The average error of the results acquired using bGGO, the proposed feature selection technique.
Fig. 6. Analysis plots of the obtained outcomes based on bGGO, the proposed feature selection technique.
bGGO bBER bDTO bPSO bWAO bGWO bFAO
P value (two tailed) 0.002 0.002 0.002 0.002 0.002 0.002 0.002
Exact or estimate? Exact Exact Exact Exact Exact Exact Exact
Significant (alpha Yes Yes Yes Yes Yes Yes Yes
Discrepancy 0.2866 0.3038 0.3174 0.3376 0.3374 0.3239 0.336
Table 4. The Wilcoxon signed-rank test for evaluating the effectiveness of the proposed feature selection technique (bGGO) in comparison to existing binary optimization techniques.
ANOVA table SS DF MS F (DFn, DFd) P value
Treatment 0.02167 6 0.003612
Residual 0.002002 63
Total 0.02368 69
Table 5. The analysis-of-variance (ANOVA) test for assessing the proposed bGGO technique.
Models Accuracy Sensitivity (TRP) Specificity (TNP) value (PPV) Nvalue (NPV) F-Score
SVC classifier 0.8294393 0.856031128 0.789473684 0.859375 0.7848837 0.8577
SGD classifier 0.840909 0.86614173 0.80645161 0.859375 0.8152174 0.86274
Gaussian NB classifier 0.845474 0.87265917 0.80645161 0.86617100 0.8152174 0.86940
K-nearest neighbor (KNN) Classifier 0.849137 0.87265917 0.81725888 0.86617100 0.8256410 0.86940
Decision tree (DT) classifier 0.864806 0.88345864 0.84 0.88014981 0.84422110 0.88180
Random forest (RF) classifier 0.894736 0.88679245 0.90163934 0.88679245 0.90163934 0.88679
LSTM 0.917948 0.90733590 0.92638036 0.90733590 0.92638036 0.90733
Table 6. Various classifiers for the categorization of heart disease.
Models Accuracy Sensitivity (TRP) Specificity (TNP) value (PPV) N value (NPV) F-score
GGO + LSTM 0.995763 0.996086 0.995516 0.994141 0.997006 0.995112
BER + LSTM 0.978346 0.978846 0.977823 0.978846 0.977823 0.978846
DTO + LSTM 0.970742 0.969432 0.971944 0.969432 0.971944 0.969432
PSO + LSTM 0.950363 0.951777 0.949074 0.944584 0.955711 0.948167
GWO + LSTM 0.944223 0.937695 0.949074 0.931889 0.953488 0.934783
FAO + LSTM 0.935103 0.937695 0.932773 0.926154 0.943343 0.931889
WAO + LSTM 0.930556 0.934783 0.92638 0.926154 0.934985 0.930448
Table 7. Findings of optimization methods LSTM Model for the classifying heart disease.
as the most proficient, achieving remarkable metrics of , and 0.907336 for accuracy, sensitivity, specificity, p -value, n -value, and F -score, respectively. Serving as the fitness function, the LSTM model was further refined through optimization using the GGO algorithm alongside six other optimization strategies, demonstrating its capability to achieve superior classification results.
The classification results for the seven optimization algorithms, utilizing the LSTM model as the fitness function, are presented in Table 7. The performance of the GGO-LSTM combination is compared against other LSTM-enhanced optimization techniques, such as BER, DTO, PSO, GWO, WAO, and FOA, highlighting the superior effectiveness of the GGO-LSTM approach . The GGO-LSTM method demonstrated exceptional performance, achieving impressive values of 0.995763 for accuracy, 0.996086 for sensitivity, 0.995516 for specificity, 0.994141 for p -value, 0.997006 for n -value, and 0.995112 for F -score. Multiple optimizers were utilized to fine-tune the LSTM parameters, and their respective outcomes were thoroughly evaluated. The data presented in this table clearly illustrates that the proposed GGO-LSTM approach outperforms all other optimization strategies. These results unequivocally emphasize the critical role of feature selection in enhancing classification accuracy.
Figure 7 provides a comprehensive evaluation of the accuracy achieved by the GGO + LSTM hybrid approach in comparison to other optimization algorithms applied to the LSTM model, with a focus on the objective function. This analysis assesses the efficiency of the GGO+LSTM method in optimizing the objective function for heart disease classification, comparing its performance against various other optimization strategies. The
Accuracy
Fig. 7. Assessing the accuracy of the GGO + LSTM approach and optimization algorithms using the LSTM model, considering the objective function.
Histogram of Acuuracy
Fig. 8. Histograms of the accuracy results achieved by the GGO + LSTM approach, as well as alternative combinations of optimization techniques with LSTM models.
ANOVA table SS DF MS F (DFn, DFd) P value
Treatment 0.0334 6 0.005567
Residual 0.001638 63 0.000026
Total 0.03504 69
Table 8. The outcomes of the ANOVA of the proposed GGO algorithm with LSTM model for heart disease classification.
presented results serve to enhance understanding of the relative effectiveness of these techniques, establishing a benchmark for their practical application. Through this visual representation, researchers and practitioners are equipped to discern the distinctive strengths and limitations of each optimization algorithm, enabling them to select the most suitable method for refining heart disease classification models.
Figure 8 showcases histograms that depict the distribution of accuracy results for the GGO + LSTM hybrid approach in comparison to alternative optimization techniques used with LSTM models. These histograms
Fig. 9. Analysis plots of the results of the proposed GGO+LSTM and other algorithms.
GGO+LSTM BER + LSTM DTO + LSTM PSO+LSTM GWO + LSTM FAO + LSTM WAO+LSTM
P value (two tailed) 0.002 0.002 0.002 0.002 0.002 0.002 0.002
Exact or estimate? Exact Exact Exact Exact Exact Exact Exact
Significant ? Yes Yes Yes Yes Yes Yes Yes
Discrepancy 0.9958 0.9783 0.9707 0.9504 0.9442 0.9351 0.9306
Table 9. The Wilcoxon signed-rank test findings of the proposed approach (GGO + LSTM), with various configurations of other optimization algorithms with the LSTM model for heart disease classification.
visually represent the variability and dispersion of accuracy scores across different optimization methods, providing valuable insights into their performance. By analyzing these graphical representations, researchers can gain a deeper understanding of how the results are distributed, enabling the identification of patterns, outliers, and potential areas for optimization across the methods. The histograms presented in Fig. 8 facilitate drawing meaningful conclusions regarding the effectiveness of various optimization strategies when integrated with LSTM models for heart disease classification tasks.
Table 8 displays the ANOVA results for the proposed GGO + LSTM approach, highlighting its ability to achieve outstanding performance through the effective application of search space exploration techniques. To maximize the technique’s potential, it is essential to strike a balanced equilibrium between exploration and exploitation within the search domain. Additionally, it is critical to begin the exploitation phase early in each iteration and progressively increase the number of participants in the exploitation group as the process unfolds. This strategic approach ensures optimal utilization of the search space, leading to superior outcomes.
Figure 9 presents a series of visualizations, including the heatmap, QQ plot, residual plot, and heteroscedasticity plot, to illustrate the performance of the proposed GGO + LSTM technique. The use of homoscedasticity, quartile-quartile (QQ) plots, and residual plots emphasizes the robustness and effectiveness of the approach. The QQ plot reveals a close alignment with a linear trend, further validating the suitability of the selected features for heart disease classification. Additional validation of these results is provided through the insights gained from the homoscedasticity and residual plots, reinforcing the accuracy and reliability of the findings.
Table 9 presents the results of the Wilcoxon rank-sum test, which is utilized to assess whether there are statistically significant differences in the outcomes produced by the various algorithms. A p-value below 0.05 signifies a statistically significant advantage. The findings from this analysis demonstrate that the GGO + LSTM approach outperforms the other techniques, establishing its superiority and confirming the statistical significance of its performance.

Classification results analysis

In the analysis of classification results, an in-depth evaluation is conducted to assess the performance of various algorithms, including the novel GGO + LSTM approach, in predicting heart disease. This comprehensive evaluation involves scrutinizing several key metrics-such as accuracy, precision, recall, F1 score, sensitivity, and specificity-which provide valuable insights into the strengths and weaknesses of each algorithm’s predictive capabilities. By carefully analyzing these metrics, we gain a holistic understanding of how each algorithm performs in identifying heart disease instances. This critical step not only highlights the advantages and limitations of different methods but also aids in determining the most effective algorithm for heart disease prediction .

Regression Plot: Accuracy vs. F-Score

Fig. 10. Regression plot: accuracy vs. F-score for the proposed GGO+LSTM approach and other algorithms.
Figure 10 illustrates a regression plot that depicts the correlation between accuracy and F-score for the proposed GGO + LSTM approach and several competing algorithms. This graphical representation enables a clear understanding of the interaction between these two crucial performance metrics, with each algorithm represented as a data point. The regression line fitted to these points offers insights into the general relationship between accuracy and F-score, highlighting whether a consistent pattern exists. Variations from the regression line reveal the distinct trade-offs between accuracy and F-score for each algorithm, reflecting their individual capabilities. This visualization serves as a powerful tool for researchers to compare the performance of the GGO + LSTM approach against other algorithms, identifying which methods balance high accuracy with a strong F-score in heart disease prediction.
Figure 11 presents a Kernel Density Estimation (KDE) plot, which illustrates the distribution of accuracy scores for both the GGO + LSTM approach and several reference algorithms. This plot offers a detailed kernel density estimate, providing a more nuanced understanding of the variability and spread of accuracy scores across the different algorithms. Each algorithm is represented by a probability density curve, with higher peaks signifying regions of greater concentration, where accuracy scores are more densely clustered. The KDE plot allows researchers to discern any underlying patterns in the distribution and compare the accuracy performance of the GGO+LSTM approach against other methods. This visualization serves as a comprehensive tool for evaluating the overall predictive power and comparative effectiveness of each algorithm in the context of heart disease classification.
Figure 12 displays the sensitivity, or True Positive Rate (TPR), for both the proposed GGO + LSTM approach and several other algorithms. Sensitivity is a vital metric in binary classification tasks, such as heart disease prediction, as it indicates the model’s ability to correctly identify positive instances (i.e., heart disease cases). Each model is represented by a data point or bar reflecting its corresponding sensitivity value. By evaluating the sensitivity of the GGO+LSTM approach against other algorithms, researchers can assess how effectively each model detects actual positive cases. This comparison highlights the algorithms with higher sensitivity, demonstrating their proficiency in accurately identifying heart disease cases. Ultimately, this analysis allows for

KDE Plot of Accuracy

Fig. 11. KDE plot of accuracy for the proposed GGO + LSTM approach and other algorithms.
a deeper understanding of the GGO + LSTM approach’s effectiveness in heart disease classification relative to other methods.
Figure 13 illustrates the specificity, or True Negative Rate (TNR), for the proposed GGO + LSTM approach alongside other models. Specificity is an essential metric in binary classification tasks, such as heart disease prediction, as it reflects the model’s capability to correctly identify true negatives (i.e., instances where heart disease is absent). Each model is represented by a data point or bar corresponding to its specific value. By comparing the specificity values across different models, we can gauge the success of each algorithm in minimizing false positives. This visual representation highlights the algorithms that excel in identifying cases without heart disease, providing insight into their effectiveness. Analyzing specificity across various models offers a comprehensive understanding of the GGO + LSTM approach’s relative performance and its potential contribution to heart disease classification.
Figure 14 presents boxplots comparing the performance metrics of the GGO+LSTM approach with other models. These boxplots provide a clear, graphical representation of key performance indicators, such as accuracy, F1 score, sensitivity, and specificity, allowing for a detailed comparative analysis of their distributions across different algorithms. Each metric is displayed in its own boxplot, where the median value is marked by a line in the center of the box, the interquartile range (IQR) is represented by the edges of the box, and the whiskers extend to the minimum and maximum values within 1.5 times the IQR. Outliers are highlighted as individual data points beyond this range. A careful examination of these boxplots enables researchers to assess the central tendency, spread, and variability of each metric for the GGO + LSTM approach and the other models. This visualization aids in identifying performance differences between the algorithms, providing insights into the relative strengths and weaknesses of each method in heart disease prediction.
Figure 15 showcases a pair plot complete with regression lines, offering a comprehensive visualization of the interrelationships among different performance metrics for both the GGO + LSTM approach and other algorithms. This plot enables the exploration of the associations between various metrics such as accuracy, F1 score, sensitivity, and specificity, presented in pairs. Each pair of metrics is displayed using scatter plots, with a corresponding regression line that indicates the direction and strength of their correlation. These regression

Sensitivity (TRP) by Model

Fig. 12. Sensitivity (TRP) by model for the proposed GGO + LSTM approach and other algorithms.
Fig. 13. Specificity (TNP) by model for the proposed GGO + LSTM approach and other algorithms.
Fig. 14. Boxplots for model metrics for the proposed GGO + LSTM approach and other algorithms.
lines are particularly useful for identifying trends or patterns within the data, highlighting potential correlations across different performance measures. By examining this pair plot, researchers can gain valuable insights into how the metrics interact with one another across different algorithms. Additionally, comparing the regression lines for the GGO + LSTM approach with those of the other algorithms offers a relative performance evaluation, pinpointing areas of strength and opportunities for improvement in the heart disease classification task. Table 10 demonstrates a comprehensive comparison with existing state-of-the-art methods between the proposed model and prior studies for heart disease classification.

Conclusion and future work

This research introduces the Greylag Goose Optimization (GGO) algorithm with the goal of enhancing the accuracy of heart disease classification. Initially, essential data preprocessing steps such as scaling, normalization, and the removal of missing values are conducted. Feature selection is then performed using the binary format of GGO (bGGO), which is specifically designed to identify the most optimal feature set that improves classification accuracy. This binary version of GGO is benchmarked against six other binary optimization algorithms, namely, BER, DTO, PSO, WAO, GWO, and FOA. For the classification phase, multiple machines learning classifiers, including SVC, SGD, Naïve Bayes (NB), KNN, Decision Tree (DT), Random Forest (RF), and LSTM, are employed. Among these, the LSTM model demonstrates superior performance, achieving an accuracy of . Further optimization of the LSTM’s hyperparameters is conducted using GGO, yielding the highest accuracy of . Statistical evaluations are performed using ANOVA and Wilcoxon signed-rank tests to assess the significance of feature selection and classification results. Additionally, several graphical representations are created to demonstrate the robustness and efficiency of the proposed methodology. The findings clearly indicate that the proposed approach outperforms alternative methods, with the effective selection of disease-related features and dimensionality reduction significantly enhancing predictive accuracy and mitigating overfitting in heart disease analysis. Looking ahead, improving early prediction rates for heart disease could be achieved by collecting and analyzing sensor data, followed by the application of optimal methods. This study highlights the efficacy of the GGO algorithm for feature selection and hyperparameter tuning. Future research will explore the use of other optimization algorithms, such as Genetic Algorithms (GA), Differential Evolution (DE), and Adaptive Particle Swarm Optimization (APSO), along with the implementation of transfer learning using pretrained models on larger, more diverse datasets. These efforts aim to further enhance model performance, reduce training time, and address challenges related to limited labeled data, ultimately contributing to the development of practical diagnostic tools for heart disease classification.
Fig. 15. Pairplot with regression lines for the proposed GGO+LSTM approach and other algorithms.
Study Models Accuracy (%)
Ref Combination of (random forest, logistic regression, and KNN) 87.5
Ref Support vector machine 88.3
Ref Random Forest 90.16
Ref SVM, Logistic Regression, Neural Networks 89
This study GGO for feature selection, LSTM for classification 99.58
Table 10. Comprehensive comparison between the proposed model and several studies for heart disease classification.

Data availability

Data are in a repository as public data at https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction ?%20resource=download.
Received: 13 November 2024; Accepted: 16 December 2024
Published online: 08 January 2025

References

  1. World Health Organization, Cardiovascular Diseases, WHO, Geneva, Switzerland. https://www.who.int/healthtopics/cardiovascu lar-diseases/ (2020).
  2. American Heart Association, Classes of Heart Failure, American Heart Association,Chicago, IL, USA. https://www.heart.org/en/h ealth-topics/heart-failure/what-is-heartfailure/%20classes-of-heart-failure (2020).
  3. American Heart Association, Heart Failure, American Heart Association, Chicago,IL, USA. https://www.heart.org/en/health-topi cs/heart-failure (2020).
  4. Elshewey, A. M. & Osman, A. M. Orthopedic disease classification based on breadth-first search algorithm. Sci. Rep. 14 (1), 23368 (2024).
  5. Elkenawy, E. S., Alhussan, A. A., Khafaga, D. S., Tarek, Z. & Elshewey, A. M. Greylag goose optimization and multilayer perceptron for enhancing lung cancer classification. Sci. Rep. 14 (1), 23784 (2024).
  6. Elshewey, A. M., Alhussan, A. A., Khafaga, D. S., Elkenawy, E. S. & Tarek, Z. EEG-based optimization of eye state classification using modified-BER metaheuristic algorithm. Sci. Rep. 14 (1), 24489 (2024).
  7. El-Rashidy, N., Tarek, Z., Elshewey, A. M. & Shams, M. Y. Multitask multilayer-prediction model for predicting mechanical ventilation and the associated mortality rate. Neural Comput. Appl. 1-23 (2024).
  8. Hosny, K. M., Mohammed, M. A., Salama, R. A. & Elshewey, A. M. Explainable ensemble deep learning-based model for brain tumor detection and classification. Neural Comput. Appl. 1-18 (2024).
  9. Alzakari, S. A., Alhussan, A. A., Qenawy, A. S., Elshewey, A. M. & Eed, M. An enhanced long short-term memory recurrent neural network deep learning model for potato price prediction. Potato Res. 1-9 (2024).
  10. Elshewey, A. M. et al. Optimizing HCV Disease Prediction in Egypt: The hyOPTGB Framework. Diagnostics 13 (22), 3439 (2023).
  11. Deserno, T. M., Antani, S. & Long, R. Ontology of gaps in content-based image retrieval. J. Digit. Imaging 22, 202-215 (2009).
  12. Ezugwu, A. E. et al. Metaheuristics: A comprehensive overview and classification along with bibliometric analysis. Artif. Intell. Rev. 54, 4237-4316 (2021).
  13. Mehta, P., Kumar, S. & Tejani, G. G. MOBBO: A multiobjective brown bear optimization algorithm for solving constrained structural optimization problems. J. Optim. 2024 (1), 5546940 (2024).
  14. Mashru, N., Tejani, G. G., Patel, P. & Khishe, M. Optimal truss design with MOHO: A multi-objective optimization perspective. Plos One 19 (8), e0308474 (2024).
  15. Nonut, A. et al. A small fixed-wing UAV system identification using metaheuristics. Cogent Eng. 9 (1), 2114196 (2022).
  16. Xia, J. Y. et al. Metalearning-based alternating minimization algorithm for nonconvex optimization. IEEE Trans. Neural Netw. Learn. Syst. 34 (9), 5366-5380 (2022).
  17. Su, Y. et al. Colon cancer diagnosis and staging classification based on machine learning and bioinformatics analysis. Comput. Biol. Med. 145, 105409 (2022).
  18. Jiang, C. et al. Xanthohumol inhibits TGF- -induced cardiac fibroblasts activation via mediating PTEN/Akt/mTOR signaling pathway. Drug. Des. Devel. Ther. 14, 5431-5439(2020).
  19. Deng, J. et al. The Janus face of mitophagy in myocardial ischemia/reperfusion injury and recovery. Biomed. Pharmacother. 173, 116337 (2024).
  20. Katarya, R. & Meena, S. K. Machine learning techniques for heart disease prediction: A comparative study and analysis, Health and Technology. 11(1), 87-97 (2023).
  21. Otoom, A. F., Abdallah, E. E., Kilani, Y., Kefaye, A. & Ashour, M. Effective diagnosis and monitoring of heart disease. Int. J. Softw. Eng. Its Appl. 9 (1), 143-156 (2023).
  22. Rajdhan, A., Agarwal, A., Sai, M. & Ghuli, P. Heart disease prediction using machine learning. Int. J. Res. Technol. 9 (04), 659-662 (2024).
  23. Haq, A. U., Li, J. P., Memon, M. H., Nazir, S. & Sun, R. A hybrid intelligent system framework for the prediction of heart disease using machine learning algorithms. Mob. Inf. Syst. 2018 (2018).
  24. Rimm, E. B., Stampfer, M. J. & Willett, W. C. Body size and fat distribution as predictors of coronary heart disease among middleaged and older us men. Am. J. Epidemiol. 141 (12), 1117-1127 (2022).
  25. Khourdifi, Y. & Bahaj, M. Heart disease prediction and classification using machine learning algorithms optimized by particle swarm optimization and ant colony optimization. Int. J. Intell. Eng. Syst. 12 (1), 242-252 (2019).
  26. El-kenawy, E. S. M. et al. Greylag goose optimization: Nature-inspired optimization algorithm. Expert Syst. Appl. 238, 122147 (2024).
  27. Hayrettin, O. Deep learning for subtyping and prediction of diseases: Long-short term memory. Energy Rep. 6, 1147-1159 (2022).
  28. Mirjalili, S. SCA: A sine cosine algorithm for solving optimization problems. Knowl. Based Syst. 96, 120-133 (2016).
  29. Zaki, A. M., Towfek, S. K., Gee, W., Zhang, W. & Soliman, M. A. Advancing parking space surveillance using a neural network approach with feature extraction and dipper throated optimization integration. J. Artif. Intell. Metaheuristics 6 (Issue 2), 16-25 (2023).
  30. Piotrowski, A. P., Napiorkowski, J. J. & Piotrowska, A. E. Particle swarm optimization or differential evolution-A comparison. Eng. Appl. Artif. Intell. 121, 106008 (2023).
  31. Mirjalili, S. & Lewis, A. The whale optimization algorithm. Adv. Eng. Softw. 95, 51-67 (2016).
  32. Al-Tashi, Q., Md Rais, H., Abdulkadir, S. J., Mirjalili, S. & Alhussian, H. A review of grey wolf optimizer-based feature selection methods for classification. Evol. Mach. Learn. Tech. Algorithms Appl. ;273-286. (2020).
  33. de Vasconcelos Segundo, E. H., Mariani, V. C. & dos Santos Coelho, L. Design of heat exchangers using falcon optimization algorithm. Appl. Therm. Eng. 156, 119-144 (2019).
  34. Saigal, P. & Khanna, V. Multi-category news classification using support vector machine based classifiers. SN Appl. Sci. 2 (3), 458 (2020).
  35. Shams, M. Y. et al. A machine learning-based model for predicting temperature under the effects of climate change. in The Power of Data: Driving Climate Change with Data Science and Artificial Intelligence Innovations 61-81 (Springer, 2023).
  36. Fouad, Y., Osman, A. M., Hassan, S. A., El-Bakry, H. M. & Elshewey, A. M. Adaptive visual sentiment prediction model based on event concepts and object detection techniques in social media. Int. J. Adv. Comput. Sci. Appl. 14 (7), 252-256 (2023).
  37. Elshewey, A. M., Shams, M. Y., Tarek, Z., Megahed, M. & El-kenawy, E. S. M., El-dosuky, M. A. Weight prediction using the hybrid stacked-LSTM food selection model. Comput. Syst. Sci. Eng. 46 (1), 765-781 (2023).
  38. Al Bataineh, A., Kaur, D. & Jalali, S. M. J. Multi-layer perceptron training optimization using nature inspired computing. IEEE Access 10, 36963-36977 (2022).
  39. Saeed, M. et al. Electrical power output prediction of combined cycle power plants using a recurrent neural network optimized by waterwheel plant algorithm. Front. Energy Res. 11, 1234624 (2023).
  40. Shams, M. Y., Tarek, Z., El-kenawy, E. S., Eid, M. M. & Elshewey, A. M. Predicting gross domestic product (GDP) using a PC-LSTM-RNN model in urban profiling areas. Comput. Urban Sci. 4 (1), 3 (2024).
  41. Sun, F. et al. Solid component ratio influences prognosis of GGO-featured IA stage invasive lung adenocarcinoma. Cancer Imaging 20 (1), 87 (2020).
  42. Rabehi, A. & Kumar, P. Improving tuberculosis diagnosis and forecasting through machine learning techniques: A systematic review. Metaheuristic Optim. Rev. 1 (1), 35-44 (2024).
  43. Tarek, Z. et al. An optimized model based on deep learning and gated recurrent unit for COVID-19 death prediction. Biomimetics 8 (7), 552 (2023).
  44. Wang, D., Tan, D. & Liu, L. Particle swarm optimization algorithm: An overview. Soft Comput. 22 (2), 387-408 (2018).
  45. Gaber, K. S., Elsebaey, M. A. & Ibrahim, A. A. Weather prediction: Predicting rain using weather conditions. J. Artif. Intell. Metaheuristics 8 (1), 60-69 (2024).
  46. Rezaei, H., Bozorg-Haddad, O. & Chu, X. Grey Wolf Optimization (GWO) Algorithm. in Advanced Optimization by NatureInspired Algorithms [Internet]. (Studies in Computational Intelligence) (ed Bozorg-Haddad, O.) 81-91 ( Springer, 2018). https://doi .org/10.1007/978-981-10-5221-7_9.
  47. Tang, H. et al. A novel hybrid algorithm based on PSO and FOA for target searching in unknown environments. Appl. Intell. 49 (7), 2603-2622 (2019).
  48. Alkhammash, E. H., Kamel, A. F., Al-Fattah, S. M. & Elshewey, A. M. Optimized multivariate adaptive regression splines for predicting crude oil demand in Saudi arabia. Discrete Dyn. Nat. Soc. 2022 (1), 8412895 (2022).
  49. El-kenawy, E. S. et al. Optimized ensemble algorithm for predicting metamaterial antenna parameters. CMC 71 (3), 4989-5003 (2022).
  50. El-kenawy, E. S. M. et al. Improved weighted ensemble learning for predicting the daily reference evapotranspiration under the semi-arid climate conditions. Environ. Sci. Pollut Res. 29 (54), 81279-81299 (2022).
  51. Shams, M. Y., El-Kenawy, E. S., Ibrahim, A. & Elshewey, A. M. A hybrid dipper throated optimization algorithm and particle swarm optimization (DTPSO) model for hepatocellular carcinoma (HCC) prediction. Biomed. Signal Process. Control 85, 104908 (2023).
  52. Alkhammash, E. H., Hadjouni, M. & Elshewey, A. M. A hybrid ensemble stacking model for gender voice recognition approach. Electronics 11 (11), 1750 (2022).
  53. Alzakari, S. A., Alhussan, A. A., Qenawy, A. S. & Elshewey, A. M. Early detection of potato disease using an enhanced convolutional neural network-long short-term memory deep learning model. Potato Res. 1-9 (2024).
  54. Alkhammash, E. H. et al. Application of machine learning to predict COVID-19 spread via an optimized BPSO model. Biomimetics .
  55. Abdelhamid, A. A. et al. Potato harvesting prediction using an Improved ResNet-59 model. Potato Res. 1-20 (2024).

Acknowledgements

Princess Nourah bint Abdulrahman University Researchers Supporting Project number (PNURSP2024R 308), Princess Nourah bint Abdulrahman University, Riyadh, Saudi Arabia.

Author contributions

All authors have contributed equally.

Funding

Princess Nourah bint Abdulrahman University Researchers Supporting Project number (PNURSP2024R 308), Princess Nourah bint Abdulrahman University, Riyadh, Saudi Arabia.

Declarations

Competing interests

The authors declare no competing interests.

Additional information

Correspondence and requests for materials should be addressed to A.M.E.
Reprints and permissions information is available at www.nature.com/reprints.
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License, which permits any non-commercial use, sharing, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if you modified the licensed material. You do not have permission under this licence to share adapted material derived from this article or parts of it. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommo ns.org/licenses/by-nc-nd/4.0/.
© The Author(s) 2025

  1. Department of Computer Science, Faculty of Computers and Information, Suez University, P.O.BOX:43221, Suez, Egypt. Department of Information Systems, High Institution for Marketing, Commerce & Information Systems, Cairo, Egypt. Department of Computer Sciences, College of Computer and Information Sciences, Princess Nourah bint Abdulrahman University, P.O. Box 84428, Riyadh 11671, Saudi Arabia. Faculty of Artificial Intelligence, Delta University for Science and Technology, Mansoura 11152, Egypt. Department of Communications and Electronics, Delta Higher Institute of Engineering and Technology, Mansoura 35111, Egypt. School of ICT, Faculty of Engineering, Design and Information & Communications Technology (EDICT), Bahrain Polytechnic, PO Box 33349, Isa Town, Bahrain. Applied Science Research Center, Applied Science Private University, Amman, Jordan. Jadara University Research Center, Jadara University, Irbid, Jordan. email: ahmed.elshewey@fci.suezuni.edu.eg