آلية تعلم آلي محسّنة لنظام الرعاية الصحية للبيانات الضخمة للتنبؤ بعوامل خطر الأمراض Optimized machine learning mechanism for big data healthcare system to predict disease risk factor

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-98721-6
PMID: https://pubmed.ncbi.nlm.nih.gov/40274987
تاريخ النشر: 2025-04-24

افتح

آلية تعلم آلي محسّنة لنظام الرعاية الصحية للبيانات الضخمة للتنبؤ بعوامل خطر الأمراض

فينكاتا ناجاراجو ثاثا , سيلبا تشاليشالامالا , أودايراجو بامولا , د. برامود كريشنا , مانجوناث شينثاكونتا , سريهاري فارما مانتينا , شريف فهيد الدين & راميش فاطامبيتي

الملخص

أصبح مرض القلب شائعًا بشكل متزايد في المجتمع الحديث بسبب عوامل مثل التوتر، والنظم الغذائية غير الكافية، وما إلى ذلك. إن التعرف المبكر على عوامل خطر مرض القلب أمر ضروري لأنه يسمح بخطط علاج قد تقلل من خطر العواقب الوخيمة وتحسن نتائج المرضى. تم استخدام طرق تنبؤية لتقدير عامل الخطر، لكنها غالبًا ما تحتوي على عيوب مثل اختيار الميزات غير المناسب، والتكيف المفرط، وما إلى ذلك. للتغلب على ذلك، تم تقديم وتنفيذ نظام تنبؤ معتقدات الثعلب الأحمر العميق (DRFBPS) في برنامج بايثون. في البداية، تم جمع البيانات ومعالجتها مسبقًا لتحسين جودتها، وتم اختيار الميزات ذات الصلة باستخدام تحسين الثعلب الأحمر. تقوم الميزات المختارة بتحليل عوامل الخطر، ويقوم DRFBPS بإجراء التنبؤ. يتم التحقق من فعالية نموذج DRFBPS باستخدام الدقة، ودرجة F، والدقة، وAUC، والاسترجاع، ومعدل الخطأ. تظهر النتائج استخدام DRFBPS كأداة عملية في تحليلات الرعاية الصحية من خلال إظهار المعدل الذي ينتج به تنبؤات دقيقة وموثوقة. بالإضافة إلى ذلك، فإن تطبيقه في أنظمة الرعاية الصحية، بما في ذلك القرارات السريرية ومراقبة المرضى عن بُعد، يثبت قابليته للتطبيق في العالم الحقيقي في تعزيز التشخيص المبكر وتدابير الرعاية الوقائية. تثبت النتائج أن DRFBPS هو أداة محتملة في تحليلات الرعاية الصحية، حيث يوفر إطارًا قويًا لنمذجة التنبؤ في توقع خطر مرض القلب.

الكلمات الرئيسية: مرض القلب، عامل الخطر، تحليل الميزات، المعالجة المسبقة، الرعاية الصحية، البيانات الضخمة
نظام الرعاية الصحية (HCS) هو أحد أكبر الأنظمة في الدول النامية، مع نمو سنوي في كل من التوظيف والدخل . جوهر HCS هو التعاون . وذلك لأن العديد من أصحاب المصلحة يعملون معًا لتحقيق الأهداف المشتركة المتمثلة في تقليل النفقات الطبية والأخطاء، بما في ذلك الممرضات، وأطباء الأشعة، وفنيي المختبرات، والأطباء بمختلف التخصصات، وعلماء الأمراض، مما يوفر خدمات رعاية صحية عالية الجودة ومحسّنة . في الماضي، كان تشخيص الأمراض غير الشائعة يتطلب فحصًا جسديًا وتحليليًا شاملاً يتم في المستشفيات . في هذه الأيام، يمكن أن تساعدنا ساعة ذكية في تحديد سبب أي شذوذ صحي . في حال حدوث وباء مثل الإيبولا، تعتبر التكنولوجيا حاسمة في منع انتشاره السريع وإبلاغ الناس عن الاحتياطات اللازمة التي يجب اتخاذها . تؤدي التطورات التكنولوجية إلى انتقال في خدمات الرعاية الصحية من الرعاية المركزية في المستشفيات إلى العلاج الفردي والشخصي . يمكن إتمام العديد من المهام السريرية، بما في ذلك اختبارات الدم، ومراقبة السكري، ومراقبة الضغط، في الوقت الفعلي وعن بُعد . جعلت خدمات البيانات والتواصل في الدول النامية مراقبة نظام الرعاية الصحية عن بُعد عملية وقيمة . مع نمو HCS، يحتاج إلى تكنولوجيا البيانات الضخمة لجمع وتحليل
إدارة وتخزين كميات هائلة من البيانات . أصبحت تحليلات البيانات الضخمة وسيلة شائعة لإدارة كميات هائلة من البيانات وتحسين اتخاذ القرار . تشير البيانات الضخمة إلى كمية البيانات المستخدمة والمحللة وتشمل القدرة على تقديم رؤى أساسية من خلال ميزات متنوعة
. يتم تصنيفها إلى بعض المصطلحات. أي , الحجم هو كمية المعلومات التي تم تطويرها؛ السرعة هي معدل نقل البيانات، والتنوع يستخدم لوصف نطاق أنواع البيانات التي قد تحتوي عليها الملفات النصية العادية، بما في ذلك قاعدة البيانات، وإكسل، وCSV , القيمة تشير إلى قيمة البيانات. ومع ذلك، من الضروري أن ندرك أن ليس كل البيانات مفيدة؛ الدقة تشير إلى فهم البيانات , الصلاحية تضمن صحة ودقة البيانات للاستخدامات المستقبلية، والتغير يشير إلى موثوقية وأهمية البيانات، واللزوجة تشير إلى التأخير أو الفجوة الزمنية في نقل البيانات بين المصدر والوجهة , القابلية تشير إلى السرعة التي يتم بها نقل البيانات واستلامها من مصادر متعددة. التصور يمثل تعقيد البيانات الواسعة ويساعد المنظمات على الاعتراف بأهميتها . من الضروري الانتباه عن كثب إلى الطلبات المتزايدة على تحسين التقنيات التي يمكن أن تتعامل مع مشاكل معالجة مجموعات البيانات الكبيرة دون التأثير على الأمان والخصوصية . تستخدم منظمات الرعاية الصحية أدوات لتحليل البيانات الواسعة التي تضمن توفر , والسرية , وسلامة المعلومات الصحية المحمية . تظهر تقديرات منظمة الصحة العالمية أن مرض القلب هو السبب الأكثر أهمية للوفاة في العالم، حيث يتسبب في 17.9 مليون حالة وفاة سنويًا . السلوكيات الأكثر شيوعًا مثل شرب الكحول هي عامل مساهم في خطر السكتة الدماغية ومرض القلب، والتدخين، والعادات الغذائية السيئة، وعدم ممارسة الرياضة . أصبح التعلم العميق (DL) أداة ضرورية في صناعة الرعاية الصحية للمساعدة في تشخيص المرضى. المساهمة الرئيسية للعمل المقترح هي؛
في البداية، تم جمع مجموعة بيانات الرعاية الصحية IoT وتدريبها باستخدام نظام بايثون.
  • تم تقديم نظام تنبؤ معتقدات الثعلب الأحمر العميق (DRFBPS) كطريقة تنبؤية مع الميزات اللازمة للتنبؤ.
  • تمت معالجة البيانات المجمعة مسبقًا لإزالة الضوضاء، وتم إجراء تحليل الميزات باستخدام تحسين الثعلب الأحمر لاختيار الميزات المطلوبة من البيانات الضخمة.
  • باستخدام هذه الميزات المختارة، يقوم DRFBPS بتحليل وتنبؤ عوامل خطر مرض القلب.
  • يتم تقييم فعالية النموذج باستخدام مقاييس تشمل الدقة، ودرجة F، والدقة، وAUC، والاسترجاع، ومعدل الخطأ، وقيمة p، وفترات الثقة.
  • تحتوي هذه الورقة على الأعمال ذات الصلة الحديثة في الجزء الثاني، ويتم وصف مشكلة النموذج في الجزء الثالث، ويتم تطوير العقبات في الجزء الرابع، ويتم مناقشة دراسة الحالة والتحقق من الأداء للإطار المطور في الجزء الخامس. في الجزء السادس، يتم أخيرًا إنهاء العمل.
الأعمال ذات الصلة
أليزاديساني وآخرون
قد درسوا معظم حالات COVID-19 التي كانت لديها أعراض تشبه أعراض الإنفلونزا، وفقًا للتحقيق الذي تم في إيران من مارس إلى أبريل 2020. شارك 319 شخصًا في البحث. كانت المؤشرات والأعراض الرئيسية هي العمر المتقدم، والحمى، والتعرق، وضيق التنفس، والارتباك، والضعف، وفقدان حاسة التذوق، والقشعريرة، وفقدان حاسة الشم، وفقدان الشهية، والإرهاق، والسعال الجاف. لم يكن هناك ارتباط ملحوظ بين COVID-19 والمتغيرات التالية: السعال المنتج للبلغم، والإكزيما، والتهاب الملتحمة، والسفر، والربو، والكورتيكوستيرويدات، وأمراض الكبد، وأمراض الروماتيزم، وألم الصدر. القيد هو أن فترة المتابعة القصيرة جدًا (شهرين) قد لا تكون قد التقطت التأثيرات طويلة الأمد للمرض على الوفاة. دريستاس وترغكا
قد قاما بتقييم العديد من النماذج لتوفير أساس فعال للتنبؤ بحدوث خطر السكتة الدماغية على المدى الطويل باستخدام ML. المساهمة الرئيسية لهذا العمل هي تقنية التكديس التي تنتج نتائج ممتازة. أظهرت نتائج التجربة أن تصنيف التكديس يعمل بشكل أفضل من الطرق الأخرى بدقة , تعتمد هذه الدراسة على مجموعة بيانات متاحة للجمهور مما يثير بعض القيود. قد لا تكون تقنيات جمع البيانات موحدة، وقد لا تخضع مجموعات البيانات العامة لعمليات مراقبة الجودة الصارمة.
ريدي وآخرون قد طوروا 10 تصنيفات ML للتنبؤ بخطر مرض القلب من خلال استخدام مجموعة بيانات القلب في كليفلاند وأفضل الخصائص التي حددها مقيمو الخصائص. مع مجموعة الخصائص الكاملة، أنتج مصنف خوارزمية الحد الأدنى المتسلسل دقة؛ مع الخصائص المثلى، أنتج المصنف دقة. تم الحصول على أفضل منطقة ROC بمقدار 0.91. القيد هو أنه يعمل مع مجموعة بيانات صغيرة، مما قد يتسبب في التكيف المفرط.
محمود وآخرون تم التحقيق في بيانات نتائج وتكاليف المحاربين القدامى المتعلقة بأمراض الكبد (VOCAL) المستخدمة في تحليل مجموعة استرجاعية ووجدت 4712 عملية جراحية في 3785 مريضًا بالتهاب الكبد. صنفت الدراسة الإجراءات واستخدمت الانحدار اللوجستي متعدد المتغيرات لتقدير الوفيات بعد الجراحة باستخدام النماذج. أظهرت النماذج تمييزًا جيدًا وأداءً أعلى، لكن القيد هو أنها تواجه تصنيفات خاطئة مع مجموعة البيانات الكبيرة.
يانغ وآخرون لقد طورنا تقنية حسابية للتنبؤ بالأشخاص المصابين بالسكري من خلال دمج أشكال متعددة من البيانات التي تم تقييمها جسديًا. تم جمع بيانات حول الاختبارات البدنية لكل من الأشخاص الأصحاء ومرضى السكري بين عامي 2011 و2017 في مدينة لوزهو، الصين. تم إنشاء نموذج يعتمد على تقنية تعزيز الانحدار الشديد (XGBoost) لتمييز مرضى السكري عن الأشخاص الأصحاء. بالإضافة إلى ذلك، تم تطوير بطاقة تقييم مخاطر السكري لتقييم صحة الأفراد. استنادًا إلى هذه المعلومات، تم إنشاء نهج تقييم مخاطر السكري عبر الإنترنت لتحسين إدارة نمط الحياة الشخصية وفحص تسلسل السكري لتقديم توصيات لإدارة صحة الإنسان. يظهر أداءً ضعيفًا في تحليل الميزات.
القماش وآخرون لقد طورنا نموذجًا متقدمًا للتنبؤ بحالات COVID-19 في المناطق ذات الارتفاع العالي والمستوى المنخفض من البحر في المملكة العربية السعودية. بالإضافة إلى ثلاث طرق من التعلم الآلي – الغابة العشوائية، وتعزيز التدرج، ونايف بايز – يدمج هذا النموذج تحسين سرب الجسيمات الثنائي. تظهر النتائج أن
نموذج تعزيز التدرج يتفوق على كل من نموذج الغابة العشوائية ونموذج بايز الساذج. ومع ذلك، فإنه يواجه مشاكل في التعقيد الحسابي.
الشويي وآخرون لقد طورنا طريقة جديدة لتصنيف مرض اللفحة المتأخرة في البطاطس بدقة. تعتمد هذه الطريقة على نماذج مدربة مسبقًا مثل ResNet-50 وGoogLeNet وAlexNet وVGG19Net. على وجه التحديد، يتم استخدام نموذج AlexNet لاستخراج الميزات، والتي يتم تحسينها بعد ذلك باستخدام عشرة خوارزميات مختلفة. الأكثر دقة هو خوارزمية نبات العجلة المائية الثنائية جيب التمام وجيب الزاوية (WWPASC). يتم تدريب خمسة نماذج تعلم آلي على الميزات المحددة. مع دقة تصنيف عالية، يتفوق على الطرق الأربعة السابقة في التحسين. ومع ذلك، فإنه يعاني من قيود بسبب خطر الإفراط في التكيف.
الشوي لقد قدموا نموذجًا يستخدم مصنف تعزيز التدرج المحسن للتنبؤ بمرض التهاب الكبد الوبائي C في مصر. تم تحسين دقة النموذج من خلال تحسين المعلمات الفائقة باستخدام إطار عمل OPTUNA. يستخدم النموذج مجموعة بيانات تحتوي على 1385 حالة وطريقة اختيار متقدمة لتحديد الميزات الأساسية. تقارن الدراسة أداء خمسة نماذج تعلم آلي، محققةً معدل الدقة. ومع ذلك، فإنه يواجه تحديات تتعلق بالتكلفة الحاسوبية ويتطلب وقت معالجة مرتفع.
القماش وآخرون لقد طورنا نموذج انحدار خطي محسّن باستخدام شرائح الانحدار التكيفية متعددة المتغيرات (LR-MARS) للتنبؤ بالطلب على النفط الخام في المملكة العربية السعودية باستخدام خوارزمية تحسين العنكبوت الاجتماعي (SSO). كانت أداء هذا النموذج أعلى من النماذج الأخرى، كما يتضح من نتائج تحليل التباين (ANOVA). ومع ذلك، لم تقارن هذه الدراسة مع خوارزميات التحسين الأخرى المستخدمة بشكل شائع.
تم اقتراح نموذج شبكة عصبية تلافيفية مع ذاكرة قصيرة وطويلة الأمد (CNN-LSTM) لاكتشاف أمراض البطاطس من قبل السخاري وآخرون. ، الذي تم تقييمه على مجموعة بيانات موحدة باستخدام معيار Z-score. تم اختبار النموذج مقابل خمسة خوارزميات تعلم آلي كلاسيكية: الغابة العشوائية، الأشجار الإضافية، الجيران الأقرب، التعزيز التكيفي، وآلة الدعم الناقل. يتمتع نموذج CNN-LSTM بأعلى دقة من متفوقًا على النماذج الأخرى من حيث الدقة والحساسية والخصوصية ودرجة F ومنطقة تحت المنحنى (AUC). ومع ذلك، فإن التوزيع غير المتساوي لمجموعات الأمراض في مجموعة البيانات يعد عيبًا رئيسيًا.

فجوة البحث

على الرغم من التقدم الكبير في النماذج التنبؤية لتقييم مخاطر أمراض القلب، لا تزال هناك العديد من التحديات. تعاني العديد من النماذج الحالية من مشكلات مثل الإفراط في التكيف، واختيار الميزات غير الكافي، وقابلية التوسع المحدودة عند تطبيقها على مجموعات بيانات متنوعة وكبيرة. غالبًا ما تفشل الأساليب التقليدية في التعلم الآلي في دمج التفاعلات المعقدة بين عوامل الخطر المتعددة، مما يمكن أن يؤدي إلى توقعات غير دقيقة. علاوة على ذلك، بينما أظهرت تقنيات التعلم العميق (DL) وعدًا في التعامل مع هذه التعقيدات، فإنها غالبًا ما تتطلب موارد حسابية كبيرة وتكون عرضة للإفراط في التكيف، خاصة عند تدريبها على مجموعات بيانات غير متوازنة.
علاوة على ذلك، تفتقر الأدبيات الحالية إلى حلول شاملة تدمج بين طرق اختيار الميزات الفعالة ونماذج التنبؤ القوية لتعزيز الدقة والموثوقية. لا يزال إمكان استخدام تقنيات التحسين، مثل تحسين الثعلب الأحمر، في اختيار الميزات ذات الصلة لتحسين أداء التنبؤ غير مستكشف بشكل كافٍ. بالإضافة إلى ذلك، هناك حاجة إلى نماذج يمكنها معالجة بيانات الرعاية الصحية على نطاق واسع بكفاءة مع الحفاظ على سرية وسلامة معلومات المرضى.
تهدف مقدمة نظام توقعات معتقدات الثعلب الأحمر العميق (DRFBPS) الجديد إلى معالجة هذه الفجوات من خلال دمج اختيار الميزات المتقدم مع التعلم العميق لتحسين دقة وموثوقية التوقعات. من خلال التركيز على هذه المجالات التي لم يتم البحث فيها بشكل كافٍ، يسعى هذا البحث إلى المساهمة في تطوير نماذج أكثر فعالية لتوقع مخاطر أمراض القلب، مما يعزز في النهاية نتائج المرضى من خلال التدخل المبكر واستراتيجيات العلاج المخصصة.

نموذج النظام مع المشكلة

تعتبر البيانات الضخمة ضرورية في نظام الرعاية الصحية لتمكين التواصل السلس بين المرضى والمهنيين الصحيين، وزيادة مشاركة المرضى في عملية العلاج، وتقديم رعاية قائمة على الأدلة، والمساعدة في الكشف المبكر عن الأمراض ومخاوف الأمان. لا يزال مرض القلب يشكل مصدر قلق لصحة العالم. لتجنب المشاكل وتحسين نتائج المرضى، فإن الكشف المبكر وتوقع عوامل الخطر أمران أساسيان. تعاني تقنيات تقييم المخاطر التقليدية من بعض القيود في التنبؤ بسبب البيانات المفقودة وعدم قدرة الأساليب على التعامل مع مجموعات البيانات الكبيرة. التحديات التي تواجهها التقنيات الحالية موضحة في الشكل 1.
نظرًا لأن نظام الرعاية الصحية يحتوي على كمية هائلة من البيانات، يجب أن يمتلك النموذج التنبؤي القدرة على إدارة البيانات الضخمة للتنبؤ. وبشكل خاص لأنظمة الرعاية الصحية ذات البيانات الكبيرة، يقترح هذا البحث تقنية تعلم عميق فعالة. الهدف من هذه الاستراتيجية هو إنشاء نموذج أكثر دقة وفعالية لتوقع عوامل خطر الإصابة بأمراض القلب من خلال استخدام كمية هائلة من بيانات المرضى.

المنهجية المقترحة

تنبؤ عوامل خطر مرض القلب هو تحديد الأشخاص الذين لديهم فرصة متزايدة للإصابة بمرض القلب. تساعد هذه المعلومات المتخصصين في الرعاية الصحية على تنفيذ التدخلات المبكرة والتدابير الوقائية لتقليل المخاطر وتحسين صحة القلب والأوعية الدموية. لذلك، تم تقديم نظام تنبؤ جديد يعتمد على الاعتقاد العميق للثعلب الأحمر (DRFBPS) كنموذج تنبؤي. في البداية، يتم جمع مجموعات البيانات من نظام الرعاية الصحية ومعالجتها مسبقًا لإزالة الأخطاء والتعامل مع القيم المفقودة. يتم استخدام تحسين الثعلب الأحمر لاختيار الميزات المطلوبة، واستنادًا إلى هذه الميزات المختارة، يتنبأ DRFBPS بعوامل الخطر. أخيرًا، يتم تقييم الأداء.
يتم عرض هيكل النموذج المقترح في الشكل 2. يتم استخدام بعض المقاييس لتقييم أداء وكفاءة النموذج التنبؤي. فيما يلي وصف لعملية النموذج المعروضة.

عملية نظام إدارة تدفق البيانات المقترح

الإطار الموصى به يعمل مع شبكة الاعتقاد العميق (DBN) وتحسين الثعلب الأحمر (RFO) تختار Red Fox Fitness الميزات المطلوبة للتنبؤ بعوامل الخطر. الشبكة العميقة المختصرة هي تقنية تعلم عميق؛ هي
الشكل 1. نموذج النظام مع المشكلة.
الشكل 2. الهيكل المقترح لنظام DRFBPS.
يمكنه التعامل مع البيانات المعقدة وتعلم العلاقات المعقدة بين الميزات بكفاءة من أجل أفضل توقع. يتم تقديم مخطط طبقة DRFBPS في الشكل 3.
يحتوي DRFBPS على ثلاث طبقات. طبقة الإدخال، الطبقة المخفية، وطبقة الإخراج. تأخذ طبقة الإدخال بيانات الرعاية الصحية في شكل معلمات صحية متعددة. تتكون الطبقة المخفية من ثلاث آلات بولتزمان مقيدة (RBMs). يتم استخدام RBM 1 للمعالجة المسبقة، وRBM 2 تقوم باختيار الميزات باستخدام تحسين الثعلب الأحمر، وRBM 3 تقوم بالتنبؤ. استخدمت RBMs دالة تفعيل سيغمويد لتعلم الميزات الاحتمالية وReLU في طبقة التنبؤ لإضافة عدم الخطية. يتم استخدام دالة خسارة الانتروبيا المتقاطعة للتصنيف. يتم التدريب باستخدام معدل تعلم 0.001، وحجم دفعة 32، ونسبة إسقاط 0.2 لتجنب الإفراط في التكيف. أخيرًا، تستخدم طبقة الإخراج دالة تفعيل Softmax للتنبؤ الثنائي وتصنف خطر مرض القلب على أنه خطر مرتفع أو خطر منخفض. في البداية، تم جمع البيانات وتدريبها. يتم تنفيذ ذلك في المعادلة (1)
الشكل 3. طبقة DRFBPS.
هنا، تشير إلى متغير التدريب، تشير إلى بيانات الرعاية الصحية، و تشير إلى كمية البيانات.

المعالجة المسبقة

المعالجة المسبقة هي خطوة أولية حاسمة في الاستفادة من بيانات الرعاية الصحية IoT للتنبؤ بخطر مرض القلب باستخدام DRFBPS. تتضمن تنظيف ومعالجة القيم المفقودة، وتحديد وإزالة القيم الشاذة، وحذف المعلومات الزائدة. تتعامل دالة RFO Worst مع المعالجة المسبقة. إنها تكشف عن الميزات ذات الأداء الأسوأ التي تسبب التكرار وتزيلها. تبدأ بالتحقق من كل ميزة إحصائيًا وهرميًا، أي، التباين، الارتباط مع المتغير المستهدف، ومساهمة الميزة. يقوم RFO بعمل تصنيف ديناميكي للميزات ويزيل الأقل كفاءة. وبالتالي، فإنه يقلل من الأبعاد ويحسن جودة البيانات. باستخدام هذه الطريقة، ينتج النظام نتائج أكثر دقة وكفاءة ويعمل بشكل أفضل في التصفية من الفلتر التقليدي. باستخدام هذه الطريقة، ينتج النظام نتائج أكثر دقة وكفاءة ويعمل بشكل أفضل في التصفية من الفلتر التقليدي . تتم المعالجة المسبقة في المعادلة (2)
هنا، تشير إلى متغير المعالجة المسبقة، تشير إلى دالة تصفية الضوضاء من RFO، و تشير إلى قيود الخطأ. إنها تعزز جودة البيانات، وتزيد هذه الاستراتيجيات من أداء النموذج، مما يؤدي في النهاية إلى توقعات أكثر دقة.

اختيار الميزات

اختيار الميزات هو تقنية اختيار الصفات ذات الصلة من كمية كبيرة من البيانات. يتم استخدام دالة اللياقة من لياقة الثعلب الأحمر في عملية اختيار الميزات. إنها تعزز فعالية النموذج ودقته في التنبؤ بخطر مرض القلب من خلال اختيار الميزات الأكثر صلة التي تميز القلب كعامل خطر. يتم تنفيذ اختيار الميزات في المعادلة (3)
هنا، تشير إلى متغير استخراج الميزات، تشير إلى البيانات المعالجة مسبقًا، تشير إلى التكرار، تشير إلى دالة لياقة الثعلب الأحمر، و هي أفضل ميزة يتم اختيارها عشوائيًا لكل تكرار.

ابدأ

$operatorname{int} T, H_{d}, n ;$
//dataset initialization
Preprocessing()
${$
    $operatorname{int} P, lambda, e ;$
    // Initializing the error removing variables
    $P rightarrow mid H_{d}$-error contents $mid$
    //error constraints are removed from the dataset
}

Feature selection()
${$
    $operatorname{int} F, t, alpha$, best
    // initializing the feature selecting variables
    $F rightarrow mid alpha($ features selected $) mid$
    // Required features are selected from the dataset
}
Prediction()
${$
    $operatorname{int} D, R, H, E$;
//Initializing the risk prediction elements
الخوارزمية 1. DRFBPS.
يقلد RFO سلوك الصيد والهروب الحكيم للثعالب الحمراء. تختار الخوارزمية مجموعات الميزات المثلى من خلال تحسين الحلول المرشحة بشكل تكراري بناءً على قواعد الاستكشاف والاستغلال. يقوم RFO بتعديل عملية البحث بشكل تكيفي من حيث موازنة الاستغلال الذي يحسن المجموعات الواعدة والاستكشاف للبحث عن تركيبات ميزات جديدة. بحيث يمكن تجنب الأمثل المحلية ومجموعة ميزات مثلى

//يتم التنبؤ بعوامل خطر المرض

التصنيف ()

//تهيئة عناصر التصنيف

خطر مرتفع

خطر منخفض

}

توقف

تم التعرف عليه. تحدث هذه الطريقة من تقليل الأبعاد، وتحسين أداء النموذج، ومنع الإفراط في التكيف.

التنبؤ

تحديد عامل خطر مرض القلب يحدد ويقيم المتغيرات التي تؤثر على خطر الشخص للإصابة بمرض القلب. مع العديد من الميزات، مثل معدل ضربات القلب، مستوى الكوليسترول، العمر، الجنس، إلخ، التي يتم تحليلها في عملية اختيار الميزات، يحدد النموذج التنبؤي خطر مرض القلب. يتم توضيحه في المعادلة (4)
تشير إلى متغير التنبؤ بخطر المرض، تشير إلى الميزات المختارة، تشير إلى القلب في خطر والصحة، على التوالي، و تشير إلى الدرجة القياسية المعتمدة. بناءً على التنبؤ، يتم تصنيف المرض، ويتم تنفيذ ذلك في المعادلة (5)
هنا، تعني متغير التصنيف. يعتمد التصنيف على حالة خطر القلب المرتفع والمنخفض. وبالتالي، فإن DRFBPS المقترح يعمل بشكل أفضل في التنبؤ وتصنيف المرض.
تظهر الخوارزمية لـ DRFBPS المقترح. ينفذ نظام بايثون عملية الحوسبة بالكامل باستخدام نمط كود زائف. يوضح الشكل 4 مخطط العملية للإطار المصمم.
يتم عرض سير العمل للإطار المصمم في الشكل 4. يقدم منهجية العمل لـ DRFBPS المقترح بشكل متسلسل. توضح الخوارزمية 1 بعض العمليات الرياضية. يتم استخدام بعض المعايير لحساب نموذج DRFBPS المقترح بنجاح.

النتائج والمناقشة

تم استخدام بيئة بايثون على نظام ويندوز 10 للتحقق من صحة نموذج DRFBPS المقترح. تم جمع البيانات، وتخضع للمعالجة المسبقة لإزالة الأخطاء واختيار الميزات لاختيار الميزات اللازمة للتنبؤ الدقيق. تختار دالة لياقة الثعلب الأحمر هذه الميزة. بناءً على الميزات المختارة، تم التنبؤ بالمرض. الوقت الحاسوبي لـ DRFBPS المقترح هو أيضًا مصدر قلق رئيسي لتطبيقات الرعاية الصحية. هنا، استغرق التدريب وقتًا فعالًا قدره 150 ثانية. علاوة على ذلك، تم قياس استخدام الذاكرة عند 209.87 ميغابايت، مما يعكس استخدام الموارد بشكل فعال. للتنبؤ، تم تحسين نموذج DRFBPS للعمل مع اختيار الميزات الأمثل لتحقيق أوقات تنبؤ أسرع مع القليل من الحمل الحاسوبي. يتم تصوير المقاييس اللازمة لـ DRFBPS المقترح في الجدول 1.
الشكل 4. مخطط تدفق لـ DRFBPS المقترح.
المقاييس المواصفات
نظام التشغيل ويندوز 10
منصة البرنامج بايثون
الإصدار 3.7 .14
الشبكة شبكة عصبية عميقة
تحسين الثعلب الأحمر
التدريب والاختبار
الجدول 1. معلمات التنفيذ.
رقم س. عوامل الخطر الرموز والنطاق
1 العمر (0) ذكر (1) أنثى
2 الجنس (1) 15-35؛ (2) 36-55؛ (3) 56-75؛ (4) >76
3 معدل التنفس طبيعي (1): 12-18 نفس/دقيقة مرتفع (2): <12-18 نفس/دقيقة منخفض (3): نفس/دقيقة
4 معدل ضربات القلب طبيعي (1): 60-100 نبضة/دقيقة مرتفع (2): نبضة/دقيقة منخفض (3): < نبضة/دقيقة
5 ضغط الدم الانقباضي طبيعي (1): مرتفع (2): منخفض (3)
6 ضغط الدم الانبساطي طبيعي (1): مرتفع (2): منخفض (3):
7 درجة حرارة الجسم منخفض (0): مرتفع (1):
8 مستوى الكوليسترول الكلي منخفض (0): مرتفع (1):
9 كوليسترول HDL منخفض (0): مرتفع (1):
10 كوليسترول LDL منخفض (0): مرتفع (1):
الجدول 2. عوامل الخطر، الرموز، والنطاق.

دراسة حالة

في البداية، تم جمع مجموعة بيانات الرعاية الصحية وتحميلها من موقع كاجل القياسي. إنها مجموعة بيانات توقع خطر النوبة القلبية (HARP). تحتوي مجموعة البيانات على 88,414 سجل بحجم 18.43 ميغابايت. تحتوي مجموعة البيانات على 46,944 عينة منخفضة الخطر و41,470 عينة عالية الخطر. من تلك البيانات، تم تقسيمها إلى للتدريب كـ 32,861 عينة منخفضة الخطر و29,029 عينة عالية الخطر. بالمثل، تم تقسيم البيانات إلى للاختبار كـ 14,083 عينة منخفضة الخطر و12,441 عينة عالية الخطر. تتضمن المعلومات الرئيسية المجمعة من بيانات الرعاية الصحية العمر، الجنس، قراءات ضغط الدم (الانقباضي والانبساطي)، درجة حرارة الجسم، ومعدلات الكوليسترول (منخفض، مرتفع، وإجمالي). يوضح الجدول 2 خصائص الخطر واعتبار القيمة المدمجة لكل منها.
يوضح الجدول 2 ميزات الخطر لمرض القلب مع رمزها المعنون لمرحلتين: خطر منخفض وعالي 0 و1، وهما الحالتان اللتان يهدف النموذج إلى تحديد مستويات عالية ومنخفضة من الخصائص.
يوفر رسم SHAP التفسيري (SHAP) في الشكل 5 نظرة على تأثير الميزات المختلفة على مخرجات النموذج. يُظهر الرسم البياني العلوي قيم SHAP في المتوسط، وتعتبر الميزات مثل القلب، وكوليسترول LDL (LDL Chol)، والعمر هي الأكثر تأثيرًا على توقعات النموذج. يُظهر الرسم البياني الملخص في الأسفل اتجاه وحجم مساهمات الميزات، حيث يمثل كل نقطة حالة في البيانات، مع ترميز الألوان (الأزرق للقيم المنخفضة والوردي للقيم العالية). الميزات مثل القلب وكوليسترول LDL لها تأثيرات عالية على التوقعات، حيث تساهم القيم العالية (الوردي) بشكل إيجابي في مخرجات النموذج. الميزات مثل كوليسترول HDL ودرجة حرارة الجسم لها تأثيرات أقل نسبيًا. كما تُظهر قيم SHAP تفاعلات الميزات وتأثيرها على تباين التوقعات، وبالتالي، فهي أداة مناسبة للذكاء الاصطناعي القابل للتفسير في الطب والتشخيص الطبي.
تُظهر خريطة حرارة أهمية الميزات في الشكل 6 مصفوفة الارتباط للميزات المختلفة، وتظهر كثافة اللون قوة واتجاه الارتباطات. قيمة قريبة من 1 (أحمر) تُظهر ارتباطًا إيجابيًا قويًا، وقيمة قريبة من -1 (أزرق) تُظهر ارتباطًا سلبيًا قويًا. الميزات مثل معدل ضربات القلب (Hea) وضغط الدم الانقباضي (Sys) مرتبطة بشكل قوي وإيجابي، مما يشير إلى أن ارتفاع الضغط الانقباضي مرتبط بحالات القلب. وبالمثل، فإن ضغط الدم الانبساطي (Dia) والعمر مرتبطان بشكل قوي وإيجابي، مما يعني أن الضغط يرتفع مع تقدم العمر. الجنس (Gen) والعمر مرتبطان بشكل قوي وسلبي، مما يعني أنماطًا قائمة على الجنس. كوليسترول LDL (LDL) وكوليسترول HDL (HDL) مرتبطان بشكل سلبي ضعيف. تعتبر خريطة الحرارة مفيدة في تفسير تفاعلات الميزات، وهي مهمة في النمذجة التنبؤية، وتظهر التأثير الأكبر للميزات على النتائج. تُظهر الأشكال 7 و8 منحنيات الدقة والخسارة، على التوالي، التي تم الحصول عليها خلال مراحل التدريب والاختبار. تمثل منحنيات الدقة والخسارة بصريًا دقة النموذج وخسارته طوال دورات التدريب والاختبار. تُظهر قدرة النموذج على تمييز أمراض القلب بين الطبيعي والمخاطر.
تمثل منحنى الخسارة خطأ النموذج طوال دورات التدريب والاختبار. منحنى خسارة يبدأ مرتفعًا وينخفض تدريجيًا طوال فترة الاختبار يشير إلى أداء أعلى، بينما منحنى خسارة ينخفض باستمرار خلال التدريب يشير إلى توقعات أكثر دقة.
يظهر الشكل 9 مصفوفة الارتباك لأداء نموذج التصنيف. تُظهر المصفوفة التسميات الحقيقية مقابل التسميات المتوقعة. صنف النموذج بشكل صحيح 14,081 حالة كفئة 0 منخفضة المخاطر و12,441 حالة كفئة 1 عالية المخاطر. هناك حالتان فقط من التصنيف الخاطئ. وهذا يعني أن النموذج يعمل
الشكل 5. تأثير ميزات SHAP.
بشكل استثنائي مع عدد قليل جدًا من الأخطاء. للتحقق من أهمية تحسينات الثعلب الأحمر، يتم تقييم نتائج اختيار الميزات ومقارنتها قبل وبعد اختيار الميزات. تُعرض النتائج في الشكل 10.
قيمة p التي تم الحصول عليها قبل اختيار الميزات هي 0.07، وبعد اختيار الميزات هي 0.001. علاوة على ذلك، فإن معدل الخطأ الذي تم الحصول عليه قبل اختيار الميزات هو 0.1369، وبعد اختيار الميزات هو 0.014. يحسن اختيار الميزات باستخدام تقنية RFO أداء النموذج من خلال اختيار الميزات الأكثر صلة وإزالة المعلومات الضوضائية والرديئة. يؤدي ذلك إلى تحسين التعميم، وتقليل معدلات الخطأ، وتحسين الأهمية الإحصائية، كما يتضح من انخفاض قيمة p. كما يحسن اختيار الميزات الكفاءة الحسابية إلى أقصى حد ممكن، بحيث يمكن للنموذج إجراء توقعات أسرع وأفضل. بشكل عام، يحسن اختيار الميزات تعلم النموذج من خلال تحسين الأداء التنبؤي والدقة. تم تقديم دراسة الإزالة في الجدول 3.

تحليل الأداء

يتم استخدام بيئة بايثون للتحقق من فعالية النموذج المطور. لتحليل قدرات النموذج في التنبؤ، يتم مقارنته بمقاييس مثل الدقة، ودرجة F، والدقة، وAUC، والاسترجاع، ومعدل الخطأ. لتقييم أداء نموذج DRFBPS المقترح مقارنةً بالتقنيات الأخرى، يتم مقارنته ببعض الأساليب الموجودة مثل مصنف التصويت ML (MLVC) , مصنف التجميع ML (MLSC) , تعزيز التدرج الخفيف
الشكل 6. خريطة حرارة أهمية الميزات.
الشكل 7. منحنى دقة التدريب والاختبار.
مصنف (LGBC) , تعزيز التدرج المتطرف مع الغابة العشوائية (EGBRF) , مشفر تلقائي متفرق CNN (CNNSA) وSVM خطي (LSVM) .

الدقة

الدقة هي مقياس أداء مهم يُستخدم للتنبؤ بعوامل خطر أمراض القلب. تُظهر النسبة المئوية للنموذج التي تتنبأ بشكل صحيح بوجود أو عدم وجود متغيرات خطر أمراض القلب. يتم تقييم الدقة بواسطة المعادلة (6)
الشكل 8. منحنى خسارة التدريب والاختبار.
الشكل 9. مصفوفة الارتباك.
هنا، تشير إلى الخطر المتوقع بشكل صحيح، تشير إلى عدم وجود خطر متوقع بشكل صحيح، تشير إلى الخطر المتوقع بشكل غير صحيح، و تشير إلى عدم وجود خطر متوقع بشكل غير صحيح. يتم مقارنة الدقة مع الأساليب الموجودة ويظهر في الشكل 11.
معدل الدقة الذي حققه MLVC الموجود هو , ومعدل MLSC هو , ومعدل LGBC هو , ومعدل EGBRF هو , ومعدل CNNSA هو ومعدل LSVM هو . حقق نموذج DRFBPS المطور دقة قدرها ، ومع معدل دقة مرتفع تم تحقيقه، يُظهر النموذج المقترح أداءً أفضل.

الدقة

الدقة، المعروفة أيضًا بالتنبؤ المتفائل، هي مقياس يُستخدم للتحقق من دقة نموذج التنبؤ، خاصة في مهام التصنيف مثل التعرف على عوامل خطر أمراض القلب. تقيس الدقة نسبة التوقعات الصحيحة للخطر بين جميع التوقعات. يتم حسابها بواسطة المعادلة (7)
يتم تقييم مقياس الدقة ومقارنته بالتقنيات الموجودة المعروضة في الشكل 12. تشير الدقة العالية إلى أن النموذج لديه دقة عالية في توقعاته المتفائلة، مما يعني أن معظم الحالات التي يتنبأ بها على أنها تحتوي على عامل خطر أمراض القلب صحيحة.
الشكل 10. الأداء قبل وبعد اختيار الميزات.
الطبقات العملية الخلايا العصبية التفعيل
طبقة الإدخال إدخال البيانات 256
طبقة مخفية RBM 1 المعالجة المسبقة 128 سيغمويد
طبقة مخفية RBM 2 اختيار الميزات 64 سيغمويد
طبقة مخفية RBM 3 التنبؤ 32 Relu
طبقة الإخراج التصنيف 2 Softmax
الجدول 3. دراسة الإزالة.
الشكل 11. مقارنة الدقة.
حققت التقنيات الموجودة MLVC وMLSC وLGBC وEGBRF وCNNSA وLSVM معدل دقة قدره ، و على التوالي. حقق نموذج DRFBPS المقترح ، والذي يؤدي بشكل أفضل من الأساليب الموجودة.

الاسترجاع

الاسترجاع هو مقياس مهم لتقييم كفاءة النموذج. يقيس الحالات المتوقعة للخطر إلى إجمالي الخطر الفعلي. يقيم قدرة النموذج على اكتشاف كل حالة خطر بدقة. يتم تقييمه بواسطة المعادلة (8)
الشكل 12. مقارنة الدقة.
الشكل 13. مقارنة الاسترجاع.
يضمن الاسترجاع العالي أن معظم المرضى الذين يعانون من أمراض القلب يتم التعرف عليهم بشكل مناسب. يتم تقييمه، ويتم مقارنة التقنيات المذكورة أعلاه في الشكل 13.
حقق MLVC الموجود معدل استرجاع قدره ، وحقق MLSC ، وحقق LGBC ، وحقق EGBRF ، وحقق CNNSA وحقق LSVM . حقق النموذج المقترح DRFBPS معدل استرجاع قدره . بالمقارنة مع الطرق الأخرى، حقق DRFBPS معدل استرجاع أكبر نسبيًا.

الدرجة

تُجمع الدقة والاسترجاع في إحصائية تُسمى درجة F. تجمع بين مقاييس الدقة والاسترجاع وتقيّم قدرة الإطار على التنبؤ بشكل صحيح بعوامل الخطر من خلال تجنب الأخطاء. يتم معادلتها في المعادلة (9)
هنا، تشير إلى معدل الدقة و تشير إلى معدل الاسترجاع. يتم تقييم قيمة درجة F لنموذج DRFBPS، ويتم عرض مقارنتها في الشكل 14.
تبلغ قيمة درجة F لـ MLVC الموجود ، وMLSC هو ، وLGBC هو ، وEGBRF هو ، وCNNSA هو ، وLVSM هو وحققت التقنية المقترحة قيمة للدرجة. تُظهر درجة F الأعلى المحققة أداءً أفضل للنموذج في التنبؤ.

معدل الخطأ

يمثل معدل الخطأ نسبة التوقعات غير الصحيحة إلى إجمالي عدد التوقعات. يتم تقييمه لتحديد التوقعات السلبية التي قام بها النموذج. يصف الأداء العام للنموذج. يتم تقييمه بواسطة المعادلة (10)
الشكل 14. مقارنة درجة F.
الشكل 15. مقارنة معدل الخطأ.
تظهر الشكل 15 مقارنة معدل الخطأ. معدل الخطأ الذي حققه MLVC الحالي هو 0.199، وMLSC هو 0.091، وLGBC هو 0.2216، وEGBRF هو 0.2437، وCNNSA هو 0.1644، وLSVM هو 0.1375. النموذج المصمم DRFBPS لديه معدل خطأ قدره 0.014. معدل الخطأ الذي تم الحصول عليه من التقنية المطورة أقل، لذا فإنه يقدم أداءً أفضل.

الجامعة الأمريكية في القاهرة

المساحة تحت منحنى التشغيل (AUC) هي مؤشر الأداء لنماذج التصنيف الذي يعتبر مهماً في تقييم قدرة النموذج على التمييز. في تصنيف الأداء، تكون قيمة AUC العالية أكثر فعالية. يتم عرض مقارنتها في الشكل 16.
منطقة تحت منحنى (AUC) لـ MLVC و MLSC و LGBC و EGBRF و CNNSA و LVSM هي و على التوالي، وحقق نظام DRFBPS المقترح 98.2%.

-فترة الثقة والسرية

قيمة p وفترة الثقة (CI) هما مقاييس هامة للتحقق الإحصائي لتقييم قوة نماذج التنبؤ. تساعد قيمة p في تحديد دلالة الارتباطات بين عوامل الخطر. تعطي فترة الثقة مجموعة من القيم. تكون فترة الثقة ضيقة لزيادة الدقة وواسعة لزيادة تباين التقديرات. تزيد كلا هذين المقياسين معًا من الصلاحية الإحصائية لتنبؤ خطر النوبات القلبية، لذا يجب أن تكون نماذج التنبؤ دقيقة وقابلة للتعميم على مجموعات سكانية أكبر. يتم وصف نتائج التحقق الإحصائي لقيمة p وفترات الثقة في الجدول 4.
علاوة على ذلك، تُظهر الفعالية العامة للإطار المصمم تقنية تنبؤية أفضل. يتم توضيح الوظائف الكاملة لنظام DRFBPS المخطط مع التقنيات الحالية في الجدول 4.
الأداء الأعلى لـ DRFBPS مقارنة بالنماذج الحالية يعود إلى قدرته على التقاط التفاعلات المعقدة وغير الخطية في البيانات بشكل أكثر كفاءة. يقدم النموذج معدل دقة ملحوظ، يتجاوز بكثير الأساليب الحالية. يتم ملاحظة هذا التحسين في جميع مقاييس التقييم، حيث يتمتع DRFBPS بـ
الشكل 16. مقارنة AUC.
دقة دقة استدعاء درجة F معدل الخطأ الجامعة الأمريكية في القاهرة قيمة P فترة الثقة
MLVC 80.1 80.4 80.1 ٨٠.١ 0.199 ٨٨.٤ 0.058 81
MLSC 90.9 96.7 87.6 92.15 0.091 ٩٦.١ 0.023 89
LGBC ٧٧.٨٤ ٧٤.٦١ 73.26 73.93 0.2216 72.27 0.131 76
EGBRF 75.63 73.13 68.25 70.61 0.2437 ٧٤.٧١ 0.115 74
CNNSA ٨٣.٥٦ 85.2 82.9 84.05 0.1644 90.3 0.011 82
LSVM ٨٦.٤٣ 87.5 ٨٥.٩ ٨٦.٧ 0.1357 92.1 0.026 85
DRFBPS 98.6 97.4 97.9 97.7 0.014 98.2 0.001 97
الجدول 4. المقارنات العامة.
دقة دقة استدعاء درجة F معدل الخطأ الجامعة الأمريكية في القاهرة قيمة P فترة الثقة
DBN+GA 98.6 97.0 97.4 97.7 0.014 97.8 0.002 96.5
DBN + PS 95.3 95.9 96.2 ٩٦.١ 0.032 97.1 0.004 96
DBN + BO 94.3 92.8 93.1 92.9 0.057 95.4 0.005 93
DBN + RFO مقترح 98.6 97.4 97.9 97.7 0.014 98.2 0.001 97
الجدول 5. DBN مع تحسينات أخرى.
نسبة الخطأ المنخفضة جداً بين جميع النماذج الأخرى، مما يعكس معدل التصنيف الخاطئ المنخفض. كما أن دقة النموذج العالية واسترجاعه تعكسان قوته في الكشف عن الإيجابيات الحقيقية مع الحفاظ على الحد الأدنى من الإيجابيات الكاذبة والسلبيات الكاذبة. كما أن ارتفاع قيمة F-score يؤكد أدائه المتوازن في الدقة والاسترجاع، مما يعزز اعتماديته. بالإضافة إلى ذلك، يتمتع DRFBPS بأفضل قيمة AUC، مما يدل على قدرته التمييزية الأفضل في التصنيف. تشير القيمة المنخفضة p إلى وجود علاقة ذات دلالة إحصائية. ومع ذلك، فإن CI يعطي فترة من القيم التي من المحتمل أن يقع فيها حجم التأثير الفعلي، بشكل عام عند مستوى الثقة. الفجوة الواسعة في الأداء تشير إلى أن DRFBPS قد قامت بتحسين عمليات اختيار الميزات التي تعظم قابليتها للتنبؤ، وعموميتها، ومرونتها تجاه التعقيدات في هيكل البيانات، مما يجعلها النموذج الأفضل أداءً بين الطرق المقارنة.
بالإضافة إلى ذلك، للتحقق من اختيار RFO، يتم دمج خوارزميات تحسين أخرى مثل الخوارزمية الجينية (GA) واحتشاد الجسيمات (PS) والتحسين البايزي (BO) مع DBN، وتظهر النتائج في الجدول 5.
تظهر الجدول 5 أن نموذج DBN + RFO المقترح يحقق أفضل أداء من حيث الدقة، مما يدل على اختيار ممتاز لـ RFO. كما أنه يمتلك أدنى معدل خطأ وأعلى AUC، مما يشير إلى قدرة تمييز متفوقة. القيمة p الأدنى، التي تشير إلى الأهمية الإحصائية وفترة الثقة العالية، تدعم مصداقيته. هذه النتائج توضح كفاءة طريقة DBN + RFO المقترحة في تعزيز دقة التنبؤ.

نقاش

يظهر نظام DRFBPS المقترح أداءً أفضل في التنبؤ بعوامل المخاطر. يستفيد من استراتيجية جديدة، وهي تحسين الثعلب الأحمر، وشبكة عصبية عميقة تعتمد على المعتقدات تستخدم قدرات كلا النهجين كـ
تم الحصول على بيانات البحث الحالي من كاجل، مما قد يعرض النموذج لتحيزات محتملة ويجعل التعميم تحديًا. تم استخدام RFO لمعالجة التحيزات في بيانات كاجل خلال عملية المعالجة الناجحة. كانت هذه الطريقة أداة للمعالجة المسبقة واختيار الميزات من خلال تصفية الضوضاء والاحتفاظ فقط بأكثر الميزات إفادة، مما يقلل من تأثير البيانات المبالغ فيها أو الممثلة تمثيلًا ناقصًا. تضمن دالة لياقة الثعلب الأحمر تضمين المتغيرات الأكثر تنبؤًا وفائدة، مما يقلل من الأبعاد ويعزز أداء النموذج. كما يضمن أن DRFBPS يقدم تنبؤات دقيقة وموثوقة في مجموعة واسعة من السكان المرضى، مما يعزز قابليته للتعميم وفائدته السريرية. يحدد هذا الإطار القوي بدقة الأفراد المعرضين لخطر الإصابة بأمراض القلب، مما قد يساعد في جهود التشخيص المبكر والتدخل. بالإضافة إلى ذلك، لإثبات قابلية التعميم، يتم التحقق من صحة النموذج المطور باستخدام مجموعة بيانات كليفلاند، وتعرض النتائج في الجدول 6.
تم إجراء تقييمات على مجموعتي بيانات كليفلاند وHARP للتحقق من قوة النموذج المقترح. النتائج تظهر أداءً عاليًا بشكل موحد على كلا المجموعتين، مما يعكس موثوقية النموذج في التنبؤ بمخاطر أمراض القلب. الفروق الصغيرة في مقاييس الأداء توضح قوة النموذج. هذه النتائج تقدم دليلاً على أن النهج يوضح قدرة النموذج على الأداء الجيد على مجموعات بيانات متنوعة.
  • تثبت الدراسة أن DRFBPS يتفوق على توقع مخاطر مرض القلب من خلال التغلب على صعوبات اختيار الميزات غير المناسبة والتكيف الزائد.
  • من خلال تطبيق تحسين الثعلب الأحمر، يختار النموذج الميزات القابلة للتطبيق بكفاءة، مما يحسن دقة التنبؤ.
  • تم تقييم النموذج بشكل موسع باستخدام الدقة، ودرجة F، والدقة، ومنطقة تحت المنحنى، والاسترجاع، ومعدل الخطأ، وقيمة P، وفترات الثقة، مما يظهر أداءً متسقًا وأعلى من الأساليب الحالية.
  • تؤكد النتائج أن DRFBPS يقدم توقعات دقيقة ومستقرة لمخاطر الأمراض مع تطبيقات محتملة في التشخيص المبكر، وتخطيط العلاج الشخصي، وتحسين نتائج المرضى في بيئات الرعاية الصحية العملية.
الآثار: يمكن دمج DRFBPS في إجراءات المستشفى من خلال تضمينه في أنظمة دعم القرار السريري والسجلات الصحية الإلكترونية. يمكن أن يعمل النموذج بناءً على بيانات المرضى في الوقت الفعلي مثل تقارير المختبر، والتاريخ الطبي، وما إلى ذلك، لمساعدة مقدمي الرعاية الصحية في اتخاذ قرارات التشخيص والعلاج. يمكن أن يكون متوافقًا مع أنظمة معلومات المستشفيات باستخدام واجهات برمجة التطبيقات الآمنة، مما يسهل العمل مع البنية التحتية المتاحة والامتثال للمتطلبات التنظيمية مثل HIPAA وGDPR. يمكن حتى تطبيقه في تحليل تخطيط الموارد التنبؤية، وتحديد أولويات المرضى، وخطط العلاج بناءً على المريض، مما يجعله أكثر كفاءة.
تظهر أنبوب البيانات في الشكل 17 بنية نشر الوقت الحقيقي لنموذج DRFBPS لتوقع الأمراض ومراقبة الرعاية الصحية. تبدأ سير العمل بجمع بيانات المرضى، حيث يتم جمع المعلومات الصحية الخام وتجميعها في تقارير. يتم إدخال مجموعة البيانات المجمعة في نموذج DRFBPS، حيث يتم معالجتها مسبقًا لإزالة الضوضاء واختيار الميزات لتقييم المخاطر المرتبطة بالمرض. بالإضافة إلى ذلك، يتم نقل بيانات صحة المرضى إلى التخزين السحابي للوصول القابل للتوسع والمريح. بعد ذلك، يتم تقديم الحوسبة الطرفية لتحسين الكفاءة وتقليل زمن الانتظار من خلال معالجة البيانات في الوقت الحقيقي بالقرب من مصدر البيانات. يعزز ذلك اتخاذ القرارات بشكل أسرع ويقلل من الاعتماد على خوادم السحابة المركزية. أخيرًا، يتم تنفيذ المعلومات عبر منصات الرعاية الصحية المختلفة.

الخاتمة

باختصار، يظهر نموذج DRFBPS المقترح لتحديد عوامل خطر الإصابة بأمراض القلب التي تجمع بين تحسين الثعلب الأحمر والشبكة العصبية العميقة طريقة موثوقة وفعالة لإدارة بيانات الرعاية الصحية في إنترنت الأشياء. لضمان سلامة البيانات، يتم أولاً تدريب مجموعة البيانات المجمعة ومعالجتها مسبقًا لإزالة الضوضاء. تستخدم الطريقة الجديدة DRFBPS دالة لياقة الثعلب الأحمر لإجراء تحليل شامل للميزات، واختيار الخصائص الأكثر صلة من مجموعة البيانات الكبيرة لتحسين دقة التوقع وتقليل تعقيد الحوسبة. يقيم نموذج DRFBPS بدقة ويقوم بتوقع عامل الخطر للإصابة بأمراض القلب باستخدام هذه الميزات. يتم فحص أداء النموذج المطور بدقة، وتظهر النتائج أن نموذج DRFBPS يوفر أداءً أفضل في التوقع من خلال تحقيق دقة عالية تبلغ درجة، دقة، AUC، استرجاع، ومعدل خطأ منخفض قدره 0.014. يظهر إمكاناته كأداة أساسية للتعرف المبكر وتقييم المخاطر. على الرغم من أن النموذج يظهر أداءً تنبؤيًا عاليًا في توقع خطر الإصابة بأمراض القلب، إلا أنه يعاني من مشكلات أمان خطيرة. يعالج النموذج بيانات طبية كبيرة الحجم، الخصوصية، السرية، و
التدابير مجموعة بيانات HARP مجموعة بيانات كليفلاند
الدقة (%) 98.6 98.2
درجة F (%) 97.7 97.3
الدقة (%) 97.4% 97
AUC (%) 98.2 97.8
استرجاع (%) 97.9 97.5
معدل الخطأ 0.014 0.017
قيمة P 0.001 0.003
فترة الثقة 97 95
الجدول 6. أداء DRFBPS.
الشكل 17. أنبوب نشر الوقت الحقيقي لنموذج DRFBPS.
تتحول الانتهاكات المحتملة إلى مشكلات خطيرة، خاصة عندما تكون المعلومات الحساسة للمرضى متورطة. ومع ذلك، فإن الأمان أمر حيوي في أنظمة الرعاية الصحية الكبيرة لحماية المعلومات الحساسة للمرضى. لذلك، ستركز الأعمال المستقبلية على تنفيذ تدابير أمان قوية للتعامل مع البيانات الكبيرة. يشمل ذلك التعلم الفيدرالي لتسهيل الرعاية اللامركزية بين مؤسسات الرعاية الصحية المتعددة ويحتفظ بمعلومات المرضى الحساسة محلية بينما يسمح بالتعلم التعاوني لتعزيز توقع مخاطر الأمراض. من خلال الحفاظ على البيانات محلية ومنع حركة البيانات بين المؤسسات، يقلل التعلم الفيدرالي من انتهاكات البيانات والوصول غير المصرح به. بالإضافة إلى ذلك، سيتم أيضًا التحقيق في التشفير المتجانس لتعزيز حماية البيانات.

توفر البيانات

البيانات التي تدعم نتائج هذه الدراسة متاحة عند الطلب المعقول من المؤلف المراسل.
تاريخ الاستلام: 1 أكتوبر 2024؛ تاريخ القبول: 14 أبريل 2025
تم النشر عبر الإنترنت: 24 أبريل 2025

References

  1. Tadesse, T., Abuye, H. & Tilahun, G. Availability and affordability of children essential medicines in health facilities of southern nations, nationalities, and people region, Ethiopia: Key determinants for access. BMC Public Health 21, 1-2 (2021).
  2. Ros, F., Kush, R., Friedman, C., Gil Zorzo, E., Rivero Corte, P., Rubin, J.C., Sanchez, B., Stocco, P., Van Houweling, D. Addressing the COVID-19 pandemic and future public health challenges through global collaboration and a data-driven systems approach. (2021).
  3. Aminizadeh, S. et al. Opportunities and challenges of artificial intelligence and distributed systems to improve the quality of healthcare service. Artif. Intell. Med. 1(149), 102779 (2024).
  4. Cusi, K. et al. American Association of Clinical Endocrinology clinical practice guideline for the diagnosis and management of nonalcoholic fatty liver disease in primary care and endocrinology clinical settings: Co-sponsored by the American Association for the Study of Liver Diseases (AASLD). Endocr. Pract. 28(5), 528-562 (2022).
  5. Masoumian Hosseini, M., Masoumian Hosseini, S. T., Qayumi, K., Hosseinzadeh, S. & Sajadi Tabar, S. S. Smartwatches in healthcare medicine: Assistance and monitoring; a scoping review. BMC Med. Inform. Decis. Mak. 23(1), 248 (2023).
  6. Mbunge, E. et al. Framework for ethical and acceptable use of social distancing tools and smart devices during COVID-19 pandemic in Zimbabwe. Sustain. Operations Comput. 1(2), 190-199 (2021).
  7. Palozzi, G., Ranalli, F. Telemedicine implementation between innovation and sustainability: An operating model for designing patient-centered healthcare. in Human-Centered Service Design for Healthcare Transformation: Development, Innovation, Change, pp. 375-399. (Springer International Publishing, 2023).
  8. Chatrati, S. P. et al. Smart home health monitoring system for predicting type 2 diabetes and hypertension. J. King Saud Univ.Comput. Inform. Sci. 34(3), 862-870 (2022).
  9. Philip, N. Y., Rodrigues, J. J., Wang, H., Fong, S. J. & Chen, J. Internet of Things for in-home health monitoring systems: Current advances, challenges and future directions. IEEE J. Sel. Areas Commun. 39(2), 300-310 (2021).
  10. Ye, Y. et al. Management of medical and health big data based on integrated learning-based health care system: A review and comparative analysis. Comput. Methods Programs Biomed. 1(209), 106293 (2021).
  11. Niu, Y., Ying, L., Yang, J., Bao, M. & Sivaparthipan, C. B. Organizational business intelligence and decision making using big data analytics. Inf. Process. Manage. 58(6), 102725 (2021).
  12. Rehman, A., Naz, S. & Razzak, I. Leveraging big data analytics in healthcare enhancement: Trends, challenges and opportunities. Multimed. Syst. 28(4), 1339-1371 (2022).
  13. Cappa, F., Oriani, R., Peruffo, E. & McCarthy, I. Big data for creating and capturing Value in the digitalized environment: Unpacking the effects of volume, Variety, and Veracity on firm performance. J. Prod. Innov. Manag. 38(1), 49-67 (2021).
  14. Sandhu, A. K. Big data with cloud computing: Discussions and challenges. Big Data Mining Analytics. 5(1), 32-40 (2021).
  15. Attaallah, A., Alsuhabi, H., Shukla, S., Kumar, R., Gupta, B.K., Khan, R.A. Analyzing the big data security through a unified decision-making approach. Intell. Automat. Soft Comput. 32(2) (2022).
  16. Chang, V. An ethical framework for big data and smart cities. Technol. Forecast. Soc. Chang. 1(165), 120559 (2021).
  17. Mathrani, S. & Lai, X. Big data analytic framework for organizational leverage. Appl. Sci. 11(5), 2340 (2021).
  18. Chen, J., Ramanathan, L. & Alazab, M. Holistic big data integrated artificial intelligent modeling to improve privacy and security in data management of smart cities. Microprocess. Microsyst. 1(81), 103722 (2021).
  19. Zarour, M. et al. Ensuring data integrity of healthcare information in the era of digital health. Healthc. Technol. Lett. 8(3), 66-77 (2021).
  20. Upadhyay, R.K. Chronic non-communicable diseases: Risk factors, disease burden, mortalities and control. Acta Scientific MEDICAL SCIENCES (ISSN: 2582-0931). 6(4) (2022).
  21. Teo, K. K. & Rafiq, T. Cardiovascular risk factors and prevention: A perspective from developing countries. Can. J. Cardiol. 37(5), 733-743 (2021).
  22. Sekar, J., Aruchamy, P., Sulaima Lebbe Abdul, H., Mohammed, A. S. & Khamuruddeen, S. An efficient clinical support system for heart disease prediction using TANFIS classifier. Comput. Intell. 38(2), 610-640 (2022).
  23. Kaul, D., Raju, H., Tripathy, B.K. Deep learning in healthcare. Deep learning in data analytics: Recent techniques, practices and applications. 97-115 (2022).
  24. Khanna, A. et al. Internet of things and deep learning enabled healthcare disease diagnosis using biomedical electrocardiogram signals. Expert. Syst. 40(4), e12864 (2023).
  25. Alizadehsani, R. et al. Risk factors prediction, clinical outcomes, and mortality in COVID-19 patients. J. Med. Virol. 93(4), 23072320 (2021).
  26. Dritsas, E. & Trigka, M. Stroke risk prediction with machine learning techniques. Sensors. 22(13), 4670 (2022).
  27. Reddy, K. V. et al. Heart disease risk prediction using machine learning classifiers with attribute evaluators. Appl. Sci. 11(18), 8352 (2021).
  28. Mahmud, N. et al. Risk prediction models for postoperative mortality in patients with cirrhosis. Hepatology 73(1), 204-218 (2021).
  29. Yang, H. et al. Risk prediction of diabetes: Big data mining with fusion of multifarious physical examination indicators. Inform. Fusion. 1(75), 140-149 (2021).
  30. Alkhammash, E. H. et al. Application of machine learning to predict COVID-19 spread via an optimized BPSO model. Biomimetics. 8(6), 457 (2023).
  31. Elshewey, A. M., Tawfeek, S. M., Alhussan, A. A., Radwan, M. & Abed, A. H. Optimized deep learning for potato blight detection using the waterwheel plant algorithm and sine cosine algorithm. Potato Res. 28, 1-25 (2024).
  32. Elshewey, A. M. et al. Optimizing HCV disease prediction in Egypt: The hyOPTGB framework. Diagnostics. 13(22), 3439 (2023).
  33. Alkhammash, E. H., Kamel, A. F., Al-Fattah, S. M. & Elshewey, A. M. Optimized multivariate adaptive regression splines for predicting crude oil demand in Saudi arabia. Discret. Dyn. Nat. Soc. 2022(1), 8412895 (2022).
  34. Alzakari, S. A., Alhussan, A. A., Qenawy, A. S. & Elshewey, A. M. Early detection of Potato Disease using an enhanced convolutional neural network-long short-term memory Deep Learning Model. Potato Res. 8, 1-9 (2024).
  35. Javeed, M., Gochoo, M., Jalal, A. & Kim, K. HF-SPHR: Hybrid features for sustainable physical healthcare pattern recognition using deep belief networks. Sustainability. 13(4), 1699 (2021).
  36. Połap, D. & Woźniak, M. Red fox optimization algorithm. Expert Syst. Appl. 15(166), 114107 (2021).
  37. Srikanth, B. et al. An optimized generalized adversarial system for predicting specific substructures in brainstem. Multimed. Tools Appl. 82(5), 7181-7205. https://doi.org/10.1007/s11042-022-13663-9 (2023).
  38. Dritsas, E. & Trigka, M. Supervised machine learning models for liver disease risk prediction. Computers. 12(1), 19 (2023).
  39. Trigka, M. & Dritsas, E. Long-term coronary artery disease risk prediction with machine learning models. Sensors. 23(3), 1193 (2023).
  40. Guarneros-Nolasco, L. R., Cruz-Ramos, N. A., Alor-Hernández, G., Rodríguez-Mazahua, L. & Sánchez-Cervantes, J. L. Identifying the main risk factors for cardiovascular diseases prediction using machine learning algorithms. Mathematics. 9(20), 2537 (2021).
  41. García-Ordás, M. T., Bayón-Gutiérrez, M., Benavides, C., Aveleira-Mata, J. & Benítez-Andrades, J. A. Heart disease risk prediction using deep learning techniques with feature augmentation. Multimed. Tools Appl. 82(20), 31759-31773 (2023).
  42. Rojek, I., Kotlarz, P., Kozielski, M., Jagodziński, M. & Królikowski, Z. Development of AI-based prediction of heart attack risk as an element of preventive medicine. Electronics 13(2), 272 (2024).

مساهمات المؤلفين

ساهم جميع المؤلفين بالتساوي.

التمويل

يعلن المؤلفون أنه لم يتم تلقي أي أموال أو منح أو دعم آخر خلال إعداد هذه المخطوطة.

الإعلانات

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.

موافقة الأخلاقيات

العمل المقدم أصلي ولم يتم نشره في أي مكان آخر بأي شكل أو لغة.

معلومات إضافية

يجب توجيه المراسلات وطلبات المواد إلى R.V.
معلومات إعادة الطبع والتصاريح متاحة على www.nature.com/reprints.
ملاحظة الناشر تظل Springer Nature محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي للاستخدام غير التجاري، والتي تسمح بأي استخدام غير تجاري، ومشاركة، وتوزيع وإعادة إنتاج في أي وسيلة أو شكل، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح إذا قمت بتعديل المادة المرخصة. ليس لديك إذن بموجب هذه الرخصة لمشاركة المواد المعدلة المشتقة من هذه المقالة أو أجزاء منها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي للمقالة، ما لم يُشار إلى خلاف ذلك في سطر ائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي للمقالة واستخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، ستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارة http://creativecommo ns.org/licenses/by-nc-nd/4.0/.
© المؤلفون 2025

  1. قسم تكنولوجيا المعلومات، معهد MLR للتكنولوجيا، حيدر أباد، الهند. قسم الذكاء الاصطناعي وعلوم البيانات، مدرسة GITAM للتكنولوجيا، جامعة GITAM – حرم بنغالور، بنغالور، الهند. قسم علوم الحاسوب والهندسة، مدرسة الهندسة والعلوم، جامعة SRM، أمارافاتي، AP، الهند. قسم علوم الحاسوب والهندسة، مؤسسة كونيرو لاكشمايا التعليمية، غونتور، الهند. قسم علوم الحاسوب والهندسة (AI & ML)، كلية فيديافارداكا للهندسة، ميسور، الهند. قسم علوم الحاسوب والهندسة، كلية SRKR للهندسة، بيمفارام 534204، الهند. قسم علوم الحاسوب والهندسة، كلية السير C R ريدي للهندسة، إيلور، الهند. مدرسة علوم الحاسوب والهندسة، جامعة VIT-AP، فيجايوادا 522237، الهند. البريد الإلكتروني: v2ramesh634@gmail.com

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-98721-6
PMID: https://pubmed.ncbi.nlm.nih.gov/40274987
Publication Date: 2025-04-24

OPEN

Optimized machine learning mechanism for big data healthcare system to predict disease risk factor

Venkata Nagaraju Thatha , Silpa Chalichalamala , Udayaraju Pamula , D. Pramodh Krishna , Manjunath Chinthakunta , Srihari Varma Mantena , Shariff Vahiduddin & Ramesh Vatambeti

Abstract

Heart disease is becoming more and more common in modern society because of factors like stress, inadequate diets, etc. Early identification of heart disease risk factors is essential as it allows for treatment plans that may reduce the risk of severe consequences and enhance patient outcomes. Predictive methods have been used to estimate the risk factor, but they often have drawbacks such as improper feature selection, overfitting, etc. To overcome this, a novel Deep Red Fox belief prediction system (DRFBPS) has been introduced and implemented in Python software. Initially, the data was collected and preprocessed to enhance its quality, and the relevant features were selected using red fox optimization. The selected features analyze the risk factors, and DRFBPS makes the prediction. The effectiveness of the DRFBPS model is validated using Accuracy, F score, Precision, AUC, Recall, and error rate. The findings demonstrate the use of DRFBPS as a practical tool in healthcare analytics by showing the rate at which it produces accurate and reliable predictions. Additionally, its application in healthcare systems, including clinical decisions and remote patient monitoring, proves its real-world applicability in enhancing early diagnosis and preventive care measures. The results prove DRFBPS to be a potential tool in healthcare analytics, providing a strong framework for predictive modeling in heart disease risk prediction.

Keywords Heart disease, Risk factor, Feature analysis, Preprocessing, Health care, Big data
The healthcare system (HCS) is one of the biggest in emerging nations, with yearly growth in both employment and income . The essence of the HCS is collaboration . This is because many stakeholders work together to achieve common goals of reducing medical expenses and mistakes, including nurses, radiologists, laboratory techs, physicians with various specialties, and pathologists, delivering high-quality, improved healthcare services . In the past, diagnosing uncommon illnesses required a thorough physical and analytical examination performed in hospitals . These days, a smartwatch may assist us in determining the cause of any health anomaly . In the event an epidemic illness like Ebola strikes, technology is crucial in preventing its fast spread and notifying people about the necessary precautions to adopt . Technology advancements are causing a transition in healthcare services from hospital-centric care to individualized, personalized treatment . Numerous clinical tasks, including blood tests, diabetes monitoring, and pressure monitoring, may be completed in real-time and at a distance . The development of data services and connectivity in developing nations has made remote healthcare system monitoring practical and valuable . As the HCS grows, it requires big data technology to gather, analyze,
manage, and store massive amounts of data . Big Data analytics is becoming a common way to manage vast volumes of data and improve decision-making .
Big data signifies the quantity of the data utilized and analyzed and includes the potential for data to provide essential insights through various features . It is categorized into a few terms. i.e. , volume is the quantity of information developed; velocity is the rate of data transmission, and Variety is used to describe the range of data types that may be contained in plain text files, including database, excel, and CSV , value indicates the worth of the data. However, it’s essential to realize that not all data are helpful; veracity indicates the comprehension of data , validity assures the correctness and Precision of data for future uses, variability is the reliability and significance of data, Viscosity denotes delay or time lag in data transfer between the source and destination , viability denotes the speed with which data is transferred and received from multiple sources. Visualization represents the complexity of extensive data and helps organizations acknowledge its relevance . It is essential to pay close attention to the increasing demands for improved technologies that can handle problems with processing large data sets without affecting security and privacy . Healthcare organizations employ tools for extensive data analysis that guarantee the availability , confidentiality , and integrity of protected health information . The World Health Organization’s estimates show that cardiac disease is the world’s most significant cause of demise, which accounts for 17.9 million fatalities every year . The most common behaviors drinking alcohol is a contributing factor to the risk of stroke and heart disease, smoking, poor dietary habits, and not exercising . Deep learning (DL) has become a necessary tool in the healthcare industry to help diagnose patients.
The key contribution of the proposed work is;
  • Initially, the IoT healthcare dataset was gathered and trained using the Python system.
  • A novel Deep Red Fox Belief Prediction System (DRFBPS) is introduced as a predictive method with the necessary features for prediction.
  • The collected data is preprocessed to remove noise, and feature analysis is performed using Red Fox optimization to select the required features from the vast data.
  • Using these selected features, the DRFBPS analyzes and predicts heart disease risk factors.
  • The model’s effectiveness is assessed using measures including accuracy, F-score, Precision, AUC, Recall, error rate, p -value, and confidence intervals.
This paper contains recent related works in the second portion, the model issue is described in the third portion, the obstacles are developed in the fourth portion, and the case study and performance validation for the developed Framework are discussed in the fifth. In the sixth portion, the work is finally concluded.
A few of the most current studies in this area include;
Alizadehsani et al. have examined the majority of COVID-19 cases that had flu-like symptoms, according to the investigation carried out in Iran from March to April 2020. 319 individuals participated in the research. The primary indications and manifestations were advanced age, fever, sweating, dyspnea, disorientation, weakness, ageusia, shivering, anosmia, anorexia, exhaustion, and dry cough. There was no discernible association between COVID-19 and the following variables: sputum-producing cough, eczema, conjunctivitis, travel, asthma, corticosteroids, liver illness, rheumatological diseases, and chest discomfort. The limitation is the extremely little (2-month) follow-up period may not have captured the disease’s long-term effects on death.
Dritsas and Trigka have assessed many models to provide an efficient basis for predicting long-term stroke risk incidence using ML. The primary contribution of this work is a stacking technique that produces excellent results. The experiment’s findings demonstrated that with an accuracy of , the stacking classification works better than the other approaches. This study’s dependence on a publicly accessible dataset raises certain limitations. Data gathering techniques may not be standardized, and public datasets may not undergo strict quality control processes.
Reddy et al. have developed 10 ML classifications for predicting heart disease risk by utilizing the Cleveland heart dataset and the best attributes determined by attribute assessors. With the whole collection of attributes, the sequential minimum algorithm classifier produced ccuracy; with the optimum characteristics, the classifier produced accuracy. The best ROC area of 0.91 was obtained. The limitation is that it performs with a small dataset, which may cause overfitting.
Mahmud et al. investigated Veterans’ Results and Costs Related to Liver Disease (VOCAL) data used in a retrospective cohort analysis and found 4712 surgical operations in 3785 cirrhosis patients. The research classified procedures and utilized multivariable logistic regression to estimate postoperative mortality using the models. The models showed good discrimination and higher performance, but the limitation is they face misclassifications with the large dataset.
Yang et al. have developed a computational technique to predict people with diabetes by merging multiple forms of physical assessed data. Data on physical tests of both healthy persons and diabetic patients were gathered between 2011 and 2017 in Luzhou City, China. An eXtreme Gradient Boosting (XGBoost)-based model was created to distinguish between diabetic patients and healthy people. Additionally, a diabetes risk scorecard was developed to assess people’s health. Based on this information, an online diabetes risk evaluation approach was created to improve personal lifestyle management and diabetes cascade screening to offer recommendations for managing human health. It demonstrates poor performance in feature analysis.
Alqammash et al. have developed an advanced model to predict COVID-19 cases in high-altitude and low-sea-level regions of Saudi Arabia. In addition to three machine learning methods-random forest, gradient boosting, and naive Bayes-this model integrates binary particle swarm optimization. The results show that the
gradient boosting model outperforms both the random forest and naive Bayes models. However, it has problems with computational complexity.
Elshewey et al. have developed a novel method for accurately classifying potato late blight disease. This approach employs pre-trained models such as ResNet-50, GoogLeNet, AlexNet, and VGG19Net. Specifically, the AlexNet model is utilized to extract features, which are subsequently optimized using ten different algorithms. The most accurate is the Binary Waterwheel Plant Algorithm Sine Cosine (WWPASC). Five machine learning models train the specified features. With high classification accuracy, it outperforms the previous four optimization methods. However, it has limitations due to the risk of overfitting.
Elshewey et al. have introduced a model that uses an optimized gradient-boosting classifier to predict HCV disease in Egypt. The model’s accuracy is improved by optimizing hyperparameters with the OPTUNA framework. The model uses a 1385 -instance dataset and a forward selection-wrapped method to identify essential features. The study compares the performance of five machine learning models, achieving a accuracy rate. However, it faces challenges in computationally expensive and requires high processing time.
Alqammash et al. have developed an improved linear regression model using multivariate adaptive regression splines (LR-MARS) to forecast crude oil demand in Saudi Arabia using the social spider optimization (SSO) algorithm. The performance of this model was higher than other models, as demonstrated by the ANOVA results. However, this study did not compare it with other commonly used optimization algorithms.
A Convolutional neural network with long short-term memory (CNN-LSTM) model for potato disease detection was proposed by Alsakhari et al. , which was evaluated on a Z-score-standardized dataset. The model was tested against five classic machine learning algorithms: Random Forest, Extra Trees, K-Nearest Neighbors, Adaptive Boosting, and Support Vector Machine. The CNN-LSTM model has the highest accuracy of , outperforming other models in terms of Precision, sensitivity, specificity, F-score, and AUC. However, the uneven distribution of disease groups in the dataset is a major drawback.

Research gap

Despite significant advances in predictive models for heart disease risk assessment, several challenges persist. Many existing models suffer from issues like overfitting, inadequate feature selection, and limited scalability when applied to diverse and large datasets. Traditional machine learning approaches often fail to incorporate the complex interactions among multiple risk factors, which can lead to inaccurate predictions. Moreover, while Deep Learning (DL) techniques have shown promise in handling such complexities, they often require substantial computational resources and are prone to overfitting, especially when trained on imbalanced datasets.
Furthermore, the current literature lacks comprehensive solutions that integrate effective feature selection methods with robust predictive models to enhance accuracy and reliability. The potential of optimization techniques, such as Red Fox Optimization, in selecting relevant features for improving prediction performance remains underexplored. Additionally, there is a need for models that can efficiently process large-scale healthcare data while maintaining the confidentiality and integrity of patient information.
The introduction of a novel Deep Red Fox Belief Prediction System (DRFBPS) aims to address these gaps by integrating advanced feature selection with deep learning for improved prediction accuracy and reliability. By focusing on these under-researched areas, this study seeks to contribute to the development of more effective heart disease risk prediction models, ultimately enhancing patient outcomes through early intervention and personalized treatment strategies.

System model with problem

Big data is necessary in the healthcare system to enable smooth communication between patients and healthcare professionals, to boost patient involvement in the treatment process, to provide evidence-based care, and to aid in the early identification of disease and security concerns. Heart disease continues to be a concern to world health. To avoid problems and enhance patient outcomes, early identification, and risk factor prediction are essential. Traditional risk assessment techniques have certain limitations in prediction due to the missing data and the inability of the methods to handle large datasets. The challenges faced by the existing techniques are shown in Fig. 1.
As the healthcare system contains a vast amount of data, the predictive model should possess the capacity to manage big data for prediction. Specifically for large data healthcare systems, this paper proposes an efficient deep learning technique. The goal of this strategy is to create a more precise and effective model for predicting heart disease risk factors by using an enormous quantity of patient data.

Proposed methodology

Heart disease risk factor prediction is the identification of people with an increased chance of heart disease. This information helps healthcare professionals implement early interventions and preventive measures to reduce risk and improve cardiovascular health. Hence, a novel Deep red fox belief prediction system (DRFBPS) has been introduced as a predictive model. Initially, the datasets from the health care system are collected and preprocessed to eliminate errors and handle missing values. The red fox optimization is used to select the required features, and based on these selected features, the DRFBPS predicts the risk factors. Finally, the performance is evaluated.
The proposed model architecture is displayed in Fig. 2. A few measures are used to assess the predictive model’s performance and efficiency. Here is a description of the demonstrated model process.

Process of proposed DRFBPS

The recommended Framework functions with deep belief network (DBN) and red fox optimization (RFO) . Red Fox Fitness selects the required features to predict risk factors. The deep brief network is a DL technique; it
Fig. 1. System model with problem.
Fig. 2. Proposed DRFBPS architecture.
can handle complex data and efficiently learn complex relationships among features for the best prediction. The DRFBPS layer diagram is provided in Fig. 3
The DRFBPS has three layers. Input layer, hidden layer, and output layer. The Input Layer takes healthcare data in the form of multiple health parameters. The Hidden Layer comprises three Restricted Boltzmann Machines (RBMs). The RBM 1 is employed for the preprocessing, the RBM 2 conducts feature selection with Red Fox Optimization, and the RBM 3 performs prediction. The RBMs used the sigmoid activation function for probabilistic feature learning and ReLU in the prediction layer to add non-linearity. The Cross-Entropy Loss function is utilized for classification. Training is done with the hyperparameters learning rate of 0.001 , batch size of 32 , and a dropout of 0.2 to avoid overfitting. Lastly, the Output Layer utilizes a Softmax activation function for binary prediction and classifies the heart disease risk as High Risk or Low Risk. Initially, the datasets have been gathered and trained. It is executed in Eq. (1)
Fig. 3. DRFBPS layer.
here, denotes the training variable, denotes the health care data, and denotes the amount of data.

Preprocessing

Preprocessing is a critical initial step in leveraging IoT healthcare data to forecast heart disease risk using DRFBPS. It entails cleaning and handling missing values, identifying and eliminating outliers, and deleting extraneous information. The RFO Worst function handles preprocessing. It detects the worst-performing features that cause redundancy and eliminates them. It initiates by checking each feature statistically and heuristically, i.e., variance, correlation with the target variable, and the contribution of the feature. The RFO makes a dynamic ranking of features and eliminates the least optimal ones. Thus, it minimizes dimensionality and improves the data quality. By using this method, the system produces more precise and efficient results and performs better at filtering than a traditional filter. By using this method, the system produces more accurate and efficient results and performs better at filtering than a traditional filter . The preprocessing is done in Eq. (2)
here, signifies the preprocessing variable, signifies the noise filtering function of the RFO, and denotes the error constraints. It enhances data quality, and these strategies increase model performance, eventually leading to more accurate forecasts.

Feature selection

Feature selection is the technique of selecting pertinent traits from a large quantity of data. The Fitness function of the red fox fitness is used in the feature selection process. It enhances the model’s effectiveness and accuracy for predicting the risk of heart disease by selecting the most relevant features that differentiate the heart as a risk factor. Feature selection is executed in Eq. (3)
here, denotes the feature extraction variable, denotes preprocessed data, denotes the iteration, denotes the red fox fitness function, is the best feature that is randomly selected for each iteration.

Start

$operatorname{int} T, H_{d}, n ;$
//dataset initialization
Preprocessing()
${$
    $operatorname{int} P, lambda, e ;$
    // Initializing the error removing variables
    $P rightarrow mid H_{d}$-error contents $mid$
    //error constraints are removed from the dataset
}

Feature selection()
${$
    $operatorname{int} F, t, alpha$, best
    // initializing the feature selecting variables
    $F rightarrow mid alpha($ features selected $) mid$
    // Required features are selected from the dataset
}
Prediction()
${$
    $operatorname{int} D, R, H, E$;
//Initializing the risk prediction elements
Algorithm 1. DRFBPS.
RFO imitates the wise hunting and escape behavior of red foxes. The Algorithm selects optimal feature subsets by iteratively improving candidate solutions based on exploration and exploitation rules. RFO adaptively modifies the search process in terms of balancing exploitation that optimizes promising subsets and exploration for searching new feature combinations. So that local optima may be avoided and an optimal feature subset

//Disease risk factor is predicted

Classification ()

//Initializing the classification elements

High risk

Low risk

}

Stop

identified. This method of reduction in dimension, improved model performance, and prevention of overfitting occurs.

Prediction

Heart disease risk factor prediction determines and evaluates the variables that influence a person’s risk of heart disease. With several features, such as heart rate, cholesterol level, age, gender, etc., that are analyzed in the feature selection process, the predictive model determines the risk of heart disease. It is shown in Eq. (4)
denotes the disease risk prediction variable, denotes selected features, denotes the heart at risk and health, respectively, and denotes the Established standard score. Based on the prediction, the disease is classified, and it is executed in Eq. (5)
here, implies the classification variable. The classification is based on the high and low-risk condition of the heart. Hence, the proposed DRFBPS performs better in predicting and classifying the disease.
The Algorithm for the proposed DRFBPS is displayed. The Python system executes the entire computing process employing a pseudo-code pattern. Figure 4 shows the process diagram for the designed Framework.
The workflow for the designed Framework is displayed in Fig. 4. It presents the working methodology for the suggested DRFBPS sequentially. Algorithm 1 shows some mathematical operators. Some criteria are used to compute the proposed DRFBPS model successfully.

Results and discussion

The Windows 10 Python Environment is used to validate the proposed DRFBPS model. The datasets have been collected, and they undergo preprocessing to remove errors and feature selection to select the needed features for accurate prediction. The Red Fox Fitness function selects this feature. Based on the selected features, the disease has been predicted. The computational time of the suggested DRFBPS is also a major concern for healthcare applications. Here, the training took an efficient time of 150 s . Furthermore, memory usage was measured at 209.87 MB , which reflects effective resource usage. For inference, the DRFBPS model is optimized to run with optimal feature selection to achieve quicker prediction times with little computational overhead. The necessary metrics for the proposed DRFBPS are depicted in Table 1.
Fig. 4. Flowchart for the proposed DRFBPS.
Metrics Specification
Operating system Windows 10
Program platform Python
Version 3.7 .14
Network Deep belief neural network
Optimization Red Fox
Training and testing
Table 1. Execution parameters.
S. No. Risk factors Codes and range
1 Age (0) Male (1) Female
2 Gender (1) 15-35; (2) 36-55; (3) 56-75; (4) >76
3 Respiratory rate Normal (1): 12-18 breaths/min high (2): <12-18 breaths/min low (3): breaths/min
4 Heart rate Normal (1): 60-100 beats/min high (2): beats/ min low (3): < beats/min
5 Systolic blood pressure Normal (1): high (2): low (3)
6 Diastolic blood pressure Normal (1): high (2): low (3):
7 Body temperature Low (0): high (1):
8 Total cholesterol Low (0): high (1):
9 HDL cholesterol Low (0): high (1):
10 LDL cholesterol Low (0): high (1):
Table 2. Risk factors, codes, and range.

Case study

Initially, the healthcare dataset was gathered and loaded from the Kaggle standard site. It is the heart attack risk prediction (HARP) dataset. The dataset contains 88,414 records with a size of 18.43 MB . The dataset has 46,944 low-risk samples and 41,470 high-risk samples. Of that data, it is split into for training as 32,861 low-risk and 29,029 high-risk instances. Similarly, the data is split into for testing as 14,083 low-risk and 12,441 high-risk instances. The key information gathered from the health care data includes age, gender, blood pressure readings (systolic and diastolic), body temperature, and cholesterol rates (low, high, and total). Table 2 illustrates the risk characteristics and the embedded value consideration for each.
Table 2 demonstrates the risk features for heart disease with its labeled code for two stages: low and high risk 0 and 1 , which are the two states in which the model is intended to establish high and low levels of characteristics.
The Shapley Additive Explanations (SHAP) plot in Fig. 5 provides an insight into the impact of different features on the model output. The top bar plot shows the SHAP values on average, and the features Heart, LDL Cholesterol (LDL Chol), and Age have the highest impact on model predictions. The bottom summary plot shows the direction and magnitude of feature contributions, where each point represents an instance in the data, with color coding (blue for low values and pink for high values). Features like Heart and LDL Cholesterol have high impacts on predictions, with high values (pink) contributing positively to the model output. Features like HDL Cholesterol and Body Temperature have relatively lower impacts. The SHAP values also show feature interactions and their impact on prediction variability, and hence, it is an appropriate tool for explainable AI in medicine and medical diagnostics.
The feature importance heat map in Fig. 6 displays the correlation matrix of different features, and color intensity shows the strength and direction of associations. A value close to 1 (red) shows a strong positive correlation, and a value close to -1 (blue) shows a strong negative correlation. Features such as heart rate (Hea) and systolic BP (Sys) are strongly and positively related, indicating that rising systolic pressure is related to heart conditions. Similarly, diastolic BP (Dia) and age are strongly and positively related, implying that pressure rises with age. Gender (Gen) and age are strongly and negatively related, implying gender-based patterns. LDL Cholesterol (LDL) and HDL Cholesterol (HDL) are weakly negatively correlated. The heatmap is useful in interpreting feature interactions, is important in predictive modeling, and demonstrates the greater influence of features on results. Figures 7 and 8 show the accuracy and loss curves, respectively, that were acquired throughout the training and testing phases. An accuracy and loss curve visually represents the model’s accuracy and loss throughout training and testing epochs. It shows the capacity of the model to distinguish heart disease between normal and risky.
The loss curve represents the model’s error throughout training and testing epochs. A loss curve that starts high and gradually falls throughout testing indicates higher performance, whereas a loss curve that continuously drops during training indicates more accurate predictions.
Figure 9 shows the confusion matrix of a classification model’s performance. The matrix displays true labels against the predicted labels. The model correctly classified 14,081 instances as class 0 low risk and 12,441 instances as class 1 high risk. There are merely two instances of misclassification. This implies that the model acts
Fig. 5. SHAP feature impact.
exceptionally well with very few errors. To verify the importance of the red fox optimizations, feature selection, the results are evaluated and compared before and after feature selection. The results are displayed in Fig. 10
The p -value attained before feature selection is 0.07 , and after feature selection is 0.001 . Moreover, the error rate attained before feature selection is 0.1369 , and after feature selection is 0.014 . Feature selection with the RFO technique improves the model’s performance by selecting the most relevant features and removing noisy and redundant information. This leads to improved generalization, reduced error rates, and improved statistical significance, as indicated by the decrease in p -value. Feature selection also improves computational efficiency to the largest possible degree, such that the model can make faster and better predictions. Overall, feature selection improves the model’s learning by improving predictive performance and accuracy. The ablation study is provided in Table 3

Performance analysis

The Python environment is used to verify the developed model’s efficacy. To analyze the model’s abilities in prediction, it is compared with metrics such as Accuracy, F score, Precision, AUC, Recall, and error rate. To assess the proposed DRFBPS model performance with other techniques, it is compared with a few existing approaches such as ML Voting Classifier (MLVC) , ML stacking classifier MLSC , Light Gradient Boosting
Fig. 6. Feature importance heat map.
Fig. 7. Training and testing accuracy curve.
Classifier (LGBC) , Extreme Gradient Boosting with Random Forest (EGBRF) , CNN Sparse Autoencoder (CNNSA) and Linear SVM (LSVM) .

Accuracy

Accuracy is a significant performance measure used to predict heart disease risk factors. It demonstrates that the percentage of the model correctly predicts whether heart disease risk variables are present or absent. Accuracy is evaluated by Eq. (6)
Fig. 8. Training and testing loss curve.
Fig. 9. Confusion matrix.
here, denotes the correctly predicted risk present, denotes correctly predicted absence of risk, denotes incorrectly predicted the risk present, and denotes the incorrectly predicted absent of risk. The accuracy is compared with the existing approaches and is shown in Fig. 11
The accuracy rate achieved by the existing MLVC is , MLSC is , LGBC is , EGBRF is , CNNSA is and LSVM is . The developed DRFBPS achieved an accuracy of , and with a high attained accuracy rate, the proposed model shows better performance.

Precision

Precision, also known as optimistic prediction, is a measurement used to validate the accuracy of a predictive model, especially in classification tasks like recognizing heart disease risk factors. Precision measures the proportion of correct risk forecasts among all risk forecasts. It is computed by Eq. (7)
The precision metric is assessed and compared with existing techniques displayed in Fig. 12. High Precision indicates that the model has high accuracy in its optimistic predictions, implying that most of the occurrences it predicts as having the heart disease risk factor are correct.
Fig. 10. Performance before and after feature selection.
Layers Process Neurons Activation
Input layer Data input 256
Hidden layer RBM 1 Preprocessing 128 Sigmoid
Hidden layer RBM 2 Feature selection 64 Sigmoid
Hidden Layer RBM 3 Prediction 32 Relu
Output layer Classification 2 Softmax
Table 3. Ablation study.
Fig. 11. Accuracy comparison.
The existing techniques MLVC, MLSC, LGBC, EGBRF, CNNSA, and LSVM attained a precision rate of , and respectively. The proposed DRFBPS model attained , which performs better than the existing approaches.

Recall

Recall is an important metric to assess the model’s efficiency. It measures the predicted risk instances to the total actual risk. It assesses the model’s capacity to detect every risk instance accurately. It is evaluated by Eq. (8)
Fig. 12. Precision comparison.
Fig. 13. Recall comparison.
High Recall ensures that most patients with heart disease are appropriately recognized. It is assessed, and the abovementioned techniques are compared in Fig. 13.
The Existing MLVC gained a recall rate of , MLSC gained , LGBC gained , EGBRF gained , CNNSA gained and LSVM gained . The proposed model DRFBPS gained a recall rate of . In comparison to the other methods, DRFBPS achieved a relatively greater recall rate.

score

Precision and Recall are combined in a statistic called the F score. It combines the Precision and recall measures and assesses the Framework’s ability to correctly predict the risk factors by avoiding errors. It is equated in Eq. (9)
here, denotes the precision rate and denotes the recall rate. The F score value for the DRFBPS model is assessed, and its comparison is shown in Fig. 14.
The F score for the existing MLVC is , MLSC is , LGBC is , EGBRF is , CNNSA is , LVSM is and the proposed technique attained a score value. The attained higher F score demonstrates better performance of the model in predicting.

Error rate

Error rate represents the proportion of incorrect predictions to the total prediction number. It is evaluated to determine the negative predictions done by the model. It describes the overall performance of the model. It is evaluated by Eq. (10)
Fig. 14. F-score comparison.
Fig. 15. Error rate comparison.
Figure 15 displays the error rate comparison. The error rate achieved by the existing MLVC is 0.199 , MLSC is 0.091, LGBC is 0.2216 , EGBRF is 0.2437 , CNNSA is 0.1644 , and LSVM is 0.1375 . The designed model DRFBPS has an error rate of 0.014 . The error rate obtained by the developed technique is lower, so it performs better.

AUC

The AUC is the performance indicator for classification models that is significant in evaluating the model’s capacity to differentiate. In performance categorization, a high AUC value is more effective. Its comparison is shown in Fig. 16.
The AUC for MLVC, MLSC, LGBC, EGBRF, CNNSA, and LVSM is and respectively, and the proposed DRFBPS obtained 98.2%.

-vale and confidentiality interval

The p -value and confidence interval (CI) are important statistical validation metrics to evaluate the robustness of predictive models. P -value aids in identifying the significance of correlations between risk factors. The CI gives an interval of values. The CI is narrow for greater precision and wide for greater variability of the estimates. Both these measures combined increase the statistical validity of heart attack risk prediction, so predictive models should be accurate and generalizable to larger populations. The results of the statistical validation p -value and confidence intervals are described in the Table 4
Moreover, the overall effectiveness of the designed Framework demonstrates a better predictive technique. The entire functionality of the planned DRFBPS with current techniques is depicted in Table 4.
DRFBPS’s higher performance compared to existing models is due to its capability of capturing intricate, non-linear interactions in the data more efficiently. The model delivers a remarkable accuracy rate, which greatly surpasses existing approaches. This enhancement is seen in all the evaluation metrics, with DRFBPS having a
Fig. 16. AUC comparison.
Accuracy Precision Recall F score Error rate AUC P value Confidence interval
MLVC 80.1 80.4 80.1 80.1 0.199 88.4 0.058 81
MLSC 90.9 96.7 87.6 92.15 0.091 96.1 0.023 89
LGBC 77.84 74.61 73.26 73.93 0.2216 72.27 0.131 76
EGBRF 75.63 73.13 68.25 70.61 0.2437 74.71 0.115 74
CNNSA 83.56 85.2 82.9 84.05 0.1644 90.3 0.011 82
LSVM 86.43 87.5 85.9 86.7 0.1357 92.1 0.026 85
DRFBPS 98.6 97.4 97.9 97.7 0.014 98.2 0.001 97
Table 4. Overall comparisons.
Accuracy Precision Recall F score Error rate AUC P value Confidence interval
DBN+GA 98.6 97.0 97.4 97.7 0.014 97.8 0.002 96.5
DBN + PS 95.3 95.9 96.2 96.1 0.032 97.1 0.004 96
DBN + BO 94.3 92.8 93.1 92.9 0.057 95.4 0.005 93
DBN + RFO proposed 98.6 97.4 97.9 97.7 0.014 98.2 0.001 97
Table 5. DBN with other optimizations.
very low error percentage among all other models, which reflects its low misclassification rate. Its high Precision and Recall also reflect its strength in true positive detection while keeping false positives and false negatives to a minimum. Its high F-score verifies its equitable performance in Precision and recall, further establishing its dependability. In addition, DRFBPS has the best AUC value, demonstrating its best discriminant ability in classifying. The low p-value indicates a statistically significant relationship. While so, the CI gives an interval of values in which the actual effect size will probably fall, generally at a confidence level. The wide gap in performance implies that DRFBPS has optimized feature selection processes that maximize its predictability, generality, and resilience to intricacies in the data structure to make it the best-performing model among the compared methods.
Additionally, to verify the selection of RFO, other optimization algorithms such as the genetic Algorithm (GA), Particle swarm (PS), and Bayesian optimization (BO) are hybrid with DBN, and the results are shown in Table 5
Table 5 shows that the proposed DBN + RFO model performs the best with accuracy, which signifies an excellent selection of RFO. It also possesses the lowest error rate and highest AUC, indicating superior discrimination ability. The lowest p -value, indicating statistical significance and a high confidence interval, supports its credibility. These findings demonstrate the efficiency of the proposed DBN + RFO method in enhancing prediction accuracy.

Discussion

The proposed DRFBPS demonstrates better performance in predicting risk factors. It leverages a novel strategy, Red Fox Optimisation, and a Deep belief neural network that uses the capabilities of both approaches as the
data for the current research were obtained from Kaggle, which might expose the model to potential biases and make generalization a challenge. The RFO was used to address the biases in the Kaggle data during successful processing. This approach served as a tool for preprocessing and feature selection by filtering noise and retaining only the most informative features, reducing the impact of data that is either overrepresented or underrepresented. The red fox fitness function ensures the most predictive and useful variables are included, minimizing dimensionality and boosting model performance. It ensures that the DRFBPS makes accurate and reliable predictions in a wide range of patient populations, enhancing its generalizability and clinical utility. This robust Framework accurately identifies individuals at risk of heart disease, potentially assisting in early diagnosis and intervention efforts. Additionally, to prove the generalizability, the developed model is validated with the Cleveland dataset, and the results are displayed in Table 6.
Evaluations were performed on the Cleveland and the HARP datasets to validate the robustness of the proposed model. The results are uniformly high performance on both datasets, exhibiting the reliability of the model in the prediction of heart disease risk. The small differences in performance metrics illustrate the strength of the model. These findings provide evidence that the approach illustrates the model’s ability to perform well on diverse datasets.
  • The study proves that DRFBPS outperforms the prediction of heart disease risk by overcoming difficulties of inappropriate feature selection and overfitting.
  • Applying Red Fox Optimization, the model efficiently chooses applicable features, thereby improving predictive Precision.
  • The model is extensively evaluated using Accuracy, F-score, Precision, AUC, Recall, error rate, P value, and confidence intervals, depicting consistent and higher performance than existing approaches.
  • The findings verify that DRFBPS makes accurate and stable disease risk predictions with probable applications in early diagnosis, personal treatment planning, and enhanced patient outcomes in practical healthcare environments.
Implications: The DRFBPS can be integrated into hospital procedures by incorporating it in clinical decision support systems and electronic health records. The model can run based on real-time patient data like lab reports, history, and so on to aid healthcare providers in making diagnosis and treatment decisions. It can be interoperable with hospital information systems using secure APIs, facilitating working with the available infrastructure and fulfilling regulatory requirements such as HIPAA and GDPR. It can even be applied in predictive resource planning analysis, prioritization of the patient, and treatment plans based on the patient, and makes it more efficient.
The pipeline in Fig. 17 shows the real-time deployment architecture of the DRFBPS for disease prediction and healthcare monitoring. The workflow begins with patient data gathering, where raw health information is collected and assembled into reports. The collected dataset is fed into the DRFBPS model, where it is preprocessed to eliminate noise and select the feature to evaluate the risks associated with the disease. Additionally, it transfers patient health data to cloud storage for scalable and convenient access. Subsequently, Edge computing is introduced to improve efficiency and minimize latency by processing the data in real-time near the source of data. This promotes quicker decision-making and minimizes the reliance on centralized cloud servers. Finally, the information is implemented across various healthcare platforms.

Conclusion

In summary, the Proposed DRFBPS model for identifying heart disease risk factors that combine Red Fox Optimisation and deep belief neural network shows a reliable and effective method for managing IoT healthcare data. To ensure data integrity, the gathered dataset is first trained and preprocessed to remove noise. The novel DRFBPS approach uses the Red Fox fitness function to perform a thorough feature analysis, selecting the most relevant characteristics from the large dataset to improve prediction accuracy and lower computing complexity. The proposed DRFBPS accurately assesses and predicts the risk factor for heart disease using these features. The developed model performance is thoroughly examined, and the findings show that the DRFBPS model provides greater prediction performance by attaining a high accuracy of score, precision, AUC, recall, and low error rate of 0.014 . It demonstrates its potential as an essential early identification and risk assessment tool. Though the model displays high predictive performance in predicting heart disease risk, it has severe security issues. The model processes large-scale medical data, privacy, confidentiality, and
Measures HARP dataset Cleveland dataset
Accuracy (%) 98.6 98.2
F score (%) 97.7 97.3
Precision (%) 97.4% 97
AUC (%) 98.2 97.8
Recall (%) 97.9 97.5
Error rate 0.014 0.017
P value 0.001 0.003
Confidence interval 97 95
Table 6. DRFBPS performance.
Fig. 17. Real-time deployment pipeline of DRFBPS .
potential breaches become severe issues, particularly when sensitive patient information is involved. However, security is crucial in big data healthcare systems to protect patients’ sensitive information. Hence, future work will focus on implementing robust security measures for handling big data. It includes federated learning to facilitate decentralized care among multiple healthcare institutions and keeps sensitive patient information localized while permitting collaborative learning to enhance the risk prediction of diseases. By keeping data local and preventing data movement between institutions, FL minimizes data breaches and unauthorized access. Besides that, homomorphic encryption will also be investigated in order to reinforce the protection of data.

Data availability

The data that support the findings of this study are available upon reasonable request from the corresponding author.
Received: 1 October 2024; Accepted: 14 April 2025
Published online: 24 April 2025

References

  1. Tadesse, T., Abuye, H. & Tilahun, G. Availability and affordability of children essential medicines in health facilities of southern nations, nationalities, and people region, Ethiopia: Key determinants for access. BMC Public Health 21, 1-2 (2021).
  2. Ros, F., Kush, R., Friedman, C., Gil Zorzo, E., Rivero Corte, P., Rubin, J.C., Sanchez, B., Stocco, P., Van Houweling, D. Addressing the COVID-19 pandemic and future public health challenges through global collaboration and a data-driven systems approach. (2021).
  3. Aminizadeh, S. et al. Opportunities and challenges of artificial intelligence and distributed systems to improve the quality of healthcare service. Artif. Intell. Med. 1(149), 102779 (2024).
  4. Cusi, K. et al. American Association of Clinical Endocrinology clinical practice guideline for the diagnosis and management of nonalcoholic fatty liver disease in primary care and endocrinology clinical settings: Co-sponsored by the American Association for the Study of Liver Diseases (AASLD). Endocr. Pract. 28(5), 528-562 (2022).
  5. Masoumian Hosseini, M., Masoumian Hosseini, S. T., Qayumi, K., Hosseinzadeh, S. & Sajadi Tabar, S. S. Smartwatches in healthcare medicine: Assistance and monitoring; a scoping review. BMC Med. Inform. Decis. Mak. 23(1), 248 (2023).
  6. Mbunge, E. et al. Framework for ethical and acceptable use of social distancing tools and smart devices during COVID-19 pandemic in Zimbabwe. Sustain. Operations Comput. 1(2), 190-199 (2021).
  7. Palozzi, G., Ranalli, F. Telemedicine implementation between innovation and sustainability: An operating model for designing patient-centered healthcare. in Human-Centered Service Design for Healthcare Transformation: Development, Innovation, Change, pp. 375-399. (Springer International Publishing, 2023).
  8. Chatrati, S. P. et al. Smart home health monitoring system for predicting type 2 diabetes and hypertension. J. King Saud Univ.Comput. Inform. Sci. 34(3), 862-870 (2022).
  9. Philip, N. Y., Rodrigues, J. J., Wang, H., Fong, S. J. & Chen, J. Internet of Things for in-home health monitoring systems: Current advances, challenges and future directions. IEEE J. Sel. Areas Commun. 39(2), 300-310 (2021).
  10. Ye, Y. et al. Management of medical and health big data based on integrated learning-based health care system: A review and comparative analysis. Comput. Methods Programs Biomed. 1(209), 106293 (2021).
  11. Niu, Y., Ying, L., Yang, J., Bao, M. & Sivaparthipan, C. B. Organizational business intelligence and decision making using big data analytics. Inf. Process. Manage. 58(6), 102725 (2021).
  12. Rehman, A., Naz, S. & Razzak, I. Leveraging big data analytics in healthcare enhancement: Trends, challenges and opportunities. Multimed. Syst. 28(4), 1339-1371 (2022).
  13. Cappa, F., Oriani, R., Peruffo, E. & McCarthy, I. Big data for creating and capturing Value in the digitalized environment: Unpacking the effects of volume, Variety, and Veracity on firm performance. J. Prod. Innov. Manag. 38(1), 49-67 (2021).
  14. Sandhu, A. K. Big data with cloud computing: Discussions and challenges. Big Data Mining Analytics. 5(1), 32-40 (2021).
  15. Attaallah, A., Alsuhabi, H., Shukla, S., Kumar, R., Gupta, B.K., Khan, R.A. Analyzing the big data security through a unified decision-making approach. Intell. Automat. Soft Comput. 32(2) (2022).
  16. Chang, V. An ethical framework for big data and smart cities. Technol. Forecast. Soc. Chang. 1(165), 120559 (2021).
  17. Mathrani, S. & Lai, X. Big data analytic framework for organizational leverage. Appl. Sci. 11(5), 2340 (2021).
  18. Chen, J., Ramanathan, L. & Alazab, M. Holistic big data integrated artificial intelligent modeling to improve privacy and security in data management of smart cities. Microprocess. Microsyst. 1(81), 103722 (2021).
  19. Zarour, M. et al. Ensuring data integrity of healthcare information in the era of digital health. Healthc. Technol. Lett. 8(3), 66-77 (2021).
  20. Upadhyay, R.K. Chronic non-communicable diseases: Risk factors, disease burden, mortalities and control. Acta Scientific MEDICAL SCIENCES (ISSN: 2582-0931). 6(4) (2022).
  21. Teo, K. K. & Rafiq, T. Cardiovascular risk factors and prevention: A perspective from developing countries. Can. J. Cardiol. 37(5), 733-743 (2021).
  22. Sekar, J., Aruchamy, P., Sulaima Lebbe Abdul, H., Mohammed, A. S. & Khamuruddeen, S. An efficient clinical support system for heart disease prediction using TANFIS classifier. Comput. Intell. 38(2), 610-640 (2022).
  23. Kaul, D., Raju, H., Tripathy, B.K. Deep learning in healthcare. Deep learning in data analytics: Recent techniques, practices and applications. 97-115 (2022).
  24. Khanna, A. et al. Internet of things and deep learning enabled healthcare disease diagnosis using biomedical electrocardiogram signals. Expert. Syst. 40(4), e12864 (2023).
  25. Alizadehsani, R. et al. Risk factors prediction, clinical outcomes, and mortality in COVID-19 patients. J. Med. Virol. 93(4), 23072320 (2021).
  26. Dritsas, E. & Trigka, M. Stroke risk prediction with machine learning techniques. Sensors. 22(13), 4670 (2022).
  27. Reddy, K. V. et al. Heart disease risk prediction using machine learning classifiers with attribute evaluators. Appl. Sci. 11(18), 8352 (2021).
  28. Mahmud, N. et al. Risk prediction models for postoperative mortality in patients with cirrhosis. Hepatology 73(1), 204-218 (2021).
  29. Yang, H. et al. Risk prediction of diabetes: Big data mining with fusion of multifarious physical examination indicators. Inform. Fusion. 1(75), 140-149 (2021).
  30. Alkhammash, E. H. et al. Application of machine learning to predict COVID-19 spread via an optimized BPSO model. Biomimetics. 8(6), 457 (2023).
  31. Elshewey, A. M., Tawfeek, S. M., Alhussan, A. A., Radwan, M. & Abed, A. H. Optimized deep learning for potato blight detection using the waterwheel plant algorithm and sine cosine algorithm. Potato Res. 28, 1-25 (2024).
  32. Elshewey, A. M. et al. Optimizing HCV disease prediction in Egypt: The hyOPTGB framework. Diagnostics. 13(22), 3439 (2023).
  33. Alkhammash, E. H., Kamel, A. F., Al-Fattah, S. M. & Elshewey, A. M. Optimized multivariate adaptive regression splines for predicting crude oil demand in Saudi arabia. Discret. Dyn. Nat. Soc. 2022(1), 8412895 (2022).
  34. Alzakari, S. A., Alhussan, A. A., Qenawy, A. S. & Elshewey, A. M. Early detection of Potato Disease using an enhanced convolutional neural network-long short-term memory Deep Learning Model. Potato Res. 8, 1-9 (2024).
  35. Javeed, M., Gochoo, M., Jalal, A. & Kim, K. HF-SPHR: Hybrid features for sustainable physical healthcare pattern recognition using deep belief networks. Sustainability. 13(4), 1699 (2021).
  36. Połap, D. & Woźniak, M. Red fox optimization algorithm. Expert Syst. Appl. 15(166), 114107 (2021).
  37. Srikanth, B. et al. An optimized generalized adversarial system for predicting specific substructures in brainstem. Multimed. Tools Appl. 82(5), 7181-7205. https://doi.org/10.1007/s11042-022-13663-9 (2023).
  38. Dritsas, E. & Trigka, M. Supervised machine learning models for liver disease risk prediction. Computers. 12(1), 19 (2023).
  39. Trigka, M. & Dritsas, E. Long-term coronary artery disease risk prediction with machine learning models. Sensors. 23(3), 1193 (2023).
  40. Guarneros-Nolasco, L. R., Cruz-Ramos, N. A., Alor-Hernández, G., Rodríguez-Mazahua, L. & Sánchez-Cervantes, J. L. Identifying the main risk factors for cardiovascular diseases prediction using machine learning algorithms. Mathematics. 9(20), 2537 (2021).
  41. García-Ordás, M. T., Bayón-Gutiérrez, M., Benavides, C., Aveleira-Mata, J. & Benítez-Andrades, J. A. Heart disease risk prediction using deep learning techniques with feature augmentation. Multimed. Tools Appl. 82(20), 31759-31773 (2023).
  42. Rojek, I., Kotlarz, P., Kozielski, M., Jagodziński, M. & Królikowski, Z. Development of AI-based prediction of heart attack risk as an element of preventive medicine. Electronics 13(2), 272 (2024).

Author contributions

All authors contributed equally.

Funding

The authors declare that no funds, grants, or other support were received during the preparation of this manuscript.

Declarations

Competing interests

The authors declare no competing interests.

Ethics approval

The submitted work is original and has not been published elsewhere in any form or language.

Additional information

Correspondence and requests for materials should be addressed to R.V.
Reprints and permissions information is available at www.nature.com/reprints.
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License, which permits any non-commercial use, sharing, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if you modified the licensed material. You do not have permission under this licence to share adapted material derived from this article or parts of it. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommo ns.org/licenses/by-nc-nd/4.0/.
© The Author(s) 2025

  1. Department of Information Technology, MLR Institute of Technology, Hyderabad, India. Department of Artificial Intelligence and Data Science, GITAM School of Technology, GITAM University-Bengaluru Campus, Bengaluru, India. Department of Computer Science and Engineering, School of Engineering and Sciences, SRM University, Amaravati, AP, India. Department of Computer Science and Engineering, Koneru Lakshmaiah Education Foundation, Guntur, India. Department of Computer Science and Engineering (AI & ML), Vidyavardhaka College of Engineering, Mysore, India. Department of Computer Science and Engineering, SRKR Engineering College, Bhimavaram 534204, India. Department of Computer Science and Engineering, Sir C R Reddy College of Engineering, Eluru, India. School of Computer Science and Engineering, VIT-AP University, Vijayawada 522237, India. email: v2ramesh634@gmail.com