تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء: مراجعة منهجية للأدبيات The deep learning applications in IoT-based bio- and medical informatics: a systematic literature review

المجلة: Neural Computing and Applications، المجلد: 36، العدد: 11
DOI: https://doi.org/10.1007/s00521-023-09366-3
تاريخ النشر: 2024-01-13

تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء: مراجعة منهجية للأدبيات

زهرا أميري أراس حيدري نيما جعفري نافي مپور منصور إسماعيل بور يلدا يزداني

تاريخ الاستلام: 13 يونيو 2023 / تاريخ القبول: 7 ديسمبر 2023 / تاريخ النشر على الإنترنت: 13 يناير 2024
© المؤلفون 2024

الملخص

في الوقت الحاضر، حقق التعلم الآلي (ML) مستوى عالٍ من الإنجاز في العديد من السياقات. نظرًا لأهمية ML في المعلوماتية الطبية والحيوية بسبب دقتها، ناقش العديد من الباحثين حلولًا متعددة لتطوير وظيفة التحديات الطبية والحيوية باستخدام تقنيات التعلم العميق (DL). تكمن أهمية DL في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء (IoT) في قدرته على تحليل وتفسير كميات كبيرة من البيانات المعقدة والمتنوعة في الوقت الحقيقي، مما يوفر رؤى يمكن أن تحسن نتائج الرعاية الصحية وتزيد من الكفاءة في صناعة الرعاية الصحية. تشمل عدة تطبيقات لـ DL في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء التشخيص، وتوصية العلاج، ودعم القرار السريري، وتحليل الصور، والمراقبة القابلة للارتداء، واكتشاف الأدوية. تهدف المراجعة إلى تقييم شامل وتجميع الجسم الحالي من الأدبيات حول تطبيق التعلم العميق في تقاطع إنترنت الأشياء مع المعلوماتية الحيوية والطبية. في هذه الورقة، قمنا بتصنيف أحدث حلول DL لمشاكل المعلوماتية الطبية والحيوية إلى خمس فئات بناءً على تقنية DL المستخدمة: الشبكة العصبية التلافيفية، الشبكة العصبية المتكررة، الشبكة التنافسية التوليدية، الإدراك متعدد الطبقات، والأساليب الهجينة. تم تطبيق مراجعة منهجية للأدبيات لدراسة كل واحدة من حيث الخصائص الفعالة، مثل الفكرة الرئيسية، والفوائد، والعيوب، والأساليب، وبيئة المحاكاة، ومجموعات البيانات. بعد ذلك، تم التأكيد على الأبحاث المتقدمة حول أساليب DL وتطبيقاتها لمشاكل المعلوماتية الحيوية. بالإضافة إلى ذلك، تم تناول العديد من التحديات التي ساهمت في تنفيذ DL للمعلوماتية الطبية والحيوية، والتي من المتوقع أن تحفز المزيد من الدراسات لتطوير الأبحاث الطبية والحيوية بشكل تدريجي. وفقًا للنتائج، يتم تقييم معظم المقالات باستخدام ميزات مثل الدقة، والحساسية، والخصوصية، الدرجة، والكمون، والقدرة على التكيف، وقابلية التوسع.

الكلمات الرئيسية: التعلم العميق التعلم الآلي المعلوماتية الحيوية إنترنت الأشياء المعلوماتية الطبية

1 المقدمة

تجمع المعلوماتية الحيوية بين برمجة الكمبيوتر، وعلم الأحياء، والبيانات الضخمة لمساعدة العلماء في إدراك واكتشاف الأنماط في المعلومات البيولوجية والطبية [1-3]. إنها مناسبة بشكل كبير لدراسة تسلسل الحمض النووي، حيث تسمح للعلماء بترتيب كمية كبيرة من البيانات [4، 5]. يتم تطبيق مجال علوم الكمبيوتر، وهو المعلوماتية الحيوية، لتقييم معلومات تسلسل الجينوم الكامل [6، 7]. يتضمن ذلك تطوير البرمجيات، والخوارزميات، والتحليل، وخط الأنابيب، والنقل، وتحسين التخزين/قاعدة البيانات لمعلومات الجينوم. بعبارة أخرى، يتم وصف المعلوماتية الحيوية بأنها تطبيق أدوات التحليل والحساب لاستقبال وتفسير البيانات البيولوجية [8، 9]. كمنطقة متعددة التخصصات، تستفيد المعلوماتية الحيوية من علوم الكمبيوتر، والفيزياء،
وعلم الأحياء، والرياضيات [10،11]. إنها حاسمة لإدارة البيانات في الطب الحديث وعلم الأحياء [12، 13]. توفر المعلوماتية الحيوية دعمًا كبيرًا للتعامل مع قضايا الوقت والتكلفة في مسارات مختلفة [14، 15]. المعلوماتية الحيوية، المتعلقة بالجينوميات وعلم الوراثة، هي مجال علمي متعدد التخصصات يستخدم تكنولوجيا الكمبيوتر لجمع وتخزين وتقييم وتوزيع البيانات البيولوجية، مثل تسلسلات الحمض النووي والأحماض الأمينية والتعليقات حولها [16، 17].
الحوسبة الموزعة هي طريقة متعددة الاستخدامات يمكن تطبيقها على مجموعة واسعة من القضايا في المعلوماتية الحيوية. بينما تُستخدم عادةً من أجل الكفاءة من حيث التكلفة في الحوسبة عالية الأداء، أصبحت في مجالات أخرى ضرورة [18]. من خلال الاستفادة من قوة العديد من أجهزة الكمبيوتر المتصلة، تتيح الحوسبة الموزعة للباحثين معالجة كميات كبيرة من البيانات وإجراء حسابات معقدة بسرعة وكفاءة. هذا مهم بشكل خاص في المعلوماتية الحيوية، حيث يتم تحليل مجموعات بيانات ضخمة غالبًا للحصول على رؤى حول العمليات البيولوجية وتطوير علاجات جديدة للأمراض [19، 20]. إن الكمية المتزايدة من المعلومات التي يجب معالجتها في الوقت المنطقي تتجاوز في النهاية حتى أقوى أجهزة الكمبيوتر [21، 22]. مؤخرًا، لم تقم بعض المنظمات التي تعالج كميات كبيرة من البيانات بتطبيق عمليات سهلة تقريبًا، مثل توزيع العمل يدويًا أو باستخدام نصوص بسيطة [23،24]. تقترح عدد متزايد من الشركات حلولًا تتوسع بشكل أفضل، مما يسمح بمزيد من الاستقلالية في إجراءات تحليل المعلومات واستخدام الموارد بشكل أكثر فعالية [25، 26]. بعض الأدوات الحالية للحوسبة الموزعة منخفضة المرحلة جدًا أو ليست مرنة بما يكفي لتكييفها مع المتطلبات [27، 28]. تولد العديد من التقنيات قاعدة كبيرة لبناء أنظمة حوسبة موزعة على مستوى أعلى [29، 30]. أيضًا، أصبح التعلم الآلي (ML)، وهو قسم من الذكاء الاصطناعي (AI)، أداة قوية للعديد من استخدامات المعلوماتية الحيوية [31، 32]. اعتمادًا على مجموعات البيانات الكبيرة، تعتبر آليات ML مناسبة بشكل خاص للتنبؤ والتعرف على الأنماط [33]. هناك بعض الاستخدامات الناشئة لـ ML في مجال المعلوماتية الحيوية. يشير ML في المعلوماتية الحيوية إلى استخدام تقنيات ML لتحليل وتفسير البيانات البيولوجية، بما في ذلك الجينوميات، وعلم الأحياء النظامي، واستخراج النصوص، والميكروأري، والتطور. من خلال تطبيق خوارزميات ML على مجموعات بيانات بيولوجية معقدة، يمكن للباحثين الحصول على رؤى حول عمليات بيولوجية متنوعة، وتحديد الطفرات الجينية، وحتى تطوير علاجات جديدة للأمراض [34، 35]. يمكن تطبيق ML من خلال أوضاع مختلفة من تقارير قواعد البيانات التي أنشأها الإنسان لمعالجة وتقييم البيانات، مما يقلل من تكاليف العمل ويسرع من عملية البحث دون المساس بالجودة [36، 37]. يمكن أيضًا استخدام تقييم النصوص باستخدام ML في المعلوماتية الحيوية. لقد أعطى احتواء ML المعلوماتية الحيوية الترويج المطلوب [38، 39].
تهدف هذه الدراسة إلى تقديم نظرة شاملة على تطبيقات تقنيات ML في المعلوماتية الطبية والحيوية المعتمدة على إنترنت الأشياء. سلطت الدراسة الضوء على الاستخدامات المتعددة لاستراتيجيات التعلم العميق (DL) [40، 41] في المعلوماتية الطبية والحيوية من خلال إجراء مراجعة منهجية وتحليل ومقارنة النتائج من دراسات مختلفة. تم تقسيم آليات DL المستخدمة في الطب والمعلوماتية الحيوية إلى خمس مجموعات منفصلة: الشبكة العصبية التلافيفية (CNN)، الشبكة العصبية المتكررة (RNN)، الشبكة التنافسية التوليدية (GAN)، الإدراك متعدد الطبقات (MLP)، والأساليب الهجينة، التي تشمل عدة طرق عملية. لكل مجموعة وآلية، تم دراسة خصائص متعددة مثل الفوائد، والعيوب، ومجموعات البيانات، وبيئات المحاكاة. استكشفت الدراسة المنهجيات والتطبيقات لآليات DL/ML في المعلوماتية الحيوية قبل التعمق أكثر في الدراسات المستقبلية وأخذ في الاعتبار النقائص التي تحتاج إلى معالجة في المستقبل. بشكل عام، تشمل مساهمات هذه الورقة تقديم فحص شامل للمشاكل الحالية مع آليات ML/DL في المعلوماتية الطبية والحيوية، وإجراء تقييم شامل للطرق الحالية لتطبيقات ML/DL، ونمذجة المجالات المهمة للتطوير المستقبلي لهذه الأساليب. المساهمات الرئيسية لهذه الورقة هي كما يلي:
  • إجراء مراجعة منهجية لاستكشاف تطبيقات ML في المعلوماتية الطبية والحيوية المعتمدة على إنترنت الأشياء؛
  • تحليل ومقارنة استخدامات DL في المعلوماتية الطبية والحيوية؛
  • تصنيف آليات DL إلى خمس مجموعات (CNN، RNN، GAN، MLP، هجينة) وفحص خصائصها؛
  • استكشاف منهجيات DL/ML والتطبيقات في المعلوماتية الحيوية؛
  • تقديم رؤى للبحوث المستقبلية ومعالجة النقائص الحالية؛
  • تقديم تقييم شامل للطرق الحالية لـ ML/DL؛
  • المساهمة في فهم أفضل للتحديات والفرص الحالية في هذا المجال;
المقالة منظمة بالطريقة التالية: يتم تناول المبادئ الأساسية والمصطلحات الخاصة بالتعلم الآلي/التعلم العميق في الطب والمعلوماتية الحيوية في الجزء الأول، تليها دراسة الأوراق ذات الصلة في الجزء الثالث. يناقش الجزء الرابع الآليات والأدوات المدروسة لاختيار الأوراق، بينما يوضح الجزء الخامس التصنيف الذي تم اختياره. يقدم القسم السادس النتائج والمقارنات؛ يوفر القسم السابع القضايا المفتوحة، ويتم استكشاف الخاتمة في القسم الثامن.

2 المفاهيم الأساسية والمصطلحات

يناقش هذا القسم أساسيات أساليب التعلم العميق بالإضافة إلى تطبيقاتها في الطب والمعلوماتية الحيوية.

2.1 مفاهيم التعلم العميق

توجد ثلاث تصنيفات لأساليب التعلم العميق: التعلم المراقب، والتعلم شبه المراقب، والتعلم غير المراقب. يُعتبر متجه الإدخال كقيمة للإشارة الإشرافية قيمة مرغوبة. تساعد التسميات الحالية في طريقة التنبؤ بالتسميات الناتجة المرغوبة [42]. تستخدم أساليب التصنيف التعلم المراقب لاكتشاف الوجوه وإشارات المرور، وترجمة الصوت إلى نص، وتحديد الرسائل غير المرغوب فيها في ملف، وأداء مجموعة متنوعة من المهام الأخرى. التعلم شبه المراقب هو استراتيجية تعبر الفجوة بين أساليب التعلم الآلي غير المراقب والمراقب [43]. تستخدم هذه الطريقة، التي تقع بين التعلم المراقب وغير المراقب، قيم غير مصنفة ومصنفة كبيانات تدريب. عند دمجها مع كمية معتدلة من البيانات المصنفة، تتحسن دقة التعلم للبيانات غير المصنفة بشكل كبير. نظريًا، البيانات المجاورة لها تحمل نفس الاسم. وبالمثل، فإن فرضية العنقود، التي تنص على أن كل البيانات في عنقود هي نفسها، تحمل اسمًا مشابهًا [44]. أيضًا، بدلاً من استخدام مساحة الإدخال الكاملة، يتم تقييد البيانات بعدد أبعاد واحد. يصف التعلم غير المراقب العلاقات بين المكونات ثم يصنفها. تُستخدم هذه الخوارزميات في الشبكات العصبية، والتجميع، واكتشاف الشذوذ. عادةً ما يستفيد اكتشاف الشذوذ من التعلم غير المراقب، خاصة في مجالات الأمن. بنفس القدر، يمكن معالجة واستخراج الميزات باستخدام تقنيات التعلم العميق والشبكات العصبية الاصطناعية [45، 46].

2.2 تطبيقات المعلوماتية الحيوية

المعلوماتية الحيوية هي مجال متقدم من علم الأحياء ينشأ من دمج المعلومات وعلم الأحياء [47]. إنها منطقة دراسية متعددة التخصصات تستخدم الرياضيات، وعلم الأحياء، وعلوم الحاسوب، والكيمياء، والإحصاء، التي تم دمجها لتشكيل نظام فردي [48]. تُطبق المعلوماتية الحيوية أساسًا لاستخراج المعرفة من البيانات البيولوجية من خلال تحسين البرمجيات والخوارزميات [49]. تُستخدم المعلوماتية الحيوية على نطاق واسع في دراسة الجينوم، ونمذجة الهيكل ثلاثي الأبعاد للبروتينات، والبروتيوميات، وتحليل الصور، وتصميم الأدوية [50، 51]. يمكن العثور على استخدام خاص للمعلوماتية الحيوية في مجال الطب الوقائي، الذي يركز بشكل أساسي على تحسين التدابير لتجنب، وإدارة، وعلاج الأمراض المعدية الخطيرة [52]. الهدف الأساسي من المعلوماتية الحيوية هو تعزيز فهم العمليات البيولوجية. هناك العديد من
تطبيقات المعلوماتية الحيوية بما في ذلك تسجيل واسترجاع البيانات في العلاج الجيني، والتقييم البيومتري لإدارة المحاصيل، ومكافحة الآفات، والبحث التطوري، واكتشاف الأدوية، والانتفاع الميكروبي [52].

2.3 استخدام التعلم العميق في المعلوماتية الحيوية

الهدف الأساسي من معلومات الرعاية الصحية هو تقديم علاجات أفضل وتعزيز جودة الحياة للأفراد من خلال تحليل البيانات البيولوجية بشكل فعال، والتي تشمل السجلات الصحية الإلكترونية [53]. في الماضي، كان من المعتاد الاعتماد على خبراء المجال لتطوير نماذج للرعاية الصحية أو الطب الحيوي، ولكن التقدم الأخير في خوارزميات التعلم العميق قد مكن من التعلم التلقائي للتمثيلات والأنماط من هذه البيانات لتحسين النماذج. تشمل تقنيات التعلم العميق عدة مستويات من التمثيل، حيث يتعلم النظام في كل مرحلة تمثيلات تجريدية أعلى. معالجة اللغة الطبيعية، ورؤية الكمبيوتر، والتعرف على الصوت، وتحليل الفيديو، ومعلومات الصحة، ومعالجة الصور هي من بين المجالات التي حققت فيها خوارزميات التعلم العميق أداءً جيدًا. تشمل النماذج الحسابية القوية أساليب التعلم العميق مثل الشبكات العصبية التلافيفية، والشبكات العصبية، والمشفّرات الذاتية، والشبكات التوليدية العميقة. لقد أظهرت هذه التقنيات نجاحًا كبيرًا في التعامل مع كميات كبيرة من المعلومات عبر مجموعة واسعة من التطبيقات بسبب قدرتها على استخراج ميزات كامنة معقدة وتعلم تمثيلات فعالة في بيئة غير مراقبة [54]. إليك عدة استخدامات لأساليب التعلم العميق في أنظمة المعلوماتية الحيوية الطبية:

2.3.1 اكتشاف الإنزيمات باستخدام الشبكات العصبية متعددة الطبقات

يشير اكتشاف الإنزيمات باستخدام الشبكات العصبية متعددة الطبقات إلى استخدام خوارزميات التعلم العميق للتعرف تلقائيًا على الإنزيمات في البيانات الكيميائية الحيوية. الإنزيمات هي بروتينات تحفز التفاعلات الكيميائية في الكائنات الحية. يعد اكتشاف وتحديد الإنزيمات أمرًا حيويًا في العديد من مجالات المعلوماتية الحيوية والطب الحيوي، مثل اكتشاف الأدوية وتحليل مسارات الأيض. تقليديًا، كانت هذه المهمة تتطلب خبرة المتخصصين في المجال لتحديد الإنزيمات يدويًا [55]. مع تقدم خوارزميات التعلم العميق، أصبح من الممكن الآن تدريب الشبكات العصبية متعددة الطبقات للتعرف على الأنماط في بيانات الإنزيمات وتصنيفها تلقائيًا. الشبكات العصبية متعددة الطبقات هي نوع من الذكاء الاصطناعي يتكون من عدة طبقات من العقد المترابطة التي تعالج بيانات الإدخال لتوليد توقعات المخرجات. يمكن لهذه الشبكات أن تتعلم تمثيل العلاقات المعقدة بين ميزات الإدخال وفئات المخرجات، مما يجعلها فعالة في اكتشاف الإنزيمات. يناقش البحث طرقًا مختلفة لتطبيق الشبكات العصبية متعددة الطبقات لاكتشاف الإنزيمات، بما في ذلك استخدام الشبكات العصبية التلافيفية
والشبكات العصبية المتكررة. يمكن تدريب هذه الشبكات على مجموعات بيانات كبيرة من بيانات الإنزيمات، ويمكن استخدام النماذج الناتجة لاكتشاف وتصنيف الإنزيمات تلقائيًا في بيانات جديدة [56].

2.3.2 انحدار التعبير الجيني

يشير انحدار التعبير الجيني إلى استخدام خوارزميات التعلم العميق للتنبؤ بمستوى التعبير لجين بناءً على عوامل مختلفة، مثل الظروف البيئية، والطفرات الجينية، أو العمليات الجزيئية الأخرى. الهدف هو بناء نموذج يمكنه التنبؤ بدقة بمستوى التعبير الجيني في سياق معين، مما يمكن الباحثين من فهم الآليات البيولوجية الأساسية وتطوير علاجات جديدة للأمراض [57]. يتم تدريب نماذج التعلم العميق، مثل الشبكات العصبية التلافيفية أو الشبكات العصبية المتكررة، على مجموعات بيانات كبيرة من بيانات التعبير الجيني، جنبًا إلى جنب مع ميزات ذات صلة أخرى. تتعلم هذه النماذج التعرف على الأنماط والارتباطات بين مستويات التعبير والعوامل المختلفة التي تؤثر عليها، مما يسمح لها بإجراء توقعات دقيقة. يحتوي انحدار التعبير الجيني على العديد من التطبيقات في المعلوماتية الحيوية والمعلوماتية الطبية، بما في ذلك التنبؤ باستجابات الأدوية، وتحديد العلامات الحيوية للأمراض، وفهم آليات الاضطرابات الجينية [58].

2.3.3 الشبكات العصبية التلافيفية تتنبأ بنقاط ربط RNA-بروتين

في علم المعلوماتية الحيوية، يعد التنبؤ بمواقع ارتباط RNA والبروتينات مهمة مهمة حيث يمكن أن يساعد في فهم تنظيم الجينات، وتشخيص الأمراض، واكتشاف الأدوية. إحدى الطرق لهذه المهمة هي استخدام الشبكات العصبية التلافيفية (CNN) [59]، وهي نوع من نماذج التعلم العميق مصممة لتعلم الميزات المكانية من بيانات الإدخال. في سياق التنبؤ بمواقع ارتباط RNA والبروتينات، يمكن تدريب الشبكات العصبية التلافيفية على بيانات التسلسل لتحديد الأنماط والميزات التي تشير إلى مواقع تفاعل RNA والبروتينات [60]. الإدخال إلى الشبكة العصبية التلافيفية هو تسلسل من النيوكليوتيدات، والمخرج هو درجة احتمال تشير إلى احتمال ارتباط RNA والبروتين في كل موضع في التسلسل. تعمل الشبكة العصبية التلافيفية عن طريق تطبيق مجموعة من المرشحات على تسلسل الإدخال، حيث يبحث كل مرشح عن نمط أو ميزة معينة في التسلسل. ثم يتم تمرير مخرج المرشح عبر دالة تنشيط غير خطية لتوليد خريطة ميزات. يتم استخدام مرشحات متعددة بالتوازي لتعلم ميزات مختلفة من تسلسل الإدخال. ثم يتم تجميع خرائط الميزات لتقليل أبعاد البيانات ولتجميع الميزات الأكثر بروزًا. ثم يتم تمرير الميزات الناتجة عبر طبقات متصلة بالكامل واحدة أو أكثر لإجراء التنبؤ النهائي. بشكل عام، أظهر استخدام الشبكات العصبية التلافيفية في التنبؤ بمواقع ارتباط RNA والبروتينات نتائج واعدة ولديه القدرة على المساهمة في تطوير علاجات وتشخيصات جديدة لمجموعة متنوعة من الأمراض [61].

2.3.4 توقع أداء تسلسل DNA باستخدام RNN و CNN

يشير توقع أداء تسلسل DNA باستخدام RNN و CNN إلى استخدام الشبكات العصبية المتكررة (RNN) والشبكات العصبية التلافيفية (CNN) في التنبؤ بأداء تسلسلات DNA. تم تصميم الشبكات العصبية المتكررة لمعالجة البيانات التسلسلية من خلال الحفاظ على ذاكرة للمدخلات السابقة، بينما تعتبر الشبكات العصبية التلافيفية نوعًا من الشبكات العصبية التي يمكن أن تتعلم وتحدد الأنماط المكانية في البيانات. في سياق تسلسلات DNA، يمكن استخدام RNN و CNN للتنبؤ بأداء تسلسل معين بناءً على هيكله وخصائصه [62]. على سبيل المثال، يمكن تدريب RNN على مجموعة من تسلسلات DNA ومستويات أدائها المقابلة، ثم استخدامها للتنبؤ بأداء تسلسلات جديدة غير مرئية. وبالمثل، يمكن تدريب CNN لتحديد الأنماط المكانية في تسلسلات DNA المرتبطة بالأداء العالي أو المنخفض. من خلال دمج نقاط القوة لكل من RNN و CNN، يمكن للباحثين تطوير نماذج أكثر دقة وفعالية للتنبؤ بأداء تسلسلات DNA. يمكن أن يكون لهذا آثار مهمة في مجالات مثل الهندسة الوراثية والتكنولوجيا الحيوية، حيث تعتبر القدرة على التنبؤ بدقة بأداء تسلسلات DNA أمرًا حاسمًا لتطوير علاجات وعلاجات جديدة [63].

2.3.5 تصنيف الصور الطبية باستخدام ResNet والتعلم الانتقالي

في مجال تحليل الصور الطبية، واحدة من التحديات هي تصنيف الصور الطبية الحيوية بدقة مثل الأشعة السينية، ومسحات التصوير بالرنين المغناطيسي، ومسحات التصوير المقطعي، والتي تتطلب خبرة أطباء الأشعة المدربين. مع ظهور التعلم العميق، تم استخدام الشبكات العصبية التلافيفية على نطاق واسع لتصنيف الصور الطبية تلقائيًا. واحدة من أكثر هياكل الشبكات العصبية التلافيفية نجاحًا هي الشبكة المتبقية (ResNet)، المعروفة بقدرتها على تدريب الشبكات العميقة ذات الطبقات العديدة. التعلم الانتقالي هو تقنية تستخدم نماذج مدربة مسبقًا على مجموعات بيانات كبيرة لحل مهام مشابهة على مجموعات بيانات أصغر. في تصنيف الصور الطبية الحيوية، يمكن استخدام التعلم الانتقالي للاستفادة من نماذج ResNet المدربة مسبقًا على مجموعات بيانات كبيرة مثل ImageNet لتحسين أداء تصنيف الصور الطبية. يتم استخدام نموذج ResNet المدرب مسبقًا كمستخرج ميزات لتطبيق التعلم الانتقالي مع ResNet في تصنيف الصور الطبية الحيوية [64]. يتم استبدال الطبقات القليلة الأخيرة من نموذج ResNet، المسؤولة عن التصنيف النهائي، بطبقات جديدة تم تدريبها على مجموعة البيانات الطبية الحيوية. تتعلم الطبقات الجديدة الميزات المحددة للصور الطبية الحيوية وتحسن دقة التصنيف. تم استخدام هذا النهج في مهام تصنيف الصور الطبية الحيوية المختلفة، مثل اكتشاف سرطان الثدي، وتقسيم أورام الدماغ، واكتشاف العقيدات الرئوية، وأظهر نتائج واعدة في تحسين
دقة التصنيف مقارنة بخوارزميات التعلم الآلي التقليدية [65].

2.3.6 تضمين الرسوم البيانية باستخدام GCN لتوقع تفاعل البروتين

تتفاعل البروتينات مع بعضها البعض بطرق معقدة لأداء وظائف بيولوجية حيوية. يعد التنبؤ بتفاعلات البروتينات الجديدة أمرًا مهمًا لفهم العمليات الخلوية وتطوير أدوية جديدة. الشبكات العصبية التلافيفية الرسومية (GCNs) هي نوع من خوارزميات التعلم العميق التي يمكن أن تتعلم تمثيل وتحليل بيانات الشبكة المعقدة، مثل شبكات تفاعل البروتينات. في هذا السياق، يمكن استخدام GCNs لأداء تضمين الرسوم البيانية، وهو عملية تحويل العقد والحواف في الرسم البياني إلى فضاء متجه منخفض الأبعاد مع الحفاظ على المعلومات الهيكلية للرسم البياني. من خلال استخدام GCNs لتعلم تضمينات البروتينات وتفاعلاتها في الشبكة، يمكن للباحثين التقاط الأنماط والعلاقات الأساسية التي يصعب اكتشافها باستخدام الطرق التقليدية [66]. يتضمن النهج القائم على GCN لتوقع تفاعلات البروتينات تدريب نموذج على تمثيل رسومي للتفاعلات المعروفة، حيث تمثل العقد البروتينات وتمثل الحواف تفاعلاتها. ثم يتعلم النموذج التنبؤ بما إذا كان هناك تفاعل جديد بين بروتينين بناءً على متجهات التضمين الخاصة بهما. واحدة من مزايا هذا النهج هي أنه يمكن أن يتضمن ميزات إضافية، مثل معلومات تسلسل البروتين وبنيته، لتحسين دقة التنبؤات. يمكن أيضًا استخدام تقنيات التعلم الانتقالي لتحسين أداء النموذج من خلال الاستفادة من التضمينات المدربة مسبقًا من المهام ذات الصلة. بشكل عام، أظهر استخدام GCNs لتضمين الرسوم البيانية وتوقع تفاعلات البروتينات نتائج واعدة ولديه القدرة على المساهمة في تطوير أدوية وعلاجات جديدة [67].

2.3.7 تحسين دقة الصور باستخدام GAN في علم الأحياء

تحسين دقة الصور باستخدام GAN في علم الأحياء هو تقنية تعلم عميق تستخدم لتعزيز دقة الصور البيولوجية مثل الصور المجهرية أو الصور الطبية. تتكون GANs من شبكتين عصبيتين: شبكة مولدة وشبكة مميزة. تقوم الشبكة المولدة بإنشاء صورة عالية الدقة من صورة منخفضة الدقة، بينما تحدد الشبكة المميزة ما إذا كانت الصورة المولدة حقيقية أم لا. في تحسين دقة الصور باستخدام GAN، تأخذ الشبكة المولدة صورة منخفضة الدقة كمدخل وتولد صورة عالية الدقة تشبه الصورة الأصلية عالية الدقة. تقوم الشبكة المميزة بتقييم التشابه بين الصور المولدة والأصلية. يتم تدريب الشبكة المولدة لإنشاء صور تخدع الشبكة المميزة لتعتقد أنها صور عالية الدقة حقيقية.
تستمر هذه العملية التدريبية حتى تنتج الشبكة المولدة صورًا عالية الجودة لا يمكن تمييزها عن الصور الحقيقية عالية الدقة. لتحسين دقة الصور باستخدام GAN في علم الأحياء العديد من التطبيقات، مثل تعزيز دقة الصور المجهرية لتحسين دقة تحليل الصور وتحسين دقة الصور الطبية للمساعدة في التشخيص والعلاج [68].

2.3.8 التشفير التلقائي المتغير لتوليد البيانات البيولوجية عالية الأبعاد وتضمينها

VAE هو اختصار لـ Variational Autoencoder، وهو نوع من النماذج التوليدية العميقة المستخدمة في التعلم الآلي. يُستخدم عادةً في تحليل البيانات عالية الأبعاد وتعلم التمثيل. في سياق المعلوماتية الحيوية والمعلوماتية الطبية، يمكن استخدام VAE لتضمين البيانات البيولوجية والنمذجة التوليدية. في VAE، يتم ترميز بيانات الإدخال أولاً إلى مساحة ذات أبعاد أقل، تُسمى الفضاء الكامن، والتي تلتقط الميزات الأساسية لبيانات الإدخال. ثم يتم تدريب نموذج توليدي لربط الفضاء الكامن مرة أخرى إلى مساحة البيانات الأصلية، مما يسمح بتوليد عينات بيانات جديدة. VAE هو نموذج احتمالي، مما يعني أنه يمكن استخدامه أيضًا لملء البيانات والكشف عن الشذوذ. يتمتع VAE بعدة مزايا على النماذج التوليدية الأخرى، مثل قدرته على التعامل مع البيانات المفقودة وقدرته على تعلم تمثيل سلس ومستمر للفضاء الكامن لبيانات الإدخال. إنه مفيد بشكل خاص في تحليل البيانات البيولوجية عالية الأبعاد، حيث يكون عدد الميزات كبيرًا جدًا، وغالبًا ما تكون البيانات ضوضائية وغير مكتملة. باختصار، VAE هو أداة قوية في التعلم العميق والتعلم الآلي لتضمين البيانات البيولوجية عالية الأبعاد والنمذجة التوليدية. له مجموعة واسعة من التطبيقات في المعلوماتية الحيوية والمعلوماتية الطبية، مثل ملء البيانات، والكشف عن الشذوذ، واكتشاف الأدوية [69]. في القسم التالي، نتعمق في بعض الأوراق الاستقصائية ذات الصلة التي تحقق في هذا المجال.

3 مراجعات ذات صلة

ناقشنا الخلفية والأفكار ذات الصلة بعمق في القسم السابق. في هذا القسم، نقدم بعض الأعمال المهمة ذات الصلة في هذا المجال. في هذا الصدد، اقترح لي، هوانغ [19] مراجعة شاملة للتطورات الأخيرة في تقنيات التعلم العميق للمعلوماتية الحيوية. ناقشوا أهمية البيانات الضخمة في المعلوماتية الحيوية وإمكانية تقنيات التعلم العميق لتحليل وإجراء التنبؤات بناءً على هذه البيانات. قدمت الورقة نظرة عامة على تطبيقات التعلم العميق في مجالات مختلفة من المعلوماتية الحيوية، بما في ذلك تحليل التعبير الجيني، وتوقع بنية البروتين، واكتشاف الأدوية، وتشخيص الأمراض.
علاوة على ذلك، قدم ريزيندي، كزافييه [70] دراسة مقارنة لخوارزميات التعلم الآلي الهرمية لتصنيف قواعد البيانات البيولوجية. قاموا بتقييم أداء أربعة خوارزميات مختلفة، وهي الغابة العشوائية، وNaïve Bayes، وشجرة القرار، وجار الأقرب، من حيث دقتها، ودقتها، واسترجاعها، ودرجة F1. كما قارنوا أداء هذه الخوارزميات مع خوارزمية تعلم آلي غير هرمية كخط أساس. أيضًا، لتلبية نقص الإرشادات لتصنيف البيانات الهرمية، قدم يي، يو [71] نظرة عامة على التقدمات الأخيرة في تعلم تمثيل الرسوم البيانية للمعلوماتية الحيوية. ناقشوا الأهمية المتزايدة للبيانات المستندة إلى الرسوم البيانية في المعلوماتية الحيوية وكيف يمكن استخدام تعلم تمثيل الرسوم البيانية لاستخراج ميزات ومعرفة قيمة من هذه البيانات. استعرضوا نماذج تعلم تمثيل الرسوم البيانية المختلفة ومزاياها وقيودها في تطبيقات المعلوماتية الحيوية.
بالإضافة إلى ذلك، قدم شارما [72] مراجعة متعمقة لتطبيقات تحليل التجمع في المعلوماتية الحيوية. ناقشوا الأهمية المتزايدة لتحليل التجمع في مجالات مختلفة من المعلوماتية الحيوية، بما في ذلك تحليل التعبير الجيني، وتوقع بنية البروتين، وتشخيص الأمراض. قدموا نظرة شاملة على الأنواع المختلفة من خوارزميات التجميع، بما في ذلك التجميع الهرمي، والتجميع القائم على التقسيم، والتجميع القائم على الكثافة، والتجميع القائم على النموذج، ومزاياها وقيودها في تطبيقات المعلوماتية الحيوية. أيضًا، قدم سيرا، غالدي [73] نظرة عامة على التطورات الأخيرة في تقنيات التعلم الآلي للمعلوماتية الحيوية والتصوير العصبي. ناقشوا الأهمية المتزايدة للبيانات الضخمة في هذه المجالات وكيف يمكن استخدام تقنيات التعلم الآلي لتحليل وإجراء التنبؤات بناءً على هذه البيانات. قدمت ورقتهم مراجعة شاملة لتطبيقات التعلم الآلي في مجالات مختلفة، بما في ذلك تحليل التعبير الجيني، وتوقع بنية البروتين، واكتشاف الأدوية، وتحليل تصوير الدماغ. ومع ذلك.
لهذا السبب، هناك حاجة إلى مقالة مراجعة جديدة حول التعلم العميق في المعلوماتية الحيوية والطبية حيث قدمت الدراسات السابقة نظرة عامة واسعة على تطبيقات التعلم العميق في مجالات أخرى ولكنها لم تستكشف تمامًا إمكانيات التعلم العميق في معالجة القضايا التي تواجه هذا القطاع. كما فتحت التطورات الأخيرة في خوارزميات التعلم العميق إمكانيات جديدة لتعزيز دقة وفعالية التشخيص والعلاج الطبي. نعتزم التأكيد على المجالات التي تتطلب مزيدًا من التحقيق وتقديم توجيه للعمل المستقبلي في هذا المجال من خلال تقديم تحليل شامل لأحدث التطورات في التعلم العميق وتطبيقاته في المعلوماتية الحيوية، وعلم الأحياء الجزيئي، والرعاية الصحية، وعلم الجينوم. بالإضافة إلى ذلك، نشجع على استخدام التعلم العميق في المجال الطبي، مما يعزز نتائج المرضى ويعزز الطب الدقيق. تحتوي الجدول 1 على ملخص للأعمال ذات الصلة.

4 منهجية البحث

لفهم تطبيق التعلم الآلي في المعلوماتية الحيوية والطبية بوضوح، يتم استخدام آلية SLR في هذا الجزء، وهي مسح ودراسة مهمة لجميع الأبحاث في مجال محدد. يتم تطبيق هذا التقييم لتلبية فحص مفصل لتطبيق آلية التعلم العميق واستكشاف صلاحية استراتيجية اختيار الدراسة. تتناول الأقسام الفرعية التالية عملية التحقيق، بما في ذلك أسئلة البحث ومعايير اختيار الأوراق.

4.1 صياغة السؤال

الأهداف الرئيسية لهذا البحث هي مراجعة وتصنيف واكتشاف وتحليل العديد من الأوراق ذات الصلة التي تم استكشافها في تطبيقات التعلم الآلي في المعلوماتية الحيوية والطبية. لتحقيق الأهداف المذكورة، يمكن دراسة الجوانب وخصائص الآليات بشكل صحيح من خلال تطبيق SLR. هدف آخر من SLR هو تحديد الموضوعات الرئيسية والصعوبات التي يتناولها هذا القسم. الموضوعات التالية هي أسئلة بحث قصيرة (RQs) تم تطويرها:
  • RQ 1: كيف يمكن تصنيف أساليب التعلم العميق في المعلوماتية الحيوية والطبية في الرعاية الصحية الطبية؟ ما هي بعض أمثلتها؟
يتم الإجابة على هذا السؤال في القسم 5.
  • RQ 2: ما هي الأعمال الرائدة الأكثر أهمية؟ ما هي فوائدها وعيوبها؟ ما الميزات التي تمتلكها؟
تقدم الأقسام 5.1 إلى 5.7 إجابات على هذا السؤال.
  • RQ 3: ما هي التطبيقات والتقنيات والمعايير والعوامل الأخرى الأكثر استخدامًا في المعلوماتية الحيوية والطبية؟
يتم تناول هذا في الجزء 6.
  • RQ 4: ما هي الحلول المحتملة الرئيسية والقضايا غير المحلولة في هذا المجال؟
ستراجع الجزء 5 الإجابات على هذا الموضوع، بينما ستراجع الجزء 7 القضايا المتبقية.

4.2 إجراء استكشاف الأوراق

تشمل هذه التحقيق عملية من أربع مراحل لاستكشاف واختيار الأوراق، كما هو موضح في الشكل 1. يعرض الجدول 2 المصطلحات والكلمات الرئيسية المستخدمة لاستكشاف المقالات في المرحلة الأولى، والتي تم اكتشافها من خلال البحث في قواعد البيانات الإلكترونية التقليدية مثل Google Scholar وScopus وACM وSpringer Link وElsevier وEmerald insight وTaylor and Francis وIEEE Explore وMDPI وWiley وDOAJ، بالإضافة إلى الأوراق والفصول والمجلات والكتب وأوراق المؤتمرات والملاحظات والقضايا الخاصة، و
الجدول 1 ملخص للأعمال ذات الصلة
المؤلفون الفكرة الرئيسية الميزة العيب
لي، هوانغ [19] تقديم كل من التعريف الخارجي للتعلم العميق ودمج الأمثلة والتنفيذات لاستخداماته التمثيلية في المعلوماتية الحيوية مقدمة سهلة الفهم للطرق معالجة القضايا من خلال تقديم أمثلة عملية تم تجاهل بعض المعلمات المهمة للمقارنة بين الطرق
ريزيندي، كزافييه [70] اقتراح دراسة لتعلم تمثيل الرسوم البيانية في المعلوماتية الحيوية، بالإضافة إلى تحديد وتقييم التقنيات تقديم مسح شامل ومنظم جيدًا لآليات تضمين الرسوم البيانية مقارنة ضعيفة بين الطرق
يي، يو [71] مقارنة عملية “المحلي لكل مستوى” و”المحلي لكل عقدة” المستخدمة في مجموعتين هيراركية مختلفتين: CATH وBioLip تقديم مكتبات حسابية لمساعدة المجتمع في عملية اتخاذ القرار لتخطيط البيانات الهرمية تفاصيل الطرق تم تجاهلها
شارما [72] دمج نتائج متنوعة لتأسيس مجموعات دون الاعتماد على المعايير المستخدمة لتقييم البيانات مقارنة تخطيطية منظمة جيدًا بين الآليات تحليل ضعيف للنهج المقترحة
سيرا، غالدي [73] مناقشة تطبيقات التعلم الآلي في المعلوماتية الحيوية وتصوير الأعصاب لحل القضايا ذات الصلة ذكر عدة أمثلة لتوضيح تطبيق التعلم الآلي في المعلوماتية الحيوية تجاهل بعض التحديات مثل تفسير نتائج التعلم العميق
عملنا تقديم تصنيف جديد لطرق التعلم العميق/التعلم الآلي في الطب والمعلوماتية الحيوية مناقشة شاملة لمختلف الدراسات التي تستخدم آليات التعلم العميق في الطب والمعلوماتية الحيوية عدم توفر الأوراق غير الإنجليزية
الدراسات الفنية. أسفرت المرحلة الأولى عن 790 مقالًا، حيث يوضح الشكل 2 توزيع المقالات حسب الناشر. في المرحلة الثانية، تم استخدام مرحلتين لتحديد العدد الإجمالي للمقالات التي سيتم التحقيق فيها. أولاً، تم استخدام المعايير المعنية في الشكل 3، مما أسفر عن بقاء 467 مقالًا. يوضح الشكل 4 تشتت المقالات حسب الناشر، بينما يوضح الشكل 5 المرحلة الأولى.
تم استغلال أوراق الاستطلاع في المرحلة الثالثة، من بين 211 ورقة متبقية في المرحلة السابقة. تم نشر معظم المقالات المستخدمة بواسطة إلسفير (38.5٪). في هذه المرحلة، كانت هناك 46 ورقة متبقية. تم دراسة الملخص والاستنتاج للأوراق في المرحلة الرابعة. وبالتالي، تم اختيار 25 مقالة تلبي متطلبات المعايير الدقيقة لتستخدم وتفحص. في الخطوة الثالثة، تعرض الشكل 6 توزيع المقالات المختارة حسب ناشريها في المرحلة الثانية. يوضح الشكل 7 المجلات التي تنشر الأوراق في المرحلة الثالثة. تشير الجدول 3 إلى مواصفات الأوراق المختارة.

5 طرق تعلم عميق في مجال المعلوماتية الحيوية والطبية

يتناول هذا الجزء آليات التعلم الآلي للكشف وتقييم المعلومات الحيوية والطبية والمواقف ذات الصلة. تم التحقيق في 25 مقالة في هذا الجزء، جميعها استوفت متطلبات معايير الاختيار. في البداية، تم تقسيم الطرق إلى 5 فئات رئيسية: الشبكات العصبية التلافيفية (CNNs)، الشبكات العصبية المتكررة (RNNs)، الشبكات التنافسية التوليدية (GANs)، الشبكات العصبية متعددة الطبقات (MLPs)، والطرق الهجينة، التي تدمج الآليات. تعرض الشكل 8 التصنيف المقترح لطرق التعلم الآلي/التعلم العميق للمعلومات الحيوية والطبية.

5.1 أساليب الشبكات العصبية التلافيفية في المعلوماتية الحيوية والطبية

تعتبر الشبكات العصبية التلافيفية (CNN) نهجًا أساسيًا في التعلم العميق تم استخدامه في جميع مجالات الطب تقريبًا، وهي واحدة من الطرق المفيدة للباحثين. التقنية هي
الشكل 1 مراحل عملية البحث واختيار المقالات
الجدول 2 الكلمات الرئيسية ومعايير البحث
S# الكلمات الرئيسية ومعايير البحث S# الكلمات الرئيسية ومعايير البحث
س1 التعلم العميق” و “المشاكل الطبية S6 الذكاء الاصطناعي” و “الرعاية الصحية
S2 التعلم الآلي” و “المعلوماتية الحيوية S7 الرعاية الصحية” و “إنترنت الأشياء
S3 التعلم العميق” و “المعلوماتية الحيوية S8 طرق التعلم العميق” و “إنترنت الأشياء الطبية
S4 نظام قائم على إنترنت الأشياء” و “المعلوماتية الحيوية اس9 طرق التعلم الآلي” و “إنترنت الأشياء الطبية
S5 الذكاء الاصطناعي” و “المعلوماتية الطبية S10 طرق الذكاء الاصطناعي” و “إنترنت الأشياء الطبية
الشكل 2 مراحل البحث عن الورق واختيارها
الشكل 3 معايير اختيار الورقة
يتم استخدامه بشكل شائع لتحديد صور الرنين المغناطيسي والأشعة المقطعية، والخلفيات ذات الصلة، كما تم مناقشته في الجزء الثاني. في هذا الصدد، قدم ليو، شو [74] نظام صحة الأسنان الذكي – إنترنت الأشياء قائم على الأجهزة الذكية، والتعلم العميق،
و terminal متنقل لتقييم إمكانياته في الرعاية الصحية السنية المنزلية. علاوة على ذلك، يتم تطوير وترقية معدات الأسنان المتطورة لتشغيل الحصول على صور الأسنان. استنادًا إلى مجموعة بيانات تتكون من 12,600 صورة سريرية تم جمعها بواسطة الجهاز المقدم من 10 عيادات أسنان خاصة، تم تحسين نموذج الكشف التلقائي المدرب بواسطة MASK R-CNN لتحديد وتصنيف 7 أمراض سنية مختلفة، بما في ذلك الأسنان المتدهورة، مرض اللثة، الفلورايد، واللويحات السنية، بدقة كشف تصل إلى وحساسية وخصوصية عالية. بعد تقييم لمدة شهر في عشرة عيادات مقارنة بالشهر السابق، عندما لا يتم استخدام المنصة، ينخفض متوسط وقت الكشف لكل مريض بـ ، مما يدل على تحسن في المرضى المعالجين.
كما قدم نيمات زاده وكياني [75] نهجًا قائمًا على الميتاهيرستيك لتحسين المعلمات الفائقة لخوارزميات التعلم الآلي والشبكات العصبية العميقة في تطبيقات المعلوماتية الحيوية. ناقشوا التحديات المتعلقة باختيار المعلمات الفائقة المناسبة وقيود الطرق الحالية. واقترحوا نهجًا قائمًا على الميتاهيرستيك يتضمن استخدام خوارزميات تحسين مختلفة للبحث في فضاء المعلمات الفائقة وتحديد الأمثل.
الشكل 4 توزيع ناشري الأوراق
الشكل 5 توزيع الأوراق من حيث الناشرين في الخطوة الأولى من اختيار الأوراق
الشكل 6 توزيع الأوراق من حيث الناشرين في الخطوة الثانية من الأوراق المختارة
تركيبة من المعلمات الفائقة التي تؤدي إلى أفضل أداء.
وبالمثل، قام تشين ووانغ [25] بتقييم nhKcr على مجموعة بيانات مرجعية وقارنا أدائه بأربعة أدوات متقدمة لتوقع مواقع الكروتونيل. لقد اختبروا أداء nhKcr على مجموعة بيانات تُستخدم عادةً لتقييم دقة أدوات توقع مواقع الكروتونيل. كما قارنوا أداء
الشكل 7 توزيع الأوراق من حيث الناشرين في الخطوة الثالثة من اختيار الأوراق
nhKcr لأربعة أدوات توقع أخرى تعتبر حالياً الأكثر دقة. أظهرت النتائج أن nhKcr تفوقت على المتنبئين الآخرين من حيث دقة التوقع ووقت التنفيذ. أظهرت نتائجهم إمكانيات الطرق المعتمدة على التعلم العميق في توقع التعديلات بعد الترجمة على البروتينات غير الهيستونية.
الجدول 3 مواصفات الأوراق المختارة
مؤلف ناشر مجلة استشهاد ق بلد سنة مؤشر H
1 ليو، شو [74] IEEE مجلة المعلوماتية الحيوية والصحية ٥٤ الربع الأول الصين 2019 ١٣٧
2 نيمات زاده، كياني [75] إلسفير علم الأحياء الحاسوبي والكيمياء ١٣ الربع الثاني تركيا ٢٠٢٢ 61
٣ تشن، وانغ [25] مطبعة جامعة أكسفورد التقارير في المعلوماتية الحيوية 14 الربع الأول الصين ٢٠٢١ 121
٤ كومار وشارما [76] المجلة العالمية لتطبيق علم البيانات وإنترنت الأشياء روسيا ٢٠٢١
٥ جيا، تشين [77] فرونتيرز ميديا إس. إيه الحدود في علم الوراثة ٤ الربع الأول الصين ٢٠٢١ 93
٦ باستورينو وبيسواس [78] المؤتمر الدولي الثالث عشر لجمعية الحوسبة الآلية حول الأنظمة الهجينة: الحوسبة والتحكم الولايات المتحدة الأمريكية 2022 14
٧ أول، رحمن [79] مطبعة جامعة أكسفورد إحاطات في المعلوماتية الحيوية ٣٨ الربع الأول أستراليا ٢٠٢١ 121
٨ لان، أنت [80] فرونتيرز ميديا إس. إيه الحدود في علم الوراثة ٣٨ الربع الأول الصين 2021 121
9 هان، رندو [81] طرق الذكاء الحسابي في بيرغامو لعلم المعلومات الحيوية والإحصاء الحيوي 76 إيطاليا ٢٠٢١
10 بالوج، بنسزيك [82] بيوميد سنترال المحدودة بي إم سي للمعلوماتية الحيوية ٥ الربع الثاني جائع 2022 218
11 جيانسانتي، كاستيلي [83] مؤتمر العلوم والهندسة الحاسوبية الدولي ٣ إيطاليا 2019
12 ليو، تشين [84] بيوميد سنترال المحدودة بي إم سي للمعلوماتية الحيوية 97 الربع الثاني الصين 2017 218
١٣ العبد، برومبرغ [85] بيوميد سنترال المحدودة بي إم سي للمعلوماتية الحيوية 37 الربع الثاني ألمانيا ٢٠٢٠ 218
14 ليو وقونغ [86] بيوميد سنترال المحدودة بي إم سي للمعلوماتية الحيوية ٢٤ الربع الثاني الصين 2019 218
15 وانغ، زينغ [87] IEEE المؤتمر الدولي IEEE للمعلوماتية الحيوية والطب الحيوي 161 الصين 2017
16 تشاو، شاو [88] إلسفير الجينوميات، البروتيوميات والمعلوماتية الحيوية الربع الأول الولايات المتحدة الأمريكية ٢٠٢١ ٥٦
17 سوري، غفور [89] سبرينغر الحوسبة اللينة ٥٤ الربع الثاني إيران ٢٠٢٠ 90
١٨ دورازيو، موردوكّا [90] طبيعة التقارير العلمية الربع الأول إيطاليا ٢٠٢٢ 242
19 كريم، بيان [91] مطبعة جامعة أكسفورد التقارير في المعلوماتية الحيوية ١٠١ الربع الأول المملكة المتحدة ٢٠٢١ 121
20 أيدين [92] المكتبة العامة للعلوم بيولوجيا الحوسبة في PLoS ٣ الربع الأول تركيا ٢٠٢٠ 191
21 محمد شاكيل، باسكار [93] سبرينغر مجلة نظم الطب ٢١٤ الربع الأول ماليزيا 2018 89
٢٢ هوانغ، شيا [94] إلسفير مجلة المعلوماتية الحيوية 188 الربع الأول الصين 2019 ١١٢
23 وانغ، جيانغ [95] إلسفير مجلة المعلوماتية الحيوية 2 الربع الأول الولايات المتحدة الأمريكية 2021 ١١٢
٢٤ تسوي، زو [96] إلسفير مجلة المعلوماتية الحيوية ٥ الربع الأول الولايات المتحدة الأمريكية ٢٠٢١ ١١٢
٢٥ شاهد، نساجبور [30] إلسفير مجلة المعلوماتية الحيوية ٤٤ الربع الأول الولايات المتحدة الأمريكية ٢٠٢١ ١١٢
كما أوضح كومار وشارما [76] كفاءة وموثوقية تقنية الفحص غير التلامسي لمرضى COVID-19، والتي يمكن أن تساعد في الكفاءة من حيث التكلفة والفحص المبكر وتشخيص حالات COVID. وقدما صورًا لأشعة صدر غرايد بالإضافة إلى
مناطق الاهتمام للمرضى الذين ثبتت إصابتهم بفيروس COVID-19، والالتهاب الرئوي البكتيري، والحالات الصحية. كما ناقشوا التحديات التي تواجه تطبيق التعلم العميق في المعلوماتية الحيوية، مثل الحاجة إلى مجموعات بيانات كبيرة، وقابلية التفسير، وجودة البيانات.
الشكل 8 التصنيف المقترح للمعلوماتية الحيوية
علاوة على ذلك، قدم جيا، تشين [77] نهجًا قائمًا على التعلم العميق والمعلوماتية الحيوية لتحديد حالات سرطان الثدي. استخدم المؤلفون مجموعة بيانات تتكون من 212 مريضًا بسرطان الثدي و212 شاهدًا صحيًا. تم تحليل بيانات النسخ الجيني لهذه العينات باستخدام أدوات المعلوماتية الحيوية لتحديد الجينات المعبر عنها بشكل مختلف (DEGs). ثم تم استخدام DEGs كمدخلات لخوارزمية التعلم العميق، التي تم تدريبها لتصنيف العينات على أنها سرطانية أو غير سرطانية. أفاد المؤلفون بدقة وخصوصية عالية في تصنيف العينات باستخدام هذا النهج. تشير الجدول 4 إلى التقنيات والخصائص والسمات لطرق المعلوماتية الحيوية القائمة على الشبكات العصبية التلافيفية.

5.2 أساليب GAN للمعلوماتية الحيوية والطبية

من الجدير بالذكر أن GAN هو الخوارزمية الأكثر استخدامًا في تصنيف الصور وتحديد الهوية. أصبحت الآن نهجًا معروفًا للاستخدام في الطب والرعاية الصحية، وهي واحدة من أكثر الاستراتيجيات جاذبية للباحثين. في هذا القسم، استعرضنا عدة نهج مختلفة في هذا المجال. على سبيل المثال، وصف باستورينو وبيسواس [78] دراسة تهدف إلى معالجة مخاوف خصوصية البيانات أثناء تصنيف صور الأشعة السينية للصدر لاكتشاف COVID-19. طور المؤلفون GAN شبه المراقب الذي يستخدم مجموعة صغيرة من البيانات المعلّمة ومجموعة كبيرة من البيانات غير المعلّمة لتعلم ميزات صور الأشعة السينية للصدر. لضمان خصوصية البيانات، قدم المؤلفون تقنية إخفاء البيانات لإزالة المعلومات الشخصية.
معلومات من الصور، والتي قد تؤدي إلى تحيز كفاية البيانات. قاموا بتقييم طريقتهم على مجموعة بيانات متاحة للجمهور ووجدوا أنها حققت أداءً قابلاً للمقارنة مع الطرق المتطورة مع الحفاظ على خصوصية البيانات.
كما ناقش أولو، رحمن [79] استخدام تقنيات المعلومات الحيوية وطرق التعلم الآلي لتحديد الأهداف المحتملة للأدوية والمسارات لعلاج COVID-19. باستخدام أدوات المعلومات الحيوية، قاموا بتحليل البيانات الجينومية والبروتينية لـ SARS-CoV-2 وتفاعله مع البروتينات البشرية. استخدموا خوارزميات التعلم الآلي للتنبؤ بالأهداف المحتملة للأدوية والمسارات التي يمكن استخدامها لعلاج COVID-19. أظهرت النتائج عدة أهداف محتملة للأدوية ومسارات، بما في ذلك مسارات الإينزيم المحول للأنجيوتنسين وإشارات الإنترفيرون.
أيضًا، لآن، لقد ناقشت استخدام GAN في المعلوماتية الحيوية. قدموا إطار عمل GAN وتطبيقاته في مجالات متنوعة مثل توليد الصور، وزيادة البيانات، وتشخيص الأمراض، واكتشاف الأدوية، وتحليل الصور الطبية. كانت طريقتهم قادرة على اكتشاف مرض الزهايمر (AD) في فحوصات T1 في مرحلة مبكرة جدًا مع منطقة تحت المنحنى تبلغ 0.727 ومرض الزهايمر في مرحلة متأخرة مع منطقة تحت المنحنى (AUC) تبلغ 0.894 وتشخيص النقائل الدماغية في فحوصات T1c مع AUC 0.921.
بالإضافة إلى ذلك، اقترح هان وروندو [81] نموذجًا غير خاضع للإشراف لاكتشاف الشذوذ الطبي يسمى MADGAN، والذي يعتمد على بنية GAN. يمكن لـ MADGAN إعادة بناء شرائح متعددة متجاورة من تصوير الدماغ بالرنين المغناطيسي من شريحة واحدة وتوليد صور دماغ واقعية. يمكن للطريقة المقترحة اكتشاف المناطق الشاذة في الدماغ من خلال مقارنة الشرائح المعاد بناؤها مع الشرائح الأصلية. قام المؤلفون بتقييم أداء MADGAN على مجموعتين من بيانات تصوير الدماغ بالرنين المغناطيسي العامة وقارنوها بعدة طرق متطورة. أظهرت النتائج أن MADGAN تفوق على الطرق الأخرى من حيث دقة اكتشاف الشذوذ وكفاءة الحساب، مما يبرز إمكانيات MADGAN في مهام اكتشاف الشذوذ الطبي.
بالإضافة إلى ذلك، اقترح بالوغ وبينسزيك [82] نموذج GAN يسمى TopoGAN للتنبؤ الفعال بالروابط في شبكة التفاعل بين البروتينات (PPI). استخدم النموذج المعلومات الطوبولوجية للعقد وجيرانها لتوليد عقد جديدة، والتي تم استخدامها بعد ذلك للتنبؤ بالروابط المفقودة في الشبكة. تم تقييم النموذج المقترح على خمسة مجموعات بيانات PPI مرجعية وحقق أداءً متفوقًا مقارنةً بالطرق الحديثة. كما أظهر TopoGAN قدرته على تحديد تفاعلات جديدة بين البروتينات، والتي تم التحقق منها لاحقًا من خلال التجارب. أظهرت النتائج فعالية النهج المقترح في التنبؤ بتفاعلات البروتينات ويمكن أن تكون مفيدة في اكتشاف الأدوية وتشخيص الأمراض. تشير الجدول 5 إلى التقنيات والخصائص والسمات لطرق GAN-informatics.
الجدول 4 تقنيات وخصائص وسمات طرق المعلوماتية الحيوية المعتمدة على الشبكات العصبية التلافيفية
مؤلف الفكرة الرئيسية ميزة عيب طريقة بيئة المحاكاة مجموعة بيانات
ليو، شو [74] اقتراح نظام ذكي لصحة الأسنان يعتمد على الأجهزة الذكية، والتعلم العميق، مما يتيح استكشاف الجدوى دقة عالية حساسية عالية سبتيكية عالية زمن استجابة منخفض
إنذار كاذب مرتفع
تصميم الأجهزة السيء
مجموعة بيانات الصور الصغيرة
سي إن إن تينسورفلو 10 عيادات أسنان خاصة
نيمات زاده، كياني [75] تقديم استراتيجية لتحسين التعامل مع المعلمات الفائقة لخوارزميات التعلم الآلي
أداء سريع
تقارب سريع
قابلية التوسع الضعيفة
ضعف التكيف
سي إن إن C# 11 مجموعة بيانات في فئات بيولوجية وطبيعية وطبية حيوية متنوعة
تشن، وانغ [25] استخدام CNNrgb كنموذج حسابي قائم على التعلم العميق لتوقع مواقع nhKcr على البروتينات غير الهيستونية كفاءة حسابية عالية مرونة ضعيفة سي إن إن بايثون خادم على الإنترنت يسمى nhKcr
كومار وشارما [76] استخدام تقنية الشبكات العصبية التلافيفية لتشخيص COVID-19
قوة المتانة
دقة عالية
فقير بشكل مستقل سي إن إن بايثون أشعة الصدر للمرضى المصابين بكوفيد والمرضى غير المصابين بكوفيد
جيا، تشين [77] استخدام بيانات التعبير الجيني من الأومنيبوس وملفات التعبير الجيني من أطلس جينوم السرطان للتمييز بين مرضى سرطان الثدي والأفراد الأصحاء
دقة عالية
نقاط F عالية
حساسية عالية
خصوصية عالية
مرونة ضعيفة سي إن إن ر 1109 مريض سرطان و113 حالة طبيعية

5.3 أساليب الشبكات العصبية المتكررة للمعلومات الحيوية والطبية

تقنية الشبكات العصبية المتكررة (RNN)، التي كانت عملية جداً في الطب والرعاية الصحية، هي واحدة من أكثر التقنيات شعبية للباحثين. كما ذُكر سابقاً، فهي التقنية الأكثر تقليدية المستخدمة في التنبؤ والتوقع، حيث نتعمق في خمسة أساليب لهذه التقنية في هذا الجزء. في هذا السياق، قارن جيانسانتي وكاستيلي [83] أداء نهجين مختلفين من التعلم الآلي – التعلم العميق (DL) والتعلم الآلي التقليدي – لمهمة توقع تفاعلات miRNA-الهدف. استخدم المؤلفون مجموعتين مختلفتين من البيانات، واحدة تحتوي على تفاعلات miRNA-الهدف التي تم التحقق منها تجريبياً والأخرى تحتوي على تفاعلات متوقعة من عدة خوارزميات. ثم قاموا بتدريب وتقييم عدة نماذج على هذه المجموعات، بما في ذلك شبكة عصبية عميقة (DNN)، وغابة عشوائية، وآلة دعم المتجهات، ونموذج الانحدار اللوجستي. أظهرت نتائجهم أن نماذج التعلم العميق تفوقت على نماذج التعلم الآلي التقليدي من حيث الدقة ومقياس المساحة تحت المنحنى (AUC).
علاوة على ذلك، اقترح ليو، تشين [84] إطار عمل لشبكة عصبية متكررة (RNN) وفقًا لتضمين الكلمات وتمثيل الحروف. في العبارات التي تناسب العمل والتي يمكن بناؤها بواسطة الفرق ثنائي الاتجاه ووحدات الذاكرة طويلة وقصيرة المدى (LSTM)، استخدم المؤلفون طبقة حقل عشوائي شرطي (CRF) وبيانات سياقية من كل من الاعتماديات طويلة المدى والاتجاهات. شبكتهم العصبية
يمكن استخدام نموذج الشبكة لتصنيف الكيانات المسماة بدون الحاجة إلى هندسة ميزات بشرية. استنادًا إلى نتائجهم التجريبية، يمكن استخدام تمثيل الكلمات المدرب مسبقًا الخاص بالنطاق وتمثيل المستوى الحرفي لإنشاء وظيفة نهج LSTM-RNN.
حسناً، أو العبد، شرح برومبرغ [85] أن تسلسلات الأحماض الأمينية يمكن تمثيلها باستخدام نظام ترميز واحد حار، حيث يتم تمثيل كل حمض أميني بواسطة متجه من القيم الثنائية، مع “1” في الموضع الذي يتوافق مع الحمض الأميني و”0″ في أماكن أخرى. وقد أظهروا أن هذا النظام من الترميز يتفوق على الترميز الواحد الحار من حيث الدقة والقدرة على التعميم في مهام مختلفة، بما في ذلك تصنيف البروتينات وتوقع ارتباط البروتينات بالليغاند. كما قدمت ورقتهم وصفًا تفصيليًا لتطوير واختبار نظام الترميز المقترح، بما في ذلك تقييم خوارزميات التعلم العميق المختلفة والمعلمات الفائقة. وخلصوا إلى أن نظام الترميز الخاص بهم لديه القدرة على تحسين دقة وكفاءة تطبيقات التعلم العميق في مجال المعلوماتية الحيوية.
علاوة على ذلك، اقترح ليو وغونغ [86] نموذج LSTM معزز يتضمن اتصالات متبقية وآليات انتباه لتحسين دقة التوقعات. وقد أظهروا فعالية نموذجهم باستخدام مجموعة بيانات من أزواج بقايا تفاعل البروتينات وقارنوا نتائجهم بأساليب أخرى شائعة الاستخدام. وخلصوا إلى أن نموذجهم تفوق على الأساليب الأخرى من حيث الدقة والحساب.
الجدول 5 تقنيات وخصائص وسمات طرق GAN-المعلوماتية الحيوية
المؤلف الفكرة الرئيسية الميزة العيب الطريقة بيئة المحاكاة مجموعة البيانات
باستورينو وبيسواس [78] تقديم GAN شبه مشرف مع بيانات معتمة لتطوير عملية التصنيف
AUC مرتفع
استقرار عالٍ
دقة عالية
تعقيد عالٍ GAN بايثون 1000 دورة من نموذج SGAN
أوول، رحمن [79] تقديم طريقة توزيع بيتا-ثنائي لرسم الإمكانية المناعية للببتيد
دقة عالية
صلابة قوية
مرونة ضعيفة
قابلية توسيع ضعيفة
GAN بايثون 9000 اختبارًا لمجموعة جزيئية مناعية
لان، يو [80] استخدام طريقة قائمة على GAN لاستعادة قسم التصوير بالرنين المغناطيسي للدماغ المجاور
دقة عالية
موثوقية عالية
إعادة وتعرف عام ضعيف GAN تينسور فلو شرائح MRP المحورية للدماغ T1
هان، رندو [81] تطوير برنامج يقوم بتشغيل أداة توقع الارتباط لتوقع PPI باستخدام التعلم الآلي
دقة عالية
دقة عالية
قابلية توسيع ضعيفة GAN بايثون شبكة PPI من قاعدة بيانات STRING
بالوغ، بنسزيك [82] تصميم GAN شبه مشرف مع بيانات معتمة لتحسين عملية التصنيف
دقة عالية
توفر عالٍ
مرونة ضعيفة GAN بايثون مجموعة بيانات ChIP-seq وDNase-seq
الكفاءة، مما يجعلها أداة واعدة للبحث المستقبلي في تفاعلات البروتينات. بعد ذلك، استخدم المؤلفون ذلك لتوقع تداخل تفاعل البروتينات مع أزواج البقايا وحصلوا على دقة مناسبة تقارب .
بالإضافة إلى ذلك، طور وانغ وزينغ [87] نموذجًا قائمًا على CNN، MusiteDeep، الذي يأخذ تسلسلات الأحماض الأمينية كمدخلات ويتوقع مواقع الفسفرة بدقة عالية. اختبروا نموذجهم على كل من مواقع الفسفرة العامة ومواقع الفسفرة المحددة للكيناز وقارنوها بأساليب أخرى شائعة الاستخدام. وجدوا أن نموذجهم تفوق على الأساليب الأخرى من حيث دقة التوقع والكمون. قدمت ورقتهم أداة قيمة لتوقع مواقع الفسفرة في البروتينات ويمكن أن تساهم في تطوير علاجات جديدة للأمراض المتعلقة بفسفرة البروتين. مقارنة بأساليب أخرى شائعة على بيانات المعايير، حقق أكثر من تطور نسبي في المنطقة تحت منحنى الدقة-الاسترجاع في توقع مواقع الفسفرة العامة ويحصل على نتائج تنافسية في التوقع المحدد للكيناز. يشير الجدول 6 إلى التقنيات والخصائص وسمات طرق RNN-المعلوماتية.

5.4 طرق MLP للمعلوماتية الحيوية والطبية

تم تحديد MLP كآلية تعلم آلي مستخدمة على نطاق واسع وفعالة تم استخدامها مؤخرًا للكشف عن التصنيف بناءً على بيانات جينومية عالية الأبعاد. في هذا الصدد، قام تشاو وشاو [88] بتقييم أداء نماذج مختلفة، بما في ذلك أشجار القرار والانحدار اللوجستي والشبكات العصبية، من حيث دقة التوقع وقابلية التفسير. وجدوا أن نماذج التعلم الآلي القابلة للتفسير، مثل أشجار القرار والانحدار اللوجستي، قدمت قابلية تفسير أفضل من النماذج الأكثر تعقيدًا مثل الشبكات العصبية مع الحفاظ على دقة توقع مماثلة. كما اقترحوا طريقة تحسين لتحسين أداء نماذج التعلم الآلي القابلة للتفسير.
بنفس السياق، تم اقتراح نموذج مراقبة صحية قائم على إنترنت الأشياء من قبل سوري وغفور [89] للتحكم في العلامات الحيوية وتحديد التغيرات البيولوجية والسلوكية للمتعلمين من خلال تقنيات رعاية الطلاب الذكية. اقترحوا نظامًا يجمع البيانات من الأجهزة القابلة للارتداء، مثل الساعات الذكية، وطبقوا خوارزميات التعلم الآلي لتحليل البيانات وتشخيص حالة صحة الطلاب. استخدموا مجموعة بيانات تم جمعها من تجارب العالم الحقيقي لتقييم أداء نظامهم
الجدول 6 التقنيات والخصائص وسمات طرق RNN-المعلوماتية
المؤلف الفكرة الرئيسية الميزة العيب الطريقة بيئة المحاكاة مجموعة البيانات
جيانسانتي، كاستيلي [83] تدريب خمسة نماذج من مجالات التعلم الآلي والتعلم العميق لفحص احتمال اكتشاف تفاعلات miRNA-mRNA
كفاءة زمنية
دقة عالية
توفر ضعيف RNN بايثون TargetScan miRanda RNAhybrid
ليو، تشين [84] اقتراح إطار عمل RNN قائم على التضمين وتمثيل الأحرف
دقة عالية
نقاط F عالية
مرونة ضعيفة RNN C++ BioCreative GM
العبد، برومبرغ [85] استخدام نماذج DL متعددة لإظهار أن التعلم من النهاية إلى النهاية قابل للمقارنة مع الترميز مرونة عالية
بيانات تدريب محدودة
توفر ضعيف
RNN تينسور فلو تفاعل PeptideHLA II
ليو وغونغ [86] اقتراح LSTM معزز بالانتباه مع نموذج متبقي لمعالجة مشاكل تفاعل البروتينات دقة عالية قابلية التكيف ضعيفة RNN بايثون 1H9D
وانغ وزينغ [87] تقديم إطار عمل DL لتوقع مواقع الفسفرة العامة والمحددة للكيناز دقة عالية قابلية تفسير ضعيفة RNN بايثون NetPhos3.1
وقارنه بأساليب أخرى شائعة الاستخدام. أظهرت النتائج أن نظامهم حقق دقة عالية في تشخيص الحالات الصحية، وتفوق على الأساليب الأخرى من حيث الكفاءة والتكلفة.
علاوة على ذلك، قدم د’أورازيو، موردوككا [90] منصة MLP لدراسة الفينوميات لاستجابة خلايا السرطان للعلاج، باستخدام وتوليف إمكانية الميكروسكوب الزمني للحصول على بيانات سلوك الخلايا وتحقيق نماذج برمجية قوية للتعلم العميق لاستخراج الأنماط الخفية. استخدموا مزيجًا من التعلم العميق والميكروسكوب الزمني لمراقبة نمو واستجابة خلايا السرطان للأدوية بمرور الوقت. جمعوا مجموعة بيانات كبيرة من صور الميكروسكوب الزمني واستخدموا نماذج التعلم العميق لتحديد وتتبع الخلايا، واستخراج الميزات، وتوقع استجابة الأدوية. قاموا بتقييم أداء نهج MLP الخاص بهم وقارنوها بأساليب أخرى شائعة الاستخدام. أظهرت النتائج أن نهج MLP حقق دقة عالية في توقع استجابة الأدوية وتفوق على الأساليب الأخرى من حيث الحساسية والخصوصية.
بالإضافة إلى ذلك، اختار كريم، بيان [91] جينات السرطان لتصنيف السرطان بدقة بسبب الجينات المنبعثة من المصفوفة الدقيقة التي تحتوي على الكثير من الضوضاء. سعى إلى العثور على العديد من الخصائص والمصنفات باستخدام ثلاث مجموعات بيانات معيارية لتقييم وظائف آليات اختيار الخصائص ومصنفات التعلم الآلي بشكل منهجي. كما قاموا بتوليف المصنفات لتطوير وظيفة التصنيف. أظهرت النتائج المختبرة أن التجميع مع بعض المصنفات الأساسية يولد أفضل معدل تعرف على مجموعة البيانات المعيارية.
أيضًا، قام AYDIN [92] بتدريب ومقارنة ستة هياكل تعلم آلي، تسمى RF، بايز الساذج (NB)، LR، الجار الأقرب (KNN)، MLP، وSVM، لاكتشاف
تستخدم T4SEs عشرة أنواع من الخصائص المختارة وخمس مرات من التحقق المتقاطع. وفقًا لنتائجهم: (1) الخصائص المختلفة ولكن التكميلية عمومًا تزيد من وظيفة التنبؤ لـ T4SEs، (2) تقنية التصويت بالأغلبية أدت إلى وظيفة تصنيف أكثر اتساقًا ودقة أثناء التنبؤ بهيكل التعلم الجماعي مع ميزات فردية مخصصة حصرية. (3) تظهر الطرق الجماعية، التي تم الحصول عليها من خلال دمج طرق الخصائص الفردية الحصرية، وظيفة تنبؤية متطورة بشكل خاص. تشير الجدول 7 إلى التقنيات والخصائص وخصائص طرق MLP-informatics.

5.5 الأساليب الهجينة للمعلوماتية الحيوية والطبية

تعتبر الطرق الهجينة واحدة من أكثر الطرق تعقيدًا المستخدمة في مجال الطب والمعلوماتية الحيوية. تحتوي هذه التقنيات على طريقتين أو أكثر للتعامل مع الصعوبات. في هذه الدراسة، قمنا بتعريف الطرق التي تم تقييمها والتي تم إنشاؤها من خلال تطبيق المنهجيات. إنها طريقة تُستخدم تقليديًا في مجال متنوع ذي صلة بهذا الموضوع. في هذا الصدد، ذكر محمد شاكيل، باسكار [93] أن الأساليب الحالية للحفاظ على الأمان والخصوصية في أنظمة الرعاية الصحية غالبًا ما تكون غير كافية بسبب عوامل مثل التعقيد، والأخطاء البشرية، والتطور المستمر للتهديدات الجديدة. كانت الطريقة المقترحة DQN تهدف إلى معالجة هذه القضايا من خلال توفير نظام أمان أكثر أتمتة وتكيفًا. تضمنت طريقتهم استخدام DQNs لتعلم السياسات المثلى لاتخاذ القرار في سيناريوهات الرعاية الصحية المختلفة. قدم المؤلفون نتائج تجريبية تظهر
الجدول 7 تقنيات وخصائص وسمات طرق المعلوماتية الحيوية القائمة على الشبكات العصبية متعددة الطبقات
مؤلف الفكرة الرئيسية ميزة عيب طريقة بيئة المحاكاة مجموعة بيانات
تشاو، شاو [88] اقتراح مجموعة من أساليب التحسين لكل تفسير على معمارية MLP و CNN دقة عالية قابلية التوسع الضعيفة MLP بايتورتش 19,241 جين
سوري، غفور [89] اقتراح نمط مراقبة قائم على إنترنت الأشياء لتنظيم علامات الحياة للطلاب بشكل مستمر
دقة عالية
دقة عالية
نقاط F عالية
استرجاع عالي
ضعف التكيف MLP تينسورفلو 1100 طالب
دوارازيو، موردوكّا [90] اقتراح بأن منصة MLP متاحة لدراسات الفينوميات حول كيفية استجابة خلايا السرطان للعلاج
عالي الإنتاجية
التوافر العالي
دقة عالية
ضعف التكيف MLP ماتلاب ريسنت101
كريم، بيان [91] اختيار الجينات المرتبطة بالسرطان لتصنيف السرطان دقة عالية قابلية التوسع الضعيفة MLP بايتورتش 400 صورة
أيدين [92] تدريب ستة نماذج تعلم آلي للكشف عن T4SEs
دقة عالية
فعال من حيث الوقت
ضعف التكيف MLP تينسورفلو PSI-BLAST HHblits
فعالية النهج المقترح في تحديد وتخفيف التهديدات في أنظمة الرعاية الصحية. قدمت ورقتهم تطبيقًا مثيرًا لتقنيات التعلم العميق والتعلم المعزز لمعالجة مخاوف الأمان والخصوصية في أنظمة الرعاية الصحية.
بالإضافة إلى ذلك، ناقش هوانغ وشيا [94] نهج التعلم الآلي الفيدرالي للتنبؤ بمدة الإقامة في المستشفى والوفيات باستخدام السجلات الطبية الإلكترونية الموزعة من مستشفيات متعددة. الطريقة المقترحة لتجميع المرضى تجمع المرضى المتشابهين بناءً على تاريخهم الطبي والتشخيصات، ثم تقوم بتدريب نموذج تعلم آلي محلي لكل مجموعة. يتم تجميع هذه النماذج لإنشاء نموذج عالمي يمكنه إجراء التنبؤات للمرضى عبر جميع المستشفيات. تم اختبار نهجهم على مجموعة بيانات كبيرة من مستشفيات متعددة ومقارنته بنماذج تعلم آلي أخرى. أظهرت النتائج أن تجميع المرضى يحسن من كفاءة ودقة نهج التعلم الآلي الفيدرالي، مما يؤدي إلى تحسين التنبؤات بمدة الإقامة في المستشفى والوفيات.
كما اقترح وانغ، جيانغ [95] طريقة للتحقق بكفاءة من نتائج دراسات الارتباط على مستوى الجينوم (GWAS) التي يتم تفويضها إلى خادم سحابي تابع لجهة خارجية للحساب. تستخدم الطريقة المقترحة إثباتات المعرفة الصفرية (ZKP) لضمان سلامة وسرية الحساب المفوض. على وجه التحديد، قدموا نظام ZKP جديد يسمى “إثبات المعرفة الصفرية للنطاق والمجموع”، والذي يسمح بالتحقق بكفاءة من صحة الحساب دون الكشف عن أي معلومات حساسة.
المعلومات. كما قدموا تحليلًا نظريًا للمخطط المقترح وأظهروا فعاليته من خلال التجارب باستخدام مجموعات بيانات GWAS الحقيقية. قد تكون طريقتهم مفيدة لضمان موثوقية وأمان حسابات GWAS المعتمدة على الخارج، والتي أصبحت شائعة بشكل متزايد في البحث الطبي الحيوي.
علاوة على ذلك، اقترح كوي وزو [96] إطار عمل للتعلم الفيدرالي يسمى السجل الطبي الإلكتروني الفيدرالي مع التهجين العشوائي المجهول (FeARH) لتحليل بيانات الرعاية الصحية مع الحفاظ على الخصوصية. تم تصميم إطار عملهم لحماية البيانات الحساسة للرعاية الصحية للمرضى مع السماح للنموذج بالتعلم من السجلات الطبية الإلكترونية الموزعة عبر مؤسسات متعددة. دمج FeARH ثلاث تقنيات للحفاظ على الخصوصية: الخصوصية التفاضلية، التهجين العشوائي، والتعلم الفيدرالي. حافظت آلية الخصوصية التفاضلية على خصوصية السجلات الفردية من خلال إضافة ضوضاء عشوائية إلى البيانات. يسمح التهجين العشوائي بدمج البيانات من مصادر مختلفة بشكل عشوائي دون كشف البيانات الأصلية. أظهرت النتائج أن FeARH تحقق دقة تنبؤ عالية مع الحفاظ على خصوصية بيانات المرضى.
بالإضافة إلى ذلك، قام شاهيد ونساجبور [30] بتحليل التقدمات الأخيرة في أبحاث التعلم الآلي الموجهة لمكافحة COVID-19. وأبرز المؤلفون الدور الحاسم الذي لعبته تقنيات التعلم الآلي في مواجهة التحديات المختلفة التي فرضتها الجائحة، بما في ذلك اكتشاف الفيروس، ومنع انتشاره، والمساعدة الطبية. ناقشت ورقتهم مختلف
النهج التي تم استخدامها لمعالجة هذه التحديات، مثل تطوير نماذج تنبؤية لانتشار المرض وشدته، وتحديد عوامل الخطر المرتبطة بالمرض، وتطوير طرق لتحليل الصور والبيانات الطبية. تشير الجدول 8 إلى التقنيات والخصائص والسمات لطرق معلومات MLP.
بعد تقييم دراسات مختلفة أجريت في طرق التعلم العميق للمعلومات الحيوية والطبية، في القسم التالي، سنقوم بتحليل نتائج تحقيقنا وتقييم الدراسات المقترحة لرسم تقييم منظم جيدًا.

6 النتائج والمقارنات

في القسم السابق، قمنا بدراسة تقنيات التعلم العميق/التعلم الآلي في مجال المعلوماتية الحيوية والطبية بشكل متعمق. في هذا الجزء، نستعرض النتائج بتفصيل كبير وننظر إلى الأساليب من عدة زوايا. تحدد هذه الدراسة تطبيقات مبتكرة متنوعة تظهر هذه التقنية. إن تعزيز المعرفة في مجالات مثل توقع بنية البروتين، وتصنيف الصور، واسترجاع البيانات يمثل تحديًا. نحن نفترض أن تقليل المعلومات إلى موترات الإدخال والمهام إلى تنويعات التدريب يوفر أساسًا منظمًا يمكن أن يعزز العديد من مؤشرات التقدم في التعلم الآلي من خلال الأطر. كان أحد الأهداف الرئيسية لهذه الدراسة هو تحفيز القراء على ممارسة السيطرة على كيفية إدخال البيانات في نماذج التعلم الآلي وتعزيز مشاكل التدريب. من حيث التعلم، ركزنا بشكل أساسي على ما تم ذكره أعلاه.
الفئات. بالإضافة إلى ذلك، نحث الباحثين على التعمق أكثر في هذه المواضيع. أظهر تقييمنا للاستطلاع أن معظم الأبحاث الطبية والبيوانفورماتية تركزت على مزيج مختار من مهام التعلم أو تحسين بروتوكولات التوصيف ومجموعات البيانات الجديدة. لقد حظيت تقنيات التعلم الآلي بشعبية كبيرة وقبول، خاصةً لتطبيقها مع طرق الشبكات العصبية التلافيفية، التي أظهرت نتائج ممتازة. ومع ذلك، هناك بعض القيود التي تعيق تحقيق نفس مستوى الفعالية في التطبيقات الطبية والبيوانفورماتية. بشكل عام، لا يزال البحث في هذا المجال مستمراً. واحدة من أبرز القضايا هي ندرة مجموعات البيانات الكبيرة التي تحتوي على أنماط عالية الجودة لأغراض التدريب. في مثل هذه الحالات، قد يكون دمج البيانات قابلاً للتطبيق لجمع المعلومات من مصادر متعددة. ومن الجدير بالذكر أنه مع زيادة حجم البيانات، تزداد الحاجة إلى مجموعات بيانات أكبر لضمان أن ينتج التعلم الآلي نتائج موثوقة.

6.1 تحليل النتائج

في مجال تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، تكشف تحليل الأوراق البحثية المختلفة عن نتائج مثيرة للاهتمام، كما هو موضح في الأشكال 9 و10 و11. الشكل 9 يقدم خريطة جغرافية تعرض الدول المشاركة في الأوراق البحثية المدروسة. ومن الجدير بالذكر أن الصين تظهر كأكثر المساهمين بروزًا في هذا المجال. وهذا يشير إلى أن الصين كانت نشطة في أنشطة البحث والتطوير المتعلقة بتطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. يمكن أن يُعزى ذلك إلى عوامل مثل
الجدول 8 التقنيات والخصائص والسمات لأساليب المعلوماتية الحيوية الهجينة
المؤلف الفكرة الرئيسية الميزة العيب الطريقة بيئة المحاكاة مجموعة البيانات
محمد شاكيل، باسكار [93] تطبيق شبكة عصبية عميقة لتطوير فعالية نظام بيانات الصحة المعتمد على إنترنت الأشياء
أدنى معدل خطأ
معدل اكتشاف مرتفع
مرونة ضعيفة شبكة عصبية عميقة N2 محركات معيار ISO/IEC/JTC1/SC 31
هوانغ، شيا [94] اقتراح نظام اتحادي قائم على المجتمع لتصنيف البيانات الموزعة
خصوصية عالية
أمان عالي
قابلية التكيف ضعيفة تعلم الآلة بايثون السجلات الطبية الإلكترونية من 50 مستشفى
وانغ، جيانغ [95] اقتراح خوارزميتين لتوفير SNPs اصطناعية دقة عالية قابلية التكيف ضعيفة تعلم عميق НарМар 89 موضوعًا و83,354 SNPs
تسوي، زو [96] تقديم آلية للتدريب في حالة عدم وجود محلل مركزي موثوق دقة عالية قابلية التعديل ضعيفة تعلم الآلة بايثون 30,760 بيانات مرضى
شاهيد، نسا جپور [30] اقتراح إطار لحماية البيانات الطبية من التهديدات الخارجية
موثوقية عالية
دقة عالية
قابلية التعديل ضعيفة تعلم الآلة بايثون
تركيز الصين على التقدم التكنولوجي، والاستثمارات الكبيرة في البحث والتطوير، والتعاون بين المؤسسات الأكاديمية والصناعات. الانتقال إلى الشكل 10 يوضح توزيع بيئات المحاكاة المستخدمة في الأساليب المعتمدة على التعلم العميق في مجالات الطب والمعلوماتية الحيوية. بايثون، لغة البرمجة المعتمدة على نطاق واسع، تظهر بشكل بارز، إلى جانب مكتبتها الشهيرة TensorFlow، التي تُستخدم على نطاق واسع لتنفيذ نماذج التعلم العميق. يمكن أن يُعزى شعبية بايثون إلى تعدد استخداماته، وبساطته، والمكتبات والأطر الواسعة المتاحة للتعلم العميق والحوسبة العلمية. تنبع شعبية TensorFlow من أدواته وموارده القوية لتنفيذ نماذج التعلم العميق بكفاءة. من ناحية أخرى، فإن الانخفاض النسبي في اعتماد N2 كما هو موضح في الشكل يشير إلى استخدامه المحدود، ربما بسبب عوامل مثل توفر الموارد أو مشكلات التوافق. أخيرًا، الشكل 11 يعرض تكرار الأساليب المطبقة لمعالجة القضايا الطبية والمعلوماتية الحيوية باستخدام التعلم العميق. تحظى الشبكات العصبية التلافيفية، والشبكات العصبية المتكررة، والشبكات التوليدية المعادية بأكبر قدر من الاهتمام في هذا المجال. تتفوق الشبكات العصبية التلافيفية في المهام المعتمدة على الصور، والشبكات العصبية المتكررة مناسبة لمعالجة البيانات المتسلسلة والزمنية، والشبكات التوليدية المعادية واعدة في توليد بيانات طبية اصطناعية واكتشاف الشذوذ. تشير شعبية هذه الأساليب إلى فعاليتها في مواجهة التحديات المختلفة في مجالات الطب والمعلوماتية الحيوية. تسلط هذه النتائج الضوء بشكل جماعي على مساهمات الدول المختلفة، وبيئات المحاكاة البارزة المستخدمة، والأساليب المعتمدة على التعلم العميق المستخدمة بشكل متكرر في سياق تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. توفر رؤى قيمة حول الاتجاهات الحالية، والتفضيلات، والتقدم في هذا المجال، والتي يمكن أن توجه جهود البحث والتطوير المستقبلية. لوحظ أن جزءًا كبيرًا
من الدراسات قدمت الوصول إلى الشيفرات المصدرية، بشكل رئيسي في MATLAB وPython، لتسهيل إعادة الإنتاج والتجريب الإضافي. كانت MATLAB خيارًا شائعًا، خاصة في الدراسات التي تركز على معالجة الإشارات وتحليل الصور، نظرًا لأدواتها الواسعة المخصصة لهذه المجالات. على العكس من ذلك، كانت بايثون بارزة في الأبحاث التي دمجت أطر تعلم الآلة مثل TensorFlow وKeras، مما يتماشى مع الاتجاه الأوسع في مجتمع تعلم الآلة. من الجدير بالذكر أن العديد من الأوراق التي تمت مراجعتها تضمنت مقتطفات من الشيفرات وجعلت تنفيذاتها الكاملة متاحة على المستودعات العامة، مما يعزز البحث التعاوني ونشر المعرفة في هذا المجال متعدد التخصصات. لعبت هذه التوافر للشيفرات دورًا محوريًا في تعزيز قابلية تطبيق منهجيات التعلم العميق وإمكانية الوصول إليها في سياق المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء.
أصبح استخدام تقنيات التعلم العميق في المعلوماتية الحيوية والصحية شائعًا بشكل متزايد. أحد الأمثلة هو تطوير منصة ذكية لصحة الأسنان تعتمد على إنترنت الأشياء تعتمد على الأجهزة الذكية، والتعلم العميق، ومحطة متنقلة. يمكن للمنصة مراقبة مؤشرات صحة الفم مثل درجة الحرارة، ودرجة الحموضة، والرطوبة، واستخدام خوارزميات التعلم العميق لاكتشاف الأمراض السنية مبكرًا. بالإضافة إلى ذلك، استكشفت دراسات أخرى استخدام الأساليب الميتاهيراركية لتحسين المعلمات الفائقة في خوارزميات تعلم الآلة والشبكات العصبية العميقة لتطبيقات المعلوماتية الحيوية. يمكن أن يحسن هذا النهج أداء هذه الخوارزميات ويؤدي في النهاية إلى توقعات وتحليلات أكثر دقة. علاوة على ذلك، كانت هناك جهود لتطبيق تقنيات التعلم العميق في أبحاث المعلوماتية الحيوية، مثل تحديد حالات سرطان الثدي وتطوير أدوات معلوماتية حيوية جديدة للتنبؤ بمواقع الكروتونيل على البروتينات غير الهيستونية البشرية. تظهر هذه الدراسات
الشكل 9 الخريطة الجغرافية للدول المساهمة في المقالات المدروسة
الشكل 10 توزيع بيئات المحاكاة المختلفة المستخدمة في الأساليب المعتمدة على التعلم العميق في الطب والمعلوماتية الحيوية
الشكل 11 تكرار الأساليب المطبقة في القضايا الطبية والمعلوماتية الحيوية
إمكانات التعلم العميق في أبحاث المعلوماتية الحيوية والصحية وتسلط الضوء على أهمية استكشاف هذه التقنيات وتحسينها لمزيد من التطبيقات المستقبلية. في مجال تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، هناك تركيز ملحوظ على معلمة الدقة في الدراسات التي أجريت، كما هو موضح في الجدول 9. وهذا يشير إلى أن الباحثين يعطون الأولوية لتحقيق مستويات عالية من الدقة في نماذجهم. الدقة هي مقياس تقييم حاسم لأنها تقيس صحة التوقعات العامة للنموذج، مما يعكس قدرته على تصنيف وتحديد الأنماط داخل البيانات بشكل صحيح. ومع ذلك، من المهم ملاحظة أن الدقة، التي تمثل نسبة التوقعات الإيجابية الحقيقية بين جميع التوقعات الإيجابية، هي المعلمة التي تتلقى أقل قدر من الاهتمام في هذه المنشورات. الدقة هي مقياس حاسم، خاصة في التطبيقات الطبية والمعلوماتية الحيوية، حيث ترتبط مباشرة بتحديد الحالات الإيجابية الحقيقية بشكل صحيح مع تقليل الإيجابيات الكاذبة. يمكن أن يؤدي إهمال الدقة إلى تصنيفات خاطئة وتشخيصات غير صحيحة،
والتي يمكن أن يكون لها آثار كبيرة في بيئات الرعاية الصحية.
يمكن أن يكون أحد التفسيرات المحتملة للتركيز الأقل على الدقة هو التركيز الأساسي على تحقيق دقة عالية. قد يعطي الباحثون الأولوية للدقة العامة لأنها توفر تقييمًا شاملاً لأداء النموذج، مع الأخذ في الاعتبار الإيجابيات والسلبيات. ومع ذلك، فإن الدقة مهمة بنفس القدر في الرعاية الصحية والمعلوماتية الحيوية لتجنب الإيجابيات الكاذبة، والتي يمكن أن تؤدي إلى علاجات أو تدخلات غير ضرورية. ملاحظة أخرى هي أن الغالبية العظمى من المقالات في هذا المجال تميل إلى التركيز على معيار واحد فقط مع إهمال المعايير الأخرى. يمكن أن تعيق هذه القيود التقييم الشامل للنماذج وفعاليتها في السيناريوهات الواقعية. لفهم أعمق لأداء النموذج، من الضروري النظر في معلمات تقييم متعددة مثل الحساسية، والخصوصية، والاسترجاع، والدقة. من خلال النظر في مجموعة أوسع من مقاييس التقييم، يمكن للباحثين الحصول على منظور أكثر شمولية حول أداء النموذج.
الجدول 9 المعلمات المدروسة في الأوراق التي تم فحصها
النوع المؤلفون قابلية التوسع الدقة الدقة معدل F الحساسية الخصوصية الصلابة قابلية التكيف
شبكة عصبية تلافيفية ليو، شو [74]
نيمات زاده، كياني [75]
تشن، وانغ [25]
كومار وشيرما [76]
جيا، تشن [77]
شبكة عصبية متكررة باستورينو وبيسواس [78]
أولول، رحمن [79]
لان، يو [80]
هان، روند [81]
بالوغ، بنسزيك [82]
شبكة توليد عدائية جيانسانتي، كاستيلي [97]
ليو، تشن [98]
العبيد، برومبرغ [99]
ليو وغونغ [100]
وانغ، زينغ [87]
شبكة عصبية متعددة الطبقات تشاو، شاو [88]
سوري، غفور [89]
دورازيو، موردوككا [90]
كريم، بيان [91]
أيدين [92]
هجين محمد شاكيل، باسكار [101]
هوانغ، شيا [94]
وانغ، جيانغ [95]
تسوي، زهو [96]
شاهيد، نساجبور [30]
القوى والضعف، مما يمكنهم من اتخاذ قرارات مستنيرة بشأن قابليتها وفعاليتها في الإعدادات العملية. يتطلب معالجة مسألة إهمال بعض معايير التقييم من الباحثين أن يضعوا مزيدًا من التركيز على التقييم الشامل لنماذجهم. من خلال دمج معايير مستهدفة متعددة في دراساتهم، يمكن للباحثين تقديم تقييم أكثر شمولاً وقوة لأداء النموذج، مما يضمن أخذ جميع المعلمات ذات الصلة في الاعتبار. ستساهم هذه الطريقة في فهم أكثر دقة لقدرات النموذج وقيوده، مما يسهل في النهاية تطوير تطبيقات DL أكثر موثوقية وفعالية في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء.

6.2 استكشاف دمج ML في التطبيقات الطبية

كما هو موضح في القسم 5، أجريت دراسة للتحقيق في تأثير تحيز كفاية البيانات على GAN شبه المراقب لتصنيف الأشعة السينية لصدري COVID-19. وجدت الأوراق المدروسة أن تحيز كفاية البيانات يمكن أن يقلل من دقة التصنيف،
والذي يجب أخذه في الاعتبار عند تطوير نماذج GAN المدركة للخصوصية [102]. استخدموا نهج المعلوماتية الحيوية وML لتحديد أهداف وطرق الأدوية المحتملة لعلاج COVID-19. تم دمج نهج واحد لمجموعات بيانات متعددة من الأومكس لبناء شبكة جزيئية، والتي استخدمت لتحديد وحدات الجينات المهمة. أظهرت مراجعة شاملة لتطبيقات GAN في المعلوماتية الحيوية إمكانياتها في تحليل الصور الطبية واكتشاف الأدوية [103]. تفوق MADGAN المقترح في القسم 5 على طرق الكشف عن الشذوذ الأخرى ويمكن استخدامه للكشف المبكر عن الأمراض العصبية. تم تطوير نموذج فعال لتوقع الروابط لشبكات تفاعل البروتينات باستخدام معلومات طوبولوجية في إطار GAN. تفوق النموذج على طرق تحليل الشبكات التقليدية ويمكن استخدامه لتحديد أهداف الأدوية المحتملة للأمراض المرتبطة بتفاعلات البروتينات. تسلط هذه الدراسات الضوء على إمكانيات GAN وML في البحث الطبي، لا سيما في اكتشاف الأمراض، واكتشاف الأدوية، وتحليل شبكات تفاعل البروتينات [104].
استكشفت عدة دراسات استخدام DL والمعلوماتية الحيوية معًا. قارن النماذج المدروسة بين نهجي DL وML لتوقع أهداف miRNA. وُجد أن نهج DL كان أكثر دقة ووضوحًا من نهج ML. اقترحت ورقة دراسية أخرى LSTM للتعرف على الكيانات الطبية الحيوية، والتي تفوقت على خوارزميات ML التقليدية من حيث الدقة. ركزت دراسة أخرى على تطوير طريقة ترميز الأحماض الأمينية لتطبيقات DL في المعلوماتية الحيوية. حسنت الطريقة دقة التوقع لتصنيف تسلسل البروتين. استخدمت دراسة أخرى آلية انتباه معززة LSTM مع بنية متبقية لتوقع أزواج بقايا تفاعل البروتينات. حقق النموذج دقة عالية وتفوق على نماذج أخرى متطورة [105]. أخيرًا، تم اقتراح إطار DL يسمى MusiteDeep لتوقع مواقع الفسفرة. أدت النموذج بشكل جيد في مهام التوقع الخاصة بالكيناز وحققت دقة عالية. تظهر هذه الدراسات إمكانيات DL في تطبيقات المعلوماتية الحيوية المختلفة، بما في ذلك توقع أهداف miRNA، وتصنيف تسلسل البروتين، وتوقع تفاعل البروتينات، وتوقع مواقع الفسفرة. أظهرت استخدامات نهج DL في هذه المهام نتائج واعدة وقد تؤدي إلى تطوير أدوات أكثر دقة وكفاءة للمعلوماتية الحيوية [106].
استكشفت عدة دراسات دمج ML مع التطبيقات الطبية. قيمت إحدى الدراسات فعالية نماذج ML القابلة للتفسير لتحليل بيانات النسخ. أظهرت دراستنا أن هذه النماذج يمكن أن تحدد توقيعات جينية مهمة وتوفر رؤى قيمة حول آليات الأمراض. كما هو موضح في القسم 5، اقترحت دراسة أخرى نموذج مراقبة صحية قائم على ML لتشخيص حالة الطلاب في بيئة إنترنت الأشياء. استغل هذا النموذج مصادر بيانات متعددة لتعزيز دقة التشخيص وتقليل الإنذارات الكاذبة. في دراسة مختلفة، جمع نهج الفينوميات ML بين DL وميكروسكوبية الزمنية لمراقبة التعبير الجيني واستجابة الأدوية في خلايا أدينوكارسينوما القولون [107]. حقق النموذج دقة عالية في توقع استجابة الأدوية وقد يكون مفيدًا في فحص الأدوية. قدمت دراسة أخرى نهج تجميع قائم على DL للمعلوماتية الحيوية يمكنه التعامل بكفاءة مع مجموعات بيانات كبيرة ومعقدة. تفوقت النماذج على خوارزميات التجميع التقليدية ويمكن استخدامها في مهام معلوماتية حيوية متنوعة. قيمت دراسة أخرى أداء تطبيقات ML والمعلوماتية الحيوية على أنظمة الحوسبة عالية الأداء. أظهرت الدراسة أن هذه التطبيقات يمكن أن تتعامل بكفاءة مع مجموعات بيانات ضخمة ويمكن أن تستفيد من الحوسبة المتوازية. تظهر هذه الدراسات إمكانيات ML في التطبيقات الطبية والمعلوماتية الحيوية، لا سيما في مجالات مثل مراقبة الصحة، وفحص الأدوية، وتحليل بيانات النسخ. أظهرت نماذج ML نتائج واعدة
وقد تؤدي إلى تطوير أدوات أكثر دقة وكفاءة للتطبيقات الطبية والمعلوماتية الحيوية. يمكن أن تؤدي تقنيات DL ودمج مصادر بيانات متعددة في نماذج ML إلى توقعات أكثر دقة وتعزيز أداء هذه النماذج [108].
ركزت عدة دراسات على دمج المواضيع الطبية وDL لتحسين أنظمة الرعاية الصحية. استخدمت طريقة مقترحة الشبكات العميقة القائمة على التعلم للحفاظ على أمان وخصوصية أنظمة الرعاية الصحية. سعت دراسة أخرى إلى تحسين كفاءة ML الفيدرالية من خلال استخدام تجميع المرضى للتنبؤ بالوفيات ومدة الإقامة في المستشفى باستخدام السجلات الطبية الإلكترونية الموزعة. اقترح آخر طريقة تحقق فعالة لدراسات الارتباط الجينومي واسعة النطاق المستعارة. في تحقيق آخر، تم استخدام التهجين العشوائي المجهول مع ML الفيدرالية لتحسين خصوصية السجلات الطبية الإلكترونية [109]. زادت جائحة COVID-19 أيضًا من الاهتمام بأبحاث ML لاكتشاف الفيروس، ومنع انتشاره، والمساعدة الطبية. على الرغم من الفوائد المحتملة لخوارزميات ونماذج ML لأنظمة الرعاية الصحية، لا تزال المخاوف بشأن الخصوصية والأمان قائمة، ويتم تطوير نهج جديدة لمعالجة هذه القضايا. لاستغلال فوائد ML مع حماية بيانات المرضى الحساسة، تم استكشاف استخدام ML الفيدرالية. بشكل عام، تسلط الدراسات المقدمة الضوء على إمكانيات ML في التطبيقات الطبية وتؤكد على الحاجة إلى مزيد من البحث لتحسين أنظمة الرعاية الصحية ونتائج المرضى [110].

6.3 معايير التقييم السائدة

إحدى معايير التقييم المعروفة هي F-score. يتم تطبيق المفاتيح المذكورة لحساب الاسترجاع، وFscore، والدقة. من الجدير بالذكر أن الإيجابيات الحقيقية (TP) تعني أن الأشخاص المرضى تم التعرف عليهم حقًا كمرضى. الإيجابيات الكاذبة (FP) تعني أيضًا أن الأشخاص السليمين تم التعرف عليهم خطأً كمرضى. أيضًا، السلبية الحقيقية (TN) تعني أن الأشخاص السليمين تم التعرف عليهم حقًا كسليمين. علاوة على ذلك، السلبية الكاذبة (FN) تعني أن الأشخاص المرضى تم التعرف عليهم خطأً كسليمين. توضح الدقة عدد النتائج الحقيقية المعترف بها حقًا بينما يشير الاسترجاع إلى الكيانات الكاملة المعترف بها حقًا؛ يتم حساب هذه المفاهيم على النحو التالي [111]:
الدقة
الاسترجاع
النتيجة

6.4 تحديات تطبيقات DL في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء

تتطلب الشبكات العصبية التلافيفية (CNNs) كميات كبيرة من البيانات المصنفة للتدريب بشكل فعال. ومع ذلك، في مجال المعلوماتية الحيوية والطبية، غالبًا ما تكون البيانات محدودة وصعبة الجمع. يمكن أن يؤدي ذلك إلى الإفراط في التخصيص، حيث يصبح النموذج متخصصًا جدًا في بيانات التدريب ولا يمكنه التعميم على بيانات جديدة. غالبًا ما تعتبر الشبكات العصبية التلافيفية صناديق سوداء لأنها يمكن أن تتعلم ميزات وعلاقات معقدة داخل البيانات، ولكن قد يكون من الصعب تفسير الأسباب وراء عملية اتخاذ القرار للنموذج. هذا مهم بشكل خاص في المجال الطبي حيث يحتاج الأطباء والباحثون إلى فهم الأسباب وراء توقعات النموذج. تعتبر الشبكات العصبية التلافيفية مكلفة من الناحية الحسابية وتتطلب كمية كبيرة من قوة المعالجة. يمكن أن تكون هذه تحديًا كبيرًا في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، حيث تكون الحوسبة الطرفية والأجهزة ذات الموارد المحدودة شائعة. الشبكات العصبية التلافيفية حساسة لجودة البيانات ويمكن أن تتأثر بالضوضاء والقيم المفقودة والقيم الشاذة. في المجال الطبي، يمكن أن تكون البيانات صاخبة وغير مكتملة بسبب التعقيد الفطري للأنظمة البيولوجية، مما يجعل من الصعب بناء نماذج دقيقة. التعميم على بيانات جديدة: يمكن أن تكافح الشبكات العصبية التلافيفية للتعميم على بيانات جديدة تختلف بشكل كبير عن بيانات التدريب. قد تقدم المرضى الجدد أو الأمراض تحديات فريدة في المجال الطبي لم يتدرب عليها النموذج. بشكل عام، تعتبر الشبكات العصبية التلافيفية أدوات قوية في المعلوماتية الحيوية والطبية، ولكن يتطلب استخدامها الفعال اعتبارًا دقيقًا للتحديات المذكورة أعلاه.
بينما أظهرت الشبكات العصبية التلافيفية نجاحًا ملحوظًا في مهام متعددة تتعلق بالصور، بما في ذلك تحليل الصور الطبية، إلا أن لديها عدة قيود في سياق تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. واحدة من التحديات الرئيسية مع الشبكات العصبية التلافيفية هي محدودية قابليتها للتفسير. في التطبيقات الطبية، فإن فهم الأسباب وراء التنبؤ أمر مهم، وتفتقر الشبكات العصبية التلافيفية إلى الشفافية في هذا الصدد. من الصعب استخراج رؤى ذات مغزى واتخاذ قرارات مستنيرة بناءً على تنبؤات الشبكات العصبية التلافيفية دون فهم كيفية وصول النموذج إلى استنتاجاته. قيد آخر من قيود الشبكات العصبية التلافيفية هو ميلها إلى التكيف المفرط مع مجموعات بيانات محددة. يمكن أن يكون هذا مشكلة خاصة في التطبيقات الطبية حيث قد تكون مجموعات البيانات صغيرة أو غير متوازنة. بينما يمكن أن يخفف التعلم بالنقل من هذا إلى حد ما، هناك حاجة إلى تقنيات جديدة لتحسين قدرة التعميم للشبكات العصبية التلافيفية. تتطلب الشبكات العصبية التلافيفية كمية كبيرة من البيانات المصنفة للتدريب بشكل فعال، وهو ما يمكن أن يكون تحديًا في المجال الطبي.
النطاق، حيث تكون البيانات غالبًا نادرة ومكلفة للحصول عليها. يمكن أن يؤدي ذلك إلى مشكلات مثل التحيز وقلة التنوع في مجموعة البيانات. تم تصميم الشبكات العصبية التلافيفية بشكل أساسي لبيانات الصور، وتطبيقها على أنواع بيانات أخرى، مثل البيانات الزمنية أو النصية، محدود. يمكن أن تكون هذه تحديًا في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، حيث قد تكون البيانات غير متجانسة ومتعددة الأنماط. يمكن أن تكون الشبكات العصبية التلافيفية عرضة للهجمات العدائية، حيث يمكن أن تؤدي التغيرات الصغيرة في المدخلات إلى تصنيف خاطئ. يمكن أن يكون هذا مقلقًا بشكل خاص في التطبيقات الطبية، حيث يمكن أن تكون التنبؤات غير الصحيحة لها عواقب وخيمة. باختصار، بينما أظهرت الشبكات العصبية التلافيفية نجاحًا ملحوظًا في تحليل الصور الطبية، إلا أن لديها عدة قيود تحتاج إلى معالجة لتحسين فعاليتها في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء.
في نفس السياق، أظهرت الشبكات العصبية التكرارية (RNNs) نجاحًا كبيرًا في تطبيقات متنوعة، بما في ذلك معالجة اللغة الطبيعية وتحليل السلاسل الزمنية. ومع ذلك، فإن لديها بعض القيود عند تطبيقها على المعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء. تمتلك الشبكات العصبية التكرارية ذاكرة محدودة قد تجعل من الصعب التقاط الاعتمادات طويلة الأمد في البيانات التسلسلية. وهذا يمثل مشكلة خاصة في المعلومات الحيوية والطبية، حيث يمكن أن تكون البيانات معقدة ومتداخلة. يتم تدريب الشبكات العصبية التكرارية باستخدام طريقة الانتشار العكسي عبر الزمن، مما قد يؤدي إلى تلاشي التدرجات. وهذا يمكن أن يجعل من الصعب على النموذج تعلم الاعتمادات طويلة الأمد في البيانات. يمكن أن تتجاوز الشبكات العصبية التكرارية بسهولة البيانات التدريبية، خاصة إذا كانت مجموعة البيانات صغيرة. وهذا يمكن أن يؤدي إلى أداء ضعيف عند تطبيقها على بيانات جديدة. يمكن أن يكون تدريب الشبكات العصبية التكرارية مستهلكًا للوقت، خاصة إذا كانت مجموعة البيانات كبيرة. وهذا يمكن أن يجعل من الصعب نشر نماذج الشبكات العصبية التكرارية في التطبيقات الزمنية الحقيقية. غالبًا ما يُشار إلى الشبكات العصبية التكرارية كنماذج “صندوق أسود” لأنه قد يكون من الصعب فهم كيفية قيامها بعمل توقعاتها. وهذا يمكن أن يكون مشكلة في المعلومات الحيوية والطبية، حيث تعتبر القابلية للتفسير مهمة لضمان سلامة المرضى. بشكل عام، بينما أظهرت الشبكات العصبية التكرارية وعدًا في المعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء، يجب أخذ قيودها بعين الاعتبار بعناية عند تطوير نماذج للتطبيقات الواقعية.
تتطلب الشبكات العصبية المتكررة (RNNs) كمية كبيرة من البيانات المصنفة للتدريب بشكل فعال، وهو ما يمكن أن يكون صعبًا الحصول عليه في المجال الطبي بسبب مخاوف الخصوصية وتوافر البيانات المحدود. يمكن أن تؤدي البيانات التدريبية المحدودة إلى الإفراط في التكيف، حيث يعمل النموذج بشكل جيد على بيانات التدريب ولكنه يفشل في التعميم على بيانات جديدة. غالبًا ما تتكون البيانات الطبية من تسلسلات طويلة، مثل إشارات تخطيط القلب أو السجلات الطبية، مما يجعل من الصعب معالجتها باستخدام الشبكات العصبية المتكررة. يمكن أن تؤدي التسلسلات الطويلة إلى تلاشي أو انفجار التدرجات، مما يمكن أن يضعف أداء النموذج. يمكن أن تكون الشبكات العصبية المتكررة صعبة التفسير، مما يجعل فهم reasoning النموذج وراء توقعاته أمرًا صعبًا. في المجال الطبي، تعتبر القابلية للتفسير أمرًا حاسمًا، وفهم عملية اتخاذ القرار للنموذج أمر ضروري لبناء الثقة في
تنبؤات النموذج [118]. يمكن أن تكون البيانات الطبية صاخبة وتحتوي على تباينات بسبب اختلافات في أجهزة الاكتساب، والبروتوكولات، وظروف المرضى. يمكن أن تكون مثل هذه التباينات صعبة الحساب، مما يؤدي إلى انخفاض أداء الشبكات العصبية المتكررة (RNNs). من ناحية أخرى، تفتقر جمع البيانات الطبية والتعليق عليها إلى التوحيد القياسي، مما يجعل من الصعب تطوير الشبكات العصبية المتكررة التي تعمم بشكل جيد عبر المؤسسات. غالبًا ما تعاني البيانات الطبية من عدم توازن الفئات، حيث تحتوي فئة واحدة (مثل، إيجابي المرض) على عدد أقل بكثير من الأمثلة مقارنة بالفئة الأخرى (مثل، سلبي المرض). يمكن أن تؤدي هذه المشكلة إلى أداء ضعيف للشبكات العصبية المتكررة وتتطلب اهتمامًا خاصًا للتعامل معها. يمكن أن تكون الشبكات العصبية المتكررة مكلفة حسابيًا، حيث تتطلب موارد حسابية كبيرة للتدريب والنشر. يمكن أن تعيق محدودية توفر الحوسبة عالية الأداء تطوير ونشر الشبكات العصبية المتكررة في البيئات ذات الموارد المحدودة. يثير استخدام الشبكات العصبية المتكررة في الرعاية الصحية اعتبارات أخلاقية، مثل الموافقة المستنيرة، والخصوصية، والتحيز. إن معالجة هذه القضايا أمر ضروري لضمان أن استخدام الشبكات العصبية المتكررة في التطبيقات الطبية يكون أخلاقيًا وعادلاً [119]. بشكل عام، تسلط هذه التحديات الضوء على الحاجة إلى النظر بعناية في تطبيق الشبكات العصبية المتكررة في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء وأهمية معالجة التحديات الفريدة في هذا المجال.
كما أظهرت الشبكات التوليدية المعادية (GAN) وعدًا رائدًا في توليد بيانات اصطناعية واقعية، لكنها تواجه أيضًا بعض القيود والتحديات عندما يتعلق الأمر بتطبيقاتها في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. تتطلب الشبكات التوليدية المعادية كميات كبيرة من بيانات التدريب لتعلم التوزيع الأساسي للبيانات. ومع ذلك، يمكن أن يكون الحصول على كميات كبيرة من البيانات المعلّمة تحديًا ومكلفًا في المعلوماتية الحيوية والطبية. يمكن أن يحد هذا من فعالية الشبكات التوليدية المعادية في هذه التطبيقات. غالبًا ما تُستخدم الشبكات التوليدية المعادية لتوليد الصور، لكن توليد صور عالية الدقة مع تفاصيل دقيقة يمكن أن يكون تحديًا. هذا مهم بشكل خاص في تطبيقات التصوير الطبي حيث يمكن أن تكون التفاصيل الدقيقة حاسمة للتشخيص الدقيق. غالبًا ما تُعتبر الشبكات التوليدية المعادية صناديق سوداء، مما يعني أنه من الصعب فهم كيفية وصولها إلى مخرجاتها المولدة. في نماذج الشبكات التوليدية المعادية، يمكن أن تكون قلة القابلية للتفسير مصدر قلق في التطبيقات الطبية حيث يمكن أن تكون القرارات المستندة إلى البيانات المولدة لها عواقب خطيرة. الشبكات التوليدية المعادية مناسبة جدًا لتوليد الصور، لكنها قد لا تكون فعالة بنفس القدر لأنواع أخرى من البيانات، مثل بيانات السلاسل الزمنية أو بيانات النصوص. يمكن أن يحد هذا من قابليتها للتطبيق في بعض تطبيقات المعلوماتية الطبية. يمكن أن يكون تدريب الشبكات التوليدية المعادية غير مستقر، حيث تتنافس الشبكات المولدة والمميزة باستمرار مع بعضها البعض. يمكن أن يجعل هذا من الصعب تحقيق التقارب ويؤدي إلى مخرجات مولدة ذات جودة رديئة.
تُعتبر الشبكات التوليدية المعادية (GANs) تقنية شائعة في التعلم العميق وقد أظهرت نتائج واعدة في تطبيقات متنوعة، بما في ذلك المعلوماتية الحيوية والطبية. ومع ذلك، لا تزال هناك بعض التحديات.
يجب معالجة هذه القضايا لجعل الشبكات التنافسية التوليدية (GANs) أكثر فعالية في هذه السياقات، لا سيما في البيئات السحابية. ومع ذلك، تعتمد الشبكات التنافسية التوليدية بشكل كبير على بيانات عالية الجودة للتدريب، وتكون جودة البيانات حاسمة بشكل خاص في المعلوماتية الحيوية والطبية. في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، يمكن أن تكون البيانات مشوشة وغير مكتملة ومتحيزة، مما يجعل من الصعب تدريب الشبكات التنافسية التوليدية بدقة. تتضمن المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء بيانات حساسة للمرضى، والتي يجب أن تظل خاصة وآمنة. ومع ذلك، تتطلب الشبكات التنافسية التوليدية كميات كبيرة من البيانات للتدريب، مما يشكل خطرًا على خصوصية المرضى وأمانهم. لذلك، يجب أن تكون هناك تدابير قوية لأمان البيانات عند استخدام الشبكات التنافسية التوليدية في هذا السياق. يجب على الباحثين إيجاد طرق لجعل نماذج الشبكات التنافسية التوليدية أكثر قابلية للتفسير. واحدة من التحديات الكبيرة في المعلوماتية الحيوية والطبية هي توفر مجموعة بيانات محدودة. يمكن أن تؤثر البيانات المحدودة على دقة نتائج نموذج الشبكات التنافسية التوليدية، وفي بعض الحالات، قد لا يكون من الممكن تدريب نموذج الشبكات التنافسية التوليدية بمجموعة بيانات محدودة. صناعة الرعاية الصحية تخضع لتنظيمات صارمة، ويجب أن تمتثل الشبكات التنافسية التوليدية للمتطلبات التنظيمية لتكون معتمدة للاستخدام. يمكن أن يكون ضمان الامتثال للوائح تحديًا عند العمل مع الشبكات التنافسية التوليدية، خاصة عند التعامل مع المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، حيث تكون مخاوف أمان البيانات وخصوصيتها مرتفعة. باختصار، بينما تقدم الشبكات التنافسية التوليدية إمكانات كبيرة للمعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، لا تزال هناك بعض التحديات التي يجب معالجتها لجعلها أكثر فعالية وقبولًا للاستخدام في هذا السياق. تشمل هذه التحديات جودة البيانات، وخصوصية وأمان البيانات، وقابلية التفسير، ومجموعات البيانات المحدودة، والامتثال التنظيمي.
الشبكة العصبية متعددة الطبقات (MLP) هي نوع من الشبكات العصبية الاصطناعية التي تُستخدم على نطاق واسع في تطبيقات التعلم العميق. بينما أظهرت الشبكات العصبية متعددة الطبقات نتائج واعدة في مجالات متنوعة، بما في ذلك المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، إلا أن لديها بعض القيود التي يجب ملاحظتها. تم تصميم الشبكات العصبية متعددة الطبقات بشكل أساسي للتعامل مع البيانات الجدولية وليست مناسبة بشكل جيد لمعالجة البيانات التسلسلية. يمكن أن تكون هذه قيودًا في المعلوماتية الحيوية والطبية، حيث تُستخدم البيانات التسلسلية مثل بيانات السلاسل الزمنية أو تسلسلات الحمض النووي في كثير من الأحيان. الشبكات العصبية متعددة الطبقات عرضة للتكيف المفرط، مما يعني أنها يمكن أن تصبح متخصصة جدًا في بيانات التدريب وتفشل في التعميم على بيانات جديدة. يمكن أن تكون هذه المشكلة خاصة في المعلوماتية الحيوية والطبية عند العمل مع مجموعات بيانات صغيرة، حيث يمكن أن يؤدي التكيف المفرط إلى توقعات غير دقيقة. بالنظر إلى نماذج الصندوق الأسود، فإن نماذج الشبكات العصبية متعددة الطبقات ليست سهلة التفسير. وهذا يعني أنه قد يكون من الصعب فهم كيف تصل الشبكة العصبية متعددة الطبقات إلى توقعاتها. التفسير أمر حاسم في المعلوماتية الحيوية والطبية، حيث يمكن أن تكون للقرارات عواقب كبيرة. الشبكات العصبية متعددة الطبقات لا تتعامل بشكل جيد مع البيانات المفقودة. يمكن أن تكون هذه قيودًا في المعلوماتية الحيوية والطبية، حيث يمكن أن تكون مجموعات البيانات غير مكتملة لأسباب متنوعة، مثل نقاط البيانات المفقودة أو البيانات غير المتوازنة.
البيانات متعددة الأبعاد. يمكن أن تكون هذه قيودًا في المعلوماتية الحيوية والطبية، حيث يمكن أن تكون البيانات عالية الأبعاد. بينما أظهرت الشبكات العصبية متعددة الطبقات نتائج متفوقة في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، من الضروري مراعاة قيودها واستكشاف نماذج بديلة يمكن أن تعالج هذه التحديات بشكل أفضل.
MLP هو نوع من الشبكات العصبية ذات التغذية الأمامية التي تُستخدم عادةً في تطبيقات التعلم العميق. عندما يتعلق الأمر بالمعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء، هناك العديد من التحديات المرتبطة باستخدام MLPs. على الرغم من ذلك، فإن أحد أكبر التحديات في مجال المعلومات الحيوية والطبية هو محدودية توفر البيانات. قد تكون البيانات نادرة أو يصعب الحصول عليها في العديد من الحالات، مما يجعل من الصعب تدريب نماذج MLP بشكل فعال. حتى عندما تكون البيانات متاحة، قد تكون ذات جودة رديئة. يمكن أن يكون ذلك بسبب الضوضاء أو التحيز أو عوامل أخرى يمكن أن تؤثر على دقة وموثوقية نماذج MLP. يُشار إليها باسم الصندوق الأسود، قد يكون من الصعب فهم كيفية وصولها إلى توقعاتها. في مجال المعلومات الحيوية والطبية، فإن القابلية للتفسير أمر حاسم، حيث يحتاج الأطباء وغيرهم من المهنيين الطبيين إلى فهم الثقة في التوقعات التي تقدمها هذه النماذج. يحدث الإفراط في التكيف عندما يصبح النموذج معقدًا جدًا ويبدأ في التكيف مع الضوضاء في بيانات التدريب بدلاً من الأنماط الأساسية. يمكن أن تكون هذه مشكلة في المعلومات الحيوية والطبية، حيث تحتاج النماذج إلى القدرة على التعميم على بيانات جديدة. في المعلومات الحيوية والطبية، يجب أخذ العديد من الاعتبارات الأخلاقية في الاعتبار عند استخدام نماذج التعلم العميق. على سبيل المثال، من المهم التأكد من أن النماذج ليست متحيزة ضد مجموعات أو فئات معينة وأنها تُستخدم بشكل مسؤول وأخلاقي. بشكل عام، يمكن أن تكون MLPs أداة قوية في المعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء، ولكن يجب معالجة العديد من التحديات لاستخدامها بشكل فعال.
بالإضافة إلى ذلك، غالبًا ما تعاني البيانات الطبية من عدم توازن الفئات، حيث تحتوي فئة واحدة (مثل، إيجابي للمرض) على عدد أقل بكثير من الأمثلة مقارنة بالفئة الأخرى (مثل، سلبي للمرض). يمكن أن تؤدي هذه المشكلة إلى أداء ضعيف لنماذج التعلم العميق وتتطلب اهتمامًا خاصًا للتعامل معها. تعتبر معالجة البيانات في الوقت الحقيقي أمرًا حيويًا في بعض التطبيقات الطبية، مثل مراقبة المرضى الحرجين. ومع ذلك، يمكن أن تكون نماذج التعلم العميق مكلفة من الناحية الحسابية وقد لا تكون قادرة على معالجة البيانات في الوقت الحقيقي. وبالتالي، فإن تطوير نماذج تعلم عميق فعالة يمكن أن تعمل في الوقت الحقيقي يمثل تحديًا. إن عدم وجود معايير موحدة في جمع البيانات الصحية وتوضيحها يعيق تطوير نماذج التعلم العميق. تستخدم المستشفيات وأنظمة الرعاية الصحية المختلفة بروتوكولات مختلفة، مما يجعل من الصعب إنشاء نماذج تعمم بشكل جيد عبر المؤسسات. إن مشاركة البيانات أمر حيوي لتحسين أداء نماذج التعلم العميق، خاصة في الرعاية الصحية، حيث تكون كمية البيانات محدودة. ومع ذلك، بسبب مخاوف الخصوصية ونقص الحوافز لمشاركة البيانات، فإن مشاركة البيانات الطبية تمثل تحديًا.
تثير خوارزميات التعلم العميق في الرعاية الصحية اعتبارات أخلاقية، مثل الموافقة المستنيرة، والخصوصية، والتحيز. إن معالجة هذه القضايا أمر ضروري لضمان أن استخدام نماذج التعلم العميق في التطبيقات الطبية يكون أخلاقياً وعادلاً. يمكن أن يكون تطوير ونشر نماذج التعلم العميق مكلفاً، مما يجعل من الصعب تنفيذها في البيئات ذات الموارد المحدودة. علاوة على ذلك، قد تتطلب نماذج التعلم العميق أجهزة وبرامج متخصصة، مما يزيد من تكلفتها.
بعبارة أخرى، كانت قيود طرق الشبكات العصبية التلافيفية في هذا السياق تدور أساسًا حول عدم فعاليتها المحتملة في التعامل مع مجموعات البيانات الصغيرة أو المتخصصة للغاية والتحديات التي تطرحها الحاجة إلى موارد حسابية كبيرة للتدريب والاستدلال، مما قد يكون عائقًا في بيئات إنترنت الأشياء والسحابة ذات الموارد المحدودة. أيضًا، تتعلق قيود طرق الشبكات العصبية المتكررة في هذه المراجعة الأدبية المنهجية بشكل رئيسي بصعوبة التقاط الاعتمادات طويلة المدى في البيانات التسلسلية، وهو أمر حاسم في بعض التطبيقات الطبية الحيوية، وطبيعتها التي تتطلب حسابات مكثفة، مما قد يطرح تحديات في المعالجة في الوقت الحقيقي ضمن بيئات إنترنت الأشياء والسحابة ذات الموارد المحدودة. أيضًا، كانت قيود طرق الشبكات التنافسية في هذا الموضوع تدور أساسًا حول تعقيدها في التدريب وعدم استقرارها المحتمل، مما قد يتطلب ضبطًا دقيقًا وموارد حسابية كبيرة، مما قد يعيق تنفيذها العملي في بيئات إنترنت الأشياء ذات الموارد المحدودة، بينما كانت قيود طرق الشبكات العصبية متعددة الطبقات في هذه المراجعة الأدبية المنهجية تدور أساسًا حول عدم فعاليتها النسبية في التعامل مع البيانات المعقدة وعالية الأبعاد وقدرتها المحدودة على التقاط العلاقات المعقدة داخل مجموعات البيانات الطبية الحيوية، مما قد يؤدي إلى أداء دون المستوى الأمثل في بعض التطبيقات. تضمنت قيود الطرق الهجينة تحديات محتملة في قابلية تفسير النموذج وزيادة التعقيد في دمج تقنيات التعلم العميق المختلفة، مما قد يعيق تنفيذها العملي ونشرها في أنظمة إنترنت الأشياء الصحية.
تسلط هذه التحديات الإضافية الضوء على الطبيعة متعددة الأوجه لتنفيذ تطبيقات التعلم العميق في المعلوماتية الطبية الحيوية المعتمدة على إنترنت الأشياء وتؤكد على الحاجة إلى نهج تعاوني ومتعدد التخصصات للتغلب عليها.

6.5 مجموعة البيانات في المعلوماتية الطبية والبيولوجية باستخدام أساليب التعلم العميق

لا يمكن المبالغة في أهمية مجموعات البيانات في تطبيقات التعلم العميق في المعلوماتية الطبية الحيوية المعتمدة على إنترنت الأشياء. تعتمد خوارزميات التعلم العميق على كميات كبيرة من البيانات للتعلم وإجراء توقعات أو تصنيفات دقيقة. في المعلوماتية الطبية الحيوية، تعتبر توفر مجموعات بيانات عالية الجودة وشاملة أمرًا حاسمًا لتطوير نماذج التعلم العميق التي يمكنها
تشخيص الأمراض بدقة، وتوقع نتائج العلاج، وتحديد أهداف الأدوية المحتملة. علاوة على ذلك، يعتمد نجاح نماذج التعلم العميق بشكل كبير على جودة وتنوع البيانات المستخدمة لتدريبها. يمكن أن تؤدي مجموعة بيانات متحيزة أو غير مكتملة أو غير تمثيلية للسكان المستهدفين إلى نتائج متحيزة أو غير دقيقة. لذلك، من الضروري التأكد من أن مجموعات بيانات المعلوماتية الطبية الحيوية متنوعة وتمثل السكان المستهدفين وعالية الجودة. علاوة على ذلك، فإن استخدام مجموعات بيانات موحدة أمر حاسم لتسهيل المقارنة وإعادة إنتاج نتائج البحث عبر دراسات مختلفة. تتيح مجموعات البيانات الموحدة للباحثين تقييم أداء نماذجهم مقابل الآخرين باستخدام نفس البيانات، مما يسهل تطوير خوارزميات ومنهجيات جديدة ومحسنة. باختصار، تعتبر مجموعات البيانات عالية الجودة وشاملة ومتنوعة وموحدة ضرورية لتطوير وتقييم نماذج التعلم العميق في المعلوماتية الطبية الحيوية المعتمدة على إنترنت الأشياء. إنها توفر الأساس للتشخيص الدقيق وعلاج الأمراض وتحديد أهداف الأدوية الجديدة. إن تطبيق مجموعات البيانات في مجال التعلم العميق للمعلوماتية الطبية الحيوية المعتمدة على إنترنت الأشياء أمر حاسم لتطوير نماذج دقيقة وفعالة. بدون مجموعات بيانات موحدة، لا يمكن للنماذج التعلم وإجراء توقعات دقيقة. واحدة من التحديات الرئيسية في تطوير نماذج التعلم العميق للمعلوماتية الطبية الحيوية هي توفر مجموعات البيانات المعلّمة. تعتبر مجموعات البيانات المعلّمة حاسمة للتعلم تحت الإشراف، وهو النهج الأكثر شيوعًا في التعلم العميق. وذلك لأن نماذج التعلم العميق تحتاج إلى كميات كبيرة من البيانات المعلّمة لتعلم الأنماط والعلاقات المعقدة في البيانات. في المعلوماتية الطبية الحيوية، غالبًا ما يتم إنشاء هذه المجموعات المعلّمة من خلال التوصيف اليدوي أو من قبل خبراء في المجال. يمكن استخدام العديد من مجموعات البيانات المتاحة للجمهور في المعلوماتية الطبية الحيوية لتطبيقات التعلم العميق، مثل مجموعة بيانات MIMIC-III للسجلات الصحية الإلكترونية، ومجموعة بيانات ImageNet للتصوير الطبي، ومجموعة بيانات PhysioNet للإشارات الفسيولوجية. تم استخدام هذه المجموعات لتطوير نماذج لمجموعة متنوعة من التطبيقات مثل تشخيص الأمراض، واكتشاف الأدوية، والطب الشخصي. يتطلب استخدام مجموعات البيانات في تطبيقات التعلم العميق للمعلوماتية الطبية الحيوية أيضًا اهتمامًا دقيقًا بخصوصية البيانات وأمانها. تعتبر بيانات المرضى حساسة للغاية ويجب التعامل معها بعناية لحماية خصوصية المرضى. يجب على الباحثين التأكد من أن مجموعات البيانات المستخدمة لتدريب نماذجهم تتوافق مع المتطلبات الأخلاقية والقانونية وأن البيانات تم إزالة تعريفها قبل الاستخدام. يجب على الباحثين اختيار مجموعات البيانات ومعالجتها بعناية، والامتثال للمتطلبات الأخلاقية والقانونية، والتعامل مع بيانات المرضى بعناية كبيرة لحماية خصوصية المرضى.
في مجال تطبيقات التعلم العميق في المعلوماتية الطبية الحيوية المعتمدة على إنترنت الأشياء، تتميز مجموعات البيانات المستخدمة بحجمها الكبير وتنوعها. على سبيل المثال، ركزت دراسة بارزة على اكتشاف عدم انتظام ضربات القلب على مجموعة بيانات تضم 10,000
تسجيلات تخطيط القلب الكهربائي (ECG)، كل منها يمتد على 10 ثوانٍ ومأخوذة بمعدل 500 هرتز، مما أسفر عن إجمالي 50,000 نقطة بيانات لكل تسجيل. تتكون مجموعة بيانات ملحوظة أخرى في أبحاث الأعصاب من 500 مريض مصاب بمرض باركنسون، مما أسفر عن أكثر من 150,000 نقطة بيانات لكل مريض عبر قراءات مستشعرات مختلفة. بالإضافة إلى ذلك، دمجت مجموعة بيانات شاملة لتوقع مرض الزهايمر بيانات متعددة الأنماط، بما في ذلك صور الرنين المغناطيسي الهيكلي من 1000 موضوع، جنبًا إلى جنب مع التقييمات الديموغرافية والمعرفية. توضح هذه التفاصيل الكمية الطبيعة الغنية والمتنوعة لمجموعات البيانات في هذا المجال، والتي تلعب دورًا محوريًا في تدريب وتقييم نماذج التعلم العميق لتطبيقات المعلوماتية الطبية الحيوية ضمن إطار إنترنت الأشياء.
لقد وفرت التطورات الأخيرة في تكنولوجيا التسلسل عالي الإنتاجية للمجتمع العلمي الوصول إلى مجموعات بيانات بيولوجية شاسعة [135]. وقد أدى تزايد توفر هذه المجموعات إلى توسيع خدمات الويب على الإنترنت، مما يمكّن علماء الأحياء من تقييم كميات كبيرة من البيانات عبر الإنترنت للجماهير العلمية. وبالتالي، استكشف الباحثون طرقًا مبتكرة لاستجواب وتقييم ومعالجة البيانات لاستخراج معلومات حول البيولوجيا الجزيئية والطب الحيوي وعلم وظائف الأعضاء وسجلات الصحة الإلكترونية. لقد اكتسب التعلم الآلي شعبية كبيرة في قطاع البيولوجيا الحاسوبية بسبب قدرته على التعامل مع مجموعات بيانات ضخمة وتوقع النتائج بدقة إحصائية عالية [136]. تعتبر خوارزميات التعلم الآلي عمليات حسابية قائمة على الإحصاء يمكنها تحديد النماذج المخفية في مجموعة بيانات وتوليد توقعات إحصائية موثوقة. وبالتالي، تم استخدام التعلم الآلي في تحديات البيولوجيا الحاسوبية المختلفة، مما يساعد العلماء في اكتشاف معلومات حيوية حول جوانب متنوعة من البيولوجيا. ومع ذلك، يفتقر معظم علماء الأحياء والمهنيين في الرعاية الصحية إلى المهارات اللازمة للقيام بمشروع تنقيب البيانات، مما يؤدي إلى التردد أو تجنب تقييمات التعلم الآلي. في حالات أخرى، قد يتبع الباحثون إجراءات خاطئة عند بدء مشروع تعلم آلي، مما يؤدي إلى تقييمات معيبة أو شعور زائف بالنجاح. هناك طرق متنوعة للاستفادة من التعلم الآلي في أبحاث البيولوجيا الحاسوبية لمعالجة هذه القضايا. على الرغم من أنه قد يبدو غريبًا، فإن النقطة الرئيسية الأكثر أهمية في أبحاث التعلم الآلي لا تأخذ في الاعتبار التعلم الآلي: بل تأخذ في الاعتبار خصائص مجموعة البيانات الخاصة بك ونشرها. للبدء، يجب عليك تحديد ما إذا كان لديك بيانات كافية لمعالجة هذه القضية في البيولوجيا الحاسوبية باستخدام التعلم الآلي [137]. حاليًا، في عصر البيانات الكبيرة، مع توفر مجموعات بيانات بيولوجية ضخمة على الإنترنت، قد تبدو هذه القضية غير مرتبطة، لكنها تبدو قضية كبيرة في مجتمع التعلم الإحصائي والميدان. بينما يمكن أن يكون جمع المزيد من المعلومات مفيدًا عادةً لنماذج التعلم الآلي الخاصة بك، قد يكون من الصعب اعتبار الحد الأدنى من حجم مجموعة البيانات قادرًا على تدريب خوارزمية تعلم آلي بشكل مناسب. على الرغم من أن هذا ليس محتملًا، فإن أفضل حالة ستكون وجود حد أدنى من عشرة أضعاف
عدد أمثلة المعلومات مثل عدد خصائص البيانات.
الجانب الثاني الحاسم الذي يجب مراعاته هو هيكلة مجموعة البيانات. في جوهرها، يتضمن ذلك تحويل خصائص البيانات إلى نطاق موحد، ومعالجة ميزات الإدخال الخاصة بها، وإعادة ترتيب حالات مجموعة البيانات عشوائيًا، وتنقيح وإعداد مجموعة البيانات المدخلة، وإدماج خصائص مبتكرة تم إنشاؤها، والتي ستحدد في النهاية نجاح أو فشل دراسة التعلم الآلي في مهمة علمية [138]. نظرًا لخصوصيات كل مجموعة بيانات وخصائص مجالها العلمي المحدد، تحتوي مجموعات البيانات على معلومات حيوية لمجالاتها المعنية. بالإضافة إلى ذلك، قد تحتوي مجموعات البيانات على أخطاء كبيرة ناتجة عن نقص خبرة الباحثين. علاوة على ذلك، قد لا يتحكم القيمون البشريون دائمًا في التعليقات التوضيحية، وقد تكون بعض التعليقات غير صحيحة. علاوة على ذلك، قد تختلف التعليقات التوضيحية على الجينات المماثلة من مختبرات أو مجموعات بحثية بيولوجية مختلفة وتحتوي على بيانات متضاربة. يمكن أن تؤثر مثل هذه التحديات على فعالية تطبيق آلية التعلم الآلي. بالنظر إلى أهمية وتفرد كل منطقة من مناطق مجموعة البيانات، يمكن أن تنجح أبحاث التعلم الآلي فقط إذا كان الباحث يعرف تفاصيل مجموعة البيانات بوضوح، وقد يتم تكوينها بشكل صحيح قبل تنفيذ أي طريقة لتنقيب البيانات. يتطلب إدارة مجموعات البيانات البيولوجية بشكل صحيح العديد من الخطوات، والتي يتم تجميعها عادةً في مرحلة تسمى معالجة البيانات المسبقة [139].
علاوة على ذلك، غالبًا ما يكون من الضروري إجراء تطبيع قائم على الميزات لمجموعات البيانات العددية إلى فترات قبل تحليل خوارزمية التعلم الآلي لجلب مجموعة البيانات بالكامل إلى تنسيق موحد. يعد الفهرسة الدلالية المخفية استراتيجية لاسترجاع البيانات تعتمد على هذه الخطوة المسبقة للتنبؤ بتعليقات أداء الجينات. إنها نصيحة رائعة لمعالجة البيانات المسبقة أن تبدأ بمجموعة بيانات صغيرة. غالبًا ما تتضمن البيولوجيا مجموعات بيانات كبيرة مع العديد من الحالات [140]. لذلك، إذا كان لديك مجموعة بيانات ضخمة وكان تدريب خوارزمية التعلم الآلي لديك يستغرق وقتًا طويلاً، فإن إنشاء مجموعة بيانات صغيرة النطاق بنسبة قابلة للمقارنة مع مجموعة البيانات الرئيسية يمكن أن يقلل بشكل كبير من وقت المعالجة. يسمح تقسيم مجموعة البيانات الكبيرة الأصلية لك بتقييم والتحكم في نهجك باستخدام مجموعة بيانات محدودة ومجمعة. تتوفر العديد من مجموعات البيانات لتطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. يتم تقديم بعض من أفضل مجموعات البيانات وقابليتها للاستخدام في الجدول 10.
كل من هذه المجموعات لديها خصائص فريدة تجعلها مناسبة لأنواع مختلفة من الأبحاث في المعلوماتية الحيوية والطبية. على سبيل المثال، تعتبر مجموعة بيانات MIMIC-III مناسبة تمامًا للأبحاث في الرعاية الحرجة، بينما تعتبر مجموعة بيانات الأشعة السينية للصدر من NIH مفيدة للأبحاث في التصوير الطبي. يمكن للباحثين استخدام هذه المجموعات لتطوير والتحقق من صحة خوارزميات التعلم العميق لتشخيص الأمراض والتنبؤ بها وعلاجها. ومع ذلك، من المهم ملاحظة أن هذه المجموعات لديها قيود وتحاملات يجب أخذها في الاعتبار عند استخدامها في الأبحاث.

6.6 تطبيقات إنترنت الأشياء باستخدام طرق التعلم العميق في المعلوماتية الحيوية والطبية

تشكل تطبيقات إنترنت الأشياء التي تستخدم طرق التعلم العميق في المعلوماتية الحيوية والطبية جبهة تحويلية في تكنولوجيا الرعاية الصحية. تستفيد هذه التطبيقات من الترابط بين الأجهزة والمستشعرات داخل نظام إنترنت الأشياء لإحداث ثورة في رعاية المرضى والتشخيص والعلاج. يتم استخدام خوارزميات التعلم العميق، المعروفة بقدرتها على معالجة بيانات ضخمة ومعقدة، لتحليل تدفقات البيانات البيولوجية المتنوعة، بما في ذلك القياسات الفسيولوجية، والصور الطبية، والمعلومات الجينومية. وهذا يمكّن من المراقبة في الوقت الحقيقي لصحة المرضى، والكشف المبكر عن الشذوذ، وخطط العلاج الشخصية. بالإضافة إلى ذلك، تسهل النماذج التنبؤية المعتمدة على التعلم العميق التقييمات التنبؤية الدقيقة وتساعد في تطوير نهج الطب الدقيق [137]. علاوة على ذلك، يعزز دمج التعلم العميق مع تقنيات إنترنت الأشياء أمان البيانات وخصوصيتها، مما يضمن الامتثال للوائح الرعاية الصحية. يحمل هذا التآزر بين التعلم العميق وإنترنت الأشياء في المعلوماتية الحيوية والطبية إمكانات هائلة لتحسين جودة تقديم الرعاية الصحية ودفع الابتكارات التي يمكن أن تعيد تشكيل مستقبل الممارسة الطبية.

6.7 قضايا الأمان، التحديات، المخاطر، إنترنت الأشياء، واستخدام البلوكشين

يطرح تطبيق التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء العديد من التحديات والمخاطر الأمنية. على وجه الخصوص، يثير معالجة وتخزين كميات كبيرة من البيانات الحساسة مثل معلومات صحة المرضى مخاوف بشأن خصوصية البيانات وأمانها. هذا مهم بشكل خاص في حالة البيانات الطبية، حيث يمكن أن يؤدي سوء استخدام البيانات أو التعامل معها بشكل غير صحيح إلى عواقب وخيمة على المرضى. واحدة من التحديات الرئيسية هي ضمان أمان نقل البيانات عبر الشبكات [141]. يثير استخدام أجهزة إنترنت الأشياء والمستشعرات في التطبيقات الطبية مخاوف بشأن إمكانية اعتراض البيانات من قبل جهات خبيثة، مما يؤدي إلى خطر خروقات البيانات والهجمات الإلكترونية. علاوة على ذلك، فإن دمج أنظمة وأجهزة إنترنت الأشياء المختلفة يخلق اعتمادات معقدة تتطلب اعتبارات دقيقة لتجنب الثغرات الأمنية [142]. تم اقتراح تقنية البلوكشين كحل محتمل للتخفيف من هذه التحديات والمخاطر. يمكن أن توفر تقنية البلوكشين آلية آمنة ومقاومة للتلاعب لتخزين ومشاركة البيانات الطبية بطريقة لامركزية. يمكن أن يضمن استخدام البلوكشين أيضًا أن البيانات متاحة فقط للأطراف المصرح لها، ويوفر وسيلة لمراجعة الوصول إلى البيانات واستخدامها. ومع ذلك، هناك أيضًا تحديات مرتبطة باستخدام البلوكشين في هذا السياق. على سبيل المثال، هناك مخاوف بشأن قابلية توسيع أنظمة البلوكشين و
الجدول 10 مجموعات البيانات ووصفها
الاسم الأوصاف
MNIST مجموعة بيانات MNIST شائعة في تطبيقات رؤية الكمبيوتر، بما في ذلك التعلم العميق. تتكون من مجموعة تضم 70,000 رقم مكتوب بخط اليد، كل منها مع دقة البكسل. غالبًا ما يُستخدم هذا المجموع من البيانات لمهام تصنيف الصور ويمكن تطبيقه في تحليل الصور الطبية لتحديد أنماط أو ميزات معينة في الصور الطبية.
سيفار-10 وسيفار-100 تستخدم هذان المجموعتان من البيانات بشكل شائع في مهام تصنيف الصور في التعلم العميق. تتكون مجموعة بيانات CIFAR-10 من صور ملونة في 10 فئات، بينما يحتوي CIFAR-100 على 100 فئة مع 600 صورة لكل منها. تم استخدام هذه المجموعات في المعلوماتية الحيوية والطبية لمهام تصنيف الصور، مثل تحديد أنواع مختلفة من الخلايا أو الأنسجة.
إيميج نت ImageNet هو تحدٍ كبير في التعرف على الصور يتكون من أكثر من 14 مليون صورة في 21,000 فئة. تم استخدام هذه المجموعة من البيانات في تطبيقات التعلم العميق المختلفة، بما في ذلك المعلوماتية الحيوية والطبية. على سبيل المثال، تم استخدامها لتدريب نماذج التعلم العميق لتصنيف آفات الجلد أو تشخيص الأمراض بناءً على الصور الطبية.
فيزيو نت PhysioNet هو مجموعة بيانات للإشارات الفسيولوجية تشمل تخطيط القلب الكهربائي، وتخطيط الدماغ الكهربائي، وعلامات الحياة. تم استخدام هذه المجموعة في تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية لمهام مثل تشخيص الأمراض، وتوقع نتائج المرضى، واكتشاف الأنماط غير الطبيعية في الإشارات الفسيولوجية.
ميميك-III MIMIC-III هو قاعدة بيانات للرعاية الحرجة متاحة للجمهور تحتوي على بيانات صحية مجهولة الهوية لأكثر من 40,000 مريض. تتضمن هذه المجموعة من البيانات معلومات مثل العلامات الحيوية، ونتائج المختبر، والتاريخ الطبي. وقد تم استخدامها في تطبيقات التعلم العميق للتنبؤ بنتائج المرضى، وتحديد عوامل خطر الأمراض، وتحسين اتخاذ القرارات السريرية.
TCGA أطلس جينوم السرطان (TCGA) هو مجموعة من البيانات الجينومية، والإبيجينومية، والترانسكريبتومية من أكثر من 30 نوعًا من السرطان. تم استخدام هذه المجموعة من البيانات في تطبيقات التعلم العميق لتشخيص السرطان، وتوقع نتائج المرضى، وتحديد العلاجات الجديدة.
الأهداف. MIMIC-III قاعدة بيانات المعلومات الطبية للعناية المركزة (MIMIC-III) هي مجموعة بيانات كبيرة متاحة مجانًا تتكون من سجلات صحية إلكترونية مجهولة الهوية لأكثر من 50,000 مريض تم إدخالهم إلى وحدات العناية الحرجة في مستشفى كبير للرعاية الثلاثية. تحتوي مجموعة البيانات على بيانات سريرية مثل العلامات الحيوية، ونتائج المختبر، والأدوية، والبيانات السكانية، مما يجعلها موردًا قيمًا للبحث في العناية الحرجة واتخاذ القرارات السريرية.
مجموعة بيانات الأشعة السينية للصدر من المعهد الوطني للصحة مجموعة بيانات الأشعة السينية للصدر من المعاهد الوطنية للصحة هي مجموعة تضم أكثر من 100,000 صورة أشعة سينية للصدر مصنفة مع مجموعة متنوعة من الأمراض الصدرية مثل الالتهاب الرئوي، والسل، وسرطان الرئة. تعتبر مجموعة البيانات هذه موردًا قيمًا للبحث في التشخيص المدعوم بالحاسوب، وتصنيف الأمراض، وتحليل الصور.
فيزيو نت مجموعة بيانات فيزيو نت هي مجموعة من الإشارات الفسيولوجية والبيانات السريرية ذات الصلة مثل تخطيط القلب الكهربائي (ECG) وتخطيط الدماغ الكهربائي (EEG) وتسجيلات ضغط الدم. تعتبر مجموعة البيانات هذه موردًا قيمًا لأبحاث تشخيص الأمراض والمراقبة والتنبؤ.
أدني مجموعة بيانات مبادرة تصوير الأعصاب لمرض الزهايمر (ADNI) هي مجموعة من بيانات التصوير العصبي الطولية والبيانات السريرية وبيانات العلامات الحيوية من الأفراد المصابين بمرض الزهايمر، والضعف الإدراكي الخفيف، والأشخاص الأصحاء. تعتبر مجموعة البيانات هذه موردًا قيمًا لتشخيص المرض، والتنبؤ، وأبحاث العلاج.
رائي مجموعة بيانات المراقبة، الوبائيات، والنتائج النهائية (SEER) هي سجل سرطان قائم على السكان يجمع البيانات السريرية والديموغرافية وبيانات البقاء على قيد الحياة من مرضى السرطان في الولايات المتحدة. تعتبر مجموعة البيانات هذه موردًا قيمًا لأبحاث تشخيص السرطان وعلاجه وتحليل البقاء على قيد الحياة.
تعقيد دمج تقنية البلوكشين مع الأنظمة الحالية [143]. علاوة على ذلك، فإن استخدام البلوكشين في التطبيقات الطبية يثير اعتبارات أخلاقية وتنظيمية تتعلق بملكية البيانات والموافقة. باختصار، فإن تطبيق التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء يطرح تحديات ومخاطر أمنية كبيرة. إن استخدام تقنية البلوكشين هو نهج واعد للتخفيف من هذه التحديات، ولكنه يتطلب أيضًا اعتبارات دقيقة وبحثًا إضافيًا لضمان تكاملها وتنفيذها الفعال في هذا السياق. بالتأكيد، كما ذُكر سابقًا، فإن الأمن هو قضية حاسمة في سياق تطبيقات المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. نظرًا لأن هذه التطبيقات تتضمن بيانات حساسة تتعلق بصحة الأفراد، فإن أي خروقات أمنية يمكن أن يكون لها عواقب وخيمة [144].
إحدى الطرق لمعالجة مخاوف الأمان هي من خلال استخدام تقنية البلوكشين. البلوكشين هو نظام موزع
تقدم تقنية السجل طريقة آمنة وغير قابلة للتلاعب لتخزين ومشاركة البيانات. تحقق ذلك من خلال استخدام خوارزميات التشفير واللامركزية لضمان أن البيانات المخزنة على سلسلة الكتل غير قابلة للتغيير وشفافة. في سياق المعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء، يمكن استخدام سلسلة الكتل لتأمين البيانات التي تولدها أجهزة إنترنت الأشياء وضمان سلامتها وموثوقيتها وخصوصيتها. على سبيل المثال، يمكن استخدام سلسلة الكتل لإنشاء سجل آمن وغير قابل للتلاعب لجميع البيانات التي تولدها أجهزة إنترنت الأشياء، والتي يمكن الوصول إليها فقط من قبل الأطراف المصرح لها. بالإضافة إلى ذلك، يمكن أن تنفذ سلسلة الكتل آليات مشاركة بيانات آمنة وتحافظ على الخصوصية بين مقدمي الرعاية الصحية والباحثين. ومع ذلك، فإن استخدام سلسلة الكتل في هذا السياق يأتي أيضًا مع تحدياته ومخاطره الخاصة. على سبيل المثال، قد لا تكون متطلبات سلسلة الكتل العالية من حيث الحوسبة والتخزين قابلة للتطبيق على أجهزة إنترنت الأشياء ذات الموارد المحدودة. بالإضافة إلى ذلك،
يمكن أن تجعل عدم قابلية التغيير في تقنية البلوكشين من الصعب تصحيح الأخطاء أو تحديث البيانات، مما قد يكون مشكلة في سياق البيانات الطبية التي قد تحتاج إلى تحديث أو تصحيح مع مرور الوقت. أخيرًا، يثير استخدام البلوكشين أيضًا مخاوف بشأن خصوصية البيانات وسرية المعلومات، حيث يمكن أن يكون من الصعب ضمان عدم مشاركة البيانات الطبية الحساسة أو الوصول إليها من قبل أطراف غير مصرح لها. لذلك، بينما تقدم تقنية البلوكشين حلاً واعدًا لتأمين تطبيقات المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، من المهم النظر بعناية في تطبيقها وتقييم المخاطر والفوائد قبل التنفيذ.
استخدام أجهزة إنترنت الأشياء في البيئات الطبية يأتي مع مجموعة من القضايا الأمنية والمخاطر والتحديات التي يجب معالجتها للحفاظ على سرية وسلامة المرضى. البيانات الطبية سرية للغاية، ويمكن أن يكون للوصول غير المصرح به أو تعديل هذه البيانات عواقب وخيمة. بالإضافة إلى ذلك، يمكن أن يتم اعتراض قنوات الاتصال اللاسلكية المستخدمة لنقل البيانات الطبية من قبل المهاجمين، مما قد يهدد خصوصية المرضى. واحدة من التحديات الأمنية الرئيسية في تطبيقات الذكاء الاصطناعي في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء هي الكمية الهائلة من البيانات التي تنتجها أجهزة إنترنت الأشياء، مما يجعل من الصعب تأمينها وإدارتها. وبالتالي، يجب على الباحثين تطوير تدابير أمنية متقدمة لحماية البيانات من الوصول أو التعديل غير المصرح به. علاوة على ذلك، يتم إنتاج البيانات الطبية بتنسيقات وبروتوكولات مختلفة، مما يجعل التكامل والتحليل صعبين. هذه الفجوة في التوافق بين الأجهزة المختلفة ومصادر البيانات تمثل تحديًا كبيرًا في ضمان أمان البيانات الطبية.
تتمثل التحديات الأخرى في نقص الشفافية وقابلية تفسير خوارزميات الذكاء الاصطناعي المستخدمة في الرعاية الصحية. يجب على مقدمي الرعاية الصحية والمرضى فهم كيفية اتخاذ القرارات ولماذا يتم التوصية بعلاجات أو تدخلات معينة. كما أن خوارزميات الذكاء الاصطناعي في الرعاية الصحية تثير مخاوف أخلاقية وقانونية، مثل التحيز المحتمل، والتمييز، وقضايا المساءلة. إن معالجة هذه الاعتبارات الأخلاقية والقانونية أمر بالغ الأهمية لضمان عدالة وشفافية ومساءلة الذكاء الاصطناعي في الرعاية الصحية. تعتبر تقنية البلوكشين حلاً واعدًا لهذه التحديات الأمنية. توفر تقنية البلوكشين طريقة لامركزية وآمنة وشفافة لإدارة ومشاركة البيانات. في سياق المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، يمكن أن تؤمن البلوكشين البيانات الطبية، وتحافظ على سريتها وسلامتها وتوافرها، وتوفر مسار تدقيق غير قابل للتلاعب، مما يمكّن من الشفافية والمساءلة في عمليات اتخاذ القرار. علاوة على ذلك، يمكن أن تؤسس البلوكشين الثقة في الأجهزة الطبية وبياناتها [149]. طبيعتها اللامركزية تقلل من خطر نقطة الفشل الواحدة، مما يجعلها حلاً مثاليًا لتأمين البيانات الطبية حيث تكون الثقة ضرورية. يمكن أن تدير البلوكشين أيضًا الوصول إلى البيانات الطبية بأمان، مما يسمح للمرضى بالتحكم في من لديه حق الوصول إلى بياناتهم ومنح الإذن لمقدمي الرعاية الصحية للوصول إليها، وبالتالي حماية خصوصيتهم. ومع ذلك، فإن تقنية البلوكشين في الرعاية الصحية تقدم أيضًا تحديات مثل قابلية التوسع، التي تتطلب قوة حسابية كبيرة وسعة تخزين لإدارة كميات كبيرة من البيانات التي تنتجها أجهزة إنترنت الأشياء. بالإضافة إلى ذلك، فإن نقص معايير التوافق بين شبكات البلوكشين المختلفة والأجهزة الطبية يجعل من الصعب دمجها.
البيانات بأمان، مما يسمح للمرضى بالتحكم في من لديه حق الوصول إلى بياناتهم ومنح الإذن لمقدمي الرعاية الصحية للوصول إليها، وبالتالي حماية خصوصيتهم. ومع ذلك، فإن تقنية البلوكشين في الرعاية الصحية تقدم أيضًا تحديات مثل قابلية التوسع، التي تتطلب قوة حسابية كبيرة وسعة تخزين لإدارة كميات كبيرة من البيانات التي تنتجها أجهزة إنترنت الأشياء. بالإضافة إلى ذلك، فإن نقص معايير التوافق بين شبكات البلوكشين المختلفة والأجهزة الطبية يجعل من الصعب دمجها.
اقترح الباحثون آليات أمان متنوعة لضمان أمان البيانات الطبية في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، بما في ذلك بروتوكولات الاتصال الآمنة، وآليات التحكم في الوصول، والتشفير، والتخزين الآمن. كما طوروا آليات تجميع بيانات آمنة تسمح بتجميع البيانات الطبية من مصادر متعددة مع الحفاظ على خصوصية البيانات وسرّيتها [150]. لمعالجة نقص الشفافية وقابلية تفسير خوارزميات الذكاء الاصطناعي، اقترح الباحثون استخدام خوارزميات الذكاء الاصطناعي القابلة للتفسير وتقنيات تفسير الذكاء الاصطناعي التي تحدد العوامل التي تساهم في عملية اتخاذ القرار.

6.8 نماذج التعلم العميق القادمة

كانت هناك عدة نماذج وتقنيات جديدة في التعلم العميق تكتسب زخمًا ولكن قد لا تكون قد استخدمت بشكل موسع في هذا السياق المحدد في الوقت الحالي. أحد هذه النماذج هو بنية المحول، التي صممت في الأصل لمهام معالجة اللغة الطبيعية ولكنها تظهر وعدًا في مجالات متنوعة تتجاوز تحليل النص، بما في ذلك بيانات الصور والسلاسل الزمنية. قد تقدم آلية الانتباه الذاتي وقدرات المعالجة المتوازية طرقًا جديدة للتعامل مع البيانات الطبية الحيوية المعقدة في الأنظمة المعتمدة على إنترنت الأشياء. بالإضافة إلى ذلك، كانت تقنيات التعلم القليل مثل التعلم المعدني والتعلم الانتقالي تكتسب اهتمامًا لإمكاناتها في تكييف النماذج مع مهام جديدة ببيانات محدودة، وهو ما قد يكون ذا صلة خاصة في سيناريوهات الرعاية الصحية التي تحتوي على مجموعات بيانات مشروحة نادرة. علاوة على ذلك، فإن دمج تقنيات الذكاء الاصطناعي القابل للتفسير (XAI) مع نماذج التعلم العميق هو اتجاه ناشئ قد يوفر رؤى قيمة في عملية اتخاذ القرار للنماذج المعقدة، مما يضمن الشفافية والموثوقية في التطبيقات الطبية الحرجة. من الضروري استشارة الأدبيات والمؤتمرات الأخيرة المتعلقة بهذا المجال للحصول على تحديثات حول استخدام هذه النماذج الجديدة وغيرها من نماذج التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء [151].
بالنظر إلى التقييم الشامل للورقة المدروسة في طرق التعلم العميق في المعلوماتية الحيوية والطبية، لا تزال هناك عدة قضايا مفتوحة نعتزم مناقشتها في القسم التالي بالإضافة إلى بعض التحديات البحثية الرئيسية والأعمال المستقبلية. علاوة على ذلك، تقدم بنى المحولات حلاً واعدًا للتغلب على قيود
الشبكات العصبية المتكررة في تطبيقات التعلم العميق ضمن المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. على عكس الشبكات العصبية المتكررة، لا تعتمد المحولات على المعالجة التسلسلية، مما يسمح لها بالتقاط الاعتمادات بعيدة المدى بشكل أكثر فعالية. تمكن آلية الانتباه الذاتي الخاصة بها من النظر في جميع عناصر الإدخال في وقت واحد، مما يجعلها قادرة للغاية على التعامل مع البيانات المعقدة وعالية الأبعاد السائدة في التطبيقات الطبية الحيوية [152]. تسهل هذه الخاصية استخراج الميزات القوية، وهو أمر حاسم لمهام التعرف على الصور وتحليل السلاسل الزمنية. بالإضافة إلى ذلك، تظهر المحولات قابلية عالية للتوازي، مما يؤدي إلى أوقات تدريب أسرع واستخدام أكثر كفاءة للموارد الحاسوبية. هذه السمة مفيدة بشكل خاص في بيئات إنترنت الأشياء ذات الموارد المحدودة حيث تكون المعالجة في الوقت الحقيقي أمرًا بالغ الأهمية. علاوة على ذلك، أظهرت المحولات أداءً مثيرًا للإعجاب في مهام معالجة اللغة الطبيعية المختلفة، مما يشير إلى قابليتها للتكيف مع أوضاع البيانات المختلفة. وبالتالي، فإن دمج بنى المحولات في تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء يحمل وعدًا كبيرًا في تقدم حالة الفن في هذا المجال.

7 قضايا مفتوحة وتحديات رئيسية

في القسم السابق، قمنا بفحص النتائج بدقة. في هذا الجزء، نستعرض القضايا المفتوحة والتحديات المهمة بعمق. يعد قطاع المعلوماتية الحيوية مصدرًا موثوقًا لكمية هائلة من بيانات المرضى اليومية، بشكل أساسي في شكل نسخ ورقية. ومع ذلك، بسبب التقدم التكنولوجي في أجهزة اكتساب البيانات، بدأت منظمات المعلوماتية الحيوية الآن في جمع البيانات بتنسيق إلكتروني [153]. إن استخدام تحليلات بيانات المعلوماتية الحيوية لديه القدرة على إحداث تغييرات كبيرة في صناعة الرعاية الصحية، مما يمكّن من تحسين عملية التشخيص وجودة الرعاية بشكل عام. على الرغم من النجاح الكبير للتعلم العميق في مجالات متنوعة، مثل توقع بنية البروتين وتحرير الجينوم، إلا أن تطبيقه في البيولوجيا الحاسوبية واجه تحديات كبيرة. غالبًا ما تواجه طرق التعلم العميق مشاكل تتعلق بنقص المعلومات المشروحة، ونقص الحقيقة الأساسية لمجموعات البيانات غير المحاكية، واختلافات كبيرة بين انتشار بيانات التدريب وانتشار بيانات الاختبار في العالم الحقيقي، مما يمكن أن يعيق تفسير النتائج والمعايير. علاوة على ذلك، يثير استخدام طرق التعلم العميق تحديات أخلاقية وأخلاقية تتعلق بالتحيزات في البنى ومجموعات البيانات [154]. لقد جعلت الزيادة في طرق التعلم العميق والبيانات من كفاءة التدريب عنق الزجاجة الرئيسي للتقدم الإضافي في هذا المجال. غالبًا ما تعتبر نماذج التعلم العميق غير قابلة للفهم بسبب نقص قابلية تفسيرها، مما يطرح تحديات كبيرة في التطبيقات الطبية حيث يحتاج الأطباء إلى فهم كيفية وصول النماذج إلى تشخيصاتها أو علاجاتها.
التوصيات. تركز الأبحاث الجارية على تطوير نماذج التعلم العميق الأكثر قابلية للتفسير. علاوة على ذلك، تولد المعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء كميات هائلة من البيانات الحساسة، مما يعرضها لخطر كبير من خروقات البيانات عند استخدام نماذج التعلم العميق، مما يستلزم اتخاذ تدابير أمنية قوية لمنع الوصول غير المصرح به أو السرقة أو التلاعب بالبيانات. ومع ذلك، فإن تطوير واختبار نماذج التعلم العميق مقيد بنقص في مجموعات البيانات الطبية عالية الجودة. علاوة على ذلك، تثار مخاوف أخلاقية تتعلق بخصوصية المرضى، والموافقة المستنيرة، والتحيز عند استخدام نماذج التعلم العميق في التطبيقات الطبية، مما يستلزم تطوير إرشادات وتنظيمات لضمان الاستخدام الأخلاقي. بالإضافة إلى ذلك، فإن دمج هذه النماذج في سير العمل السريري وتثقيف الأطباء حول استخدامها الفعال وتفسير النتائج يمثل تحديًا كبيرًا لاعتمادها في البيئات السريرية. قضية أخرى هي صعوبة نماذج التعلم العميق في التعميم على بيانات جديدة تتجاوز بيانات التدريب، وهو أمر حاسم في التطبيقات الطبية للتعميم على مجموعات المرضى الجديدة أو أنواع الأمراض. يتطلب معالجة هذه القضايا المفتوحة التعاون بين الباحثين والأطباء وصانعي السياسات. إذا تم التعامل معها بشكل مناسب، يمكن أن تحدث نماذج التعلم العميق ثورة في مجال المعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء، مما يؤدي إلى تحسين نتائج المرضى.

7.1 التحديات الرئيسية في البحث

تركز هذه القسم على العقبات الرئيسية بمزيد من التفصيل. يعتمد نجاح التعلم العميق في مجالات فرعية مختلفة من البيولوجيا الحاسوبية على عوامل متعددة مثل توفر وتنوع مجموعات البيانات المعيارية المراقبة وغير المراقبة، والطبيعة الحاسوبية للمشكلة، ومعايير التعلم الآلي ذات الآثار البيولوجية الكبيرة، والبنية التحتية لهندسة البرمجيات المطلوبة لتدريب هياكل التعلم العميق. يتطلب معالجة القضايا العالقة المتعلقة بأنماط التعلم العميق تطوير حلول مبتكرة مثل تحسين قابلية تفسير النماذج، وتوليد رؤى قابلة للتنفيذ ومفهومة، والتخفيف من القضايا الأخلاقية المرتبطة بنماذج التعلم العميق، وتعزيز الكفاءة، وتقليل تكاليف التدريب. تعمل مجتمعات التعلم العميق والبيولوجيا الحاسوبية على تطوير حلول مبتكرة لمواجهة هذه التحديات [156].

7.1.1 القابلية للتفسير

ربما تكون واحدة من أهم القيود على نماذج التعلم العميق اليوم، وخاصة في التطبيقات السريرية والبيولوجية، هي نقص القابلية للتفسير. على عكس نماذج الانحدار الأبسط في الإحصاء، من الصعب إظهار أهمية ووظيفة كل عقدة في شبكة نموذج التعلم العميق. الحدود غير الخطية للغاية والطبيعة المفرطة المعلمة للشبكات العصبية العميقة، التي تمكنها من تحقيق دقة تنبؤ عالية، تجعلها أيضًا صعبة.
لتوصيف [157]. إن نقص القابلية للتفسير هو عقبة كبيرة في علم الأحياء الحاسوبي، حيث إن موثوقية نموذج التعلم العميق ضرورية لتطبيقات اتخاذ القرارات السريرية الحساسة. من المهم بنفس القدر أن نفهم لماذا يمكن لنموذج ما أن يقدم توقعات دقيقة كما هو مهم أن نفهم كيف يقوم بإجراء تلك التوقعات في علم الأحياء. على سبيل المثال، في توقع وظيفة البروتين وبنيته، يجب أن نفهم السياسات التي تتحكم في هندسة البروتين ثلاثية الأبعاد وخصائصه. إن معالجة هذه المشكلات أمر حاسم لتوفير رؤى بيولوجية واتخاذ قرارات عملية في البيئات السريرية.
في السنوات الأخيرة، كانت هناك جهود عديدة في مجتمع التعلم الآلي لتحسين الإجراءات لشرح نماذج التعلم العميق “الصندوق الأسود”. تم تطبيق العديد من هذه الجهود على التحديات الحاسوبية في رؤية الكمبيوتر والتطبيقات البيولوجية. واحدة من الأساليب هي تعظيم التنشيط، الذي يقوم بتحسين استجابة النموذج باستخدام الانحدار التدرجي لتقديم مدخل يمثل النتيجة بشكل أفضل. يتم إجراء التطبيع باستخدام أداء كثافة مغلقة الشكل للمعلومات أو الشبكات التوليدية المعاكسة التي تحاكي تشتت المعلومات لجعل هذه المدخلات مفهومة للبشر. تقنيات أخرى، مثل توسيع تايلور لتحويل فورييه، تستخدم أساليب أكثر مباشرة لاستخراج رؤى من أداء الشبكات العصبية. تأخذ هذه الشروحات شكل خريطة حرارية تعرض أهمية كل سمة مدخلة. عملية معروفة أخرى تستخدم الانتشار العكسي للتحقيق في ميزات المدخلات التي يكون الناتج أكثر عرضة لها. تم استخدام هذه التقنيات لتوقع تشخيص السرطان باستخدام الشبكات العصبية العميقة، وتعبير الجينات، والتصنيف.

7.1.2 التدريب الفعال

ربما تكون واحدة من أهم القيود على نماذج التعلم العميق اليوم، وخاصة في التطبيقات السريرية والبيولوجية، هي نقص القابلية للتفسير. على عكس نماذج الانحدار الأبسط في الإحصاء، من الصعب إظهار أهمية ووظيفة كل عقدة في شبكة نموذج التعلم العميق. الحدود غير الخطية العالية والطبيعة المفرطة المعلمة للشبكات العصبية العميقة، التي تمكنها من تحقيق دقة تنبؤ عالية، تجعل من الصعب أيضًا وصفها. هذا النقص في القابلية للتفسير هو عقبة كبيرة في علم الأحياء الحاسوبي، حيث أن موثوقية نموذج التعلم العميق ضرورية لتطبيقات اتخاذ القرار السريري الحساسة. من المهم بنفس القدر أن نفهم لماذا يمكن لنموذج ما أن يقدم تنبؤات دقيقة كما هو مهم أن نفهم كيف يقوم بتلك التنبؤات في علم الأحياء. على سبيل المثال، في توقع وظيفة وبنية البروتين، يجب أن نفهم السياسات التي تتحكم في هندسة البروتين ثلاثية الأبعاد وخصائصه. معالجة هذه المشكلات أمر حاسم لتوفير رؤى بيولوجية واتخاذ قرارات عملية في البيئات السريرية.
التدريب الفعال أمر حاسم في تطوير نماذج التعلم العميق لتطبيقات المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. تتطلب نماذج التعلم العميق كميات كبيرة من البيانات عالية الجودة وموارد حسابية كافية لتحقيق الأداء الأمثل. غالبًا ما يكون الوصول إلى مجموعات بيانات كبيرة ومتنوعة في المجال الطبي محدودًا بسبب مخاوف الخصوصية والسرية. لذلك، يمكن استخدام تقنيات زيادة البيانات مثل معالجة الصور والإشارات، أو استخدام نماذج توليدية مثل الشبكات التوليدية المتعارضة، لزيادة حجم وتنوع البيانات المتاحة. علاوة على ذلك، يمكن استخدام التعلم بالنقل، وهي تقنية يتم فيها تكييف النماذج المدربة مسبقًا لمهمة معينة، لتدريب نماذج التعلم العميق في التطبيقات الطبية بشكل فعال. هذا مفيد بشكل خاص في الحالات التي تكون فيها البيانات المتاحة محدودة أو حيث يكون هناك حاجة لتدريب النموذج على مهام متعددة ذات صلة. جانب آخر حاسم من التدريب الفعال هو ضبط المعلمات الفائقة. تحتوي نماذج التعلم العميق على العديد من المعلمات الفائقة التي يجب ضبطها بشكل صحيح لتحقيق الأداء الأمثل. يمكن أن تكون هذه العملية مستهلكة للوقت وتتطلب خبرة في المجال. ومع ذلك، يمكن أن يحسن استخدام تقنيات ضبط المعلمات الفائقة الآلية مثل تحسين بايزي أو البحث الشبكي بشكل كبير من كفاءة هذه العملية. باختصار، يتطلب التدريب الفعال لنماذج التعلم العميق لتطبيقات المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء اعتبارات دقيقة لجودة البيانات، والموارد الحسابية، وتقنيات زيادة البيانات، والتعلم بالنقل، وضبط المعلمات الفائقة. من خلال استخدام هذه التقنيات، يمكن للباحثين تحسين دقة وموثوقية نماذج التعلم العميق، مما يؤدي إلى نتائج أفضل للمرضى.
في السنوات الأخيرة، كانت هناك جهود عديدة في مجتمع التعلم الآلي لتعزيز الإجراءات لشرح نماذج التعلم العميق “الصندوق الأسود”. تم تطبيق العديد من هذه الجهود على التحديات الحسابية في رؤية الكمبيوتر والتطبيقات البيولوجية. واحدة من الأساليب هي تعظيم التنشيط، الذي يحسن استجابة النموذج باستخدام الانحدار التدرجي لتقديم مدخل يمثل أفضل نتيجة [162]. يتم إجراء التطبيع باستخدام أداء كثافة مغلقة للمعلومات أو الشبكات التنافسية التي تحاكي انتشار المعلومات لجعل هذه المدخلات مفهومة للبشر. تقنيات أخرى، مثل توسيع تايلور لتحويل فورييه، تستخدم أساليب أكثر مباشرة لاستخراج الرؤى من أداء الشبكات العصبية. تأخذ هذه الشروحات شكل خريطة حرارية تعرض أهمية كل سمة مدخلة. عملية معروفة أخرى تستخدم الانتشار العكسي للتحقيق في ميزات المدخلات التي يكون الناتج أكثر عرضة لها. تم استخدام هذه التقنيات لتشخيص السرطان باستخدام الشبكات العصبية العميقة، تعبير الجينات، والتصنيف.

7.1.3 أمان البيانات والخصوصية

أحد أكبر التحديات التي تواجه مجال المعلوماتية الطبية والبيولوجية المعتمدة على إنترنت الأشياء هو ضمان أمان وخصوصية البيانات الطبية. البيانات التي تجمعها أجهزة إنترنت الأشياء غالبًا ما تكون حساسة للغاية، وإذا وقعت في الأيدي الخطأ، فقد يكون لذلك عواقب وخيمة. لذلك، يجب على الباحثين تطوير طرق آمنة تحافظ على الخصوصية لجمع ونقل وتخزين البيانات الطبية. يشمل ذلك استخدام التشفير، التحكم في الوصول، وتقنيات إخفاء الهوية.

7.1.4 التشغيل البيني وتكامل البيانات

تحدٍ آخر كبير هو نقص التشغيل البيني بين الأجهزة الطبية المختلفة ومصادر البيانات. غالبًا ما تولد أجهزة إنترنت الأشياء بيانات بتنسيقات مختلفة وتستخدم بروتوكولات مختلفة، مما يجعل من الصعب دمج البيانات وتحليلها. يجب على الباحثين تطوير تنسيقات بيانات موحدة وبروتوكولات تتيح تكامل البيانات بسلاسة والتشغيل البيني عبر الأجهزة والمنصات المختلفة. يعد تكامل البيانات أمرًا حيويًا لتطبيقات التعلم العميق في المعلوماتية الطبية والبيولوجية المعتمدة على إنترنت الأشياء. يتضمن ذلك دمج مصادر بيانات متعددة من مستشعرات وأجهزة وقواعد بيانات متنوعة في مجموعة بيانات موحدة يمكن استخدامها لتدريب واختبار نماذج التعلم العميق. في المعلوماتية الطبية، قد تشمل مصادر البيانات السجلات الصحية الإلكترونية، بيانات التصوير الطبي، الملاحظات السريرية، وبيانات الجينوم. قد تولد أنظمة مختلفة هذه المصادر وقد تحتوي على تنسيقات مختلفة، مما يجعل التكامل تحديًا. ومع ذلك، فإن دمج هذه المصادر أمر ضروري لالتقاط التعقيد الكامل لحالة صحة المريض. يمكن أن توفر نماذج التعلم العميق المدربة على مجموعات بيانات متكاملة فهمًا أكثر شمولاً ودقة لصحة المريض، مما يمكّن من علاجات أكثر تخصيصًا وفعالية. يمكن أن يؤدي تكامل البيانات أيضًا إلى تطوير رؤى واكتشافات جديدة من خلال تمكين تحديد الأنماط والارتباطات غير المعروفة سابقًا. ومع ذلك، فإن تكامل البيانات يطرح أيضًا بعض التحديات. أحد التحديات الكبيرة هو ضمان جودة البيانات وتناسقها، حيث قد تحتوي البيانات من مصادر مختلفة على أخطاء أو تحيزات أو تناقضات. بالإضافة إلى ذلك، قد يثير تكامل البيانات مخاوف تتعلق بالخصوصية والأمان، حيث قد يتم دمج بيانات المرضى الحساسة من مصادر متعددة. لمعالجة هذه التحديات، تحتاج استراتيجيات تكامل البيانات إلى تصميم دقيق لضمان جودة البيانات وتناسقها، وحماية خصوصية وأمان المرضى، وتمكين استرجاع البيانات وتحليلها بكفاءة.

7.1.5 المراقبة والتشخيص في الوقت الحقيقي

تعد المراقبة والتشخيص في الوقت الحقيقي جوانب حاسمة في المعلوماتية الطبية والبيولوجية المعتمدة على إنترنت الأشياء. يتيح دمج المستشعرات والأجهزة مع نماذج التعلم العميق
جمع البيانات وتحليلها بشكل مستمر، مما يسمح بالتشخيص والعلاج في الوقت المناسب للحالات الطبية. على سبيل المثال، يمكن أن تراقب المستشعرات القابلة للارتداء العلامات الحيوية مثل معدل ضربات القلب، ضغط الدم، وتشبع الأكسجين في الوقت الحقيقي، مما يوفر تدفقات بيانات مستمرة لتحليلها بواسطة نماذج التعلم العميق. يمكن أن تحدد هذه النماذج بعد ذلك الأنماط والشذوذ التي قد تشير إلى مشكلة طبية محتملة، مما يسمح بالتدخل والعلاج المبكر. يمكن أن تحسن المراقبة والتشخيص في الوقت الحقيقي أيضًا نتائج المرضى من خلال تمكين خطط علاج شخصية. من خلال جمع وتحليل البيانات باستمرار حول حالة المريض، يمكن لنماذج التعلم العميق تحديد أساليب علاج فردية تتناسب مع احتياجات المريض المحددة. ومع ذلك، هناك أيضًا تحديات في تنفيذ المراقبة والتشخيص في الوقت الحقيقي في المعلوماتية الطبية والبيولوجية المعتمدة على إنترنت الأشياء. تشمل هذه الحاجة إلى نقل بيانات آمن وموثوق، دمج البيانات من مصادر متعددة، وتطوير نماذج تعلم عميق فعالة وقابلة للتفسير يمكن أن توفر تشخيصات دقيقة وفي الوقت المناسب. تعتبر المراقبة والتشخيص في الوقت الحقيقي منطقة تطبيق حاسمة للتعلم العميق في المعلوماتية الطبية والبيولوجية المعتمدة على إنترنت الأشياء. يتضمن ذلك جمع البيانات باستمرار من مستشعرات وأجهزة متنوعة، معالجتها في الوقت الحقيقي باستخدام نماذج التعلم العميق وتقديم ملاحظات فورية للمهنيين الطبيين أو المرضى. أحد الأمثلة على المراقبة والتشخيص في الوقت الحقيقي هو في الأجهزة القابلة للارتداء التي تجمع بيانات عن معدل ضربات القلب، ضغط الدم، وغيرها من العلامات الحيوية. يمكن لنماذج التعلم العميق تحليل هذه البيانات في الوقت الحقيقي وتنبيه المهنيين الطبيين إذا تم اكتشاف أي شذوذ أو anomalies. يمكن أن يساعد ذلك المهنيين الطبيين في اتخاذ تدخلات في الوقت المناسب ومنع النتائج الصحية السلبية. مثال آخر هو في التصوير الطبي، حيث يمكن لنماذج التعلم العميق تحليل الصور الطبية في الوقت الحقيقي وتقديم تشخيصات سريعة ودقيقة. يمكن أن يكون هذا مفيدًا بشكل خاص في حالات الطوارئ حيث يجب اتخاذ قرارات سريعة بناءً على معلومات محدودة. تمتلك المراقبة والتشخيص في الوقت الحقيقي القدرة على تحسين نتائج المرضى وتقليل تكاليف الرعاية الصحية من خلال تمكين التدخلات المبكرة ومنع الأحداث السلبية. ومع ذلك، فإنه يقدم أيضًا تحديات تتعلق بخصوصية البيانات وأمانها والحاجة إلى نماذج تعلم عميق قوية وموثوقة يمكن أن تعمل في الوقت الحقيقي. يتطلب ذلك استخدام الحوسبة عالية الأداء وتقنيات التعلم الآلي المتقدمة.

7.1.6 التحليلات التنبؤية

التحليلات التنبؤية هي نوع من التحليلات المتقدمة التي تتضمن استخدام نماذج إحصائية وخوارزميات تعلم الآلة لتحليل البيانات التاريخية وإجراء توقعات حول الأحداث المستقبلية. في سياق المراقبة والتشخيص في الوقت الحقيقي في المعلوماتية الطبية والبيولوجية المعتمدة على إنترنت الأشياء، يمكن أن تكون التحليلات التنبؤية أداة قيمة لتحديد المخاطر الصحية المحتملة وتوقع نتائج المرضى. يمكن لنماذج التعلم العميق
تحديد الأنماط وإجراء توقعات حول الأحداث الصحية المستقبلية من خلال تحليل البيانات من مصادر متنوعة، مثل الأجهزة الطبية، السجلات الصحية الإلكترونية، وبيانات المرضى التي تم إنشاؤها. على سبيل المثال، يمكن استخدام التحليلات التنبؤية لتحديد المرضى الذين هم في خطر مرتفع لتطوير مرض أو حالة معينة، مما يسمح للأطباء بالتدخل مبكرًا ومنع ظهور المرض. بالإضافة إلى توقع الأحداث الصحية المستقبلية، يمكن أيضًا استخدام التحليلات التنبؤية لتحسين خطط العلاج وتحسين نتائج المرضى. من خلال تحليل البيانات من مرضى سابقين لديهم حالات مشابهة، يمكن لنماذج التعلم العميق تحديد أكثر خيارات العلاج فعالية للمرضى الفرديين وتقديم توصيات علاج شخصية. يمكن أن تستفيد المراقبة والتشخيص في الوقت الحقيقي بشكل كبير من استخدام التحليلات التنبؤية، حيث يسمح للأطباء باتخاذ تدابير استباقية لمنع الأحداث الصحية السلبية وتحسين نتائج المرضى. ومع ذلك، من المهم أن نلاحظ أن التحليلات التنبؤية دقيقة فقط بقدر دقة البيانات التي تستند إليها. لذلك، من الضروري ضمان أن البيانات المستخدمة لتدريب واختبار نماذج التعلم العميق دقيقة وتمثل وتكون خالية من التحيز.
إن استخدام تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء يثير اعتبارات أخلاقية وقانونية يجب معالجتها. واحدة من القضايا الرئيسية هي خصوصية بيانات المرضى. حيث تقوم خوارزميات التعلم العميق بتحليل كميات كبيرة من البيانات الشخصية، من الضروري الحفاظ على سرية المرضى. يتطلب ذلك اتخاذ تدابير أمنية صارمة وبروتوكولات لمنع الوصول غير المصرح به، أو خروقات البيانات، أو السرقة. اعتبار أخلاقي آخر هو إمكانية التحيز في نماذج التعلم العميق. يمكن أن يتم إدخال التحيزات بشكل غير مقصود في بيانات التدريب، مما يؤدي إلى نتائج غير دقيقة أو وصول غير متساوٍ إلى الرعاية الطبية. لذلك، من الضروري تطوير إرشادات وتنظيمات لضمان أن يتم تطوير واستخدام نماذج التعلم العميق بشكل أخلاقي وأن تُحترم حقوق المرضى. علاوة على ذلك، فإن الموافقة المستنيرة هي اعتبار أخلاقي آخر. يجب أن يتم إبلاغ المرضى بالكامل عن استخدام بياناتهم والمخاطر والفوائد المحتملة المرتبطة باستخدام نماذج التعلم العميق في رعايتهم الطبية. من الضروري الحصول على الموافقة المستنيرة من المرضى قبل استخدام بياناتهم في أي تطبيق للتعلم العميق. أخيرًا، هناك أيضًا اعتبارات قانونية تتعلق باستخدام التعلم العميق في التطبيقات الطبية. تختلف اللوائح التي تحكم استخدام البيانات الطبية من بلد إلى آخر، ومن المهم ضمان الامتثال لهذه اللوائح. بالإضافة إلى ذلك، قد تنشأ قضايا المسؤولية إذا أنتج نموذج التعلم العميق تشخيصات أو توصيات علاجية غير صحيحة. لذلك، من الضروري إنشاء أطر قانونية وإرشادات لتطوير ونشر تطبيقات التعلم العميق في البيئات الطبية.

7.1.8 التفاعل بين الإنسان والحاسوب

يشير التفاعل بين الإنسان والحاسوب (HCI) إلى تصميم وتقييم وتنفيذ أنظمة الحاسوب التفاعلية التي تأخذ في الاعتبار احتياجات وأهداف وقيود المستخدم. في سياق تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، يُعتبر التفاعل بين الإنسان والحاسوب جانبًا أساسيًا يساعد في ضمان أن تكون التكنولوجيا قابلة للاستخدام وفعالة وفعالة لمهنيي الرعاية الصحية والمرضى. يلعب التفاعل بين الإنسان والحاسوب دورًا حاسمًا في تطوير ونشر تطبيقات التعلم العميق في بيئات الرعاية الصحية. يتضمن ذلك تصميم واجهات المستخدم وتقنيات التفاعل التي تمكن المستخدمين من التفاعل مع نماذج التعلم العميق واتخاذ قرارات مستنيرة بناءً على مخرجاتها. على سبيل المثال، يمكن استخدام واجهة مستخدم توفر تصورًا لمخرجات نموذج التعلم العميق في الوقت الفعلي لتسهيل تفسير وفهم توقعات النموذج. علاوة على ذلك، يُعتبر التفاعل بين الإنسان والحاسوب أمرًا حيويًا لضمان تصميم وتقييم نماذج التعلم العميق بطريقة تأخذ في الاعتبار الاعتبارات الأخلاقية والقانونية لاستخدام هذه التقنيات في الرعاية الصحية. يشمل ذلك ضمان أن تكون النماذج شفافة وقابلة للتفسير ولا perpetuate التحيز أو التمييز. بالإضافة إلى ذلك، يمكن أن يساعد التفاعل بين الإنسان والحاسوب في ضمان استخدام نماذج التعلم العميق بطريقة تحترم خصوصية المرضى وسرية بياناتهم. باختصار، يُعتبر التفاعل بين الإنسان والحاسوب جانبًا حاسمًا في تصميم وتطوير ونشر تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. يساعد في ضمان أن تكون التكنولوجيا قابلة للاستخدام وفعالة وفعالة لمهنيي الرعاية الصحية والمرضى وأن يتم تصميمها واستخدامها بشكل أخلاقي وقانوني.

7.1.9 قابلية التوسع والعمومية

تُعتبر قابلية التوسع والعمومية عاملين مهمين في نشر نماذج التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. تشير قابلية التوسع إلى قدرة النظام على التعامل مع كميات متزايدة من البيانات أو المستخدمين أو العمليات. في سياق نماذج التعلم العميق، تُعتبر قابلية التوسع مهمة لأن مجموعات البيانات الطبية يمكن أن تكون كبيرة ومعقدة، مما يتطلب موارد حوسبة كبيرة لمعالجتها وتحليلها. لذلك، من الضروري ضمان أن تكون نماذج التعلم العميق قابلة للتوسع ويمكنها التعامل مع كميات البيانات المتزايدة التي سيتم إنتاجها في المستقبل. تشير العمومية إلى قدرة النموذج على الأداء الجيد على بيانات جديدة وغير مرئية. في التطبيقات الطبية، تُعتبر العمومية حاسمة لأنه من الضروري أن تتمكن النماذج من التنبؤ بدقة بالنتائج للمرضى الجدد. غالبًا ما يتم انتقاد نماذج التعلم العميق بسبب نقص العمومية، حيث قد تؤدي بشكل جيد على مجموعة بيانات التدريب ولكنها تواجه صعوبة عند تقديم بيانات جديدة. لذلك، من المهم تطوير نماذج التعلم العميق التي تكون عامة للسكان المرضى الجدد وأنواع الأمراض. لمعالجة هذه القضايا، يستكشف الباحثون هياكل وتقنيات جديدة للتعلم العميق يمكن أن
تحسن قابلية التوسع والعمومية للنماذج. على سبيل المثال، يُعتبر التعلم بالنقل تقنية تسمح للنماذج بإعادة استخدام الميزات المتعلمة من مهمة إلى أخرى، مما يقلل من كمية البيانات المطلوبة للتدريب ويحسن العمومية. بالإضافة إلى ذلك، يُعتبر التعلم الفيدرالي تقنية تسمح بتدريب النماذج على مجموعات بيانات موزعة، مما يقلل من كمية البيانات التي تحتاج إلى النقل ويحسن قابلية التوسع. إن معالجة قضايا قابلية التوسع والعمومية أمر حاسم لنشر نماذج التعلم العميق بنجاح في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء [163].

7.2 الأعمال المستقبلية

في هذا القسم، نقوم بفحص المشاريع المستقبلية بشكل شامل. باعتبارها مجالًا علميًا متعدد التخصصات، أصبحت المعلوماتية الحيوية ضرورية في مساعدة دراسة مجالات وتقنيات “الأوميات” في علوم الحياة، وخاصة إدارة وتقييم البيانات من مختلف “الأوم”. لقد أبرز التدفق الهائل للمعلومات البيولوجية عالية الإنتاجية في السنوات الأخيرة، بسبب التقدم التكنولوجي في مجالات “الأوم”، الحاجة والأهمية لموارد المعلوماتية الحيوية لتحليل مجموعات البيانات الكبيرة والمعقدة. لتلبية هذا الطلب، هناك حاجة كبيرة لجيل جديد من العلماء المؤهلين تأهيلاً عالياً ذوي المعرفة والمهارات متعددة التخصصات، القادرين على استخدام الأنظمة المعقدة والبرامج والخوارزميات لإدارة وتفسير البيانات البيولوجية المعقدة. لتحقيق هذا الهدف، تتوفر موارد متنوعة، مثل منصات التعليم والتدريب الدولية في المعلوماتية الحيوية، والدورات عبر الإنترنت، وورش العمل، والمؤتمرات البحثية، والتعليم عبر الإنترنت. ومع ذلك، تحتاج الدول النامية إلى المزيد من المنصات الإبداعية، والوصول إلى الشبكات والويب، والتقنيات التعليمية، وأنظمة الحوسبة عالية الأداء، وتمويل أفضل لتحسين التعليم في المعلوماتية الحيوية. من حيث البحث، يجب تطوير أدوات المعلوماتية الحيوية للتعامل مع الزيادة في حجم البيانات عالية الإنتاجية من الميتابولوميات، والميتابينوميات، والسبان جينوميات، والبروتيوميات. كما تتطلب أدوات فعالة أيضًا لتوصيف وتجميع الجينوم بدقة عالية، مما يستلزم تسلسل المزيد من الجينومات، والأنواع متعددة الصيغ الصبغية، والجينومات الفرعية، والجينومات أحادية الخلية، والأنسجة لإنتاج بيانات ذات جودة عالية لأساليب البرمجة وخوارزميات المعلوماتية الحيوية. في المستقبل، سيتم استخدام برامج التعلم الآلي بشكل متزايد لأغراض سريرية وبحثية. على الرغم من أن خوارزميات التعلم الآلي أظهرت إمكانات في تحليل الصور، إلا أن فعاليتها لا تزال تعتمد على توفر موارد الحوسبة. بالإضافة إلى ذلك، يحتاج المشغلون البشريون إلى فحص والتحقق من مخرجات خوارزميات التعلم الآلي، وهو ما يمكن أن يكون عملية تستغرق وقتًا طويلاً.

7.2.1 دمج البيانات متعددة الأنماط

تكامل البيانات متعددة الأنماط هو مجال واعد للعمل المستقبلي في مجال المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. مع تزايد توفر أنماط بيانات متنوعة، هناك حاجة إلى هياكل تعلم عميق جديدة يمكنها دمج والتعلم بفعالية من مصادر متعددة للمعلومات. يمكن للباحثين استكشاف تطوير هياكل متعددة الأنماط جديدة يمكنها التعامل مع أنواع بيانات مختلفة، مثل التصوير، وعلم الجينوم، والبيانات السريرية. يمكن أن يحسن تكامل البيانات متعددة الأنماط دقة التشخيص والعلاج في التطبيقات الطبية. يمكن أن تبحث الأبحاث المستقبلية في تأثير تكامل البيانات متعددة الأنماط على حالات طبية مختلفة وتقييم فوائدها وقيودها المحتملة. تم استخدام التعلم المنقول على نطاق واسع في التعلم العميق لتحسين أداء النماذج في المجالات ذات البيانات المحدودة. يمكن للباحثين التحقيق في استخدام تقنيات التعلم المنقول لتكامل البيانات متعددة الأنماط، حيث يمكن نقل المعرفة المكتسبة من نمط واحد إلى نمط آخر. كما تم مناقشته سابقًا، فإن القابلية للتفسير هي جانب أساسي من نماذج التعلم العميق في التطبيقات الطبية. يمكن أن تركز الأبحاث المستقبلية على تطوير نماذج متعددة الأنماط قابلة للتفسير يمكنها تقديم رؤى حول كيفية وصول النموذج إلى قراره من خلال دمج المعلومات من أنماط مختلفة. يثير استخدام البيانات متعددة الأنماط في التطبيقات الطبية مخاوف أخلاقية وقانونية تتعلق بخصوصية المرضى، ومشاركة البيانات، والموافقة المستنيرة. يمكن أن تبحث الأبحاث المستقبلية في هذه المخاوف وتطوير إرشادات وتنظيمات لضمان الاستخدام الأخلاقي للبيانات متعددة الأنماط في التطبيقات الطبية. بشكل عام، يعد تكامل البيانات متعددة الأنماط مجالًا واعدًا للعمل المستقبلي في مجال المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء، وهناك حاجة إلى تقنيات وأساليب جديدة يمكنها التعامل بفعالية مع أنماط البيانات المتنوعة وتحسين دقة التشخيص والعلاج [164].

7.2.2 التعلم الفيدرالي

التعلم الفيدرالي هو تقنية واعدة تسمح بتدريب النماذج الموزعة عبر أجهزة متعددة، دون الحاجة إلى تخزين البيانات مركزيًا. وبالتالي، يمكن أن تعالج المخاوف المتعلقة بخصوصية البيانات وأمانها السائدة في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. غالبًا ما تكون البيانات الطبية عالية الأبعاد ومعقدة، مما يجعل من الصعب تطوير خوارزميات التعلم الفيدرالي التي تكون فعالة ودقيقة في نفس الوقت. يمكن أن تركز الأبحاث المستقبلية على تطوير خوارزميات التعلم الفيدرالي التي يمكنها التعامل بفعالية مع هذه التعقيدات. لقد أظهر التعلم الفيدرالي نتائج واعدة في بعض التطبيقات الطبية، مثل تحليل تخطيط الدماغ الكهربائي (EEG) والتصوير الطبي. ومع ذلك، لا يزال غير واضح
مدى أدائه في تطبيقات أخرى، مثل علم الجينوم أو اتخاذ القرارات السريرية. يمكن أن تبحث الأبحاث المستقبلية في أداء التعلم الفيدرالي في تطبيقات طبية مختلفة. يجب أن تكون الاتصالات بين الأجهزة في إعداد التعلم الفيدرالي آمنة لضمان خصوصية المرضى ومنع تسرب البيانات. يمكن أن تركز الأبحاث المستقبلية على تطوير بروتوكولات اتصال تكون آمنة وفعالة، مما يسمح بالتعلم الفيدرالي الفعال عبر مجموعة واسعة من التطبيقات الطبية. غالبًا ما تأتي البيانات الطبية من مجموعة متنوعة من المصادر وبأشكال مختلفة، مما يجعل من الصعب دمجها للاستخدام في التعلم الفيدرالي. يمكن أن تركز الأبحاث المستقبلية على تطوير تقنيات لمعالجة تباين البيانات، مثل تطبيع البيانات وزيادة البيانات، لتحسين فعالية التعلم الفيدرالي. الهدف النهائي من التعلم الفيدرالي في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء هو تحسين نتائج المرضى. يمكن أن تركز الأبحاث المستقبلية على تطوير أطر لنشر نماذج التعلم الفيدرالي في الممارسة السريرية، بما في ذلك كيفية دمجها بفعالية في سير العمل السريري الحالي.

7.2.3 الذكاء الاصطناعي القابل للتفسير

الذكاء الاصطناعي القابل للتفسير هو مجال بحث مهم في مجال تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. يمكن للباحثين العمل على تطوير نماذج جديدة تكون قابلة للتفسير بطبيعتها، مثل أشجار القرار، والنماذج القائمة على القواعد، والنماذج الخطية. يمكن استخدام هذه النماذج بالتزامن مع نماذج التعلم العميق لتقديم نتائج أكثر شفافية. يمكن أن تساعد أدوات التصوير الأطباء والباحثين على فهم نتائج نماذج التعلم العميق بشكل أفضل. يمكن للباحثين العمل على تطوير أدوات جديدة لتصوير نتائج نماذج التعلم العميق وشرح كيفية وصولهم إلى قراراتهم. يمكن للباحثين تطوير تقنيات لدمج ملاحظات البشر في عملية تدريب نماذج التعلم العميق. يمكن أن يساعد ذلك في تحسين قابلية تفسير النماذج وجعلها أكثر فائدة في اتخاذ القرارات السريرية. يمكن للباحثين العمل على تطوير معايير لقابلية التفسير في نماذج التعلم العميق. يمكن أن يساعد ذلك في ضمان أن النماذج شفافة وأن الأطباء يفهمون كيف وصلوا إلى قراراتهم. يمكن للباحثين تقييم تأثير قابلية التفسير على اعتماد نماذج التعلم العميق في البيئات السريرية. يمكن أن يساعد ذلك في تحديد أكثر الأساليب فعالية لجعل نماذج التعلم العميق أكثر قابلية للتفسير وفائدة في اتخاذ القرارات السريرية. من خلال معالجة قضية قابلية التفسير في نماذج التعلم العميق، يمكن للباحثين المساعدة في تحسين الثقة واعتماد هذه النماذج في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء.

7.2.4 التعلم المنقول

التعلم المنقول، وهو تقنية يتم فيها تعديل نموذج تم تدريبه على مهمة واحدة لاستخدامه في مهمة جديدة، قد أظهر وعدًا كبيرًا في التطبيقات الطبية. هناك اهتمام متزايد باستخدام التعلم المنقول لمهام تحليل الصور الطبية. من خلال تعديل النماذج المدربة مسبقًا على مجموعات بيانات صور عامة كبيرة مثل ImageNet لمهام التصوير الطبي، يمكننا الاستفادة من الميزات والأوزان المكتسبة لتحسين أداء النماذج على مجموعات بيانات طبية أصغر. تم تطبيق التعلم المنقول بنجاح على مهام معالجة اللغة الطبيعية من خلال تدريب نماذج لغوية كبيرة مثل BERT على كميات هائلة من بيانات النص. هناك حاجة إلى نماذج يمكنها فهم اللغة الطبية والمصطلحات في المجال الطبي. يمكن أن يؤدي ضبط هذه النماذج اللغوية المدربة مسبقًا على مجموعات بيانات النص الطبية إلى تحسين أدائها في مهام تصنيف النص الطبي. لم يتم تطبيق التعلم المنقول على نطاق واسع على بيانات السلاسل الزمنية في المجال الطبي. ومع ذلك، مع تزايد توفر الأجهزة القابلة للارتداء وأجهزة استشعار إنترنت الأشياء التي تولد بيانات السلاسل الزمنية، يمكن أن يستفيد التعلم المنقول بفعالية من النماذج المدربة مسبقًا لمهام مثل مراقبة المرضى وتوقع الأمراض. في المجال الطبي، يمكن أن يكون الحصول على كميات كبيرة من البيانات من مؤسسة واحدة تحديًا بسبب مخاوف الخصوصية والأمان. يمكن استخدام تقنيات تكييف المجال لنقل المعرفة من النماذج المدربة مسبقًا إلى مجموعة بيانات جديدة ذات توزيع مختلف. يمكن أن يكون هذا مفيدًا بشكل خاص لمهام مثل تشخيص الأمراض، حيث يحتاج النموذج إلى التدريب على بيانات من مؤسسات متعددة لضمان القابلية للتعميم. كما تم ذكره سابقًا، فإن تكامل البيانات متعددة الأنماط هو مجال بحث أساسي في المعلوماتية الطبية. يمكن استخدام التعلم المنقول للاستفادة من النماذج المدربة مسبقًا من أنماط مختلفة لتحسين أداء النظام بشكل عام. على سبيل المثال، يمكن دمج النماذج المدربة مسبقًا على الصور الطبية والنص لإنشاء نظام يمكنه تحليل كلا النمطين في وقت واحد. بشكل عام، فإن استخدام التعلم المنقول في تطبيقات التعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء لديه إمكانات كبيرة لتحسين أداء وكفاءة النماذج. يجب أن تركز الأبحاث المستقبلية في هذا المجال على تطوير تقنيات جديدة للتعلم المنقول يمكنها التعامل مع التحديات الفريدة للبيانات الطبية ودمج التعلم المنقول مع تقنيات أخرى مثل التعلم الفيدرالي والذكاء الاصطناعي القابل للتفسير.

7.2.5 مراقبة الرعاية الصحية الشخصية

رصد الرعاية الصحية المخصصة هو مجال بحث سريع النمو يسعى لتقديم حلول رعاية صحية مخصصة للأفراد. يمكن أن تحدث تقنيات التعلم العميق، جنبًا إلى جنب مع إنترنت الأشياء والمعلوماتية الحيوية والطبية، ثورة في رصد الرعاية الصحية المخصصة. في رصد الرعاية الصحية المخصصة، تأتي البيانات من
مصادر متعددة مثل الأجهزة القابلة للارتداء، وأجهزة الاستشعار الطبية، والسجلات الصحية الإلكترونية. يمكن استخدام تقنيات التعلم العميق لدمج هذه البيانات لرؤية شاملة لحالة صحة الفرد. يمكن أن يساعد دمج البيانات متعددة الأنماط باستخدام التعلم العميق في تحسين دقة وموثوقية أنظمة رصد الرعاية الصحية المخصصة. يعد اكتشاف الشذوذ جانبًا مهمًا من رصد الرعاية الصحية المخصصة حيث يساعد في تحديد الأنماط غير العادية في حالة صحة الفرد. يمكن استخدام تقنيات التعلم العميق لتحديد هذه الأنماط وإطلاق الإنذارات إذا لزم الأمر. يمكن أن يكون هذا مفيدًا بشكل خاص في اكتشاف الأمراض المزمنة أو الطوارئ الصحية المفاجئة. يمكن تحقيق رصد حالة صحة الفرد في الوقت الحقيقي باستخدام الأجهزة القابلة للارتداء وأجهزة الاستشعار المدعومة من إنترنت الأشياء. يمكن نشر نماذج التعلم العميق على هذه الأجهزة لمراقبة حالة صحة الفرد باستمرار وتقديم تنبيهات في الوقت الحقيقي إذا لزم الأمر. يمكن أن يكون هذا مفيدًا بشكل خاص للمرضى المسنين أو ذوي المخاطر العالية.
يمكن تدريب نماذج التعلم العميق على مجموعات بيانات كبيرة من السجلات الطبية لتقديم تشخيصات مخصصة للأفراد. يمكن أن تأخذ هذه النماذج في الاعتبار التاريخ الطبي للفرد، والمعلومات الجينية، وعوامل أخرى لتقديم تشخيص دقيق وتوصيات علاجية. يمكن أن تساعد التحليلات التنبؤية باستخدام التعلم العميق في التنبؤ بحالة صحة الفرد والمخاطر الصحية المحتملة. يمكن تدريب هذه النماذج على مجموعات بيانات كبيرة من السجلات الطبية لتحديد الأنماط والتنبؤ بالمشكلات الصحية المحتملة. يمكن أن يكون هذا مفيدًا بشكل خاص في الرعاية الصحية الوقائية. تعتبر الخصوصية والأمان من القضايا الرئيسية في رصد الرعاية الصحية المخصصة. يمكن استخدام نماذج التعلم العميق لضمان خصوصية وأمان بيانات صحة الفرد. يمكن استخدام تقنيات مثل التعلم الفيدرالي لتدريب النماذج على مجموعات بيانات موزعة دون المساس بالخصوصية. غالبًا ما تعتبر نماذج التعلم العميق “صناديق سوداء” لأنها صعبة التفسير والشرح. في رصد الرعاية الصحية المخصصة، من المهم تقديم نماذج قابلة للتفسير لفوز ثقة المرضى ومقدمي الرعاية الصحية. يمكن استخدام تقنيات الذكاء الاصطناعي القابلة للتفسير لتقديم رؤى حول كيفية عمل هذه النماذج. هذه مجرد بعض من الأعمال والأفكار المستقبلية التي يمكن استكشافها في رصد الرعاية الصحية المخصصة باستخدام التعلم العميق والمعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. مع تزايد توفر بيانات الصحة وتقدم تقنيات التعلم العميق، يمكن أن يحدث رصد الرعاية الصحية المخصصة تحولًا في كيفية إدارة صحتنا.

7.2.6 التشخيص الفوري وتخطيط العلاج

يعد التشخيص الفوري وتخطيط العلاج جانبًا حاسمًا من جوانب الرعاية الصحية التي يمكن أن تستفيد بشكل كبير من التعلم العميق والمعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. يمكن تدريب نماذج التعلم العميق على مجموعات بيانات كبيرة من الصور الطبية وسجلات المرضى
لتقديم تشخيص فوري. يمكن نشر هذه النماذج على الأجهزة المدعومة من إنترنت الأشياء لتقديم ملاحظات فورية لمقدمي الرعاية الصحية. يمكن أن يكون هذا مفيدًا بشكل خاص في حالات الطوارئ حيث يكون التشخيص السريع أمرًا حاسمًا. يمكن استخدام نماذج التعلم العميق لتطوير خطط علاج مخصصة للمرضى. يمكن أن تأخذ هذه النماذج في الاعتبار التاريخ الطبي للفرد، والمعلومات الجينية، وعوامل أخرى لتقديم توصيات علاجية مخصصة. يمكن استخدام الأجهزة المدعومة من إنترنت الأشياء لمراقبة استجابة المريض للعلاج وضبط خطة العلاج وفقًا لذلك. يمكن أن تساعد أنظمة دعم القرار باستخدام التعلم العميق مقدمي الرعاية الصحية في اتخاذ قرارات مستنيرة بشأن التشخيص والعلاج. يمكن أن تقدم هذه الأنظمة توصيات بناءً على بيانات المرضى، والإرشادات الطبية، ومعلومات أخرى ذات صلة. يمكن أن تساعد التحليلات التنبؤية باستخدام التعلم العميق في التنبؤ باستجابة المريض للعلاج والمخاطر الصحية المحتملة. يمكن تدريب هذه النماذج على مجموعات بيانات كبيرة من السجلات الطبية لتحديد الأنماط والتنبؤ بالمشكلات الصحية المحتملة. يمكن أن يكون هذا مفيدًا بشكل خاص في الرعاية الصحية الوقائية. يمكن تدريب نماذج التعلم العميق لتحليل الصور الطبية مثل الأشعة السينية، والرنين المغناطيسي، والأشعة المقطعية. يمكن أن تساعد هذه النماذج مقدمي الرعاية الصحية في تحديد الشذوذ وتشخيص الأمراض. يمكن استخدام الأجهزة المدعومة من إنترنت الأشياء لالتقاط ونقل هذه الصور في الوقت الحقيقي، مما يمكّن من التشخيص عن بُعد وتخطيط العلاج. تعتبر الخصوصية والأمان من القضايا الرئيسية في التشخيص الفوري وتخطيط العلاج. يمكن استخدام نماذج التعلم العميق لضمان خصوصية وأمان بيانات المرضى. يمكن استخدام تقنيات مثل التعلم الفيدرالي لتدريب النماذج على مجموعات بيانات موزعة دون المساس بالخصوصية. في التشخيص الفوري وتخطيط العلاج، من المهم تقديم نماذج قابلة للتفسير لفوز ثقة المرضى ومقدمي الرعاية الصحية. يمكن استخدام تقنيات الذكاء الاصطناعي القابلة للتفسير لتقديم رؤى حول كيفية عمل هذه النماذج. هذه مجرد بعض من الأعمال والأفكار المستقبلية التي يمكن استكشافها في التشخيص الفوري وتخطيط العلاج باستخدام التعلم العميق والمعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. مع تزايد توفر بيانات الرعاية الصحية وتقدم تقنيات التعلم العميق، فإن التشخيص الفوري وتخطيط العلاج لديه القدرة على تحويل الطريقة التي نقدم بها الرعاية الصحية [165].

7.2.7 الصيانة التنبؤية للأجهزة الطبية

تعد الصيانة التنبؤية جانبًا مهمًا من إدارة الأجهزة الطبية التي يمكن أن تستفيد بشكل كبير من استخدام التعلم العميق والمعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. يمكن استخدام التحليلات التنبؤية باستخدام التعلم العميق للتنبؤ بموعد احتمال فشل الأجهزة الطبية أو الحاجة إلى صيانة. يمكن تدريب هذه النماذج على مجموعات بيانات كبيرة من بيانات الاستشعار من الأجهزة الطبية لتحديد الأنماط والتنبؤ بالمشكلات المحتملة. يمكن استخدام نماذج التعلم العميق لمراقبة حالة الأجهزة الطبية في الوقت الحقيقي [166]. يمكن أن تقوم هذه النماذج
تحليل البيانات من أجهزة الاستشعار مثل درجة الحرارة، والضغط، والاهتزاز لاكتشاف الشذوذ والفشل المحتمل. يمكن أن يساعد اكتشاف الشذوذ باستخدام التعلم العميق في تحديد الأنماط غير العادية في بيانات الأجهزة الطبية. يمكن أن تساعد هذه النماذج في اكتشاف المشكلات التي قد لا تكون واضحة على الفور للعين البشرية وإطلاق الإنذارات إذا لزم الأمر. يمكن استخدام نماذج التنبؤ باستخدام التعلم العميق للتنبؤ بالعمر المتبقي المفيد للأجهزة الطبية. يمكن أن تساعد هذه النماذج مقدمي الرعاية الصحية في التخطيط لصيانة واستبدال الأجهزة الطبية قبل أن تفشل. يمكن أن تساعد جدولة الصيانة التنبؤية باستخدام التعلم العميق مقدمي الرعاية الصحية في تحسين جداول الصيانة بناءً على معدلات الفشل المتوقعة للأجهزة الطبية. يمكن أن يساعد ذلك في تقليل وقت التوقف وتحسين موثوقية الأجهزة الطبية. يمكن أن تساعد تشخيص الأعطال باستخدام التعلم العميق مقدمي الرعاية الصحية في تحديد وتشخيص المشكلات بسرعة مع الأجهزة الطبية. يمكن أن تحلل هذه النماذج بيانات الاستشعار وتقدم توصيات بالإصلاح أو الاستبدال. يمكن دمج نماذج الصيانة التنبؤية مع السجلات الصحية الإلكترونية لرؤية أداء الأجهزة الطبية ونتائج المرضى بشكل شامل. يمكن أن يساعد ذلك مقدمي الرعاية الصحية في اتخاذ قرارات مستنيرة بشأن إدارة الأجهزة الطبية ورعاية المرضى. هذه مجرد بعض من الأعمال والأفكار المستقبلية التي يمكن استكشافها في الصيانة التنبؤية للأجهزة الطبية باستخدام التعلم العميق والمعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. مع تزايد استخدام الأجهزة الطبية والحاجة إلى تقديم رعاية صحية موثوقة وآمنة، يمكن أن تحسن الصيانة التنبؤية من كفاءة وفعالية أنظمة الرعاية الصحية.

7.2.8 تحسين اكتشاف الأدوية

اكتشاف الأدوية هو عملية معقدة تستغرق وقتًا طويلاً ويمكن أن تستفيد بشكل كبير من استخدام التعلم العميق والمعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. يمكن استخدام نماذج التعلم العميق لتصميم أدوية جديدة بناءً على التركيب الجزيئي للأدوية الموجودة والتأثير العلاجي المرغوب. يمكن أن تتنبأ هذه النماذج بالتفاعل بين الأدوية والبروتينات المستهدفة، مما يساعد في تحديد المرشحين المحتملين للأدوية. يمكن أن تساعد الفحص الافتراضي باستخدام التعلم العميق في تحديد المرشحين المحتملين للأدوية من قواعد بيانات كبيرة من المركبات. يمكن أن تحلل هذه النماذج التركيب الكيميائي للمركبات وتنبؤ نشاطها ضد البروتينات المستهدفة. يمكن أن تساعد توقعات السمية باستخدام التعلم العميق في تحديد المخاوف المحتملة للسلامة للمرشحين للأدوية. يمكن أن تحلل هذه النماذج التركيب الكيميائي للمركبات وتنبؤ سمّيتها بناءً على تفاعلها مع البروتينات المستهدفة. يمكن استخدام نماذج التعلم العميق لتحديد الأدوية الموجودة التي قد تكون فعالة في علاج أمراض أخرى. يمكن أن تحلل هذه النماذج التركيب الجزيئي للأدوية وتنبؤ تأثيراتها العلاجية المحتملة ضد أمراض أخرى. يمكن استخدام نماذج التعلم العميق لتحسين تصميم التجارب السريرية وتقليل الوقت والتكلفة لتطوير الأدوية. يمكن أن تتنبأ هذه النماذج
استجابة المريض للعلاج وتحديد المجموعات الفرعية التي من المرجح أن تستفيد من دواء ما. يمكن استخدام نماذج التعلم العميق لتطوير خطط علاج شخصية بناءً على المعلومات الجينية للفرد، والتاريخ الطبي، وعوامل أخرى. يمكن أن تتنبأ هذه النماذج بفعالية الأدوية المختلفة وتساعد مقدمي الرعاية الصحية في اتخاذ قرارات علاج مستنيرة. يمكن دمج نماذج التعلم العميق مع السجلات الصحية الإلكترونية لتوفير رؤية شاملة لصحة المريض ونتائج العلاج. يمكن أن يساعد ذلك مقدمي الرعاية الصحية في اتخاذ قرارات مستنيرة بشأن علاج الأدوية ورعاية المرضى. هذه مجرد بعض الأعمال والأفكار المستقبلية التي يمكن استكشافها في تحسين اكتشاف الأدوية باستخدام التعلم العميق والمعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. مع الطلب المتزايد على أدوية جديدة وفعالة، فإن تحسين اكتشاف الأدوية لديه القدرة على تحويل صناعة الأدوية وتحسين نتائج المرضى.

7.2.9 تحليل الصور الطبية

يعد تحليل الصور الطبية جانبًا حيويًا من الرعاية الصحية يمكن أن يستفيد بشكل كبير من استخدام التعلم العميق والمعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. يمكن استخدام نماذج التعلم العميق لتقسيم الصور، مما ينطوي على فصل الصورة إلى مناطق مختلفة بناءً على خصائصها. يمكن أن يساعد ذلك في تحديد وعزل هياكل أو شذوذات معينة في الصور الطبية. يمكن استخدام نماذج التعلم العميق لتصنيف الصور، مما ينطوي على تعيين علامة لصورة بناءً على محتواها. يمكن أن يساعد ذلك في تحديد أنواع مختلفة من الهياكل أو الشذوذات في الصور الطبية. يمكن استخدام نماذج التعلم العميق لتسجيل الصور، مما ينطوي على محاذاة صور طبية متعددة لنفس المريض تم التقاطها في أوقات مختلفة أو من طرق مختلفة. يمكن أن يساعد ذلك في تتبع تغييرات حالة المريض بمرور الوقت وتحسين تخطيط العلاج. يمكن استخدام نماذج التعلم العميق لإعادة بناء الصور، مما ينطوي على إنشاء صور عالية الجودة من بيانات منخفضة الجودة أو غير مكتملة. يمكن أن يساعد ذلك في تحسين دقة التصوير الطبي وتقليل الحاجة إلى اختبارات تصوير إضافية. يمكن تدريب نماذج التعلم العميق لتشخيص الحالات الطبية بناءً على الصور الطبية تلقائيًا. يمكن أن يساعد ذلك في تقليل عبء العمل على أطباء الأشعة وتحسين سرعة ودقة التشخيص. يمكن استخدام نماذج التعلم العميق للتحليل الكمي للصور الطبية، مما ينطوي على قياس وتحليل جوانب مختلفة من الصور، مثل الحجم والشكل والملمس. يمكن أن يساعد ذلك في تحديد التغييرات الطفيفة في الصور الطبية التي قد يكون من الصعب اكتشافها بالعين المجردة. يمكن دمج نماذج التعلم العميق مع السجلات الصحية الإلكترونية لتوفير رؤية شاملة لصحة المريض ونتائج العلاج. يمكن أن يساعد ذلك مقدمي الرعاية الصحية في اتخاذ قرارات مستنيرة بشأن رعاية المرضى. هذه مجرد بعض الأعمال والأفكار المستقبلية التي يمكن استكشافها في تحليل الصور الطبية باستخدام التعلم العميق و
المعلوماتية الطبية المعتمدة على إنترنت الأشياء. مع الاستخدام المتزايد للتصوير الطبي في الرعاية الصحية، فإن تحليل الصور الطبية لديه القدرة على تحسين دقة وكفاءة التشخيص وتخطيط العلاج.

7.2.10 مراقبة الصحة باستخدام أجهزة إنترنت الأشياء القابلة للارتداء والتعلم العميق

يمكن أن تحدث مراقبة الصحة باستخدام أجهزة إنترنت الأشياء القابلة للارتداء والتعلم العميق ثورة في الرعاية الصحية من خلال توفير مراقبة مستمرة لصحة المرضى والسماح بالكشف المبكر عن المشاكل الصحية. مراقبة العلامات الحيوية المستمرة: يمكن استخدام أجهزة إنترنت الأشياء القابلة للارتداء لمراقبة العلامات الحيوية مثل معدل ضربات القلب، وضغط الدم، ومعدل التنفس بشكل مستمر. يمكن لنماذج التعلم العميق تحليل البيانات من هذه الأجهزة لتحديد الأنماط واكتشاف علامات التحذير المبكرة للمشاكل الصحية. يمكن استخدام أجهزة إنترنت الأشياء القابلة للارتداء لمراقبة الأمراض المزمنة مثل السكري وارتفاع ضغط الدم. يمكن لنماذج التعلم العميق تحليل البيانات من هذه الأجهزة لاكتشاف التغيرات في حالة المرض وتقديم ملاحظات حول فعالية العلاج. يمكن استخدام أجهزة إنترنت الأشياء القابلة للارتداء لمراقبة أنماط السلوك مثل النوم، والنشاط البدني، والتغذية. يمكن لنماذج التعلم العميق تحليل البيانات من هذه الأجهزة لتحديد الأنماط وتقديم ملاحظات حول التعديلات على نمط الحياة. يمكن استخدام أجهزة إنترنت الأشياء القابلة للارتداء لاكتشاف السقوط لدى المرضى المسنين والأفراد الذين يعانون من مشاكل في التوازن. يمكن لنماذج التعلم العميق تحليل البيانات من هذه الأجهزة لاكتشاف السقوط وتنبيه مقدمي الرعاية الصحية أو أفراد الأسرة. يمكن استخدام أجهزة إنترنت الأشياء القابلة للارتداء لمراقبة الالتزام بالعلاج لدى المرضى الذين يعانون من الأمراض المزمنة. يمكن لنماذج التعلم العميق تحليل البيانات من هذه الأجهزة لتقديم ملاحظات حول الالتزام بالعلاج وتحسين نتائج المرضى. يمكن استخدام نماذج التعلم العميق لتطوير أنظمة إنذار مبكر للأحداث الصحية الحرجة مثل النوبات القلبية والسكتات الدماغية. يمكن استخدام أجهزة إنترنت الأشياء القابلة للارتداء لمراقبة العلامات الحيوية واكتشاف علامات التحذير المبكرة، مما يسمح بالتدخل الطبي الفوري. يمكن دمج أجهزة إنترنت الأشياء القابلة للارتداء ونماذج التعلم العميق مع السجلات الصحية الإلكترونية لتوفير رؤية شاملة لصحة المريض ونتائج العلاج. يمكن أن يساعد ذلك مقدمي الرعاية الصحية في اتخاذ قرارات مستنيرة بشأن رعاية المرضى. هذه مجرد بعض الأعمال والأفكار المستقبلية التي يمكن استكشافها في مراقبة الصحة باستخدام أجهزة إنترنت الأشياء القابلة للارتداء والتعلم العميق في المعلوماتية الحيوية والطبية المعتمدة على إنترنت الأشياء. مع الاستخدام المتزايد لأجهزة إنترنت الأشياء القابلة للارتداء في الرعاية الصحية، فإن مراقبة الصحة لديها القدرة على تحسين نتائج المرضى وتقليل تكاليف الرعاية الصحية.

7.2.11 الطب عن بُعد

أصبح الطب عن بُعد نهجًا شائعًا بشكل متزايد في تقديم الرعاية الصحية، خاصة في المناطق النائية أو المحرومة. إن دمج التعلم العميق مع المعلوماتية المعتمدة على إنترنت الأشياء
يمكن أن تساعد المعلومات الحيوية والطبية في تحسين جودة خدمات الطب عن بُعد وتعزيز نتائج المرضى. يمكن تدريب نماذج التعلم العميق لتحليل بيانات المرضى عن بُعد مثل الصور الطبية ونتائج المختبرات والعلامات الحيوية. يمكن أن يساعد ذلك في تحسين دقة وسرعة التشخيص، خاصة في المناطق التي تعاني من نقص في الوصول إلى المتخصصين في الرعاية الصحية. يمكن استخدام نماذج التعلم العميق لتطوير روبوتات محادثة ومساعدين افتراضيين يمكنهم التواصل مع المرضى وتقديم المشورة الطبية. يمكن أن يساعد ذلك في تحسين وصول المرضى إلى خدمات الرعاية الصحية وتقليل عبء العمل على المتخصصين في الرعاية الصحية. يمكن استخدام الأجهزة القابلة للارتداء المعتمدة على إنترنت الأشياء لمراقبة بيانات صحة المرضى عن بُعد مثل معدل ضربات القلب وضغط الدم ومعدل التنفس. يمكن لنماذج التعلم العميق تحليل هذه البيانات في الوقت الفعلي وتنبيه المتخصصين في الرعاية الصحية إذا كانت هناك أي تغييرات تتطلب الانتباه. يمكن استخدام نماذج التعلم العميق لتحليل بيانات المرضى لتحديد المرضى الذين هم في خطر تطوير أمراض معينة. يمكن أن يساعد ذلك المتخصصين في الرعاية الصحية على تقديم رعاية استباقية ومنع تقدم المرض. يمكن استخدام نماذج التعلم العميق لتطوير خطط علاج شخصية بناءً على بيانات المرضى. يمكن أن يساعد ذلك في تحسين نتائج العلاج وتقليل تكاليف الرعاية الصحية من خلال تجنب العلاجات غير الضرورية. يمكن استخدام نماذج التعلم العميق لتطوير أنظمة فرز آلية يمكنها تحديد المرضى الذين يحتاجون إلى رعاية عاجلة. يمكن أن يساعد ذلك في تقليل أوقات الانتظار للمرضى الذين يحتاجون إلى اهتمام فوري. يمكن دمج خدمات الطب عن بُعد مع السجلات الصحية الإلكترونية لتوفير رؤية شاملة لصحة المرضى ونتائج العلاج. يمكن أن يساعد ذلك مقدمي الرعاية الصحية في اتخاذ قرارات مستنيرة بشأن رعاية المرضى. هذه بعض من الأعمال والأفكار المستقبلية التي يمكن استكشافها في الطب عن بُعد مع دمج التعلم العميق والمعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء. مع الطلب المتزايد على خدمات الطب عن بُعد، فإن دمج هذه التقنيات لديه القدرة على تحسين الوصول إلى خدمات الرعاية الصحية وتعزيز نتائج المرضى.

7.2.12 التحليلات التنبؤية للرعاية الصحية

أصبحت التحليلات التنبؤية أداة أساسية لمقدمي الرعاية الصحية في اتخاذ قرارات مستنيرة بشأن رعاية المرضى. يمكن أن يساعد دمج التعلم العميق مع المعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء في تحسين دقة وسرعة التحليلات التنبؤية، مما يؤدي إلى تحسين نتائج المرضى. يمكن استخدام نماذج التعلم العميق لتحليل بيانات المرضى مثل الصور الطبية ونتائج المختبرات والعلامات الحيوية لاكتشاف علامات التحذير المبكرة للأمراض. يمكن أن يساعد ذلك مقدمي الرعاية الصحية في تقديم تدخلات في الوقت المناسب ومنع تقدم المرض. يمكن استخدام نماذج التعلم العميق لتطوير نماذج مخاطر تنبؤية تحدد المرضى المعرضين لخطر كبير لتطوير أمراض معينة. يمكن أن يساعد ذلك مقدمي الرعاية الصحية في تقديم رعاية استباقية ومنع تقدم المرض. يمكن استخدام نماذج التعلم العميق لتطوير
خطط علاج شخصية بناءً على بيانات المرضى. يمكن أن يساعد ذلك في تحسين نتائج العلاج وتقليل تكاليف الرعاية الصحية من خلال تجنب العلاجات غير الضرورية. يمكن استخدام التحليلات التنبؤية لتحسين موارد الرعاية الصحية مثل أسرة المستشفيات والموظفين والمعدات. يمكن استخدام نماذج التعلم العميق للتنبؤ بطلب المرضى وتحسين تخصيص الموارد وفقًا لذلك. يمكن استخدام نماذج التعلم العميق لتحليل بيانات المرضى لتحديد التفاعلات المحتملة بين الأدوية والأحداث السلبية. يمكن أن يساعد ذلك مقدمي الرعاية الصحية في تقديم علاجات دوائية أكثر أمانًا وفعالية. يمكن استخدام نماذج التعلم العميق لتطوير أنظمة دعم القرار السريري التي يمكن أن تساعد مقدمي الرعاية الصحية في اتخاذ قرارات مستنيرة بشأن رعاية المرضى. يمكن أن يساعد ذلك في تحسين نتائج المرضى وتقليل تكاليف الرعاية الصحية من خلال تجنب الاختبارات والعلاجات غير الضرورية. يمكن استخدام نماذج التعلم العميق لتحليل بيانات صحة السكان لتحديد الاتجاهات الصحية وتفشي الأمراض. يمكن أن يساعد ذلك مقدمي الرعاية الصحية في تطوير تدخلات مستهدفة لمنع انتشار الأمراض. هذه بعض من الأعمال والأفكار المستقبلية التي يمكن استكشافها في التحليلات التنبؤية للرعاية الصحية مع دمج التعلم العميق والمعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء. مع الطلب المتزايد على التحليلات التنبؤية في الرعاية الصحية، فإن دمج هذه التقنيات لديه القدرة على تحسين نتائج المرضى وتقليل تكاليف الرعاية الصحية.

8 الخاتمة والقيود

لقد أظهرت تطبيقات التعلم العميق في المعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء تقدمًا ملحوظًا في السنوات الأخيرة، حيث أظهرت دراسات مختلفة فعالية التعلم العميق في مجالات مختلفة مثل اكتشاف الأدوية، وتشخيص الأمراض، ومراقبة المرضى. ومع ذلك، فإن هذا المجال يتطور باستمرار، وهناك حاجة إلى مزيد من البحث لاستكشاف تقنيات ومنهجيات جديدة يمكن أن تعزز أداء وموثوقية خوارزميات التعلم العميق في سياق المعلومات الحيوية والطبية. بالإضافة إلى ذلك، هناك حاجة إلى تقييمات أكثر شمولاً لخوارزميات التعلم العميق في السيناريوهات الواقعية ولتطوير أنظمة قوية وقابلة للتوسع يمكن نشرها في بيئات الرعاية الصحية. لذلك، من الضروري الاستمرار في إجراء الأبحاث في هذا المجال للاستفادة الكاملة من إمكانيات التعلم العميق في المعلومات الحيوية والطبية المعتمدة على إنترنت الأشياء وتوفير نتائج رعاية صحية أفضل للمرضى. لهذا الغرض، يقدم هذا المقال مراجعة منهجية للطرق المعتمدة على التعلم العميق المستخدمة في قضايا المعلومات الحيوية والطبية. في البداية، نناقش مزايا وعيوب بعض الأوراق التي تم مسحها حول الطرق المتعلقة بالمعلومات الطبية والحيوية، قبل توضيح استراتيجية هذا المقال. كما يتم تقييم منصات وأدوات المعلومات الحيوية المعتمدة على التعلم العميق. بناءً على مسح للأوراق وفقًا للميزات النوعية، يتم تقييم معظم الأوراق اعتمادًا على
الدقة، والحساسية، والخصوصية، ودرجة F، والقدرة على التكيف، وقابلية التوسع، والزمن. ومع ذلك، فإن بعض الميزات، مثل الأمان ووقت التقارب، لا تُستخدم بشكل كافٍ. لتقييم وتنفيذ الطرق المقترحة، يتم استخدام لغات برمجة متنوعة. علاوة على ذلك، نتوقع أن يوفر تحقيقنا دليلًا قيمًا لمزيد من الأبحاث حول استخدام التعلم العميق في القضايا الطبية والمعلومات الحيوية.
ومع ذلك، تم مواجهة بعض القيود خلال تحليلنا، بما في ذلك عدم توفر أوراق غير إنجليزية، مما حد من قدرتنا على الاستفادة من العديد من مبادرات البحث. بالإضافة إلى ذلك، كانت بعض الأوراق التي تم فحصها تعاني من قيود كبيرة في الشرح الواضح للخوارزميات المستخدمة. أخيرًا، كانت هناك قيود أخرى واجهناها تتمثل في نقص توفر أوراق مختلفة نشرت من قبل منشورات مهمة.
تمويل تم توفير تمويل الوصول المفتوح من قبل المجلس العلمي والتكنولوجي للبحوث في تركيا (TÜBİTAK).
توفر البيانات والمواد تحتوي الورقة على جميع البيانات.

الإعلانات

تضارب المصالح يعلن المؤلفون أنهم ليس لديهم مصالح مالية متنافسة معروفة أو علاقات شخصية قد تكون ظهرت لتؤثر على العمل المبلغ عنه في هذه الورقة.
موافقة الأخلاقيات غير قابلة للتطبيق.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي للاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج في أي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح ما إذا كانت هناك تغييرات قد تم إجراؤها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي للمقالة، ما لم يُشار إلى خلاف ذلك في سطر ائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي للمقالة واستخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارةhttp://creativecommons. org/licenses/by/4.0/.

References

  1. Muhammad AN et al (2021) Deep learning application in smart cities: recent development, taxonomy, challenges and research prospects. Neural Comput Appl 33(7):2973-3009
  2. Nosratabadi S et al (2020) State of the art survey of deep learning and machine learning models for smart cities and urban sustainability. In: International conference on global research and education. Springer
  3. Shafqat et al (2022) Standard ner tagging scheme for big data healthcare analytics built on unified medical corpora. J Artif Intell Technol 2(4):152-157
  4. Atitallah SB et al (2020) Leveraging deep learning and iot big data analytics to support the smart cities development: review and future directions. Comput Sci Rev 38:100303
  5. Kök I, Şimşek MU, Özdemir (2017) A deep learning model for air quality prediction in smart cities. In: 2017 IEEE international conference on big data (Big Data). 2017. IEEE
  6. Bolhasani H, Mohseni M, Rahmani AM (2021) Deep learning applications for IoT in health care: a systematic review. Inform Med Unlocked 23:100550
  7. Rastogi R, Chaturvedi DK, Sagar S, Tandon N, Rastogi AR (2022) Brain tumor analysis using deep learning: sensor and iotbased approach for futuristic healthcare. In: Bioinformatics and medical applications: big data using deep learning algorithms, pp 171-190
  8. Roopashree et al (2022) An IoT based authentication system for therapeutic herbs measured by local descriptors using machine learning approach. Measurement 200:111484
  9. Bharadwaj HK et al (2021) A review on the role of machine learning in enabling IoT based healthcare applications. IEEE Access 9:38859-38890
  10. Awotunde JB et al (2021) Disease diagnosis system for IoTbased wearable body sensors with machine learning algorithm. In: Hybrid artificial intelligence and IoT in healthcare. 2021. Springer, pp 201-222
  11. Alansari Z et al (2017) Computational intelligence tools and databases in bioinformatics. In: 2017 4th IEEE international conference on engineering technologies and applied sciences (ICETAS). 2017. IEEE
  12. Daoud H, Williams P, Bayoumi M (2020) IoT based efficient epileptic seizure prediction system using deep learning. In: 2020 IEEE 6th world forum on internet of things (WF-IoT). 2020. IEEE
  13. Wu Y et al (2021) Deep learning for big data analytics. Mobile Netw Appl 26(6):2315-2317
  14. Ambika N (2022) An economical machine learning approach for anomaly detection in IoT environment. In: Bioinformatics and medical applications: big data using deep learning algorithms, 2022: pp 215-234
  15. Srivastava M (2020) A Surrogate data-based approach for validating deep learning model used in healthcare. In: Applications of deep learning and big IoT on personalized healthcare services. 2020. IGI Global, pp 132-146
  16. da Costa KA et al (2019) Internet of things: a survey on machine learning-based intrusion detection approaches. Comput Netw 151:147-157
  17. Min S, Lee B, Yoon S (2017) Deep learning in bioinformatics. Brief Bioinform 18(5):851-869
  18. Aminizadeh et al (2023) The applications of machine learning techniques in medical data processing based on distributed computing and the internet of things. In: Computer methods and programs in biomedicine, 2023, p 107745
  19. Li Y et al (2019) Deep learning in bioinformatics: introduction, application, and perspective in the big data era. Methods 166:4-21
  20. Cao et al (2020) Ensemble deep learning in bioinformatics. Nat Mach Intell 2(9):500-508
  21. Tang B et al (2019) Recent advances of deep learning in bioinformatics and computational biology. Front Genet 10:214
  22. Koumakis L (2020) Deep learning models in genomics; are we there yet? Comput Struct Biotechnol J 18:1466-1473
  23. Dhombres F, Charlet J (2019) Formal medical knowledge representation supports deep learning algorithms, bioinformatics pipelines, genomics data analysis, and big data processes. Yearb Med Inform 28(01):152-155
  24. Peng et al (2018) The advances and challenges of deep learning application in biological big data processing. Curr Bioinform 13(4):352-359
  25. Chen Y-Z et al (2021) nhKcr: a new bioinformatics tool for predicting crotonylation sites on human nonhistone proteins based on deep learning. Brief Bioinform 22(6):bbab146
  26. Chen Y et al (2016) Gene expression inference with deep learning. Bioinformatics 32(12):1832-1839
  27. Jabbar MA (2022) An insight into applications of deep learning in bioinformatics. In: Deep learning, machine learning and IoT in biomedical and health informatics. CRC Press, pp 175-197
  28. Khurana S et al (2018) DeepSol: a deep learning framework for sequence-based protein solubility prediction. Bioinformatics 34(15):2605-2613
  29. Baranwal M et al (2020) A deep learning architecture for metabolic pathway prediction. Bioinformatics 36(8):2547-2553
  30. Shahid O et al (2021) Machine learning research towards combating COVID-19: Virus detection, spread prevention, and medical assistance. J Biomed Inform 117:103751
  31. Roy PK et al (2023) Analysis of community question-answering issues via machine learning and deep learning: state-of-the-art review. CAAI Trans Intell Technol 8(1):95-117
  32. Samanta RK et al (2022) Scope of machine learning applications for addressing the challenges in next-generation wireless networks. CAAI Trans Intell Technol 7(3):395-418
  33. Wang W et al (2023) Fully Bayesian analysis of the relevance vector machine classification for imbalanced data problem. CAAI Trans Intell Technol 8(1):192-205
  34. Ashrafuzzaman M (2021) Artificial intelligence, machine learning and deep learning in ion channel bioinformatics. Membranes 11(9):672
  35. Fiannaca A et al (2018) Deep learning models for bacteria taxonomic classification of metagenomic data. BMC Bioinform 19(7):61-76
  36. Li F et al (2020) DeepCleave: a deep learning predictor for caspase and matrix metalloprotease substrates and cleavage sites. Bioinformatics 36(4):1057-1065
  37. Meher J (2021) Potential applications of deep learning in bioinformatics big data analysis. In: Advanced deep learning for engineers and scientists, 2021, pp 183-193
  38. Preuer K et al (2018) DeepSynergy: predicting anti-cancer drug synergy with Deep Learning. Bioinformatics 34(9):1538-1546
  39. Xia Z et al (2019) DeeReCT-PolyA: a robust and generic deep learning method for PAS identification. Bioinformatics 35(14):2371-2379
  40. Fang B et al (2022) Deep generative inpainting with comparative sample augmentation. J Comput Cogn Eng 1(4):174-180
  41. Wang et al (2020) Block switching: a stochastic approach for deep learning security. arXiv preprint arXiv:2002.07920, 2020
  42. Kumar I, Singh SP (2022) Machine learning in bioinformatics. In: Bioinformatics. Academic Press, pp 443-456
  43. Yu L et al (2018) Drug and nondrug classification based on deep learning with various feature selection strategies. Curr Bioinform 13(3):253-259
  44. Jurtz VI et al (2017) An introduction to deep learning on biological sequence data: examples and solutions. Bioinformatics 33(22):3685-3690
  45. Deng Y et al (2020) A multimodal deep learning framework for predicting drug-drug interaction events. Bioinformatics 36(15):4316-4322
  46. Shakeel N, Shakeel S (2022) Context-free word importance scores for attacking neural networks. J Comput Cogn Eng 1(4):187-192
  47. Oubounyt M et al (2019) DeePromoter: robust promoter predictor using deep learning. Front Genet 10:286
  48. Leung MK et al (2014) Deep learning of the tissue-regulated splicing code. Bioinformatics 30(12):i121-i129
  49. Dai B, Bailey-Kellogg C (2021) Protein interaction interface region prediction by geometric deep learning. Bioinformatics 37(17):2580-2588
  50. Luo F et al (2019) DeepPhos: prediction of protein phosphorylation sites with deep learning. Bioinformatics 35(16):2766-2773
  51. Liu X (2022) Real-world data for the drug development in the digital era. J Artif Intell Technol 2(2):42-46
  52. Wei L et al (2018) Prediction of human protein subcellular localization using deep learning. J Parallel Distrib Comput 117:212-217
  53. Heidari A et al (2023) A new lung cancer detection method based on the chest CT images using federated learning and blockchain systems. Artif Intell Med 141:102572
  54. Cai Q et al (2023) Image neural style transfer: a review. Comput Electr Eng 108:108723
  55. Ai Q et al (2021) Editorial for FGCS special issue: intelligent IoT systems for healthcare and rehabilitation. Elsevier, New York, pp 770-773
  56. Niu L-Y, Wei Y, Liu W-B, Long JY, Xue T-H (2023) Research Progress of spiking neural network in image classification: a review. In: Applied intelligence, pp 1-25
  57. Karnati M et al (2022) A novel multi-scale based deep convolutional neural network for detecting COVID-19 from X-rays. Appl Soft Comput 125:109109
  58. Ravindran U, Gunavathi C (2023) A survey on gene expression data analysis using deep learning methods for cancer diagnosis. Prog Biophys Mol Biol 177:1-13
  59. Zheng M et al (2022) A hybrid CNN for image denoising. J Artif Intell Technol 2(3):93-99
  60. Togneri R, Prati R, Nagano H, Kamienski C (2023) Data-driven water need estimation for IoT-based smart irrigation: a survey. Expert Syst Appl 225:120194
  61. Sheng N, Huang L, Lu Y, Wang H, Yang L, Gao L, Xie X, Fu Y, Wang Y (2023) Data resources and computational methods for lncRNA-disease association prediction. Comput Biol Med 153:106527
  62. Sharan RV, Rahimi-Ardabili H (2023) Detecting acute respiratory diseases in the pediatric population using cough sound features and machine learning: a systematic review. Int J Med Inform 176:105093
  63. Bhosale YH, Patnaik KS (2023) Bio-medical imaging (X-ray, CT, ultrasound, ECG), genome sequences applications of deep neural network and machine learning in diagnosis, detection, classification, and segmentation of COVID-19: a meta-analysis & systematic review. Multimed Tools Appl 82:39157-39210. https://doi.org/10.1007/s11042-023-15029-1
  64. Azhari F, Sennersten CC, Lindley CA et al (2023) Deep learning implementations in mining applications: a compact critical review. Artif Intell Rev 56:14367-14402. https://doi.org/10. 1007/s10462-023-10500-9
  65. Nazir S, Dickson DM, Akram MU (2023) Survey of explainable artificial intelligence techniques for biomedical imaging with deep neural networks. Comput Biol Med 156:106668
  66. Jacob TP, Pravin A, Kumar RR (2022) A secure IoT based healthcare framework using modified RSA algorithm using an artificial hummingbird based CNN. Trans Emerg Tel Tech 33(12):e4622. https://doi.org/10.1002/ett. 4622
  67. Phan HT, Nguyen NT, Hwang D (2023) Aspect-level sentiment analysis: a survey of graph convolutional network methods. Inf Fusion 91:149-172
  68. Qiu D, Cheng Y, Wang X (2023) Medical image super-resolution reconstruction algorithms based on deep learning: a survey. Comput Methods Prog Biomed 238:107590
  69. Sanders LM et al (2023) Biological research and self-driving labs in deep space supported by artificial intelligence. Nat Mach Intell 5(3):208-219
  70. Rezende PM et al (2022) Evaluating hierarchical machine learning approaches to classify biological databases. Brief Bioinform 23(4):bbac216
  71. Yi H-C et al (2022) Graph representation learning in bioinformatics: trends, methods and applications. Brief Bioinform 23(1):bbab340
  72. Sharma S (2021) The bioinformatics: detailed review of various applications of cluster analysis. Glob J Appl Data Sci Internet Things 5:1-2021
  73. Serra A, Galdi P, Tagliaferri R (2018) Machine learning for bioinformatics and neuroimaging. Wiley Interdiscip Rev Data Min Knowl Discov 8(5):e1248
  74. Liu L et al (2019) A smart dental health-IoT platform based on intelligent hardware, deep learning, and mobile terminal. IEEE J Biomed Health Inform 24(3):898-906
  75. Nematzadeh S et al (2022) Tuning hyperparameters of machine learning algorithms and deep neural networks using metaheuristics: a bioinformatics study on biomedical and biological cases. Comput Biol Chem 97:107619
  76. Kumar H, Sharma S (2021) Contribution of deep learning in bioinformatics. Glob J Appl Data Sci Internet Things 5:1-202
  77. Jia D et al (2021) Breast cancer case identification based on deep learning and bioinformatics analysis. Front Genet 12:628136
  78. Pastorino J, Biswas AK (2022) Data adequacy bias impact in a data-blinded semi-supervised GAN for privacy-aware COVID19 chest X-ray classification. In: Proceedings of the 13th ACM international conference on bioinformatics, computational biology and health informatics, 2022
  79. Auwul MR et al (2021) Bioinformatics and machine learning approach identifies potential drug targets and pathways in COVID-19. Brief Bioinform 22(5):bbab120
  80. Lan L et al (2020) Generative adversarial networks and its applications in biomedical informatics. Front Public Health 8:164
  81. Han C et al (2021) MADGAN: Unsupervised medical anomaly detection GAN using multiple adjacent brain MRI slice reconstruction. BMC Bioinform 22(2):1-20
  82. Balogh OM et al (2022) Efficient link prediction in the proteinprotein interaction network using topological information in a generative adversarial network machine learning model. BMC Bioinform 23(1):1-19
  83. Giansanti V et al (2019) Comparing deep and machine learning approaches in bioinformatics: a miRNA-target prediction case study. In: International conference on computational science. 2019. Springer
  84. Lyu C et al (2017) Long short-term memory RNN for biomedical named entity recognition. BMC Bioinform 18(1):1-11
  85. ElAbd H et al (2020) Amino acid encoding for deep learning applications. BMC Bioinform 21(1):1-14
  86. Liu J, Gong X (2019) Attention mechanism enhanced LSTM with residual architecture and its application for protein-protein interaction residue pairs prediction. BMC Bioinform 20(1):1-11
  87. Wang D et al (2017) MusiteDeep: a deep-learning framework for general and kinase-specific phosphorylation site prediction. Bioinformatics 33(24):3909-3916
  88. Zhao Y, Shao J, Asmann YW (2022) Assessment and optimization of explainable machine learning models applied to transcriptomic data. Genom Proteom Bioinform 20:899-911
  89. Souri A et al (2020) A new machine learning-based healthcare monitoring model for student’s condition diagnosis in Internet of Things environment. Soft Comput 24(22):17111-17121
  90. D’Orazio M et al (2022) Machine learning phenomics (MLP) combining deep learning with time-lapse-microscopy for monitoring colorectal adenocarcinoma cells gene expression and drug-response. Sci Rep 12(1):1-14
  91. Karim MR et al (2021) Deep learning-based clustering approaches for bioinformatics. Brief Bioinform 22(1):393-415
  92. Aydin Z (2020) Performance analysis of machine learning and bioinformatics applications on high performance computing systems. Acad Platf J Eng Sci 8(1):1-14
  93. Mohamed Shakeel P et al (2018) Maintaining security and privacy in health care system using learning based deep-Q-networks. J Med Syst 42(10):1-10
  94. Huang L et al (2019) Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. J Biomed Inform 99:103291
  95. Wang X, Jiang X, Vaidya J (2021) Efficient verification for outsourced genome-wide association studies. J Biomed Inform 117:103714
  96. Cui J et al (2021) FeARH: Federated machine learning with anonymous random hybridization on electronic medical records. J Biomed Inform 117:103735
  97. Giansanti V et al (2019) Comparing deep and machine learning approaches in bioinformatics: a miRNA-target prediction case study. In: Computational science-ICCS 2019: 19th international conference, Faro, Portugal, June 12-14, 2019, proceedings, part III, vol 19, 2019. Springer
  98. Lyu C et al (2017) Long short-term memory RNN for biomedical named entity recognition. BMC Bioinform 18:1-11
  99. ElAbd H et al (2020) Amino acid encoding for deep learning applications. BMC Bioinform 21:1-14
  100. Liu J, Gong X (2019) Attention mechanism enhanced LSTM with residual architecture and its application for protein-protein interaction residue pairs prediction. BMC Bioinform 20:1-11
  101. Mohamed Shakeel P et al (2018) Maintaining security and privacy in health care system using learning based deep-Q-networks. J Med Syst 42:1-10
  102. Sarbaz M et al (2022) Adaptive optimal control of chaotic system using backstepping neural network concept. In: 2022 8th international conference on control, instrumentation and automation (ICCIA). 2022. IEEE
  103. Bagheri M et al (2020) Data conditioning and forecasting methodology using machine learning on production data for a well pad. In: Offshore technology conference. 2020. OTC
  104. Soleimani R, Lobaton E (2022) Enhancing inference on physiological and kinematic periodic signals via phase-based interpretability and multi-task learning. Information 13(7):326
  105. Mirzaeibonehkhater M (2018) Developing a dynamic recommendation system for personalizing educational content within an e-learning network. 2018: Purdue University
  106. Morteza A et al (2023) Deep learning hyperparameter optimization: application to electricity and heat demand prediction for buildings. Energy Build 289:113036
  107. Webber J et al (2017) Study on idle slot availability prediction for WLAN using a probabilistic neural network. In: 2017 23rd Asia-Pacific conference on communications (APCC). 2017. IEEE
  108. Webber J et al (2022) Improved human activity recognition using majority combining of reduced-complexity sensor branch classifiers. Electronics 11(3):392
  109. Gera T et al (2021) Dominant feature selection and machine learning-based hybrid approach to analyze android ransomware. Secur Commun Netw 2021:1-22
  110. Bukhari SNH, Webber J, Mehbodniya A (2022) Decision tree based ensemble machine learning model for the prediction of
Zika virus T-cell epitopes as potential vaccine candidates. Sci Rep 12(1):7810
111. Heidari A et al (2023) Machine learning applications in internet-of-drones: systematic review, recent deployments, and open issues. ACM Comput Surv 55(12):1-45
112. Singh R et al (2022) Analysis of network slicing for management of 5G networks using machine learning techniques. Wirel Commun Mobile Comput 2022:9169568
113. He P et al (2022) Towards green smart cities using Internet of Things and optimization algorithms: a systematic and bibliometric review. Sustain Comput Inform Syst 36:100822
114. Sadi M et al (2022) Special session: on the reliability of conventional and quantum neural network hardware. In: 2022 IEEE 40th VLSI test symposium (VTS). 2022. IEEE
115. Moradi M, Weng Y, Lai Y-C (2022) Defending smart electrical power grids against cyberattacks with deep Q-learning. P R X Energy 1:033005
116. Zhai Z-M et al (2023) Detecting weak physical signal from noise: a machine-learning approach with applications to mag-netic-anomaly-guided navigation. Phys Rev Appl 19(3):034030
117. Li Z, Han C, Coit DW (2023) System reliability models with dependent degradation processes. In: Advances in reliability and maintainability methods and engineering applications: essays in honor of professor Hong-Zhong Huang on his 60th birthday. 2023. Springer, pp 475-497
118. Zhang Y et al (2019) Fault diagnosis strategy of CNC machine tools based on cascading failure. J Intell Manuf 30:2193-2202
119. Shen G, Zeng W, Han C, Liu P, Zhang Y (2017) Determination of the average maintenance time of CNC machine tools based on type II failure correlation. Eksploatacja i Niezawodność 19(4)
120. Shen G et al (2018) Fault analysis of machine tools based on grey relational analysis and main factor analysis. J Phys Conf Ser. IOP Publishing
121. Han C, Fu X (2023) Challenge and opportunity: deep learningbased stock price prediction by using Bi-directional LSTM model. Front Bus Econ Manag 8(2):51-54
122. Darbandi M (2017) Proposing new intelligent system for suggesting better service providers in cloud computing based on Kalman filtering. Int J Technol Innov Res 24(1):1-9
123. Dehghani F, Larijani A (2023) Average portfolio optimization using multi-layer neural networks with risk consideration. Available at SSRN, 2023
124. Rezaei M, Rastgoo R, Athitsos V (2023) TriHorn-Net: a model for accurate depth-based 3D hand pose estimation. Expert Syst Appl 223:119922
125. Ahmadi SS, Khotanlou H (2022) A hybrid of inference and stacked classifiers to indoor scenes classification of rgb-d images. In: 2022 International conference on machine vision and image processing (MVIP). 2022. IEEE
126. Mirzapour O, Arpanahi SK (2017) Photovoltaic parameter estimation using heuristic optimization. In: 2017 IEEE 4th international conference on knowledge-based engineering and innovation (KBEI). 2017. IEEE
127. Khorshidi M, Ameri M, Goli A (2023) Cracking performance evaluation and modelling of RAP mixtures containing different recycled materials using deep neural network model. Road Mater Pavement Des 1-20
128. Rastegar RM et al (2022) From evidence to assessment: DEVELOPING a scenario-based computational design algorithm to support informed decision-making in primary care clinic design workflow. Int J Archit Comput 20(3):567-586
129. Esmaeili N, Bamdad Soofi J (2022) Expounding the knowledge conversion processes within the occupational safety and health management system (OSH-MS) using concept mapping. Int J Occup Saf Ergon 28(2):1000-1015
130. Akyash M, Mohammadzade H, Behroozi H (2021) Dtw-merge: a novel data augmentation technique for time series classification. arXiv preprint arXiv:2103.01119
131. Darbandi M (2017) Proposing new intelligence algorithm for suggesting better services to cloud users based on Kalman filtering. J Comput Sci Appl 5(1):11-16
132. Darbandi M (2017) Kalman filtering for estimation and prediction servers with lower traffic loads for transferring highlevel processes in cloud computing. Int J Technol Innov Res 23(1):10-20
133. Liu H et al (2023) MEMS piezoelectric resonant microphone array for lung sound classification. J Micromech Microeng 33(4):044003
134. Loghmani N, Moqadam R, Allahverdy A (2022) Brain tumor segmentation using multimodal mri and convolutional neural network. In: 2022 30th international conference on electrical engineering (ICEE). 2022. IEEE
135. Niknejad N, Caro JL, Bidese-Puhl R, Bao Y, Staiger EA (2023) Equine kinematic gait analysis using stereo videography and deep learning: stride length and stance duration estimation. J ASABE 66(4):865-877
136. Amiri Z et al (2023) Resilient and dependability management in distributed environments: a systematic and comprehensive literature review. Clust Comput 26(2):1565-1600
137. Zeng Q et al (2020) Hyperpolarized Xe NMR signal advancement by metal-organic framework entrapment in aqueous solution. Proc Natl Acad Sci 117(30):17558-17563
138. Liu N et al (2021) An eyelid parameters auto-measuring method based on 3D scanning. Displays 69:102063
139. Li C et al (2021) Long noncoding RNA p21 enhances autophagy to alleviate endothelial progenitor cells damage and promote endothelial repair in hypertension through SESN2/AMPK/TSC2 pathway. Pharmacol Res 173:105920
140. Li B et al (2022) Dynamic event-triggered security control for networked control systems with cyber-attacks: a model predictive control approach. Inf Sci 612:384-398
141. Li H, Peng R, Wang Z-A (2018) On a diffusive susceptible-infected-susceptible epidemic model with mass action mechanism and birth-death effect: analysis, simulations, and comparison with other mechanisms. SIAM J Appl Math 78(4):2129-2153
142. Amiri Z et al (2023) The personal health applications of machine learning techniques in the internet of behaviors. Sustainability 15(16):12406
143. Zhu Y et al (2021) Deep learning-based predictive identification of neural stem cell differentiation. Nat Commun 12(1):2614
144. Yang S et al (2022) Dual-level representation enhancement on characteristic and context for image-text retrieval. IEEE Trans Circuits Syst Video Technol 32(11):8037-8050
145. Yan L et al (2023) Multi-feature fusing local directional ternary pattern for facial expressions signal recognition based on video communication system. Alex Eng J 63:307-320
146. Dai et al (2022) Task co-offloading for d2d-assisted mobile edge computing in industrial internet of things. IEEE Trans Industr Inf 19(1):480-490
147. Yan L et al (2021) Method of reaching consensus on probability of food safety based on the integration of finite credible data on block chain. IEEE access 9:123764-123776
148. Jiang H et al (2020) An energy-efficient framework for internet of things underlaying heterogeneous small cell networks. IEEE Trans Mob Comput 21(1):31-43
149. Sun L, Zhang M, Wang B, Tiwari P (2023) Few-shot classincremental learning for medical time series classification. IEEE J Biomed Health Inform. https://doi.org/10.1109/JBHI.2023. 3247861
150. Gao Z, Pan X, Shao J, Jiang X, Su Z, Jin K, Ye J (2023) Automatic interpretation and clinical evaluation for fundus fluorescein angiography images of diabetic retinopathy patients by deep learning. Br J Ophthalmol 107(12):1852-1858
151. Wang H et al (2022) Transcranial alternating current stimulation for treating depression: a randomized controlled trial. Brain 145(1):83-91
152. Luan D et al (2022) Robust two-stage location allocation for emergency temporary blood supply in postdisaster. Discret Dyn Nat Soc 2022:1-20
153. Chen G et al (2022) Continuance intention mechanism of middle school student users on online learning platform based on qualitative comparative analysis method. Math Probl Eng 2022:1-12
154. Cui G et al (2013) Synthesis and characterization of Eu (III) complexes of modified cellulose and poly (N-isopropylacrylamide). Carbohyd Polym 94(1):77-81
155. Cheng B et al (2016) Situation-aware IoT service coordination using the event-driven SOA paradigm. IEEE Trans Netw Serv Manag 13(2):349-361
156. Cheng B et al (2017) Situation-aware dynamic service coordination in an IoT environment. IEEE/ACM Trans Netw 25(4):2082-2095
157. Zhuang Y, Jiang N, Xu Y (2022) Progressive distributed and parallel similarity retrieval of large CT image sequences in mobile telemedicine networks. Wirel Commun Mob Comput 2022:1-13
158. Tang Y et al (2021) An improved method for soft tissue modeling. Biomed Signal Process Control 65:102367
159. Zhang Z et al (2022) Endoscope image mosaic based on pyramid ORB. Biomed Signal Process Control 71:103261
160. Lu S et al (2023) Iterative reconstruction of low-dose CT based on differential sparse. Biomed Signal Process Control 79:104204
161. Lu S et al (2023) Soft tissue feature tracking based on deepmatching network. CMES Comput Model Eng Sci 136(1):363
162. Liu M et al (2023) Three-dimensional modeling of heart soft tissue motion. Appl Sci 13(4):2493
163. Heidari A et al (2023) A hybrid approach for latency and battery lifetime optimization in IoT devices through offloading and CNN learning. Sustain Comput Inform Syst 39:100899
164. Heidari A, Jafari Navimipour N, Unal M (2022) The history of computing in Iran (Persia)-since the achaemenid empire. Technologies 10(4):94
165. Ahmadpour S-S, Heidari A, Navimpour NJ, Asadi M-A, Yalcin S (2023) An efficient design of multiplier for using in nano-scale IoT systems using atomic silicon. IEEE Internet Things J 10(16):14908-14909. https://doi.org/10.1109/JIOT.2023. 3267165
166. Amiri Z, Heidari A, Navimipour NJ et al (2023) Adventures in data analysis: a systematic review of deep learning techniques for pattern recognition in cyber-physical-social systems. Multimed Tools Appl. https://doi.org/10.1007/s11042-023-16382-x
Publisher’s Note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

  1. Arash Heidari
    arash_heidari@ieee.org
    Nima Jafari Navimipour
    nima.navimipour@khas.edu.tr; jnnima@khas.edu.tw
    1 Department of Computer Engineering, Tabriz Branch, Islamic Azad University, Tabriz, Iran
    2 Department of Software Engineering, Haliç University, 34060 Istanbul, Turkey
    3 Department of Computer Engineering, Kadir Has University, Istanbul, Turkey
    4 Future Technology Research Center, National Yunlin University of Science and Technology, 64002 Douliou, Yunlin, Taiwan
    5 Computer Engineering Department, Hamedan Branch, Islamic Azad University, Hamedan, Iran
    Immunology Research Center, Tabriz University of Medical Sciences, Tabriz, Iran

Journal: Neural Computing and Applications, Volume: 36, Issue: 11
DOI: https://doi.org/10.1007/s00521-023-09366-3
Publication Date: 2024-01-13

The deep learning applications in loT-based bio- and medical informatics: a systematic literature review

Zahra Amiri Arash Heidari Nima Jafari Navimipour (D Mansour Esmaeilpour Yalda Yazdani

Received: 13 June 2023 / Accepted: 7 December 2023 / Published online: 13 January 2024
© The Author(s) 2024

Abstract

Nowadays, machine learning (ML) has attained a high level of achievement in many contexts. Considering the significance of ML in medical and bioinformatics owing to its accuracy, many investigators discussed multiple solutions for developing the function of medical and bioinformatics challenges using deep learning (DL) techniques. The importance of DL in Internet of Things (IoT)-based bio- and medical informatics lies in its ability to analyze and interpret large amounts of complex and diverse data in real time, providing insights that can improve healthcare outcomes and increase efficiency in the healthcare industry. Several applications of DL in IoT-based bio- and medical informatics include diagnosis, treatment recommendation, clinical decision support, image analysis, wearable monitoring, and drug discovery. The review aims to comprehensively evaluate and synthesize the existing body of the literature on applying deep learning in the intersection of the IoT with bio- and medical informatics. In this paper, we categorized the most cutting-edge DL solutions for medical and bioinformatics issues into five categories based on the DL technique utilized: convolutional neural network, recurrent neural network, generative adversarial network, multilayer perception, and hybrid methods. A systematic literature review was applied to study each one in terms of effective properties, like the main idea, benefits, drawbacks, methods, simulation environment, and datasets. After that, cutting-edge research on DL approaches and applications for bioinformatics concerns was emphasized. In addition, several challenges that contributed to DL implementation for medical and bioinformatics have been addressed, which are predicted to motivate more studies to develop medical and bioinformatics research progressively. According to the findings, most articles are evaluated using features like accuracy, sensitivity, specificity, score, latency, adaptability, and scalability.

Keywords Deep learning Machine learning Bioinformatics IoT Medical informatics

1 Introduction

Bioinformatics synthesizes computer programming, biology, and big data to aid scientists in perceiving and detecting paradigms in biological and medical information [1-3]. It is significantly suitable for studying DNA sequencing, as it allows scientists to arrange a great deal of data [4, 5]. The area of computer science, namely bioinformatics, is applied to evaluate whole-genome sequencing information [6, 7]. This contains software improvement, algorithm, analysis, pipeline, transferring, and storage/database improvement of genomics information. In other words, bioinformatics is described as applying analysis and computation tools to receive and interpret biological data [8, 9]. As an interdisciplinary area, bioinformatics harnesses computer science, physics,
biology, and mathematics [10,11]. It is critical for data management in modern medicine and biology [12, 13]. Bioinformatics provides considerable support to deal with time context and cost issues in different tracks [14, 15]. Bioinformatics, as pertinent to genomics and genetics, is a scientific interdisciplinary field that utilizes computer technology to gather, store, evaluate, and distribute biological data, like DNA and amino acid sequences and annotations about them [16, 17].
Distributed computing is a versatile method that can be applied to a wide range of issues in bioinformatics. While it is commonly used for cost-efficiency in high-performance computing, in other domains, it has become a necessity [18]. By leveraging the power of multiple interconnected computers, distributed computing allows researchers to process large amounts of data and perform complex calculations quickly and efficiently. This is particularly important in bioinformatics, where massive data sets are often analyzed to gain insights into biological processes and develop new disease treatments [19, 20]. The rising amount of information required to be processed within logical time finally outgrows even the strongest computers [21, 22]. Recently, some organizations that regularly process large amounts of data have yet to apply nearly easy processes, like distributing work by hand or with easy scripts [23,24]. An increasing number of corporations are suggesting solutions that scale better, allowing more autonomy of information analysis procedures and more effective resource usage [25, 26]. Some present tools for distributed computing are too low-phase or not flexible enough to be adjusted to requirements [27, 28]. Many technologies generate a great base for building higher-level distributed computing ecosystems [29, 30]. Also, Machine learning (ML), a subsection of Artificial Intelligence (AI), has become a strong tool for several bioinformatics uses [31, 32]. Depending on big datasets, ML mechanisms are particularly suitable for forecasting and pattern recognition [33]. There are some emerging uses of ML within the bioinformatics area. ML in bioinformatics refers to using ML techniques to analyze and interpret biological data, including genomics, systems biology, text mining, microarrays, and evolution. By applying ML algorithms to complex biological data sets, researchers can gain insights into various biological processes, identify genetic mutations, and even develop new disease treatments [34, 35]. ML can be applied through various modes of human-made database reports to process and evaluate data, decreasing labor expenses and fastening the research procedure without compromising quality [36, 37]. ML text evaluation can be utilized in bioinformatics as well. The containing of ML has given bioinformatics the needed promotion [38, 39].
This research aimed to provide a detailed overview of the applications of ML technologies in IoT-based medical and bioinformatics. The study highlighted the multiple uses of Deep Learning (DL) strategies [40, 41] in medical and bioinformatics by conducting an SLR and analyzing and comparing findings from various studies. The DL mechanisms used in medicine and bioinformatics were divided into five separate groups: convolutional neural network (CNN), recurrent neural network (RNN), generative adversarial network (GAN), multilayer perception (MLP), and hybrid approaches, which include several practical methods. For each group and mechanism, multiple properties such as benefits, drawbacks, datasets, and simulation environments were studied. The study investigated the methodologies and applications of DL/ML mechanisms in bioinformatics before delving further into future studies and taking into account the shortcomings that need to be addressed in the future. Overall, the contributions of this paper include providing a thorough examination of current concerns with ML/DL mechanisms in medical and bioinformatics, conducting a comprehensive evaluation of existing methods for ML/DL applications, and modeling important areas for the future development of these approaches. The main contributions of this paper are as follows:
  • Conducting an SLR to explore ML applications in IoTbased medical and bioinformatics;
  • Analyzing and comparing DL uses in medical and bioinformatics;
  • Categorizing DL mechanisms into five groups (CNN, RNN, GAN, MLP, hybrids) and examining their properties;
  • Investigating DL/ML methodologies and applications in bioinformatics;
  • Providing insights for future research and addressing existing shortcomings;
  • Offering a comprehensive evaluation of existing ML/ DL methods;
  • Contributing to a better understanding of current challenges and opportunities in the field;
The article is structured in the following manner: The key principles and terminology of ML/DL in medical and bioinformatics are covered in the first part, followed by an investigation of relevant papers in part 3. Part 4 discusses the studied mechanisms and tools for paper selection, while Part 5 illustrates the classification that was selected. Section 6 presents the results and comparisons; Sect. 7 provides the open issues, and the conclusion is explored in Sect. 8.

2 Fundamental concepts and terminology

This section discusses the fundamentals of DL approaches as well as their applications in medical and bioinformatics.

2.1 Deep learning concepts

Three classifications of DL methods are supervised, semisupervised, and unsupervised learning. An input vector as a value for the supervisory signal is a desired value. Present labels aid the method of predicting the desired output labels [42]. Classification approaches employ supervised learning to detect faces and traffic signals, translate voice to text, identify spam in a file, and perform a variety of other tasks. Semi-supervised learning is a strategy that crosses the gap between unsupervised and supervised ML approaches [43]. This approach, which falls between supervised and unsupervised learning, uses unlabeled and labeled values as training data. When combined with a modest quantity of labeled data, the learning accuracy of unlabeled data improves significantly. In theory, the data adjacent to it have the same name. Likewise, the cluster assumption, which states that every data in a cluster is the same, has a similar name [44]. Also, rather than using the whole input space, the data are limited to a single dimension. Unsupervised learning describes the interrelationships between the components and then categorizes them. These algorithms are used in neural networks, clustering, and anomaly detection. Detecting anomalies typically takes the benefit of unsupervised learning, specifically in security areas. By the same token, feature processing and extraction are possible by using DL techniques and artificial neural networks [45, 46].

2.2 Bioinformatics applications

Bioinformatics is an advanced field of biology that proceeds from the combination of both information and biology [47]. It is an interdisciplinary area of study that utilizes mathematics, biology, computer science, chemistry, and statistics, which have been synthesized to shape an individual order [48]. Bioinformatics is fundamentally applied to bring out knowledge from biological data through the improvement of software and algorithms [49]. Bioinformatics is broadly used in the study of Genomics, 3D structure modeling of Proteins, proteomics, image analysis, and drug designing [50, 51]. A particular use of bioinformatics can be found in the domain of preventive medicine, which is principally concentrated on improving measures to avoid, manage, and treat serious infectious diseases [52]. The basic target of bioinformatics is to enhance the understanding of biological procedures. There are several
applications of bioinformatics including recording and retrieval of data in gene therapy, biometrical evaluation for crop management, pest control, evolutionary research, drug discovery, and microbial utilitarianism [52].

2.3 Deep learning usage in bioinformatics

The primary objective of healthcare informatics is to offer better treatments and enhance the quality of life for individuals by efficiently analyzing biomedical data, which includes Electronic Health Records (EHRs) [53]. In the past, it was customary to rely on domain experts to develop models for healthcare or biomedicine, but recent advances in DL algorithms have enabled the automatic learning of representations and patterns from such data for model improvement. DL techniques involve several levels of representation, where at each stage, the system learns higher abstract representations. Natural language processing (NLP), computer vision, speech recognition, video analysis, health informatics, and image processing are among the fields in which DL-based algorithms have performed well. Powerful computational models include DL approaches such as CNN, neural networks, auto-encoders, and deep generative networks. These techniques have shown considerable success in dealing with large amounts of information across a wide range of applications due to their ability to extract complex latent features and learn effective representations in an unsupervised setting [54]. Here are several uses of DL methods in bioinformatics medical systems:

2.3.1 Detecting enzymes applying multilayer neural networks

Detecting enzymes using multilayer neural networks refers to using DL algorithms to automatically recognize enzymes in biochemical data. Enzymes are proteins that catalyze chemical reactions in living organisms. Detecting and identifying enzymes is crucial in many areas of bioinformatics and biomedicine, such as drug discovery and metabolic pathway analysis. Traditionally, this task required the expertise of domain specialists to identify enzymes manually [55]. With the advancement of DL algorithms, it is now possible to train multilayer neural networks to recognize patterns in enzyme data and classify them automatically. Multilayer neural networks are a type of AI that consists of multiple layers of interconnected nodes that process input data to generate output predictions. These networks can learn to represent complex relationships between input features and output classes, making them effective for enzyme detection. The paper discusses various approaches to applying multilayer neural networks for enzyme detection, including the use of CNN
and RNN. These networks can be trained on large datasets of enzyme data, and the resulting models can be used to automatically detect and classify enzymes in new data [56].

2.3.2 Gene expression regression

Gene expression regression refers to the use of DL algorithms to predict the expression level of a gene based on various factors, such as environmental conditions, genetic mutations, or other molecular processes. The goal is to build a model that can accurately predict the level of gene expression in a particular context, which can help researchers understand the underlying biological mechanisms and develop new treatments for diseases [57]. DL models, such as CNN or RNN, are trained on large datasets of gene expression data, along with other relevant features. These models learn to identify patterns and correlations between the expression levels and the various factors that influence them, allowing them to make accurate predictions. Gene expression regression has numerous applications in bioinformatics and medical informatics, including predicting drug responses, identifying biomarkers for diseases, and understanding the mechanisms of genetic disorders [58].

2.3.3 CNN predicting RNA-protein linking points

In bioinformatics, predicting RNA-protein binding sites is an important task as it can help in understanding gene regulation, disease diagnosis, and drug discovery. One approach to this task is using CNN [59], which is a type of DL model designed to learn spatial features from input data. In the context of predicting RNA-protein binding sites, CNNs can be trained on sequence data to identify patterns and features that are indicative of RNA-protein interaction sites [60]. The input to the CNN is a sequence of nucleotides, and the output is a probability score that indicates the likelihood of RNA-protein binding at each position in the sequence. CNN works by applying a set of filters to the input sequence, with each filter looking for a specific pattern or feature in the sequence. The output of the filter is then passed through a nonlinear activation function to generate a feature map. Multiple filters are used in parallel to learn different features from the input sequence. The feature maps are then pooled to reduce the dimensionality of the data and to capture the most salient features. The resulting features are then passed through one or more fully connected layers to make the final prediction. Overall, the use of CNNs for predicting RNA-protein binding sites has shown promising results and has the potential to contribute to developing new therapeutics and diagnostics for various diseases [61].

2.3.4 DNA sequence performance anticipation with RNN and CNN

DNA sequence performance anticipation with RNN and CNN refers to the use of RNN and CNN in predicting the performance of DNA sequences. RNNs are neural networks designed to process sequential data by maintaining a memory of past inputs, while CNNs are a type of neural network that can learn and identify spatial patterns in data. In the context of DNA sequences, RNNs, and CNNs can be used to predict the performance of a specific sequence based on its structure and characteristics [62]. For example, RNNs can be trained on a set of DNA sequences and their corresponding performance levels and then used to predict the performance of new, unseen sequences. Similarly, CNNs can be trained to identify spatial patterns in DNA sequences that are associated with high or low performance. By combining the strengths of both RNNs and CNNs, researchers can develop more accurate and effective models for predicting the performance of DNA sequences. This can have important implications for fields such as genetic engineering and biotechnology, where the ability to accurately predict the performance of DNA sequences is crucial for developing new treatments and therapies [63].

2.3.5 Biomedical image classification applying ResNet and transfer learning

In the field of medical image analysis, one of the challenges is to accurately classify biomedical images such as X-rays, MRI scans, and CT scans, which require the expertise of trained radiologists. With the advent of DL, CNN has been widely used to classify medical images automatically. One of the most successful CNN architectures is Residual Network (ResNet), which is known for its ability to train deep networks with many layers. Transfer learning is a technique that uses pre-trained models on large datasets to solve similar tasks on smaller datasets. In biomedical image classification, transfer learning can be used to leverage pre-trained ResNet models on large datasets such as ImageNet to improve the performance of medical image classification. A pre-trained ResNet model is used as a feature extractor to apply transfer learning with ResNet in biomedical image classification [64]. The last few layers of the ResNet model, responsible for the final classification, are replaced with new layers trained on the biomedical dataset. The new layers learn the specific features of the biomedical images and improve classification accuracy. This approach has been used in various biomedical image classification tasks, such as breast cancer detection, brain tumor segmentation, and lung nodule detection, and has shown promising results in improving
the accuracy of classification compared to traditional ML algorithms [65].

2.3.6 Graph embedding using GCN for protein interaction prediction

Proteins interact with each other in complex ways to perform vital biological functions. The prediction of novel protein interactions is important for understanding cellular processes and developing new drugs. Graph Convolutional Networks (GCNs) are a type of DL algorithm that can learn to represent and analyze complex network data, such as protein-protein interaction networks. In this context, GCNs can be used to perform graph embedding, which is the process of transforming the nodes and edges of a graph into a low-dimensional vector space while preserving the structural information of the graph. By using GCNs to learn the embeddings of proteins and their interactions in the network, researchers can capture the underlying patterns and relationships that are difficult to detect using traditional methods [66]. The GCN-based approach for predicting protein interactions involves training a model on a graph representation of known interactions, where the nodes represent proteins and the edges represent their interactions. The model then learns to predict whether a new interaction exists between two proteins based on their embedding vectors. One of the advantages of this approach is that it can incorporate additional features, such as protein sequence and structure information, to improve the accuracy of the predictions. Transfer learning techniques can also be used to improve the performance of the model by leveraging pre-trained embeddings from related tasks. Overall, the use of GCNs for graph embedding and predicting protein interactions has shown promising results and has the potential to contribute to the development of new drugs and therapies [67].

2.3.7 GAN image super-resolution in biology

GAN image super-resolution in biology is a DL technique used to enhance the resolution of biological images such as microscopy or medical images. GANs are composed of two neural networks: a generator and a discriminator network. The generator network generates a high-resolution image from a low-resolution input image, while the discriminator network determines whether the generated image is real or not. In GAN image super-resolution, the generator network takes a low-resolution image as input and generates a highresolution image that is similar to the original high-resolution image. The discriminator network evaluates the similarity between the generated and original images. The generator network is trained to generate images that fool the discriminator network into thinking they are real high-
resolution images. This training continues until the generator network produces high-quality images indistinguishable from real high-resolution images. GAN image superresolution in biology has many applications, such as enhancing the resolution of microscopy images to improve the accuracy of image analysis and improving the resolution of medical images to aid in diagnosis and treatment [68].

2.3.8 Variational autoencoder high-dimensional biological generative and data embedding

VAE stands for Variational Autoencoder, which is a type of deep generative model used in ML. It is commonly used in high-dimensional data analysis and representation learning. In the context of bioinformatics and medical informatics, VAE can be used for biological data embedding and generative modeling. In VAE, the input data are first encoded into a lower-dimensional space, called the latent space, which captures the essential features of the input data. Then, a generative model is trained to map the latent space back to the original data space, allowing for the generation of new data samples. VAE is a probabilistic model, which means it can also be used for data imputation and anomaly detection. VAE has several advantages over other generative models, such as its ability to handle missing data and its ability to learn a smooth and continuous latent space representation of the input data. It is particularly useful in high-dimensional biological data analysis, where the number of features is very large, and the data are often noisy and incomplete. In summary, VAE is a powerful tool in DL and ML for high-dimensional biological data embedding and generative modeling. It has a wide range of applications in bioinformatics and medical informatics, such as data imputation, anomaly detection, and drug discovery [69]. In the next section, we delve deep into some related survey papers investigating this area.

3 Relevant reviews

We discussed the background and related ideas in-depth in the preceding section. In this section, we provide some significant relevant works in this area. In this regard, Li , Huang [19] proposed a comprehensive review of the recent developments in DL techniques for bioinformatics. They discussed the importance of big data in bioinformatics and the potential of DL techniques to analyze and make predictions based on such data. The paper provided an overview of the applications of DL in various fields of bioinformatics, including gene expression analysis, protein structure prediction, drug discovery, and disease diagnosis.
Moreover, Rezende, Xavier [70] presented a comparative study of hierarchical ML algorithms for classifying biological databases. They evaluated the performance of four different algorithms, namely random forest, Naïve Bayes, decision tree, and k-nearest neighbor, in terms of their accuracy, precision, recall, and F1 score. They also compared the performance of these algorithms with a baseline non-hierarchical ML algorithm. Also, to fulfill the lack of guidelines for hierarchical data classification, Yi, You [71] provided an overview of the recent advancements in graph representation learning for bioinformatics. They discussed the growing significance of graph-based data in bioinformatics and how graph representation learning can be used to extract valuable features and knowledge from such data. They reviewed the various graph representation learning models and their advantages and limitations in bioinformatics applications.
Besides, Sharma [72] provided an in-depth review of the applications of cluster analysis in bioinformatics. They discussed the increasing importance of cluster analysis in various fields of bioinformatics, including gene expression analysis, protein structure prediction, and disease diagnosis. They provided a comprehensive overview of the different types of clustering algorithms, including hierarchical, partitioning, density-based, and model-based clustering, and their advantages and limitations in bioinformatics applications. Also, Serra, Galdi [73] provided an overview of the recent developments in ML techniques for bioinformatics and neuroimaging. They discussed the increasing importance of big data in these fields and how ML techniques can be used to analyze and make predictions based on such data. Their paper provided a comprehensive review of the applications of ML in various fields, including gene expression analysis, protein structure prediction, drug discovery, and brain imaging analysis. However.
For this reason, there is a need for a new review article on DL in bio- and medical informatics as prior studies have offered a wide overview of DL applications in other domains but have not completely explored the potential of DL in tackling the issues faced in the sector. Recent developments in DL algorithms have also opened up new possibilities for enhancing the precision and effectiveness of medical diagnosis and therapy. We intend to emphasize the areas that require more investigation and offer direction for future work in the field by offering a thorough analysis of the most recent advancements in DL and its applications in bioinformatics, molecular biology, healthcare, and genomics. Additionally, we promote the use of DL in the medical area, enhancing patient outcomes and advancing precision medicine. Table 1 contains a summary of relevant works.

4 Methodology of research

To clearly understand ML application in bio- and medical informatics, an SLR mechanism is used in this part which is a significant survey and study of all research on a definite area. This evaluation is applied to fulfill an in-detailed examination of the DL mechanism application and explore the validity of the study selection strategy. The further subsections elaborate on the investigation process, containing research questions and criteria of paper choice.

4.1 Formalization of question

The main goals of this research are to review, classify, detect, and analyze several pertinent papers explored in ML applications in bio- and medical informatics. To gain the targets mentioned, the facets and characteristics of the mechanisms can be studied properly by applying an SLR. An even more purpose of SLR is to identify the major topics and difficulties this section addresses. The following topics are short Research Questions (RQs) that have been developed:
  • RQ 1: How may DL approaches in bio- and medical informatics be classified in medical healthcare? What are some of their examples?
This question is answered in Sect. 5.
  • RQ 2: What are the most significant cutting-edge works? What are their benefits and drawbacks? What features do they have?
Sections 5.1 through 5.7 provide answers to this question.
  • RQ 3: What are the most widely utilized applications, techniques, criteria, and other factors in bio- and medical informatics?
This is addressed in part 6
  • RQ 4: What are the key potential solutions and unanswered issues in this field?
Part 5 will review the answers to this topic, while Part 7 will review the remaining concerns.

4.2 The procedure of paper exploration

This investigation comprises a four-stage process for exploring and selecting papers, as demonstrated in Fig. 1. Table 2 displays the terms and keywords used to explore the articles in the first phase, which were discovered through a search of traditional electronic databases such as Google Scholar, Scopus, ACM, Springer Link, Elsevier, Emerald insight, Taylor and Francis, IEEE Explore, MDPI, Wiley, and DOAJ, as well as papers, chapters, journals, books, conference papers, notes, special issues, and
Table 1 Summary of relevant works
Authors Main idea Advantage Disadvantage
Li, Huang [19] Presenting both the exoteric definition of DL and integrating instances and executions of its representative uses in bioinformatics Easy-to-understand introduction of methods Addressing the issues via providing practical examples Some important parameters for comparison between methods have been overlooked
Rezende, Xavier [70] Proposing a study of graph representation learning in bioinformatics, as well as identifying and evaluating techniques Providing a comprehensive well-structured survey of graph embedding mechanisms Poor comparison among methods
Yi, You [71] Contrasting the operation of “Local per Level” and “Local per Node” methods employed to two various hierarchical datasets: CATH and BioLip Providing computational libraries to assist the community in the decision-making process for planning hierarchical data Details of methods overlooked
Sharma [72] Integrating various results to establish clusters without depending on the criteria utilized to evaluate data Well-organized schematic comparison between mechanisms Poor analysis of proposed approaches
Serra, Galdi [73] Discussing applications of ML in bioinformatics and neuroimaging to solve related issues Stating several examples to clarify the application of ML in bioinformatics Overlooked some challenges like DL results interpretation
Our work Providing a new taxonomy of DL/ML method in medical and bioinformatics Comprehensively discussing various studies using DL mechanisms in medical and bioinformatics Unavailability of non-English papers
technical studies. The first phase yielded 790 articles, with Fig. 2 showing the distribution of articles by the publisher. In Phase 2, two phases were used to specify the total number of articles to investigate. Firstly, the involved criteria in Fig. 3 were utilized, which resulted in 467 articles remaining. Figure 4 shows the dispersion of articles by the publisher, while Fig. 5 depicts the first phase.
The survey papers are exploited in phase 3, out of 211 remaining papers in the former phase. Most of the used articles were published by Elsevier (38.5% percent). At this stage, 46 papers were remaining. The abstract and conclusion of the papers were studied in the fourth phase. Hence, 25 articles that satisfied the requirement for the precise criteria were chosen to be used and examined. In the third step, Fig. 6 displays the dispersion of the selected articles by their publishers in the second phase. Figure 7 depicts the journals that publish papers in the third phase. Table 3 indicates the specifications of the selected papers.

5 DL approaches in the field of bioand medical informatics

This part discusses the ML mechanisms for detecting and assessing bio- and medical informatics and relevant situations. 25 articles were investigated in this part, all of which met the demand for selection criteria. To begin with, the methods were divided into 5 major classes: CNNs, RNNs, GANs, MLPs, and hybrid methods, synthesizing mechanisms. Figure 8 displays the proposed taxonomy of ML/DL methods for bio- and medical informatics.

5.1 CNN approaches for bio- and medical informatics

CNN is a fundamental DL approach that has been employed in practically all areas of medicine and is one of the useful methods for researchers. The technique is
Fig. 1 The phases of the article searching and selection process
Table 2 Keywords and search criteria
S# Keywords and search criteria S# Keywords and search criteria
S1 “Deep learning” and “Medical issues” S6 “AI” and “Healthcare”
S2 “Machine learning” and “Bioinformatics” S7 “Healthcare” and “IoT”
S3 “Deep learning” and “Bioinformatics” S8 “DL methods” and “Medical Internet of Things”
S4 “IoT-based system” and “Bioinformatics” S9 “ML methods” and “Medical Internet of Things”
S5 “AI” and “Medical informatics” S10 “AI methods” and “Medical Internet of Things”
Fig. 2 The stages of the paper searching and choosing procedure
Fig. 3 Criteria for paper selection
prevalently utilized for identifying MRI and CT scan images, and relevant backgrounds, as debated in the second part. In this regard, Liu, Xu [74] presented an intelligent dental health-IoT system based on smart hardware, DL,
and a mobile terminal to assess its potential in in-home dental healthcare. Moreover, sophisticated dental equipment is being developed and upgraded to operate the image attainment of teeth. Based on a dataset of 12,600 clinical images collected by the presented device from 10 private dental clinics, an automatic detection model trained by MASK R-CNN was improved for the identification and classification of 7 different dental diseases, including deteriorated teeth, periodontal disease, fluorosis, and dental plaque, with detection precision of up to and high specificity and sensitivity. Following a one-month assessment in ten clinics compared to the previous month, when the platform is not used, the average detection time for each patient lowers by , demonstrating an improvement in the treated patients.
Also, Nematzadeh, Kiani [75] presented a metaheuris-tic-based approach for optimizing the hyperparameters of ML algorithms and DNNs in bioinformatics applications. They discussed the challenges of selecting appropriate hyperparameters and the limitations of existing methods. They proposed a metaheuristic-based approach that involves the use of different optimization algorithms to search the hyperparameter space and identify the optimal
Fig. 4 Distribution of publisher of papers
Fig. 5 Papers distribution in terms of publishers in the first step of selection papers
Fig. 6 Papers distribution in terms of publishers in the second step of selected papers
combination of hyperparameters that leads to the best performance.
By the same token, Chen, Wang [25] evaluated nhKcr on a benchmark dataset and compared its performance with four state-of-the-art crotonylation site predictors. They tested the performance of nhKcr on a dataset commonly used to evaluate the accuracy of crotonylation site prediction tools. They also compared the performance of
Fig. 7 Papers distribution in terms of publishers in the third step of selection papers
nhKcr to four other prediction tools that are currently considered to be the most accurate. The results showed that nhKcr outperformed the other predictors in terms of both prediction accuracy and execution time. Their results demonstrated the potential of DL-based methods for predicting post-translational modifications on nonhistone proteins.
Table 3 Specification of the selected papers
Author Publisher Journal Citation Q Country Year Hindex
1 Liu, Xu [74] IEEE Journal of Biomedical and Health Informatics 54 Q1 China 2019 137
2 Nematzadeh, Kiani [75] Elsevier Computational Biology and Chemistry 13 Q2 Turkey 2022 61
3 Chen, Wang [25] Oxford University Press Briefings in Bioinformatics 14 Q1 China 2021 121
4 Kumar and Sharma [76] Global Journal on Application of Data Science and Internet of Things Russia 2021
5 Jia, Chen [77] Frontiers Media S.A Frontiers in Genetics 4 Q1 China 2021 93
6 Pastorino and Biswas [78] The 13th ACM international conference on hybrid systems: computation and control USA 2022 14
7 Auwul, Rahman [79] Oxford University Press Briefings in Bioinformatics 38 Q1 Australia 2021 121
8 Lan, You [80] Frontiers Media S.A Frontiers in Genetics 38 Q1 China 2021 121
9 Han, Rundo [81] Bergamo Computational Intelligence Methods for Bioinformatics and Biostatistics 76 Italy 2021
10 Balogh, Benczik [82] BioMed Central Ltd BMC Bioinformatics 5 Q2 Hungry 2022 218
11 Giansanti, Castelli [83] International computational science and engineering conference 3 Italy 2019
12 Lyu, Chen [84] BioMed Central Ltd BMC Bioinformatics 97 Q2 China 2017 218
13 ElAbd, Bromberg [85] BioMed Central Ltd BMC Bioinformatics 37 Q2 Germany 2020 218
14 Liu and Gong [86] BioMed Central Ltd BMC Bioinformatics 24 Q2 China 2019 218
15 Wang, Zeng [87] IEEE IEEE International Conference on Bioinformatics and Biomedicine 161 China 2017
16 Zhao, Shao [88] Elsevier Genomics, proteomics & Bioinformatics Q1 USA 2021 56
17 Souri, Ghafour [89] Springer Soft computing 54 Q2 Iran 2020 90
18 D’Orazio, Murdocca [90] Nature Scientific reports Q1 Italy 2022 242
19 Karim, Beyan [91] Oxford university press Briefings in bioinformatics 101 Q1 UK 2021 121
20 AYDIN [92] The public library of science PLoS Computational Biology 3 Q1 Turkey 2020 191
21 Mohamed Shakeel, Baskar [93] Springer Journal of Medical Systems 214 Q1 Malaysia 2018 89
22 Huang, Shea [94] Elsevier Journal of Biomedical Informatics 188 Q1 China 2019 112
23 Wang, Jiang [95] Elsevier Journal of Biomedical Informatics 2 Q1 USA 2021 112
24 Cui, Zhu [96] Elsevier Journal of Biomedical Informatics 5 Q1 USA 2021 112
25 Shahid, Nasajpour [30] Elsevier Journal of Biomedical Informatics 44 Q1 USA 2021 112
Also, Kumar and Sharma [76] illustrated the efficiency and robustness of the COVID-19 patient’s technique of non-contact examination, which can aid in cost-efficiency and early screening and diagnosing of COVID cases. They provided images of Grad’s chest radiographs as well as the
regions of interest for proven COVID-19-positive patients, bacterial pneumonia, and healthy cases. They also discussed the challenges faced in applying DL in bioinformatics, such as the need for large datasets, interpretability, and data quality.
Fig. 8 The proposed taxonomy of bioinformatics
Moreover, Jia, Chen [77] presented a DL and bioinfor-matics-based approach for the identification of breast cancer cases. The authors used a dataset consisting of 212 breast cancer patients and 212 healthy controls. The transcriptome data of these samples were analyzed using bioinformatics tools to identify Differentially Expressed Genes (DEGs). The DEGs were then used as input for a DL algorithm, which was trained to classify the samples as cancerous or non-cancerous. The authors reported high accuracy and specificity in the classification of the samples using this approach. Table 4 indicates the techniques, properties, and characteristics of CNN-informatics methods.

5.2 GAN approaches for bio- and medical informatics

It is worth noting that the GAN is the most widely used image classification and identification algorithm. It is now a well-known approach for usage in medicine and healthcare, and it is one of the most appealing strategies for investigators. In this section, we went through several various approaches in this area. To name but a few, Pastorino and Biswas [78] described a study that aims to address data privacy concerns while classifying chest X-ray images for COVID-19 detection. The authors developed a semi-supervised GAN that uses a small set of labeled data and a large set of unlabeled data to learn the features of chest X-ray images. To ensure data privacy, the authors introduced a data-blinding technique to remove personal
information from the images, which may lead to data adequacy bias. They evaluated their method on a publicly available dataset and found that it achieved comparable performance to state-of-the-art methods while preserving data privacy.
Also, Auwul, Rahman [79] discussed using bioinformatics and ML approaches to identify potential drug targets and pathways for COVID-19. Using bioinformatics tools, they analyzed genomic and proteomic data of SARS-CoV-2 and its interaction with human proteins. They used ML algorithms to predict potential drug targets and pathways that could be used to treat COVID-19. The results showed several potential drug targets and pathways, including the renin-angiotensin and interferon signaling pathways.
Also, Lan, You [80] discussed using GAN in biomedical informatics. They provided a GAN framework and its applications in various areas such as image generation, data augmentation, disease diagnosis, drug discovery, and medical image analysis. Their method could detect Alzheimer’s disease ( AD ) on T 1 scans at a very early phase with a zone under the curve of 0.727 and AD at a late phase with an area under the curve (AUC) of 0.894 and diagnose brain metastases on T1c scans with AUC 0.921.
Besides, Han, Rundo [81] proposed an unsupervised medical anomaly detection model called MADGAN, which is based on the GAN architecture. MADGAN can reconstruct multiple adjacent brain MRI slices from a single slice and generate realistic brain images. The proposed method can detect anomalous brain regions by comparing the reconstructed slices with the original ones. The authors evaluated the performance of MADGAN on two public brain MRI datasets and compared it with several state-of-the-art methods. The results showed that MADGAN outperformed other methods in terms of anomaly detection accuracy and computational efficiency, demonstrating the potential of MADGAN in medical anomaly detection tasks.
In addition, Balogh, Benczik [82] proposed a GAN model called TopoGAN for efficient link prediction in the protein-protein interaction (PPI) network. The model utilized the topological information of nodes and their neighbors to generate new nodes, which were then used to predict missing links in the network. The proposed model was evaluated on five benchmark PPI datasets and achieved superior performance compared to state-of-the-art methods. TopoGAN also showed its capability in identifying new PPIs between proteins, which were later validated by experiments. The results demonstrated the effectiveness of the proposed approach in predicting PPIs and can be useful for drug discovery and disease diagnosis. Table 5 indicates the techniques, properties, and characteristics of GAN-informatics methods.
Table 4 The techniques, properties, and characteristics of CNN-bioinformatics methods
Author Main idea Advantage Drawback Method Simulation environment Dataset
Liu, Xu [74] Proposing an intelligent dental Health-IoT system relied on smart hardware, DL, enabling exploration of the viability High accuracy High sensitivity High septicity Low latency
High false alarm
Poor hardware design
Small image dataset
CNN TensorFlow 10 private dental clinics
Nematzadeh, Kiani [75] Presenting a strategy for optimizing the handling hyperparameters of ML algorithms
Fast performance
Fast convergence
Poor scalability
Poor adaptability
CNN C# 11 datasets in various biological, natural, and biomedical categories
Chen, Wang [25] Using CNNrgb as a DL-based computational paradigm for nhKcr site anticipation on nonhistone proteins High computational efficiency Poor flexibility CNN Python An online server named nhKcr
Kumar and Sharma [76] Using the CNN technique to diagnose COVID-19
Strong robustness
High accuracy
Poor autonomously CNN Python COVID and nonCOVID patients’ chest X-rays
Jia, Chen [77] Utilizing gene expression omnibus and cancer genome atlas gene expression profiles to differentiate between breast cancer patients and healthy individuals
High accuracy
High F-score
High sensitivity
High specificity
Poor flexibility CNN R 1109 cancer patients and 113 normal cases

5.3 RNN approaches for bio- and medical informatics

The RNN technique, which has been very practical in medicine and healthcare, is one of the most popular techniques for investigators. As mentioned before, it is the most conventionally applied technique for forecasting and prediction whereby we dwell deep into five approaches of this technique in this part. In this regard, Giansanti, Castelli [83] compared the performance of two different ML approaches-DL and classical ML-for the task of miRNA-target prediction. The authors used two different datasets, one containing experimentally validated miRNAtarget interactions and another containing predicted interactions from multiple algorithms. They then trained and evaluated several models on these datasets, including a DNN, a random forest, a support vector machine, and a logistic regression model. Their results showed that DL models outperformed classical ML models in terms of both accuracy and area under the curve (AUC) metrics.
Moreover, Lyu, Chen [84] proposed an RNN framework according to word embedding and character representation. In the statements that are proper for the work and could be constructed by bidirectional difference and long short-term memory (LSTM) units, the authors used a conditional random field (CRF) layer and contextual data from both long-domain and directions dependencies. Their neural
network model could be used for BNER without the need for human feature engineering. Based on their experimental findings, the domain-specific pre-trained word embedding and character-level representation may be used to create the function of the LSTM-RNN approaches.
Well, ElAbd, Bromberg [85] explained that amino acid sequences can be represented using a one-hot encoding scheme, where each amino acid is represented by a vector of binary values, with a ” 1 ” in the position corresponding to the amino acid and ” 0 “s elsewhere. They demonstrated that this encoding scheme outperforms one-hot encoding in terms of accuracy and generalizability in various tasks, including protein classification and protein-ligand binding prediction. Their paper also provided a detailed description of the development and testing of the proposed encoding scheme, including evaluating different DL algorithms and hyperparameters. They concluded that their encoding scheme has the potential to improve the accuracy and efficiency of DL applications in the field of bioinformatics.
Furthermore, Liu and Gong [86] proposed an enhanced LSTM model that incorporates residual connections and attention mechanisms to improve the accuracy of the predictions. They demonstrated the effectiveness of their model using a dataset of protein-protein interaction residue pairs and compared their results to other commonly used methods. They concluded that their model outperformed other methods in terms of accuracy and computational
Table 5 The techniques, properties, and characteristics of GAN-bioinformatics methods
Author Main idea Advantage Drawback Method Simulation environment Dataset
Pastorino and Biswas [78] Introducing data-blinded semisupervised GAN to develop classification operation
High AUC
High stability
High accuracy
High complexity GAN Python 1000 epochs of SGAN model
Auwul, Rahman [79] Presenting a beta-binomial distribution method to draw peptide immunogenic potential
High accuracy
Strong robustness
Poor flexibility
Poor scalability
GAN Python 9000 tested immunogenicity molecular assays
Lan, You [80] Using GAN-based method for neighboring brain MRI section restoration
High accuracy
High reliability
Poor generalizable recreation and detection GAN TensorFlow T1 brain axial MRP slices
Han, Rundo [81] Developing software that runs a link anticipation tool for PPI forecasting utilizing ML
High accuracy
High precision
Poor scalability GAN Python PPI network from the STRING database
Balogh, Benczik [82] Designing a data-blind semisupervised GAN to improve classification operation
High accuracy
High availability
Poor flexibility GAN Python ChIP-seq and DNase-seq datasets
efficiency, making it a promising tool for future research in protein-protein interactions. Afterward, the authors utilized it to anticipate protein-protein interaction interference with residue pairs and gained an appropriate accuracy of nearly .
Additionally, Wang, Zeng [87] developed a CNN-based model, MusiteDeep, which takes amino acid sequences as input and predicts the phosphorylation sites with high accuracy. They tested their model on both general phosphorylation sites and kinase-specific phosphorylation sites and compared it to other commonly used methods. They found that their model outperformed other methods in terms of prediction accuracy and latency. Their paper provided a valuable tool for predicting phosphorylation sites in proteins and can contribute to the development of new therapies and treatments for diseases related to protein phosphorylation. As compared to other popular methods on the benchmark data, it achieved more than relative development in the zone under the precision-recall curve in general phosphorylation site forecasting and obtains competitive results in kinase-specific anticipating. Table 6 indicates the techniques, properties, and characteristics of RNN-informatics methods.

5.4 MLP approaches for bio- and medical informatics

MLP has been specified as a broadly utilized and efficient ML mechanism recently used to detect classification based on high-dimensional genomic data. In this regard, Zhao, Shao [88] evaluated the performance of various models, including decision trees, logistic regression, and neural networks, in terms of both prediction accuracy and interpretability. They found that explainable ML models, such as decision trees and logistic regression, provided better interpretability than more complex models like neural networks while maintaining similar prediction accuracy. They also proposed an optimization method to improve the performance of explainable ML models.
By the same token, an IoT-based health monitoring model was suggested by Souri, Ghafour [89] to control critical signs and identify biological and behavioral alternations of learners by intelligent student care technologies. They proposed a system that collects data from wearable devices, such as smartwatches, and applied ML algorithms to analyze the data and diagnose the students’ health condition. They used a dataset collected from real-world experiments to evaluate the performance of their system
Table 6 The techniques, properties, and characteristics of RNN-bioinformatics methods
Author Main idea Advantage Drawback Method Simulation environment Dataset
Giansanti, Castelli [83] Training five models from ML and DL domains to examine the probability of detecting miRNA-mRNA interactions
Time efficient
High accuracy
Poor availability RNN Python TargetScan miRanda RNAhybrid
Lyu, Chen [84] Proposing an RNN framework based on embedding and character representation
High accuracy
High F-score
Poor flexibility RNN C+ + BioCreative GM
ElAbd, Bromberg [85] Using multiple DL models to demonstrate that end-toend learning is comparable to encoding High flexibility
Limited training data
Poor availability
RNN TensorFlow PeptideHLA II interaction
Liu and Gong [86] Proposing an attention-enhanced LSTM with a residual model to address protein-protein interaction problems High accuracy Poor adaptability RNN Python 1H9D
Wang, Zeng [87] Presenting DL framework for anticipating general and kinase-specific phosphorylation sites High accuracy Poor interpretability RNN Python NetPhos3.1
and compared it with other commonly used methods. The results showed that their system achieved high accuracy in diagnosing health conditions, and outperformed other methods in terms of efficiency and cost-effectiveness.
Moreover, D’Orazio, Murdocca [90] introduced an MLP platform for the phenomics study of cancer cells reply of treatment, using and synthesizing the possibility of timelapse microscopy for cell manner data achieving and robust DL software models for the hidden phenotypes extraction. They used a combination of DL and time-lapse-microscopy to monitor the growth and response of cancer cells to drugs over time. They collected a large dataset of time-lapse microscopy images and used DL models to identify and track the cells, extract features, and predict drug response. They evaluated the performance of their MLP approach and compared it with other commonly used methods. The results showed that the MLP approach achieved high accuracy in predicting drug response and outperformed other methods in terms of sensitivity and specificity.
Besides, Karim, Beyan [91] selected cancer genes to classify cancer accurately owing to emitted genes from microarray having many noises. They strived to find many characteristics and classifiers utilizing three benchmark datasets to systematically assess the functions of the characteristic selection mechanisms and ML classifiers. Also, they synthesized the classifiers to develop the function of the classification. Tested results demonstrated that the ensemble with some basis classifiers generates the best recognition rate on the benchmark dataset.
Also, AYDIN [92] trained and compared six ML architectures, called RF, Naïve Bayes (NB), LR, K-nearest neighbor (KNN), MLP, and SVM, for the detection of
T4SEs utilizing 10 types of chosen characteristics and fivefold cross-validation. According to their results: (1) involved various but supplementary characteristics generally increase the predictive function of T4SEs, (2) the majority voting technique propelled to a more consistent and precise classification function while forecasting an ensemble learning architecture with customized exclusive single features. (3) Ensemble methods, gained by incorporating exclusive single-characteristic methods, display a particularly developed predictive function. Table 7 indicates the techniques, properties, and characteristics of MLP-informatics methods.

5.5 Hybrid approaches for bio- and medical informatics

Hybrid methods are one of the most complicated methods used in the medical and bioinformatics area. These techniques contain two or more methods for coping with hardships. In this study, we defined the evaluated methods which were created by applying methodologies. It is a conventionally utilized method in a diverse domain relevant to this subject. Considering this matter, Mohamed Shakeel, Baskar [93] stated that existing approaches for maintaining security and privacy in healthcare systems often fall short due to factors such as complexity, human errors, and the constant evolution of new threats. The proposed DQN approach aimed to address these issues by providing a more automated and adaptive security system. Their approach involved using DQNs to learn optimal policies for decision-making in various healthcare scenarios. The authors presented experimental results showing
Table 7 The techniques, properties, and characteristics of MLP-bioinformatics methods
Author Main idea Advantage Drawback Method Simulation environment Dataset
Zhao, Shao [88] Proposing a set of optimization approaches for each explanation on two architectures of MLP and CNN High accuracy Poor scalability MLP PyTorch 19,241 genes
Souri, Ghafour [89] Suggesting an IoT-based monitoring pattern to continually regulate student vital signs
High accuracy
High precision
High F-score
High Recall
Poor adaptability MLP TensorFlow 1100 students
D’Orazio, Murdocca [90] Suggesting An MLP platform is being made available for phenomics studies on how cancer cells react to therapy
Highthroughput
High availability
High accuracy
Poor adaptability MLP MATLAB RESNET101
Karim, Beyan [91] Choosing related genes to cancer to classify cancer High accuracy Poor scalability MLP PyTorch 400 images
AYDIN [92] Training six ML models for detecting T4SEs
High accuracy
Time efficient
poor adaptability MLP TensorFlow PSI-BLAST HHblits
the effectiveness of the proposed approach in identifying and mitigating threats in healthcare systems. Their paper presented an interesting application of DL and reinforcement learning techniques for addressing security and privacy concerns in healthcare systems.
Besides, Huang, Shea [94] discussed a federated ML approach for predicting hospital stay time and mortality using distributed EMR from multiple hospitals. Their proposed patient clustering method groups similar patients based on their medical histories and diagnoses and then trains a local ML model for each cluster. These models are aggregated to create a global model that can make predictions for patients across all hospitals. Their approach was tested on a large dataset from multiple hospitals and compared to other ML models. The results showed that patient clustering improves the efficiency and accuracy of the federated ML approach, leading to better predictions for hospital stay time and mortality.
As well, Wang, Jiang [95] proposed a method for efficiently verifying the results of Genome-Wide Association Studies (GWAS) that are outsourced to a third-party cloud server for computation. The proposed method uses ZeroKnowledge Proofs (ZKP) to ensure the integrity and confidentiality of the outsourced computation. Specifically, they introduced a new ZKP scheme called the “range-andsum ZKP,” which allows efficient verification of the correctness of the computation without revealing any sensitive
information. They also provided a theoretical analysis of the proposed scheme and demonstrated its effectiveness through experiments using real GWAS datasets. Their method could be useful for ensuring the reliability and security of outsourced GWAS computations, which are becoming increasingly common in biomedical research.
Moreover, Cui, Zhu [96] proposed a federated learning framework called Federated electronic medical record with Anonymous Random Hybridization (FeARH) for pri-vacy-preserving healthcare data analysis. Their framework is designed to protect the sensitive healthcare data of patients while allowing the model to learn from distributed EMR across multiple institutions. FeARH integrated three privacy-preserving techniques: differential privacy, random hybridization, and federated learning. The differential privacy mechanism preserved the privacy of individual records by adding random noise to the data. Random hybridization allows data from different sources to be combined randomly without exposing the original data. The results showed that FeARH achieves high prediction accuracy while preserving the privacy of the patient’s data.
In addition, Shahid, Nasajpour [30] analyzed the recent advances in ML research aimed at combating COVID-19. The authors highlighted the critical role that ML techniques have played in addressing various challenges posed by the pandemic, including virus detection, spread prevention, and medical assistance. Their paper discussed different
approaches that have been used to address these challenges, such as developing predictive models for disease spread and severity, identifying risk factors associated with the disease, and developing methods for analyzing medical images and data. Table 8 indicates the techniques, properties, and characteristics of MLP-informatics methods.
After evaluating various studies conducted in DL methods for bio- and medical informatics, in the next section, we will analyze the results of our investigation and assess proposed studies to draw a well-organized evaluation.

6 Results and comparisons

In the preceding section, we examined in-depth DL/ML techniques for bio- and medical informatics. In this part, we go over the findings in great detail and look at the approaches from several perspectives. This investigation identifies various innovative applications that exhibit this technique. Augmenting knowledge in domains such as protein structure prediction, image classification, and data retrieval poses a challenge. We posit that reducing information to input tensors and tasks to training variations confers a well-structured foundation that can extend numerous indicators of progress in ML through frameworks. A key objective of this study was to motivate readers to exercise control over how data are inputted into ML models and to enhance training problems. In terms of learning, we primarily concentrated on the aforementioned
categories. Additionally, we urge scholars to delve deeper into these subjects. Our survey evaluation revealed that most medical and bioinformatics investigations focused on a select blend of learning tasks or the improvement of annotation protocols and new datasets. ML has garnered significant popularity and acceptance, particularly for its implementation with CNN methods, which have demonstrated excellent results. However, there exist certain limitations to achieving the same level of efficacy in medical and bioinformatics applications. In general, research in this area is still ongoing. One of the most salient issues is the scarcity of large datasets containing high-quality patterns for training purposes. In such cases, data integration may be viable for amalgamating information from multiple sources. It is noteworthy that as the scale of data increases, so does the necessity for larger datasets to ensure that ML produces dependable results.

6.1 Analysis of results

In the field of DL applications in IoT-based bio- and medical informatics, the analysis of various research papers reveals interesting findings, as depicted in Figs. 9, 10, and 11. Figure 9 presents a geo-chart showcasing the countries involved in the studied research papers. Notably, China emerges as the most prominent contributor in this field. This suggests that China has been actively engaged in research and development activities related to Deep Learning applications in IoT-based bio- and medical informatics. This could be attributed to factors such as
Table 8 The techniques, properties, and characteristics of hybrid-bioinformatics methods
Author Main idea Advantage drawback Method Simulation environment Dataset
Mohamed Shakeel, Baskar [93] Applying deep CNN to develop the effectiveness of the IoT-health data system
Minimum error rate
High detection rate
Poor flexibility CNN N2 ISO/IEC/JTC1/SC 31 standard drivers
Huang, Shea [94] Proposing a community-based federated to classify the distributed data
High privacy
High security
Poor adaptability ML Python EMRs from 50 hospitals
Wang, Jiang [95] Proposing two algorithms to provide synthetic SNPs High accuracy Poor adaptability DL НарМар 89 subjects and 83,354 SNPs
Cui, Zhu [96] Presenting a mechanism for training in a condition without a confident central analyzer High accuracy Poor adjustability ML Python 30,760 patients data
Shahid, Nasajpour [30] Suggesting a framework to protect medical data from exterior threats
High reliability
High accuracy
Poor adjustability ML Python
China’s emphasis on technological advancements, significant investments in research and development, and collaborations between academic institutions and industries. Moving on to Fig. 10 illustrates the distribution of simulation environments used in DL-based approaches within the medical and bioinformatics domains. Python, a widely adopted programming language, is prominently featured, along with its popular library TensorFlow, which is widely used for implementing DL models. The popularity of Python can be attributed to its versatility, simplicity, and extensive libraries and frameworks available for DL and scientific computing. TensorFlow’s popularity stems from its powerful tools and resources for efficient DL model implementation. On the other hand, the relatively lower adoption of N 2 as shown in the figure suggests its limited usage, possibly due to factors such as resource availability or compatibility issues. Finally, Fig. 11 showcases the frequency of methods applied to address medical and bioinformatics issues using DL. CNN, RNN, and GANs receive the most attention in this field. CNNs excel in image-based tasks, RNNs are suitable for processing sequential and temporal data, and GANs are promising to generate synthetic medical data and detect anomalies. The popularity of these methods indicates their effectiveness in tackling various challenges in medical and bioinformatics domains. These findings collectively highlight the contributions of different countries, the prominent simulation environments utilized, and the frequently employed DL methods in the context of DL applications in IoT-based bio- and medical informatics. They provide valuable insights into the current trends, preferences, and advancements in the field, which can guide future research and development efforts. It was observed that a substantial
portion of the studies provided access to the source codes, predominantly in MATLAB and Python, to facilitate reproducibility and further experimentation. MATLAB was a prevalent choice, particularly in studies emphasizing signal processing and image analysis, owing to its extensive toolboxes tailored for these domains. Conversely, Python was prominently featured in research that incorporated machine learning frameworks like TensorFlow and Keras, aligning with the broader trend in the machine learning community. Notably, several reviewed papers included code snippets and made their complete implementations available on public repositories, fostering collaborative research and knowledge dissemination in this interdisciplinary field. This availability of codes played a pivotal role in advancing the applicability and accessibility of deep learning methodologies in the context of IoT-based bio- and medical informatics.
The use of DL techniques in biomedical and health informatics is becoming increasingly prevalent. One example is developing a smart dental health-IoT platform based on intelligent hardware, DL, and a mobile terminal. The platform can monitor oral health indicators such as temperature, pH , and moisture and use DL algorithms to detect dental diseases early. In addition, other studies have explored the use of metaheuristics to optimize hyperparameters in ML algorithms and DNNs for bioinformatics applications. This approach can improve the performance of these algorithms and ultimately lead to more accurate predictions and analysis. Furthermore, there have been efforts to apply DL techniques in bioinformatics research, such as breast cancer case identification and developing new bioinformatics tools for predicting crotonylation sites on human nonhistone proteins. These studies demonstrate
Fig. 9 The geo-chart of contributed countries in studied articles
Fig. 10 The distribution of various simulation environments used in DL-based methods in medical and bioinformatics
Fig. 11 The frequency of methods applied in medical and bioinformatics issues
the potential of DL in biomedical and health informatics research and highlight the importance of further exploring and optimizing these techniques for future applications. In the field of DL applications in IoT-based bio- and medical informatics, there is a notable emphasis on the accuracy parameter in the studies conducted, as demonstrated in Table 9. This indicates that researchers prioritize achieving high accuracy levels in their models. Accuracy is a crucial evaluation metric as it measures the overall correctness of the model’s predictions, reflecting its ability to classify and identify patterns within the data correctly. However, it is important to note that precision, which represents the proportion of true-positive predictions among all positive predictions, is the parameter receiving the least attention in these publications. Precision is a critical metric, especially in medical and bioinformatics applications, as it directly relates to correctly identifying true-positive cases while minimizing false positives. Neglecting precision can lead to potential misclassifications and incorrect diagnoses,
which can have significant implications in healthcare settings.
One possible explanation for the lower emphasis on precision could be the primary focus on achieving high accuracy. Researchers may prioritize overall accuracy as it provides a comprehensive evaluation of the model’s performance, considering both positives and negatives. However, precision is equally important in healthcare and bioinformatics to avoid false positives, which can lead to unnecessary treatments or interventions. Another observation is that the majority of articles in the field tend to focus on only one target criterion while neglecting others. This limitation can hinder the comprehensive evaluation of the models and their effectiveness in real-world scenarios. To gain a deeper understanding of the model’s performance, it is essential to consider multiple evaluation parameters such as sensitivity, specificity, recall, and precision. By considering a broader range of evaluation metrics, researchers can gain a more holistic perspective on the model’s
Table 9 Considered parameters in the examined papers
Type Authors Scalability Accuracy Precision Fscore Sensitivity Specificity Robustness Adaptability
CNN Liu, Xu [74]
Nematzadeh, Kiani [75]
Chen, Wang [25]
Kumar and Sharma [76]
Jia, Chen [77]
RNN Pastorino and Biswas [78]
Auwul, Rahman [79]
Lan, You [80]
Han, Rundo [81]
Balogh, Benczik [82]
GAN Giansanti, Castelli [97]
Lyu, Chen [98]
ElAbd, Bromberg [99]
Liu and Gong [100]
Wang, Zeng [87]
MLP Zhao, Shao [88]
Souri, Ghafour [89]
D’Orazio, Murdocca [90]
Karim, Beyan [91]
AYDIN [92]
Hybrid Mohamed Shakeel, Baskar [101]
Huang, Shea [94]
Wang, Jiang [95]
Cui, Zhu [96]
Shahid, Nasajpour [30]
strengths and weaknesses, enabling them to make informed decisions regarding its applicability and effectiveness in practical settings. Addressing the issue of neglecting certain evaluation criteria requires researchers to place greater emphasis on the comprehensive evaluation of their models. By incorporating multiple target criteria into their studies, researchers can provide a more thorough and robust assessment of the model’s performance, ensuring that all relevant parameters are considered. This approach will contribute to a more accurate understanding of the model’s capabilities and limitations, ultimately facilitating the development of more reliable and effective DL applications in IoT-based bio- and medical Informatics.

6.2 Exploring the Integration of ML in medical applications

As shown in Sect. 5, a study investigated the impact of data adequacy bias on a semi-supervised GAN for COVID-19 chest X-ray classification. The studied papers found that data adequacy bias can reduce classification accuracy,
which must be considered when developing privacy-aware GAN models [102]. They utilized a bioinformatics and ML approach to identify potential drug targets and pathways for COVID-19 treatment. One approach integrated multiple omics data sets to construct a molecular network, which was used to identify significant gene modules. A comprehensive review of the applications of GANs in biomedical informatics showed their potential in medical image analysis and drug discovery [103]. The proposed MADGAN in Sect. 5 outperformed other anomaly detection methods and could be used for the early detection of neurological diseases. An efficient link prediction model for protein-protein interaction networks was developed using topological information in a GAN framework. The model outperformed traditional network analysis methods and could be used to identify potential drug targets for diseases associated with protein-protein interactions. These studies highlight the potential of GANs and ML in medical research, particularly in disease detection, drug discovery, and protein-protein interaction network analysis [104].
Several studies have explored the use of DL and bioinformatics together. The studied models compared DL and ML approaches for miRNA-target prediction. The DL approach was found to be more accurate and precise than the ML approach. Another studied paper proposed an LSTM for biomedical named entity recognition, which outperformed traditional ML algorithms in accuracy. Another study focused on developing an amino acid encoding method for DL applications in bioinformatics. The method improved prediction accuracy for protein sequence classification. Another study used an attention mechanism enhanced LSTM with residual architecture to predict protein-protein interaction residue pairs. The model achieved high accuracy and outperformed other state-of-the-art models [105]. Lastly, a DL framework called MusiteDeep was proposed for phosphorylation site prediction. The model performed well in kinase-specific prediction tasks and achieved high accuracy. These studies demonstrate the potential of DL in various bioinformatics applications, including miRNA-target prediction, protein sequence classification, protein-protein interaction prediction, and phosphorylation site prediction. The use of DL approaches in these tasks has shown promising results and may lead to the development of more accurate and efficient tools for bioinformatics [106].
Several studies have investigated the integration of ML with medical applications. One study evaluated the effectiveness of explainable ML models for analyzing transcriptomic data. Our study demonstrated that these models can identify significant gene signatures and provide valuable insights into disease mechanisms. As shown in Sect. 5, another study proposed an ML-based healthcare monitoring model for diagnosing the condition of students in an IoT environment. This model leveraged multiple data sources to enhance diagnostic accuracy and minimize false alarms. In a different study, an ML phenomics approach combined DL with time-lapse microscopy to monitor gene expression and drug response in colorectal adenocarcinoma cells [107]. The model achieved high accuracy in predicting drug response and could potentially be useful for drug screening. A further study introduced DL-based clustering approaches for bioinformatics that can efficiently handle large and complex datasets. The models outperformed traditional clustering algorithms and could potentially be used for various bioinformatics tasks. Another study evaluated the performance of ML and bioinformatics applications on high-performance computing systems. The study demonstrated that these applications can efficiently handle massive datasets and can benefit from parallel computing. These studies demonstrate the potential of ML in medical and bioinformatics applications, specifically in areas such as healthcare monitoring, drug screening, and transcriptomic data analysis. ML models have shown promising
results and could potentially lead to the development of more accurate and efficient tools for medical and bioinformatics applications. DL techniques and the incorporation of multiple data sources in ML models can lead to more accurate predictions and enhance the performance of these models [108].
Several studies have focused on integrating medical and DL subjects to improve healthcare systems. A proposed method used learning-based deep Q-networks to maintain the security and privacy of healthcare systems. Another study aimed to improve the efficiency of federated ML by using patient clustering to predict mortality and hospital stay time using distributed electronic medical records. Another proposed an efficient verification method for outsourced genome-wide association studies. In another investigation, anonymous random hybridization was utilized with federated ML to improve the privacy of electronic medical records [109]. The COVID-19 pandemic has also increased interest in ML research for virus detection, spread prevention, and medical assistance. Despite the potential benefits of ML algorithms and models for healthcare systems, concerns about privacy and security remain, and new approaches are being developed to address these issues. To leverage the benefits of ML while protecting sensitive patient data, the use of federated ML has been explored. Overall, the presented studies highlight the potential of ML in medical applications and emphasize the need for further research to improve healthcare systems and patient outcomes [110].

6.3 Prevalent evaluation criteria

One of the well-known evaluation criteria is the F -score. The mentioned keys are applied to calculate the recall, Fscore, and precision. It is worth mentioning that true positive (TP) means sick people are truly recognized as sick. False positive (FP) also means intact people are wrongly recognized as sick. Also, true negative (TN) means intact people are truly recognized as intact. Furthermore, false negative (FN) means sick people are wrongly recognized as intact. Precision demonstrates the number of true results recognized truly meanwhile recall indicates the entire entities truly recognized; these concepts are calculated as follows [111]:
Precision
Recall
score

6.4 Challenges of The DL applications in IoTbased bio- and medical informatics

CNNs require large amounts of labeled data to train effectively. However, in the field of bio- and medical informatics, data are often limited and difficult to collect. This can lead to overfitting, where the model becomes too specialized to the training data and cannot generalize to new data. CNNs are often considered black-boxes since they can learn complex features and relationships within the data, but it can be challenging to interpret the reasons behind the model’s decision-making process. This is especially important in the medical field where doctors and researchers need to understand the reasoning behind the model’s predictions [112]. CNNs are computationally expensive and require a significant amount of processing power. This can be a significant challenge in IoT-based bio- and medical informatics, where edge computing and resource-constrained devices are common. CNNs are sensitive to data quality and can be affected by noise, missing values, and outliers. In the medical field, data can be noisy and incomplete due to the inherent complexity of biological systems, making it challenging to build accurate models. Generalization of new data: CNNs can struggle to generalize to new data that is significantly different from the training data. New patients or diseases may present unique challenges in the medical field that the model has not been trained on. Overall, CNNs are powerful tools in bio- and medical informatics, but their effective use requires careful consideration of the challenges listed above [113].
While CNNs have shown remarkable success in various image-related tasks, including medical image analysis, they have several limitations in the context of DL applications in IoT-based bio- and medical informatics. One of the major challenges with CNNs is their limited interpretability. In medical applications, understanding the reasoning behind a prediction is important, and CNNs lack transparency in this regard [114]. It is difficult to extract meaningful insights and make informed decisions based on CNN’s predictions without understanding how the model arrived at its conclusions. Another limitation of CNNs is their tendency to overfit specific data sets. This can be particularly problematic in medical applications where data sets may be small or unbalanced. While transfer learning can somewhat mitigate this, there is a need for novel techniques to improve the generalization ability of CNNs. CNNs require a large amount of labeled data to train effectively, which can be a challenge in the medical
domain, where data are often scarce and expensive to obtain. This can lead to issues such as bias and limited diversity in the data set. CNNs are primarily designed for image data, and their application to other data types, such as time-series or text-based data, is limited [115]. This can be a challenge in IoT-based bio- and medical informatics, where data may be heterogeneous and multimodal. CNNs can be susceptible to adversarial attacks, where small perturbations to the input can lead to misclassification. This can be particularly concerning in medical applications, where incorrect predictions can have serious consequences. In summary, while CNNs have shown remarkable success in medical image analysis, they have several limitations that need to be addressed to improve their efficacy in IoTbased bio- and medical informatics.
In the same context, RNNs have shown great success in various applications, including NLP and time-series analysis. However, they also have some limitations when applied to IoT-based bio- and medical informatics. RNNs have a limited memory that can make it difficult to capture long-term dependencies in sequential data. This is particularly problematic in bio- and medical informatics, where the data can be complex and interdependent [116]. RNNs are trained using backpropagation through time, which can lead to vanishing gradients. This can make it difficult for the model to learn long-term dependencies in the data. RNNs can easily overfit the training data, especially if the dataset is small. This can result in poor performance when applied to new data. Training RNNs can be time-consuming, especially if the dataset is large. This can make it difficult to deploy RNN models in real-time applications. RNNs are often referred to as “black-box” models because it can be difficult to understand how they make their predictions. This can be problematic in bio- and medical informatics, where interpretability is important for ensuring patient safety. Overall, while RNNs have shown promise in IoT-based bio- and medical informatics, their limitations need to be carefully considered when developing models for real-world applications [117].
RNNs require a large amount of labeled data to train effectively, which can be difficult to obtain in the medical domain due to privacy concerns and the limited availability of data. Limited training data can lead to overfitting, where the model performs well on the training data but fails to generalize to new data. Medical data often consists of long sequences, such as ECG signals or medical records, making it challenging to process with RNNs. Long sequences can lead to vanishing or exploding gradients, which can degrade the model’s performance. RNNs can be difficult to interpret, making understanding the model’s reasoning behind its predictions challenging. In the medical domain, interpretability is critical, and understanding the model’s decision-making process is essential to building trust in the
model’s predictions [118]. Medical data can be noisy and contain variations due to differences in acquisition devices, protocols, and patient conditions. Such variations can be challenging to account for, leading to decreased performance of RNNs. On the other hand, medical data collection and annotation lack standardization, making it challenging to develop RNNs that generalize well across institutions. Medical data often suffer from class imbalance, where one class (e.g., disease-positive) has significantly fewer examples than the other class (e.g., disease-negative). This issue can lead to poor performance of RNNs and requires special attention to handle. RNNs can be computationally expensive, requiring significant computational resources to train and deploy. The limited availability of high-performance computing can hinder the development and deployment of RNNs in resource-constrained settings. The use of RNNs in healthcare raises ethical considerations, such as informed consent, privacy, and bias. Addressing these issues is essential to ensure that the use of RNNs in medical applications is ethical and fair [119]. Overall, these challenges highlight the need for careful consideration of RNNs’ application in IoT-based bio- and medical informatics and the importance of addressing the unique challenges of this domain.
As well, GAN has shown groundbreaking promise in generating realistic synthetic data, but they also have some limitations and challenges when it comes to their applications in IoT-based bio- and medical informatics. GANs require large amounts of training data to learn the underlying distribution of the data [120]. However, obtaining large amounts of annotated data can be challenging and expensive in bio- and medical informatics. This can limit the effectiveness of GANs in these applications. GANs are often used to generate images, but generating high-resolution images with fine details can be challenging. This is particularly important in medical imaging applications where fine details can be critical for accurate diagnosis. GANs are often viewed as black-boxes, meaning it is difficult to understand how they arrive at their generated output. In GAN models, the lack of interpretability can be a concern in medical applications where decisions based on generated data can also have serious consequences. GANs are well suited for generating images, but they may not be as effective for other types of data, such as time-series data or text data [121]. This can limit their applicability in certain medical informatics applications. GAN training can be unstable, with the generator and discriminator networks constantly competing with each other. This can make it difficult to achieve convergence and lead to poor quality generator output.
GANs are a popular DL technique that has shown promising results in various applications, including bioand medical informatics. However, some challenges still
need to be addressed to make GANs more effective in these contexts, particularly in cloud-based settings [122]. However, GANs rely heavily on high-quality data for training, and data quality is especially critical in bio- and medical informatics. In IoT-based bio- and medical informatics, data can be noisy, incomplete, and biased, making it challenging to train GANs accurately [123]. IoT-based bioand medical informatics involve sensitive patient data, which must be kept private and secure. However, GANs require large amounts of data to train, which poses a risk to patient privacy and security. Therefore, robust data security measures must be in place when using GANs in this context. Researchers must find ways to make GAN models more interpretable. One of the significant challenges in bioand medical informatics is the availability of a limited dataset. The limited data can affect the accuracy of the GAN model’s results, and in some cases, it may not be possible to train a GAN model with a limited dataset. The healthcare industry is highly regulated, and GANs must comply with regulatory requirements to be approved for use. Ensuring compliance with regulations can be challenging when working with GANs, especially when dealing with IoT-based bio- and medical informatics, where data security and privacy concerns are high. In summary, while GANs offer significant potential for IoT-based bioand medical informatics, some challenges still need to be addressed to make them more effective and acceptable for use in this context [124]. These challenges include data quality, data privacy and security, interpretability, limited datasets, and regulatory compliance.
The MLP is a type of artificial neural network that is widely used in DL applications. While MLPs have shown promising results in various domains, including IoT-based bio- and medical informatics, they also have some limitations that need to be noted. MLPs are primarily designed to handle tabular data and are not well suited for processing sequential data. This can be a limitation in bio- and medical informatics, where sequential data such as time-series data or sequences of DNA are often used [125]. MLPs are prone to overfitting, which means they can become too specialized to the training data and fail to generalize to new data. This can be particularly problematic in bio- and medical informatics when working with small datasets, where overfitting can lead to inaccurate predictions. Considering black-box models, MLP models are not easily interpretable. This means it can be challenging to understand how an MLP arrives at its predictions. Interpretability is crucial in bio- and medical informatics, where decisions can have significant consequences. MLPs do not handle missing data well. This can be a limitation in bio- and medical informatics, where datasets can be incomplete due to various reasons, such as missing data points or unbalanced data [126]. MLPs can struggle with high-
dimensional data. This can be a limitation in bio- and medical informatics, where data can be high-dimensional. While MLPs have shown outperformed results in IoTbased bio- and medical informatics, it is essential to consider their limitations and explore alternative models that can better address these challenges.
MLP is a type of feedforward neural network that is commonly used in DL applications. When it comes to IoTbased bio- and medical informatics, there are several challenges associated with using MLPs. Although, one of the biggest challenges in the field of bio- and medical informatics is the limited availability of data. Data may be scarce or difficult to obtain in many cases, making it challenging to train MLP models effectively [127]. Even when data are available, it may be of poor quality. This can be due to noise, bias, or other factors that can affect the accuracy and reliability of MLP models. Referred to as black-box, it can be difficult to understand how they arrive at their predictions. In the bio- and medical informatics field, interpretability is critical, as doctors and other medical professionals need to understand and trust the predictions made by these models. Overfitting occurs when a model becomes too complex and starts to fit the noise in the training data instead of the underlying patterns. This can be a problem in bio- and medical informatics, where models need to be able to generalize to new data. In bio- and medical informatics, many ethical considerations must be taken into account when using DL models [128]. For example, it is important to ensure that the models are not biased against certain populations or groups and that they are used responsibly and ethically. Overall, MLPs can be a powerful tool in IoT-based bio- and medical informatics, but several challenges must be addressed to use them effectively.
Besides, Medical data often suffer from class imbalance, where one class (e.g., disease-positive) has significantly fewer examples than the other class (e.g., disease-negative). This issue can lead to poor performance of DL models and requires special attention to handle [129]. Realtime data processing is crucial in some medical applications, such as monitoring critical patients. However, DL models can be computationally expensive and may not be able to process data in real time. Thus, developing efficient DL models that can operate in real time is a challenge. The lack of standardization in healthcare data collection and annotation hinders the development of DL models. Different hospitals and healthcare systems use different protocols, which makes it challenging to create models that generalize well across institutions [130]. Data sharing is crucial for improving DL models’ performance, especially in healthcare, where the amount of data is limited. However, due to privacy concerns and the lack of incentives for sharing data, sharing medical data is challenging. The use
of DL algorithms in healthcare raises ethical considerations, such as informed consent, privacy, and bias. Addressing these issues is essential to ensure that the use of DL models in medical applications is ethical and fair. The development and deployment of DL models can be expensive, making it difficult to implement them in resource-limited settings. Moreover, DL models may require specialized hardware and software, further increasing their cost.
In other words, the limitations of CNN methods in this context primarily revolved around their potential inefficacy in handling small or highly specialized datasets and the challenges posed by the need for substantial computational resources for training and inference, which could be a hindrance in resource-constrained IoT and cloud environments [131]. Also, the limitations of RNN methods in this systematic literature review mainly pertain to their struggle in capturing long-range dependencies in sequential data, which is crucial in certain biomedical applications, and their computationally intensive nature, potentially posing challenges in real-time processing within resource-constrained IoT and cloud environments [132]. Also, the limitations of GAN methods in this topic primarily revolved around their complexity in training and potential instability, which may require careful tuning and substantial computational resources, potentially impeding their practical implementation in resource-constrained IoT environments, while the limitations of MLP methods in this systematic literature review primarily revolved around their relative inefficacy in handling complex, high-dimensional data and their limited capability to capture intricate relationships within biomedical datasets, potentially leading to suboptimal performance in certain applications. The limitations of hybrid methods included potential challenges in model interpretability and increased complexity in combining different deep learning techniques, which may hinder their practical implementation and deployment in healthcare IoT systems.
These additional challenges highlight the multifaceted nature of implementing DL applications in IoT-based bioand medical informatics and emphasize the need for a collaborative and interdisciplinary approach to overcome them.

6.5 Dataset in medical and bioinformatics using DL approaches

The importance of datasets in DL applications in IoT-based bio- and medical informatics cannot be overstated. DL algorithms rely on large amounts of data to learn and make accurate predictions or classifications. In bio- and medical informatics, the availability of high-quality, comprehensive datasets is crucial for developing DL models that can
accurately diagnose diseases, predict treatment outcomes, and identify potential drug targets. Furthermore, the success of DL models depends heavily on the quality and diversity of the data used to train them. A biased, incomplete, or unrepresentative dataset of the target population can lead to biased or inaccurate results [133]. Therefore, it is essential to ensure that bio- and medical informatics datasets are diverse, representative, and of high quality. Moreover, using standardized datasets is critical for facilitating comparison and reproducibility of research results across different studies. Standardized datasets enable researchers to evaluate the performance of their models against others using the same data, facilitating the development of new and improved algorithms and methodologies. In summary, high-quality, comprehensive, diverse, and standardized datasets are essential for developing and evaluating DL models in IoT-based bio- and medical informatics [134]. They provide the foundation for the accurate diagnosis and treatment of diseases and the identification of new drug targets. The application of datasets in the field of DL for IoT-based bio- and medical informatics is crucial for developing accurate and efficient models. Without standard datasets, the models cannot learn and make accurate predictions. One of the key challenges in developing DL models for bio- and medical informatics is the availability of labeled datasets. Labeled datasets are critical for supervised learning, which is the most common approach in DL. This is because DL models need large amounts of labeled data to learn complex patterns and relationships in the data. In bio- and medical informatics, these labeled datasets are often created through manual annotation or by experts in the field. Many publicly available bio- and medical informatics datasets can be used for DL applications, such as the MIMIC-III dataset for EHR, the ImageNet dataset for medical imaging, and the PhysioNet dataset for physiological signals. These datasets have been used to develop models for various applications such as disease diagnosis, drug discovery, and personalized medicine. The usage of datasets in DL applications for bioand medical informatics also requires careful attention to data privacy and security. Patient data are highly sensitive and must be handled carefully to protect patient privacy [135]. Researchers must ensure that the datasets used for training their models comply with ethical and legal requirements and that the data are de-identified before use. Researchers must carefully select and preprocess datasets, comply with ethical and legal requirements, and handle patient data with great care to protect patient privacy.
In the realm of DL applications in IoT-based bio- and medical Informatics, the datasets employed are characterized by their substantial scale and diversity. For instance, a prominent study focused on cardiac arrhythmia detection leveraged a dataset encompassing 10,000
electrocardiogram (ECG) recordings, each spanning 10 s and sampled at a rate of 500 Hz , resulting in a total of 50,000 data points per recording. Another noteworthy dataset in neurology research consisted of 500 patients with Parkinson’s disease, yielding over 150,000 data points per patient across various sensor readings. Additionally, a comprehensive dataset for Alzheimer’s disease prediction integrated multimodal data, including structural MRI images from 1000 subjects, alongside demographic and cognitive assessments. These quantitative specifics exemplify the rich and varied nature of datasets in this field, which play a pivotal role in training and evaluating deep learning models for bio- and medical informatics applications within the IoT framework.
Recent advancements in high-throughput sequencing technology have provided the scientific community with access to vast biological datasets [135]. The increased availability of these datasets has led to the expansion of Internet web services, which enable biologists to evaluate large amounts of data online for scientific audiences. Consequently, researchers have been exploring innovative methods for interrogating, evaluating, and processing data to extract information about molecular biology, biomedicine, physiology, and electronic health records. ML has gained significant popularity in the computational biology sector due to its capacity to handle massive datasets and predict outcomes with high statistical accuracy [136]. ML algorithms are statistically based computational processes that can identify hidden models in a dataset and generate reliable statistical predictions. As such, ML has been utilized in various computational biology challenges, aiding scientists in discovering critical information about diverse aspects of biology. However, most biologists and healthcare professionals lack the requisite skills to undertake a data mining project, resulting in reluctance or avoidance of ML evaluations. In other cases, researchers may follow erroneous procedures when initiating an ML venture, resulting in flawed evaluations or a false sense of success. There are various approaches to leveraging ML in computational biology research to address these issues. Though it may seem weird, the most significant key point of ML research does not consider ML: it considers your dataset attributes and deployment. To begin, you must determine whether you have enough data to address this computational biology issue with ML [137]. Currently, in the big data age, with massive biological datasets publicly available online, this issue may look unconnected, yet it appears to be a big issue in the statistical learning community and field. Whereas collecting more information can usually be advantageous for your ML patterns, considering the least dataset size to be capable of training appropriately an ML algorithm may be tricky. Even though this is not probable, the best condition would be having a minimum of ten times
as many information examples as there are data characteristics.
The second crucial aspect to consider is the structuring of the dataset. In essence, this involves converting the data attributes into a standardized range, manipulating their input features, randomly reordering the dataset instances, refining and preparing the input dataset, and incorporating innovative generated characteristics, which will ultimately decide the success or failure of an ML study in a scientific assignment [138]. Due to each dataset’s idiosyncrasies and its specific scientific domain characteristics, datasets contain information crucial to their respective fields. Additionally, datasets may contain substantial errors arising from their researchers’ lack of expertise. Moreover, human curators may not always control annotations, and some may be incorrect. Further, annotations on comparable genes from various laboratories or biological research groups may differ and contain conflicting data. Such challenges can potentially impact the efficacy of an ML mechanism application. Considering the significance and the exclusiveness of every dataset area, ML research can succeed only if an investigator vividly knows the dataset details, and it may be properly configured before executing any data mining method. Managing biological datasets correctly entails numerous steps, which are commonly grouped into a phase called data preprocessing [139].
Moreover, it is often necessary to perform feature-based normalization of numerical datasets into intervals before ML algorithm analysis to bring the entire dataset into a standardized format. Hidden semantic indexing is a data retrieval strategy that relies on this preprocessing step for predicting gene performance annotation. It is a great data preprocessing tip to start with a small-scale dataset. Biology often involves large datasets with many cases [140]. Therefore, if you have a massive dataset and your ML algorithm training is time-consuming, creating a smallscale dataset with a comparable ratio to the main dataset can significantly reduce processing time. Splitting the original large dataset allows you to assess and control your approach using a combined, limited dataset. Several datasets are available for DL applications in IoT-based bio- and medical informatics. Some of the best datasets and their applicability are presented in Table 10.
Each of these datasets has unique characteristics that make them suitable for different types of research in bioand medical informatics. For example, MIMIC-III is well suited for research in critical care, while the NIH Chest X-ray dataset is useful for research in medical imaging. Researchers can use these datasets to develop and validate DL algorithms for disease diagnosis, prediction, and treatment. However, it is important to note that these datasets have limitations and biases that must be taken into account when using them for research.

6.6 IoT applications using DL methods in bioand medical informatics

IoT applications employing DL methods in bio- and medical informatics constitute a transformative frontier in healthcare technology. These applications leverage the interconnectedness of devices and sensors within the IoT ecosystem to revolutionize patient care, diagnosis, and treatment. DL algorithms, renowned for their prowess in processing vast and complex data, are employed to analyze diverse biomedical data streams, including physiological measurements, medical imagery, and genomic information. This enables real-time monitoring of patient health, early detection of anomalies, and personalized treatment plans. Additionally, DL-based predictive models facilitate accurate prognostic assessments and aid in the development of precision medicine approaches [137]. Moreover, integrating DL with IoT technologies enhances data security and privacy, ensuring compliance with healthcare regulations. This synergy between DL and IoT in bio- and medical informatics holds immense potential to enhance the quality of healthcare delivery and drive innovations that could reshape the future of medical practice.

6.7 Security issues, challenges, risks, IoT, and blockchain usage

The application of DL in IoT-based bio- and medical informatics poses several security challenges and risks. In particular, processing and storing large amounts of sensitive data such as patient health information raises concerns about data privacy and security. This is especially important in the case of medical data, where the misuse or mishandling of data can lead to serious consequences for patients. One of the major challenges is ensuring the security of data transmission over networks [141]. The use of IoT devices and sensors in medical applications raises concerns about the potential interception of data by malicious actors, leading to the risk of data breaches and cyberattacks. Moreover, integrating different IoT systems and devices creates complex interdependencies that require careful consideration to avoid security vulnerabilities [142]. Blockchain technology has been proposed as a potential solution to mitigate these challenges and risks. Blockchain technology can provide a secure and tamperresistant mechanism for storing and sharing medical data in a decentralized manner. The use of blockchain can also ensure that data are only accessible by authorized parties, and provide a way to audit data access and usage. However, there are also challenges associated with the use of blockchain in this context. For example, there are concerns about the scalability of blockchain systems and the
Table 10 Datasets and their descriptions
Name Descriptions
MNIST The MNIST dataset is popular in computer vision applications, including DL. It consists of a set of 70,000 handwritten digits, each with a pixel resolution. This dataset is often used for image classification tasks and can be applied in medical image analysis to identify certain patterns or features in medical images
CIFAR-10 and CIFAR-100 These two datasets are commonly used in image classification tasks in DL. CIFAR-10 consists of color images in 10 classes, while CIFAR-100 has 100 classes with 600 images each. These datasets have been used in bioand medical informatics for image classification tasks, such as identifying different types of cells or tissues
ImageNet ImageNet is a large-scale visual recognition challenge comprising over 14 million images in 21,000 categories. This dataset has been used in various DL applications, including bio- and medical informatics. For example, it has been used to train DL models to classify skin lesions or diagnose diseases based on medical images
PhysioNet PhysioNet is a physiological signal dataset collection that includes electrocardiograms, electroencephalograms, and vital signs. This dataset has been used in DL applications in bio- and medical informatics for tasks such as disease diagnosis, predicting patient outcomes, and detecting abnormal patterns in physiological signals
MIMIC-III MIMIC-III is a publicly available critical care database that contains de-identified health data of over 40,000 patients. This dataset includes information such as vital signs, laboratory results, and medical histories. It has been used in DL applications to predict patient outcomes, identify disease risk factors, and improve clinical decision-making
TCGA The Cancer Genome Atlas (TCGA) is a collection of genomic, epigenomic, and transcriptomic data from over 30 cancer types. This dataset has been used in DL applications for cancer diagnosis, predicting patient outcomes, and identifying novel therapeutics
Targets.MIMIC-III The Medical Information Mart for Intensive Care (MIMIC-III) is a large, freely available dataset consisting of deidentified electronic health records of more than 50,000 patients admitted to the critical care units of a large tertiary care hospital. The dataset contains clinical data such as vital signs, laboratory results, medications, and demographics, making it a valuable resource for research in critical care and clinical decision-making
NIH Chest X-ray Dataset The National Institutes of Health Chest X-ray dataset is a collection of over 100,000 chest X-ray images labeled with various thoracic pathologies such as pneumonia, tuberculosis, and lung cancer. The dataset is a valuable resource for research in computer-aided diagnosis, disease classification, and image analysis
PhysioNet The PhysioNet dataset is a collection of physiological signals and related clinical data such as ECG, electroencephalogram (EEG), and blood pressure recordings. The dataset is a valuable resource for disease diagnosis, monitoring, and prediction research
ADNI The Alzheimer’s Disease Neuroimaging Initiative (ADNI) dataset is a collection of longitudinal neuroimaging, clinical, and biomarker data from individuals with Alzheimer’s disease, mild cognitive impairment, and healthy controls. The dataset is a valuable resource for disease diagnosis, prediction, and treatment research
SEER The Surveillance, Epidemiology, and End Results (SEER) dataset is a population-based cancer registry that collects clinical, demographic, and survival data from cancer patients in the United States. The dataset is a valuable resource for cancer diagnosis, treatment, and survival analysis research
complexity of integrating blockchain with existing systems [143]. Moreover, the use of blockchain in medical applications raises ethical and regulatory considerations related to data ownership and consent. In summary, applying DL in IoT-based bio- and medical informatics poses significant security challenges and risks. The use of blockchain technology is a promising approach for mitigating these challenges, but it also requires careful consideration and further research to ensure its effective integration and implementation in this context. Certainly, as mentioned earlier, security is a critical concern in the context of IoT-based bio- and medical informatics applications. Since these applications involve sensitive data related to individuals’ health, any security breaches can have severe consequences [144].
One way to address security concerns is through the use of blockchain technology. Blockchain is a distributed
ledger technology offering a secure and tamper-proof way to store and share data. It achieves this by using cryptographic algorithms and decentralization to ensure that the data stored on the blockchain is immutable and transparent. In the context of IoT-based bio- and medical informatics, blockchain can be used to secure the data generated by IoT devices and ensure its integrity, authenticity, and privacy. For example, blockchain can be used to create a secure and tamper-proof log of all the data generated by IoT devices, which can be accessed only by authorized parties [145]. Additionally, blockchain can implement secure and pri-vacy-preserving data sharing mechanisms between healthcare providers and researchers. However, the use of blockchain in this context also comes with its own challenges and risks [146]. For instance, blockchain’s high computational and storage requirements may not be feasible for resource-constrained IoT devices. Additionally,
blockchain’s immutability can make it difficult to correct errors or update data, which can be problematic in the context of medical data that may need to be updated or corrected over time [147]. Finally, the use of blockchain also raises concerns about data privacy and confidentiality, as it can be challenging to ensure that sensitive medical data are not shared or accessed by unauthorized parties. Therefore, while blockchain technology offers a promising solution for securing IoT-based bio- and medical informatics applications, it is important to carefully consider its application and weigh the risks and benefits before implementation.
Utilizing IoT devices in medical settings comes with its own set of security issues, risks, and challenges that need to be addressed to maintain patient confidentiality and safety. Medical data are highly confidential, and unauthorized access or alteration of such data can have severe consequences. Additionally, wireless communication channels used to transmit medical data can be intercepted by attackers, which can compromise patient privacy [148]. One of the primary security challenges in AI applications in IoT-based bio- and medical informatics is the enormous amount of data generated by IoT devices, making it difficult to secure and manage. Consequently, advanced security measures must be developed by researchers to safeguard data from unauthorized access or modification. Moreover, medical data are generated in various formats and protocols, making integration and analysis difficult. This lack of interoperability between different devices and data sources presents a significant challenge in ensuring medical data security.
Another challenge is the lack of transparency and explainability of AI algorithms employed in healthcare. Healthcare providers and patients must understand how decisions are made and why certain treatments or interventions are recommended. AI algorithms in healthcare also pose ethical and legal concerns, such as potential bias, discrimination, and accountability issues. Addressing these ethical and legal considerations is crucial to ensure AI’s fairness, transparency, and accountability in healthcare. Blockchain technology is a promising solution to these security challenges. Blockchain technology provides a decentralized, secure, and transparent way of managing and sharing data. In the IoT-based bio- and medical informatics context, blockchain can secure medical data, maintain its confidentiality, integrity, and availability, and provide a tamper-proof audit trail, thus enabling transparency and accountability in decision-making processes. Furthermore, blockchain can establish trust in medical devices and their data [149]. Its decentralized nature reduces the risk of a single point of failure, making it an ideal solution for securing medical data where trust is essential. Blockchain can also manage access to medical
data securely, allowing patients to control who has access to their data and grant permission to healthcare providers to access it, thus protecting their privacy. However, blockchain technology in healthcare also presents challenges such as scalability, which requires significant computational power and storage capacity to manage large volumes of data generated by IoT devices. Additionally, the lack of blockchain interoperability standards makes it difficult to integrate different blockchain networks and medical devices.
Researchers have proposed various security mechanisms for ensuring medical data security in IoT-based bio- and medical informatics, including secure communication protocols, access control mechanisms, encryption, and secure storage. They have also developed secure data aggregation mechanisms allowing medical data aggregation from multiple sources while preserving data privacy and confidentiality [150]. To address the lack of transparency and explainability of AI algorithms, researchers have proposed the use of explainable AI algorithms and AI interpretability techniques that identify factors that contribute to the decision-making process.

6.8 Upcoming deep learning models

Several emerging DL models and techniques were gaining traction but might not have been extensively utilized in this specific context at this time. One such model is the Transformer architecture, originally designed for natural language processing tasks but showing promise in various domains beyond text analysis, including image and timeseries data. Its self-attention mechanism and parallel processing capabilities might offer novel approaches for handling complex biomedical data in IoT-based systems. Additionally, few-shot learning techniques, such as metalearning and transfer learning, were garnering interest for their potential to adapt models to new tasks with limited labeled data, which could be particularly relevant in healthcare scenarios with scarce annotated datasets. Furthermore, integrating explainable AI (XAI) techniques with DL models is an emerging trend that could provide valuable insights into the decision-making process of complex models, ensuring transparency and trustworthiness in critical medical applications. It is essential to consult the latest literature and conferences related to this field for updates on the utilization of these and other novel DL models in IoT-based bio- and medical informatics [151].
Considering the comprehensive evaluation of the studied paper in DL methods in bio- and medical informatics, there are still several open issues that we intend to discuss in the next section as well as some key research challenges and future works. Moreover, transformer architectures offer a promising solution to overcome the limitations of
RNNs in DL applications within IoT-based bio- and medical informatics. Unlike RNNs, transformers do not rely on sequential processing, allowing them to capture long-range dependencies more effectively. Their self-attention mechanism enables simultaneous consideration of all input elements, making them highly adept at handling complex, high-dimensional data prevalent in biomedical applications [152]. This characteristic facilitates robust feature extraction, crucial for image recognition and timeseries analysis tasks. Additionally, transformers demonstrate superior parallelizability, leading to faster training times and more efficient utilization of computational resources. This attribute is particularly advantageous in resource-constrained IoT environments where real-time processing is paramount. Furthermore, transformers have demonstrated impressive performance in various natural language processing tasks, suggesting their adaptability to various data modalities. As such, incorporating transformer architectures into DL applications in IoT-based bio- and medical informatics holds great promise for advancing the state-of-the-art in this field.

7 Open issues and key challenges

In the previous section, we thoroughly examined the results. In this part, we look into open concerns and important challenges in-depth. The bioinformatics sector is a reliable source of a vast amount of daily patient data, predominantly in the form of hard copies. However, due to technological advancements in data acquisition devices, bioinformatics organizations are now collecting data in an electronic format [153]. The utilization of bioinformatics data analytics has the potential to bring about significant changes in the healthcare industry, enabling improvements in the diagnostic process and overall quality of care. Despite the considerable success of DL in various fields, such as protein structure prediction and genome editing, its application in computational biology has been met with significant challenges. DL methods often encounter problems related to a lack of annotated information, a lack of ground truth for non-simulated datasets, and significant discrepancies between training data diffusion and realworld test data diffusion, which can hinder result interpretation and benchmarking. Moreover, the use of DL methods raises ethical and moral challenges related to biases in architectures and datasets [154]. The increase in DL methods and data has made training efficiency a primary bottleneck for further advancements in the field. DL models are often regarded as inscrutable due to their lack of interpretability, posing significant challenges in medical applications where clinicians need to comprehend how the models arrived at their diagnoses or treatment
recommendations. Ongoing research is focused on developing more interpretable DL models. Moreover, IoT-based bio- and medical informatics generate vast amounts of sensitive data, thereby presenting a significant risk of data breaches when using DL models, necessitating robust security measures to prevent unauthorized access, theft, or alteration of the data. However, the development and testing of DL models are restricted by a shortage of highquality medical datasets. Furthermore, ethical concerns related to patient privacy, informed consent, and bias arise with the use of DL models in medical applications, necessitating the development of guidelines and regulations to guarantee ethical usage. In addition, integrating these models into clinical workflows and educating clinicians on their effective usage and result interpretation presents a significant challenge to their adoption in clinical settings. Another issue is the difficulty of DL models to generalize to new data beyond the training data, which is crucial in medical applications for generalizing to new patient populations or disease types. Addressing these open issues demands collaboration among researchers, clinicians, and policymakers [155]. If adequately addressed, DL models can revolutionize the field of IoT-based bio- and medical informatics, leading to better patient outcomes.

7.1 Key research challenges

This section focuses on key obstacles in further detail. The success of DL in different subareas of computational biology relies on various factors such as the availability and diversity of standardized supervised and unsupervised datasets, the computational nature of the problem, ML benchmarks with significant biological implications, and the software engineering infrastructure required to train DL architectures. Addressing the outstanding issues related to DL patterns necessitates the development of innovative solutions such as improving model explainability, generating actionable and comprehensible insights, mitigating the ethical issues associated with DL models, enhancing efficiency, and reducing training costs. The DL and computational biology communities are developing innovative solutions to tackle these challenges [156].

7.1.1 Explainability

Perhaps one of the most crucial limitations of DL models today, particularly for clinical and biological applications, is their lack of explainability. Unlike simpler regression models in statistics, it is challenging to demonstrate the importance and function of each network node in a DL model. The highly nonlinear decision boundaries and overparameterized nature of DNNs, which enable them to achieve high prediction accuracy, also make them difficult
to characterize [157]. This lack of explainability is a significant obstacle in computational biology, where the trustworthiness of a DL model is essential for sensitive clinical decision-making applications. It is equally important to understand why a model can make accurate predictions as it is to understand how it makes those predictions in biology. For instance, in protein function and structure prediction, we must understand the policies controlling a protein’s 3D geometry and attributes. Addressing these problems is crucial for providing biological insights and making practical decisions in clinical settings.
In recent years, there have been numerous efforts in the ML community to enhance procedures for explaining “black-box” DL models. Many of these efforts have been applied to computational challenges in computer vision and biological applications. One of the approaches is activation maximization, which optimizes the model’s response by using gradient descent to offer an input that best represents a result. Normalization is done using closed-form density performances of the information or GANs that mimic information dispersion to make these inputs understandable to humans. Other techniques, such as the Taylor expansion for Fourier transform, use more direct approaches to extract insights from NN performance [158]. These explanations take the form of a heatmap that displays the importance of each input attribute. Another well-known process uses backpropagation to investigate the input features to which the output is most susceptible. These techniques have been used for cancer diagnostic prediction using DNNs, gene expression, and categorization.

7.1.2 Effective training

Perhaps one of the most crucial limitations of DL models today, particularly for clinical and biological applications, is their lack of explainability. Unlike simpler regression models in statistics, it is challenging to demonstrate the importance and function of each network node in a DL model. The highly nonlinear decision boundaries and overparameterized nature of DNN, which enable them to achieve high prediction accuracy, also make them difficult to characterize [159]. This lack of explainability is a significant obstacle in computational biology, where the trustworthiness of a DL model is essential for sensitive clinical decision-making applications. It is equally important to understand why a model can make accurate predictions as it is to understand how it makes those predictions in biology. For instance, in protein function and structure prediction, we must understand the policies controlling a protein’s 3D geometry and attributes. Addressing these problems is crucial for providing biological insights and making practical decisions in clinical settings.
Effective training is crucial in the development of DL models for IoT-based bio- and medical informatics applications. DL models require large amounts of high-quality data and sufficient computational resources to achieve optimal performance. There is often limited access to large, diverse datasets in the medical domain due to privacy and confidentiality concerns [160]. Therefore, data augmentation techniques such as image and signal processing, or the use of generative models such as GANs, can be used to increase the size and diversity of the available data. Moreover, transfer learning, a technique where pre-trained models are adapted to a specific task, can be used to train DL models in medical applications effectively. This is particularly useful in cases where the available data are limited or where there is a need for the model to be trained on multiple related tasks. Another crucial aspect of effective training is hyperparameter tuning. DL models have numerous hyperparameters that need to be set correctly to achieve optimal performance. This process can be timeconsuming and requires expertise in the field. However, the use of automated hyperparameter tuning techniques such as Bayesian optimization or grid search can significantly improve the efficiency of this process [161]. In summary, effective training of DL models for IoT-based bio- and medical informatics applications requires careful consideration of data quality, computational resources, data augmentation techniques, transfer learning, and hyperparameter tuning. By using these techniques, researchers can improve the accuracy and robustness of DL models, leading to better patient outcomes.
In recent years, there have been numerous efforts in the ML community to enhance procedures for explaining “black-box” DL models. Many of these efforts have been applied to computational challenges in computer vision and biological applications. One of the approaches is activation maximization, which optimizes the model’s response by using gradient descent to offer an input that best represents a result [162]. Normalization is done using closed-form density performances of the information or GANs that mimic information dispersion to make these inputs understandable to humans. Other techniques, such as the Taylor expansion for Fourier transform, use more direct approaches to extract insights from NN performance. These explanations take the form of a heatmap that displays the importance of each input attribute. Another well-known process uses backpropagation to investigate the input features to which the output is most susceptible. These techniques have been used for diagnosing cancer using DNNs, gene expression, and categorization.

7.1.3 Data security and privacy

One of the most significant challenges facing the field of IoT-based bio- and medical informatics is ensuring the security and privacy of medical data. The data collected by IoT devices are often highly sensitive, and if it falls into the wrong hands, it could have serious consequences. Therefore, researchers must develop secure, privacy-preserving methods for collecting, transmitting, and storing medical data. This includes the use of encryption, access control, and anonymization techniques.

7.1.4 Interoperability and data integration

Another significant challenge is the lack of interoperability between different medical devices and data sources. IoT devices often generate data in different formats and using different protocols, making it difficult to integrate and analyze the data. Researchers must develop standardized data formats and protocols that enable seamless data integration and interoperability across different devices and platforms. Data integration is critical to DL applications in IoT-based bio- and medical informatics. It involves combining multiple data sources from various sensors, devices, and databases into a unified dataset that can be used to train and test DL models. In medical informatics, the data sources may include EHR, medical imaging data, clinical notes, and genomic data. Different systems may generate these data sources and may have different formats, making integration challenging. However, integrating these data sources is essential to capture the full complexity of the patient’s health status. DL models trained on integrated datasets can provide a more comprehensive and accurate understanding of patient health, enabling more personalized and effective treatments. Data integration can also lead to the development of new insights and discoveries by enabling the identification of previously unknown patterns and correlations. However, data integration also poses some challenges. One significant challenge is ensuring data quality and consistency, as data from different sources may have errors, biases, or inconsistencies. Additionally, data integration may raise privacy and security concerns, as sensitive patient data from multiple sources may be combined. To address these challenges, data integration strategies need to be carefully designed to ensure data quality and consistency, protect patient privacy and security, and enable efficient data retrieval and analysis.

7.1.5 Real-time monitoring and diagnosis

Real-time monitoring and diagnosis are crucial aspects of IoT-based bio- and medical informatics. The integration of sensors and devices with DL models enables the
continuous collection and analysis of data, allowing for timely diagnosis and treatment of medical conditions. For example, wearable sensors can monitor vital signs such as heart rate, blood pressure, and oxygen saturation in real time, providing continuous data streams for DL models to analyze. These models can then identify patterns and anomalies that may indicate a potential medical issue, allowing for early intervention and treatment. Real-time monitoring and diagnosis can also improve patient outcomes by enabling personalized treatment plans. By continuously collecting and analyzing data on a patient’s condition, DL models can identify individualized treatment approaches that are tailored to a patient’s specific needs. However, there are also challenges to implementing realtime monitoring and diagnosis in IoT-based bio- and medical informatics. These include the need for secure and reliable data transmission, integrating data from multiple sources, and developing effective and interpretable DL models that can provide accurate and timely diagnoses. Real-time monitoring and diagnosis is a critical application area of DL in IoT-based bio- and medical informatics. This involves continuously collecting data from various sensors and devices, processing it in real time using DL models and providing real-time feedback to medical professionals or patients. One example of real-time monitoring and diagnosis is in wearable devices that collect data on heart rate, blood pressure, and other vital signs. DL models can analyze this data in real time and alert medical professionals if any abnormalities or anomalies are detected. This can help medical professionals make timely interventions and prevent adverse health outcomes. Another example is in medical imaging, where DL models can analyze medical images in real time and provide quick and accurate diagnoses. This can be especially useful in emergencies where quick decisions must be made based on limited information. Real-time monitoring and diagnosis have the potential to improve patient outcomes and reduce healthcare costs by enabling early interventions and preventing adverse events. However, it also presents challenges related to data privacy and security and the need for robust and reliable DL models that can operate in real time. This requires the use of high-performance computing and advanced ML techniques.

7.1.6 Predictive analytics

Predictive analytics is a type of advanced analytics that involves the use of statistical models and ML algorithms to analyze historical data and make predictions about future events. In the context of real-time monitoring and diagnosis in IoT-based bio- and medical informatics, predictive analytics can be a valuable tool for identifying potential health risks and predicting patient outcomes. DL models
can identify patterns and make predictions about future health events by analyzing data from various sources, such as medical devices, electronic health records, and patientgenerated data. For example, predictive analytics can be used to identify patients who are at high risk of developing a particular disease or condition, allowing clinicians to intervene early and prevent the onset of the disease. In addition to predicting future health events, predictive analytics can also be used to optimize treatment plans and improve patient outcomes. By analyzing data from previous patients with similar conditions, DL models can identify the most effective treatment options for individual patients and provide personalized treatment recommendations. Real-time monitoring and diagnosis can benefit greatly from the use of predictive analytics, as it allows clinicians to take proactive measures to prevent adverse health events and improve patient outcomes. However, it is important to note that predictive analytics is only as accurate as the data it is based on. Therefore, it is crucial to ensure that the data used for training and testing DL models is accurate, representative, and unbiased.
The use of DL applications in IoT-based bio- and medical informatics raises ethical and legal considerations that must be addressed. One of the primary concerns is the privacy of patient data. As DL algorithms analyze large amounts of personal data, it is critical to maintain patient confidentiality. This requires strict security measures and protocols to prevent unauthorized access, data breaches, or theft. Another ethical consideration is the potential for bias in DL models. Biases can be unintentionally introduced in the training data, leading to inaccurate results or unequal access to medical care. Therefore, it is essential to develop guidelines and regulations to ensure that DL models are developed and used ethically and that patient rights are protected. Moreover, informed consent is another ethical consideration. Patients must be fully informed of the use of their data and the potential risks and benefits associated with the use of DL models in their medical care. It is essential to obtain informed consent from patients before using their data in any DL application. Lastly, there are also legal considerations related to the use of DL in medical applications. The regulations governing the use of medical data vary from country to country, and it is important to ensure compliance with these regulations. Additionally, liability issues may arise if a DL model produces incorrect diagnoses or treatment recommendations. Therefore, it is necessary to establish legal frameworks and guidelines for the development and deployment of DL applications in medical settings.

7.1.8 Human-computer interaction

Human-computer interaction (HCI) refers to the design, evaluation, and implementation of interactive computer systems that take into account the user’s needs, goals, and limitations. In the context of DL applications in IoT-based bio- and medical informatics, HCI is an essential aspect that helps ensure that the technology is usable, efficient, and effective for healthcare professionals and patients. HCI plays a crucial role in the development and deployment of DL applications in healthcare settings. It involves the design of user interfaces and interaction techniques that enable users to interact with DL models and make informed decisions based on their outputs. For example, a user interface that provides a visualization of the DL model’s output in real time could be used to facilitate the interpretation and understanding of the model’s predictions. Moreover, HCI is vital in ensuring that DL models are designed and evaluated in a way that takes into account the ethical and legal considerations of using these technologies in healthcare. This includes ensuring that the models are transparent, interpretable, and do not perpetuate bias or discrimination. Additionally, HCI can help to ensure that DL models are used in a way that respects patient privacy and confidentiality. In summary, HCI is a critical aspect of designing, developing, and deploying DL applications in IoT-based bio- and medical informatics. It helps ensure that the technology is usable, efficient, and effective for healthcare professionals and patients and is designed and used ethically and legally.

7.1.9 Scalability and generalizability

Scalability and generalizability are two important factors in the deployment of DL models in IoT-based bio- and medical informatics. Scalability refers to the ability of a system to handle increasing amounts of data, users, or processes. In the context of DL models, scalability is important because medical datasets can be quite large and complex, requiring significant computing resources to process and analyze. Therefore, it is crucial to ensure that DL models are scalable and can handle the increasing amounts of data that will be generated in the future. Generalizability refers to the ability of a model to perform well on new, unseen data. In medical applications, generalizability is critical because it is essential that models can accurately predict outcomes for new patients. DL models are often criticized for their lack of generalizability, as they may perform well on the training dataset but struggle when presented with new data. Therefore, developing DL models that are generalizable to new patient populations and disease types is important. To address these issues, researchers are exploring new DL architectures and techniques that can
improve the scalability and generalizability of models. For example, transfer learning is a technique that allows models to reuse learned features from one task to another, reducing the amount of data required for training and improving generalizability. Additionally, federated learning is a technique that allows models to be trained on distributed datasets, reducing the amount of data that needs to be transferred and improving scalability. Addressing scalability and generalizability issues is crucial for successfully deploying DL models in IoT-based bio- and medical informatics [163].

7.2 Future works

In this section, we thoroughly examine future projects. As an interdisciplinary scientific field, bioinformatics has become essential in aiding the study of “omics” areas and technologies in life sciences, primarily managing and evaluating data from various “omes.” The massive influx of high-throughput biological information in recent years, due to technological advancements in “omic” areas, has highlighted the necessity and importance of bioinformatics resources for the analysis of large and complex datasets. To meet this demand, there is a significant need for a new generation of highly qualified scientists with cross-disciplinary knowledge and skills, capable of using complex systems, software, and algorithms to manage and interpret sophisticated biological data. To achieve this goal, there are various resources available, such as international bioinformatics education and training platforms, webbased courses, workshops, research conferences, and online education. However, developing countries need more creative platforms, network and web access, educational technologies, high-performance computing systems, and better funding to improve bioinformatics education. In terms of research, bioinformatics tools must be developed to handle the increasing volume of high-throughput data from metabolomics, metagenomics, span genomics, and proteomics. Efficient tools are also required for genome annotation and assembly with high accuracy, which necessitates sequencing more genomes, polyploid species, sub-genomes, single-cell genomes, and tissues to produce quality data for programming approaches and bioinformatics algorithms. In the future, ML programs will be increasingly employed for both clinical and research purposes. Although ML algorithms have shown potential in analyzing images, their effectiveness is still dependent on the availability of computing resources. Additionally, human operators need to inspect and validate the output of ML algorithms, which can be a time-consuming process.

7.2.1 Multimodal data integration

Multimodal data integration is a promising area for future work in the field of IoT-based bio- and medical informatics. With the increasing availability of diverse data modalities, there is a need for novel DL architectures that can effectively integrate and learn from multiple sources of information. Researchers can explore the development of new multimodal architectures that can handle different data types, such as imaging, genomics, and clinical data. Multimodal data integration can potentially improve the accuracy of diagnosis and treatment in medical applications. Future research can investigate the impact of multimodal data integration on different medical conditions and assess its potential benefits and limitations. Transfer learning has been widely used in DL to improve the performance of models in domains with limited data. Researchers can investigate the use of transfer learning techniques for multimodal data integration, where the knowledge learned from one modality can be transferred to another modality. As discussed earlier, interpretability is an essential aspect of DL models in medical applications. Future research can focus on developing interpretable multimodal models that can provide insights into how the model arrived at its decision by incorporating information from different modalities. The use of multimodal data in medical applications raises ethical and legal concerns related to patient privacy, data sharing, and informed consent. Future research can investigate these concerns and develop guidelines and regulations to ensure the ethical use of multimodal data in medical applications. Overall, the integration of multimodal data is a promising area for future work in the field of IoT-based bio- and medical informatics, and there is a need for novel techniques and approaches that can effectively handle diverse data modalities and improve the accuracy of diagnosis and treatment [164].

7.2.2 Federated learning

Federated learning is a promising technique that allows for distributed model training across multiple devices, without requiring data to be centrally stored. As such, it can potentially address the data privacy and security concerns prevalent in IoT-based bio- and medical informatics. Medical data are often high-dimensional and complex, making it challenging to develop federated learning algorithms that are both efficient and accurate. Future research could focus on developing federated learning algorithms that can effectively handle these complexities. Federated learning has shown promising results in certain medical applications, such as Electroencephalography (EEG) analysis and medical imaging. However, it is still unclear
how well it will perform in other applications, such as genomics or clinical decision-making. Future research could investigate the performance of federated learning in different medical applications. Communication between devices in a federated learning setup must be secure to ensure patient privacy and prevent data breaches. Future research could focus on developing communication protocols that are both secure and efficient, allowing for effective federated learning across a wide range of medical applications. Medical data often come from a variety of sources and in different formats, making it challenging to integrate for use in federated learning. Future research could focus on developing techniques to address data heterogeneity, such as data normalization and data augmentation, to improve the effectiveness of federated learning. The ultimate goal of federated learning in IoTbased bio- and medical informatics is to improve patient outcomes. Future research could focus on developing frameworks for the deployment of federated learning models in clinical practice, including how to integrate them into existing clinical workflows effectively.

7.2.3 Explainable AI

Explainable AI is an important research area in the field of DL applications in IoT-based bio- and medical informatics. Researchers can work on developing new models that are inherently interpretable, such as decision trees, rule-based models, and linear models. These models can be used in conjunction with DL models to provide more transparent results. Visualization tools can help clinicians and researchers to better understand the results of DL models. Researchers can work on developing new tools for visualizing the results of DL models and explaining how they arrived at their decisions. Researchers can develop techniques to incorporate human feedback into the training process of DL models. This can help to improve the interpretability of the models and make them more useful for clinical decision-making. Researchers can work on developing standards for interpretability in DL models. This can help ensure that models are transparent and that clinicians understand how they arrived at their decisions. Researchers can evaluate the impact of interpretability on the adoption of DL models in clinical settings. This can help to identify the most effective approaches for making DL models more interpretable and useful for clinical decision-making. By addressing the issue of interpretability in DL models, researchers can help improve the trust and adoption of these models in IoT-based bio- and medical informatics.

7.2.4 Transfer learning

Transfer learning, a technique in which a model trained on one task is adapted for use on a new task, has shown great promise in medical applications. There is a growing interest in using transfer learning for medical image analysis tasks. By adapting pre-trained models on large general image datasets like ImageNet to medical imaging tasks, we can leverage the learned features and weights to improve the performance of the models on smaller medical datasets. Transfer learning has been successfully applied to NLP tasks by pre-training large language models like BERT on vast amounts of text data. There is a need for models that can understand medical language and terminologies in the medical field. Fine-tuning these pre-trained language models on medical text datasets can improve their performance on medical text classification tasks. Transfer learning has not been widely applied to time-series data in the medical field. However, with the increasing availability of wearable devices and IoT sensors that generate timeseries data, transfer learning can effectively leverage pretrained models for tasks like patient monitoring and disease prediction. In the medical field, obtaining large amounts of data from a single institution can be challenging due to privacy and security concerns. Domain adaptation techniques can be used to transfer knowledge from pre-trained models to a new dataset with a different distribution. This can be particularly useful for tasks like disease diagnosis, where the model needs to be trained on data from multiple institutions to ensure generalizability. As mentioned earlier, multimodal data integration is an essential area of research in medical informatics. Transfer learning can be used to leverage pre-trained models from different modalities to improve the overall system’s performance. For example, pre-trained models on medical images and text can be combined to create a system that can analyze both modalities simultaneously. Overall, the use of transfer learning in the DL applications in IoT-based bio- and medical informatics has significant potential to improve the performance and efficiency of the models. Future research in this area should focus on developing new transfer learning techniques that can handle the unique challenges of medical data and integrating transfer learning with other techniques like federated learning and explainable AI.

7.2.5 Personalized healthcare monitoring

Personalized healthcare monitoring is a rapidly growing area of research that seeks to provide personalized healthcare solutions to individuals. DL, coupled with the IoT and bio- and medical informatics, has the potential to revolutionize personalized healthcare monitoring. In personalized healthcare monitoring, the data comes from
multiple sources such as wearable devices, medical sensors, and electronic health records. DL techniques can be used to fuse this data to comprehensively view an individual’s health status. Multimodal data fusion using DL can help improve the accuracy and reliability of personalized healthcare monitoring systems. Anomaly detection is an important aspect of personalized healthcare monitoring as it helps in identifying unusual patterns in an individual’s health status. DL techniques can be used to identify these patterns and raise alarms if necessary. This can be particularly useful in detecting chronic diseases or sudden health emergencies. Real-time monitoring of an individual’s health status can be achieved using wearable devices and IoT-enabled sensors. DL models can be deployed on these devices to continuously monitor an individual’s health status and provide real-time alerts if necessary. This can be particularly useful for elderly or high-risk patients.
DL models can be trained on large datasets of medical records to provide personalized diagnoses to individuals. These models can take into account an individual’s medical history, genetic information, and other factors to provide accurate diagnosis and treatment recommendations. Predictive analytics using DL can help in predicting an individual’s health status and potential health risks. These models can be trained on large datasets of medical records to identify patterns and predict potential health issues. This can be particularly useful in preventive healthcare. Privacy and security are major concerns in personalized healthcare monitoring. DL models can be used to ensure the privacy and security of an individual’s health data. Techniques such as federated learning can be used to train models on distributed datasets without compromising privacy. DL models are often considered “black-boxes” as they are difficult to interpret and explain. In personalized healthcare monitoring, it is important to provide explainable and interpretable models to gain the trust of patients and healthcare providers. Explainable AI techniques can be used to provide insights into the inner workings of these models. These are just some of the future works and ideas that can be explored in personalized healthcare monitoring using DL and IoT-based bio- and medical informatics. With the increasing availability of health data and the advancement of DL techniques, personalized healthcare monitoring can potentially transform how we manage our health.

7.2.6 Real-time diagnosis and treatment planning

Real-time diagnosis and treatment planning is a critical aspect of healthcare that can benefit greatly from DL and IoT-based bio- and medical informatics. DL models can be trained on large datasets of medical images and patient
records to provide a real-time diagnosis. These models can be deployed on IoT-enabled devices to provide immediate feedback to healthcare providers. This can be particularly useful in emergencies where quick diagnosis is critical. DL models can be used to develop personalized treatment plans for patients. These models can take into account an individual’s medical history, genetic information, and other factors to provide tailored treatment recommendations. IoT-enabled devices can be used to monitor a patient’s response to treatment and adjust the treatment plan accordingly. Decision support systems using DL can help healthcare providers make informed decisions about diagnosis and treatment. These systems can provide recommendations based on patient data, medical guidelines, and other relevant information. Predictive analytics using DL can help in predicting a patient’s response to treatment and potential health risks. These models can be trained on large datasets of medical records to identify patterns and predict potential health issues. This can be particularly useful in preventive healthcare. DL models can be trained to analyze medical images such as X-rays, MRIs, and CT scans. These models can help healthcare providers identify abnormalities and diagnose diseases. IoT-enabled devices can be used to capture and transmit these images in real time, enabling remote diagnosis and treatment planning. Privacy and security are major concerns in real-time diagnosis and treatment planning. DL models can be used to ensure the privacy and security of patient data. Techniques such as federated learning can be used to train models on distributed datasets without compromising privacy. In realtime diagnosis and treatment planning, it is important to provide explainable and interpretable models to gain the trust of patients and healthcare providers. Explainable AI techniques can be used to provide insights into the inner workings of these models. These are just some of the future works and ideas that can be explored in real-time diagnosis and treatment planning using DL and IoT-based bio- and medical informatics. With the increasing availability of healthcare data and the advancement of DL techniques, real-time diagnosis, and treatment planning has the potential to transform the way we deliver healthcare [165].

7.2.7 Predictive maintenance of medical devices

Predictive maintenance is an important aspect of medical device management that can benefit greatly from the use of DL and IoT-based bio- and medical informatics. Predictive analytics using DL can be used to predict when medical devices are likely to fail or require maintenance. These models can be trained on large datasets of sensor data from medical devices to identify patterns and predict potential issues. DL models can be used to monitor the condition of medical devices in real time [166]. These models can
analyze data from sensors such as temperature, pressure, and vibration to detect abnormalities and potential failures. Anomaly detection using DL can help identify unusual patterns in medical device data. These models can help detect issues that may not be immediately apparent to the human eye and raise alarms if necessary. Prognostic models using DL can be used to predict the remaining useful life of medical devices. These models can help healthcare providers plan for the maintenance and replacement of medical devices before they fail. Predictive maintenance scheduling using DL can help healthcare providers optimize maintenance schedules based on the predicted failure rates of medical devices. This can help reduce downtime and improve the reliability of medical devices. Fault diagnosis using DL can help healthcare providers quickly identify and diagnose issues with medical devices. These models can analyze sensor data and provide repair or replacement recommendations. Predictive maintenance models can be integrated with electronic health records to view medical device performance and patient outcomes comprehensively. This can help healthcare providers make informed medical device management and patient care decisions. These are just some of the future works and ideas that can be explored in the predictive maintenance of medical devices using DL and IoT-based bio- and medical informatics. With the increasing use of medical devices and the need for reliable and safe healthcare delivery, predictive maintenance can potentially improve healthcare systems’ efficiency and effectiveness.

7.2.8 Optimization of drug discovery

Drug discovery is a complex and time-consuming process that can benefit greatly from the use of DL and IoT-based bio- and medical informatics. DL models can be used to design new drugs based on the molecular structure of existing drugs and the desired therapeutic effect. These models can predict the interaction between drugs and target proteins, helping to identify potential drug candidates. Virtual screening using DL can help identify potential drug candidates from large databases of compounds. These models can analyze the chemical structure of compounds and predict their activity against target proteins. Toxicity prediction using DL can help identify potential safety concerns of drug candidates. These models can analyze the chemical structure of compounds and predict their toxicity based on their interaction with target proteins. DL models can be used to identify existing drugs that may be effective in treating other diseases. These models can analyze the molecular structure of drugs and predict their potential therapeutic effects against other diseases. DL models can be used to optimize clinical trial design and reduce the time and cost of drug development. These models can predict
patient response to treatment and identify subgroups that are more likely to benefit from a drug. DL models can be used to develop personalized treatment plans based on an individual’s genetic information, medical history, and other factors. These models can predict the effectiveness of different drugs and help healthcare providers make informed treatment decisions. DL models can be integrated with electronic health records to provide a comprehensive view of patient health and treatment outcomes. This can help healthcare providers make informed drug treatment and patient care decisions. These are just some of the future works and ideas that can be explored in the optimization of drug discovery using DL and IoT-based bio- and medical informatics. With the increasing demand for new and effective drugs, drug discovery optimization has the potential to transform the pharmaceutical industry and improve patient outcomes.

7.2.9 Medical imaging analysis

Medical imaging analysis is a critical aspect of healthcare that can benefit greatly from the use of DL and IoT-based bio- and medical informatics. DL models can be used for image segmentation, which involves separating an image into different regions based on their characteristics. This can help identify and isolate specific structures or abnormalities in medical images. DL models can be used for image classification, which involves assigning a label to an image-based on its content. This can help identify different types of structures or abnormalities in medical images. DL models can be used for image registration, which involves aligning multiple medical images of the same patient taken at different times or from different modalities. This can help track patient condition changes over time and improve treatment planning. DL models can be used for image reconstruction, which involves creating high-quality images from low-quality or incomplete data. This can help improve the accuracy of medical imaging and reduce the need for additional imaging tests. DL models can be trained to diagnose medical conditions based on medical images automatically. This can help reduce radiologists’ workload and improve diagnosis speed and accuracy. DL models can be used for quantitative analysis of medical images, which involves measuring and analyzing different aspects of the images, such as size, shape, and texture. This can help identify subtle changes in medical images that may be difficult to detect with the human eye. DL models can be integrated with electronic health records to provide a comprehensive view of patient health and treatment outcomes. This can help healthcare providers make informed decisions about patient care. These are just some of the future works and ideas that can be explored in medical imaging analysis using DL and IoT-based bio- and
medical informatics. With the increasing use of medical imaging in healthcare, medical imaging analysis has the potential to improve the accuracy and efficiency of diagnosis and treatment planning.

7.2.10 Health monitoring with wearable IoT devices and DL

Health monitoring with wearable IoT devices and DL can revolutionize healthcare by providing continuous monitoring of patient health and allowing for early detection of health problems. Continuous Vital Sign Monitoring: Wearable IoT devices can be used to continuously monitor vital signs such as heart rate, blood pressure, and respiratory rate. DL models can analyze the data from these devices to identify patterns and detect early warning signs of health problems. Wearable IoT devices can be used to monitor chronic diseases such as diabetes and hypertension. DL models can analyze the data from these devices to detect changes in disease status and provide feedback on treatment effectiveness. Wearable IoT devices can be used to monitor behavior patterns such as sleep, physical activity, and nutrition. DL models can analyze the data from these devices to identify patterns and provide feedback on lifestyle modifications. Wearable IoT devices can be used to detect falls in elderly patients and individuals with balance problems. DL models can analyze the data from these devices to detect falls and alert healthcare providers or family members. Wearable IoT devices can be used to monitor medication adherence in patients with chronic diseases. DL models can analyze the data from these devices to provide feedback on medication adherence and improve patient outcomes. DL models can be used to develop early warning systems for critical health events such as heart attacks and strokes. Wearable IoT devices can be used to monitor vital signs and detect early warning signs, allowing for prompt medical intervention. Wearable IoT devices and DL models can be integrated with electronic health records to provide a comprehensive view of patient health and treatment outcomes. This can help healthcare providers make informed decisions about patient care. These are just some of the future works and ideas that can be explored in health monitoring with wearable IoT devices and DL in IoT-based bio- and medical informatics. With the increasing use of wearable IoT devices in healthcare, health monitoring has the potential to improve patient outcomes and reduce healthcare costs.

7.2.11 Telemedicine

Telemedicine has become an increasingly popular approach to healthcare delivery, especially in remote or underserved areas. The integration of DL with IoT-based
bio- and medical informatics can help improve the quality of telemedicine services and enhance patient outcomes. DL models can be trained to remotely analyze patient data such as medical images, laboratory results, and vital signs. This can help improve the accuracy and speed of diagnosis, especially in areas with limited access to healthcare professionals. DL models can be used to develop chatbots and virtual assistants that can communicate with patients and provide medical advice. This can help improve patient access to healthcare services and reduce the workload of healthcare professionals. IoT-based wearable devices can be used to remotely monitor patient health data such as heart rate, blood pressure, and respiratory rate. DL models can analyze this data in real time and alert healthcare professionals if any changes require attention. DL models can be used to analyze patient data to identify patients who are at risk of developing certain diseases. This can help healthcare professionals to provide proactive care and prevent disease progression. DL models can be used to develop personalized treatment plans based on patient data. This can help improve treatment outcomes and reduce healthcare costs by avoiding unnecessary treatments. DL models can be used to develop automated triage systems that can identify patients who require urgent care. This can help reduce wait times for patients who require immediate attention. Telemedicine services can be integrated with electronic health records to provide a comprehensive view of patient health and treatment outcomes. This can help healthcare providers make informed decisions about patient care. These are just some of the future works and ideas that can be explored in telemedicine with the integration of DL and IoT-based bio- and medical informatics. With the increasing demand for telemedicine services, the integration of these technologies has the potential to improve access to healthcare services and enhance patient outcomes.

7.2.12 Predictive analytics for healthcare

Predictive analytics has become an essential tool for healthcare providers in making informed decisions about patient care. The integration of DL with IoT-based bio- and medical informatics can help improve the accuracy and speed of predictive analytics, leading to better patient outcomes. DL models can be used to analyze patient data such as medical images, laboratory results, and vital signs to detect early warning signs of diseases. This can help healthcare providers to provide timely interventions and prevent disease progression. DL models can be used to develop predictive risk models that identify patients at high risk of developing certain diseases. This can help healthcare providers to provide proactive care and prevent disease progression. DL models can be used to develop
personalized treatment plans based on patient data. This can help improve treatment outcomes and reduce healthcare costs by avoiding unnecessary treatments. Predictive analytics can be used to optimize healthcare resources such as hospital beds, staff, and equipment. DL models can be used to predict patient demand and optimize resource allocation accordingly. DL models can be used to analyze patient data to identify potential drug interactions and adverse events. This can help healthcare providers to provide safer and more effective drug therapies. DL models can be used to develop clinical decision support systems that can assist healthcare providers in making informed decisions about patient care. This can help improve patient outcomes and reduce healthcare costs by avoiding unnecessary tests and treatments. DL models can be used to analyze population health data to identify health trends and disease outbreaks. This can help healthcare providers to develop targeted interventions to prevent the spread of disease. These are just some of the future works and ideas that can be explored in predictive analytics for healthcare with the integration of DL and IoT-based bio- and medical informatics. With the increasing demand for predictive analytics in healthcare, integrating these technologies has the potential to improve patient outcomes and reduce healthcare costs.

8 Conclusion and limitation

The DL applications in IoT-based bio- and medical informatics have exhibited remarkable progress in recent years, with various studies demonstrating the effectiveness of DL in different areas such as drug discovery, disease diagnosis, and patient monitoring. Nonetheless, the field is continuously evolving, and further research is necessary to explore new techniques and methodologies that can enhance the performance and robustness of DL algorithms in the context of bio- and medical informatics. In addition, there is a need for more comprehensive evaluations of DL algorithms in real-world scenarios and for the development of robust and scalable systems that can be deployed in healthcare settings. Therefore, it is imperative to continue conducting research in this area to fully leverage the potential of DL in IoT-based bio- and medical informatics and provide better healthcare outcomes for patients. To this end, this article presents a systematic review of DL-based methods used for bio- and medical informatics issues. Initially, we discuss the advantages and disadvantages of some surveyed papers about medical and bioinformaticsrelated methods, before illustrating the strategy of this article. The DL-bioinformatics platforms and tools are also assessed. Based on a survey of papers according to qualitative features, most papers are assessed relying on
accuracy, sensitivity, specificity, F-score, adaptability, scalability, and latency. However, certain features, such as security and convergence time, are underutilized. To evaluate and perform the proposed methods, various programming languages are used. Furthermore, we anticipate that our investigation will provide a valuable guide for further research on DL and medical usage in medical and bioinformatics issues.
Nevertheless, some constraints were encountered during our analysis, including the unavailability of non-English papers, which limited our ability to utilize numerous investigation initiatives. Additionally, some of the papers examined had significant limitations in clear explanations of the algorithms used. Finally, another limitation we faced was a shortage of availability to different papers published by significant publications.
Funding Open access funding provided by the Scientific and Technological Research Council of Türkiye (TÜBİTAK).
Availability of data and materials The paper contains all of the data.

Declarations

Conflict of interest The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.
Ethics approval Not applicable.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons. org/licenses/by/4.0/.

References

  1. Muhammad AN et al (2021) Deep learning application in smart cities: recent development, taxonomy, challenges and research prospects. Neural Comput Appl 33(7):2973-3009
  2. Nosratabadi S et al (2020) State of the art survey of deep learning and machine learning models for smart cities and urban sustainability. In: International conference on global research and education. Springer
  3. Shafqat et al (2022) Standard ner tagging scheme for big data healthcare analytics built on unified medical corpora. J Artif Intell Technol 2(4):152-157
  4. Atitallah SB et al (2020) Leveraging deep learning and iot big data analytics to support the smart cities development: review and future directions. Comput Sci Rev 38:100303
  5. Kök I, Şimşek MU, Özdemir (2017) A deep learning model for air quality prediction in smart cities. In: 2017 IEEE international conference on big data (Big Data). 2017. IEEE
  6. Bolhasani H, Mohseni M, Rahmani AM (2021) Deep learning applications for IoT in health care: a systematic review. Inform Med Unlocked 23:100550
  7. Rastogi R, Chaturvedi DK, Sagar S, Tandon N, Rastogi AR (2022) Brain tumor analysis using deep learning: sensor and iotbased approach for futuristic healthcare. In: Bioinformatics and medical applications: big data using deep learning algorithms, pp 171-190
  8. Roopashree et al (2022) An IoT based authentication system for therapeutic herbs measured by local descriptors using machine learning approach. Measurement 200:111484
  9. Bharadwaj HK et al (2021) A review on the role of machine learning in enabling IoT based healthcare applications. IEEE Access 9:38859-38890
  10. Awotunde JB et al (2021) Disease diagnosis system for IoTbased wearable body sensors with machine learning algorithm. In: Hybrid artificial intelligence and IoT in healthcare. 2021. Springer, pp 201-222
  11. Alansari Z et al (2017) Computational intelligence tools and databases in bioinformatics. In: 2017 4th IEEE international conference on engineering technologies and applied sciences (ICETAS). 2017. IEEE
  12. Daoud H, Williams P, Bayoumi M (2020) IoT based efficient epileptic seizure prediction system using deep learning. In: 2020 IEEE 6th world forum on internet of things (WF-IoT). 2020. IEEE
  13. Wu Y et al (2021) Deep learning for big data analytics. Mobile Netw Appl 26(6):2315-2317
  14. Ambika N (2022) An economical machine learning approach for anomaly detection in IoT environment. In: Bioinformatics and medical applications: big data using deep learning algorithms, 2022: pp 215-234
  15. Srivastava M (2020) A Surrogate data-based approach for validating deep learning model used in healthcare. In: Applications of deep learning and big IoT on personalized healthcare services. 2020. IGI Global, pp 132-146
  16. da Costa KA et al (2019) Internet of things: a survey on machine learning-based intrusion detection approaches. Comput Netw 151:147-157
  17. Min S, Lee B, Yoon S (2017) Deep learning in bioinformatics. Brief Bioinform 18(5):851-869
  18. Aminizadeh et al (2023) The applications of machine learning techniques in medical data processing based on distributed computing and the internet of things. In: Computer methods and programs in biomedicine, 2023, p 107745
  19. Li Y et al (2019) Deep learning in bioinformatics: introduction, application, and perspective in the big data era. Methods 166:4-21
  20. Cao et al (2020) Ensemble deep learning in bioinformatics. Nat Mach Intell 2(9):500-508
  21. Tang B et al (2019) Recent advances of deep learning in bioinformatics and computational biology. Front Genet 10:214
  22. Koumakis L (2020) Deep learning models in genomics; are we there yet? Comput Struct Biotechnol J 18:1466-1473
  23. Dhombres F, Charlet J (2019) Formal medical knowledge representation supports deep learning algorithms, bioinformatics pipelines, genomics data analysis, and big data processes. Yearb Med Inform 28(01):152-155
  24. Peng et al (2018) The advances and challenges of deep learning application in biological big data processing. Curr Bioinform 13(4):352-359
  25. Chen Y-Z et al (2021) nhKcr: a new bioinformatics tool for predicting crotonylation sites on human nonhistone proteins based on deep learning. Brief Bioinform 22(6):bbab146
  26. Chen Y et al (2016) Gene expression inference with deep learning. Bioinformatics 32(12):1832-1839
  27. Jabbar MA (2022) An insight into applications of deep learning in bioinformatics. In: Deep learning, machine learning and IoT in biomedical and health informatics. CRC Press, pp 175-197
  28. Khurana S et al (2018) DeepSol: a deep learning framework for sequence-based protein solubility prediction. Bioinformatics 34(15):2605-2613
  29. Baranwal M et al (2020) A deep learning architecture for metabolic pathway prediction. Bioinformatics 36(8):2547-2553
  30. Shahid O et al (2021) Machine learning research towards combating COVID-19: Virus detection, spread prevention, and medical assistance. J Biomed Inform 117:103751
  31. Roy PK et al (2023) Analysis of community question-answering issues via machine learning and deep learning: state-of-the-art review. CAAI Trans Intell Technol 8(1):95-117
  32. Samanta RK et al (2022) Scope of machine learning applications for addressing the challenges in next-generation wireless networks. CAAI Trans Intell Technol 7(3):395-418
  33. Wang W et al (2023) Fully Bayesian analysis of the relevance vector machine classification for imbalanced data problem. CAAI Trans Intell Technol 8(1):192-205
  34. Ashrafuzzaman M (2021) Artificial intelligence, machine learning and deep learning in ion channel bioinformatics. Membranes 11(9):672
  35. Fiannaca A et al (2018) Deep learning models for bacteria taxonomic classification of metagenomic data. BMC Bioinform 19(7):61-76
  36. Li F et al (2020) DeepCleave: a deep learning predictor for caspase and matrix metalloprotease substrates and cleavage sites. Bioinformatics 36(4):1057-1065
  37. Meher J (2021) Potential applications of deep learning in bioinformatics big data analysis. In: Advanced deep learning for engineers and scientists, 2021, pp 183-193
  38. Preuer K et al (2018) DeepSynergy: predicting anti-cancer drug synergy with Deep Learning. Bioinformatics 34(9):1538-1546
  39. Xia Z et al (2019) DeeReCT-PolyA: a robust and generic deep learning method for PAS identification. Bioinformatics 35(14):2371-2379
  40. Fang B et al (2022) Deep generative inpainting with comparative sample augmentation. J Comput Cogn Eng 1(4):174-180
  41. Wang et al (2020) Block switching: a stochastic approach for deep learning security. arXiv preprint arXiv:2002.07920, 2020
  42. Kumar I, Singh SP (2022) Machine learning in bioinformatics. In: Bioinformatics. Academic Press, pp 443-456
  43. Yu L et al (2018) Drug and nondrug classification based on deep learning with various feature selection strategies. Curr Bioinform 13(3):253-259
  44. Jurtz VI et al (2017) An introduction to deep learning on biological sequence data: examples and solutions. Bioinformatics 33(22):3685-3690
  45. Deng Y et al (2020) A multimodal deep learning framework for predicting drug-drug interaction events. Bioinformatics 36(15):4316-4322
  46. Shakeel N, Shakeel S (2022) Context-free word importance scores for attacking neural networks. J Comput Cogn Eng 1(4):187-192
  47. Oubounyt M et al (2019) DeePromoter: robust promoter predictor using deep learning. Front Genet 10:286
  48. Leung MK et al (2014) Deep learning of the tissue-regulated splicing code. Bioinformatics 30(12):i121-i129
  49. Dai B, Bailey-Kellogg C (2021) Protein interaction interface region prediction by geometric deep learning. Bioinformatics 37(17):2580-2588
  50. Luo F et al (2019) DeepPhos: prediction of protein phosphorylation sites with deep learning. Bioinformatics 35(16):2766-2773
  51. Liu X (2022) Real-world data for the drug development in the digital era. J Artif Intell Technol 2(2):42-46
  52. Wei L et al (2018) Prediction of human protein subcellular localization using deep learning. J Parallel Distrib Comput 117:212-217
  53. Heidari A et al (2023) A new lung cancer detection method based on the chest CT images using federated learning and blockchain systems. Artif Intell Med 141:102572
  54. Cai Q et al (2023) Image neural style transfer: a review. Comput Electr Eng 108:108723
  55. Ai Q et al (2021) Editorial for FGCS special issue: intelligent IoT systems for healthcare and rehabilitation. Elsevier, New York, pp 770-773
  56. Niu L-Y, Wei Y, Liu W-B, Long JY, Xue T-H (2023) Research Progress of spiking neural network in image classification: a review. In: Applied intelligence, pp 1-25
  57. Karnati M et al (2022) A novel multi-scale based deep convolutional neural network for detecting COVID-19 from X-rays. Appl Soft Comput 125:109109
  58. Ravindran U, Gunavathi C (2023) A survey on gene expression data analysis using deep learning methods for cancer diagnosis. Prog Biophys Mol Biol 177:1-13
  59. Zheng M et al (2022) A hybrid CNN for image denoising. J Artif Intell Technol 2(3):93-99
  60. Togneri R, Prati R, Nagano H, Kamienski C (2023) Data-driven water need estimation for IoT-based smart irrigation: a survey. Expert Syst Appl 225:120194
  61. Sheng N, Huang L, Lu Y, Wang H, Yang L, Gao L, Xie X, Fu Y, Wang Y (2023) Data resources and computational methods for lncRNA-disease association prediction. Comput Biol Med 153:106527
  62. Sharan RV, Rahimi-Ardabili H (2023) Detecting acute respiratory diseases in the pediatric population using cough sound features and machine learning: a systematic review. Int J Med Inform 176:105093
  63. Bhosale YH, Patnaik KS (2023) Bio-medical imaging (X-ray, CT, ultrasound, ECG), genome sequences applications of deep neural network and machine learning in diagnosis, detection, classification, and segmentation of COVID-19: a meta-analysis & systematic review. Multimed Tools Appl 82:39157-39210. https://doi.org/10.1007/s11042-023-15029-1
  64. Azhari F, Sennersten CC, Lindley CA et al (2023) Deep learning implementations in mining applications: a compact critical review. Artif Intell Rev 56:14367-14402. https://doi.org/10. 1007/s10462-023-10500-9
  65. Nazir S, Dickson DM, Akram MU (2023) Survey of explainable artificial intelligence techniques for biomedical imaging with deep neural networks. Comput Biol Med 156:106668
  66. Jacob TP, Pravin A, Kumar RR (2022) A secure IoT based healthcare framework using modified RSA algorithm using an artificial hummingbird based CNN. Trans Emerg Tel Tech 33(12):e4622. https://doi.org/10.1002/ett. 4622
  67. Phan HT, Nguyen NT, Hwang D (2023) Aspect-level sentiment analysis: a survey of graph convolutional network methods. Inf Fusion 91:149-172
  68. Qiu D, Cheng Y, Wang X (2023) Medical image super-resolution reconstruction algorithms based on deep learning: a survey. Comput Methods Prog Biomed 238:107590
  69. Sanders LM et al (2023) Biological research and self-driving labs in deep space supported by artificial intelligence. Nat Mach Intell 5(3):208-219
  70. Rezende PM et al (2022) Evaluating hierarchical machine learning approaches to classify biological databases. Brief Bioinform 23(4):bbac216
  71. Yi H-C et al (2022) Graph representation learning in bioinformatics: trends, methods and applications. Brief Bioinform 23(1):bbab340
  72. Sharma S (2021) The bioinformatics: detailed review of various applications of cluster analysis. Glob J Appl Data Sci Internet Things 5:1-2021
  73. Serra A, Galdi P, Tagliaferri R (2018) Machine learning for bioinformatics and neuroimaging. Wiley Interdiscip Rev Data Min Knowl Discov 8(5):e1248
  74. Liu L et al (2019) A smart dental health-IoT platform based on intelligent hardware, deep learning, and mobile terminal. IEEE J Biomed Health Inform 24(3):898-906
  75. Nematzadeh S et al (2022) Tuning hyperparameters of machine learning algorithms and deep neural networks using metaheuristics: a bioinformatics study on biomedical and biological cases. Comput Biol Chem 97:107619
  76. Kumar H, Sharma S (2021) Contribution of deep learning in bioinformatics. Glob J Appl Data Sci Internet Things 5:1-202
  77. Jia D et al (2021) Breast cancer case identification based on deep learning and bioinformatics analysis. Front Genet 12:628136
  78. Pastorino J, Biswas AK (2022) Data adequacy bias impact in a data-blinded semi-supervised GAN for privacy-aware COVID19 chest X-ray classification. In: Proceedings of the 13th ACM international conference on bioinformatics, computational biology and health informatics, 2022
  79. Auwul MR et al (2021) Bioinformatics and machine learning approach identifies potential drug targets and pathways in COVID-19. Brief Bioinform 22(5):bbab120
  80. Lan L et al (2020) Generative adversarial networks and its applications in biomedical informatics. Front Public Health 8:164
  81. Han C et al (2021) MADGAN: Unsupervised medical anomaly detection GAN using multiple adjacent brain MRI slice reconstruction. BMC Bioinform 22(2):1-20
  82. Balogh OM et al (2022) Efficient link prediction in the proteinprotein interaction network using topological information in a generative adversarial network machine learning model. BMC Bioinform 23(1):1-19
  83. Giansanti V et al (2019) Comparing deep and machine learning approaches in bioinformatics: a miRNA-target prediction case study. In: International conference on computational science. 2019. Springer
  84. Lyu C et al (2017) Long short-term memory RNN for biomedical named entity recognition. BMC Bioinform 18(1):1-11
  85. ElAbd H et al (2020) Amino acid encoding for deep learning applications. BMC Bioinform 21(1):1-14
  86. Liu J, Gong X (2019) Attention mechanism enhanced LSTM with residual architecture and its application for protein-protein interaction residue pairs prediction. BMC Bioinform 20(1):1-11
  87. Wang D et al (2017) MusiteDeep: a deep-learning framework for general and kinase-specific phosphorylation site prediction. Bioinformatics 33(24):3909-3916
  88. Zhao Y, Shao J, Asmann YW (2022) Assessment and optimization of explainable machine learning models applied to transcriptomic data. Genom Proteom Bioinform 20:899-911
  89. Souri A et al (2020) A new machine learning-based healthcare monitoring model for student’s condition diagnosis in Internet of Things environment. Soft Comput 24(22):17111-17121
  90. D’Orazio M et al (2022) Machine learning phenomics (MLP) combining deep learning with time-lapse-microscopy for monitoring colorectal adenocarcinoma cells gene expression and drug-response. Sci Rep 12(1):1-14
  91. Karim MR et al (2021) Deep learning-based clustering approaches for bioinformatics. Brief Bioinform 22(1):393-415
  92. Aydin Z (2020) Performance analysis of machine learning and bioinformatics applications on high performance computing systems. Acad Platf J Eng Sci 8(1):1-14
  93. Mohamed Shakeel P et al (2018) Maintaining security and privacy in health care system using learning based deep-Q-networks. J Med Syst 42(10):1-10
  94. Huang L et al (2019) Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. J Biomed Inform 99:103291
  95. Wang X, Jiang X, Vaidya J (2021) Efficient verification for outsourced genome-wide association studies. J Biomed Inform 117:103714
  96. Cui J et al (2021) FeARH: Federated machine learning with anonymous random hybridization on electronic medical records. J Biomed Inform 117:103735
  97. Giansanti V et al (2019) Comparing deep and machine learning approaches in bioinformatics: a miRNA-target prediction case study. In: Computational science-ICCS 2019: 19th international conference, Faro, Portugal, June 12-14, 2019, proceedings, part III, vol 19, 2019. Springer
  98. Lyu C et al (2017) Long short-term memory RNN for biomedical named entity recognition. BMC Bioinform 18:1-11
  99. ElAbd H et al (2020) Amino acid encoding for deep learning applications. BMC Bioinform 21:1-14
  100. Liu J, Gong X (2019) Attention mechanism enhanced LSTM with residual architecture and its application for protein-protein interaction residue pairs prediction. BMC Bioinform 20:1-11
  101. Mohamed Shakeel P et al (2018) Maintaining security and privacy in health care system using learning based deep-Q-networks. J Med Syst 42:1-10
  102. Sarbaz M et al (2022) Adaptive optimal control of chaotic system using backstepping neural network concept. In: 2022 8th international conference on control, instrumentation and automation (ICCIA). 2022. IEEE
  103. Bagheri M et al (2020) Data conditioning and forecasting methodology using machine learning on production data for a well pad. In: Offshore technology conference. 2020. OTC
  104. Soleimani R, Lobaton E (2022) Enhancing inference on physiological and kinematic periodic signals via phase-based interpretability and multi-task learning. Information 13(7):326
  105. Mirzaeibonehkhater M (2018) Developing a dynamic recommendation system for personalizing educational content within an e-learning network. 2018: Purdue University
  106. Morteza A et al (2023) Deep learning hyperparameter optimization: application to electricity and heat demand prediction for buildings. Energy Build 289:113036
  107. Webber J et al (2017) Study on idle slot availability prediction for WLAN using a probabilistic neural network. In: 2017 23rd Asia-Pacific conference on communications (APCC). 2017. IEEE
  108. Webber J et al (2022) Improved human activity recognition using majority combining of reduced-complexity sensor branch classifiers. Electronics 11(3):392
  109. Gera T et al (2021) Dominant feature selection and machine learning-based hybrid approach to analyze android ransomware. Secur Commun Netw 2021:1-22
  110. Bukhari SNH, Webber J, Mehbodniya A (2022) Decision tree based ensemble machine learning model for the prediction of
Zika virus T-cell epitopes as potential vaccine candidates. Sci Rep 12(1):7810
111. Heidari A et al (2023) Machine learning applications in internet-of-drones: systematic review, recent deployments, and open issues. ACM Comput Surv 55(12):1-45
112. Singh R et al (2022) Analysis of network slicing for management of 5G networks using machine learning techniques. Wirel Commun Mobile Comput 2022:9169568
113. He P et al (2022) Towards green smart cities using Internet of Things and optimization algorithms: a systematic and bibliometric review. Sustain Comput Inform Syst 36:100822
114. Sadi M et al (2022) Special session: on the reliability of conventional and quantum neural network hardware. In: 2022 IEEE 40th VLSI test symposium (VTS). 2022. IEEE
115. Moradi M, Weng Y, Lai Y-C (2022) Defending smart electrical power grids against cyberattacks with deep Q-learning. P R X Energy 1:033005
116. Zhai Z-M et al (2023) Detecting weak physical signal from noise: a machine-learning approach with applications to mag-netic-anomaly-guided navigation. Phys Rev Appl 19(3):034030
117. Li Z, Han C, Coit DW (2023) System reliability models with dependent degradation processes. In: Advances in reliability and maintainability methods and engineering applications: essays in honor of professor Hong-Zhong Huang on his 60th birthday. 2023. Springer, pp 475-497
118. Zhang Y et al (2019) Fault diagnosis strategy of CNC machine tools based on cascading failure. J Intell Manuf 30:2193-2202
119. Shen G, Zeng W, Han C, Liu P, Zhang Y (2017) Determination of the average maintenance time of CNC machine tools based on type II failure correlation. Eksploatacja i Niezawodność 19(4)
120. Shen G et al (2018) Fault analysis of machine tools based on grey relational analysis and main factor analysis. J Phys Conf Ser. IOP Publishing
121. Han C, Fu X (2023) Challenge and opportunity: deep learningbased stock price prediction by using Bi-directional LSTM model. Front Bus Econ Manag 8(2):51-54
122. Darbandi M (2017) Proposing new intelligent system for suggesting better service providers in cloud computing based on Kalman filtering. Int J Technol Innov Res 24(1):1-9
123. Dehghani F, Larijani A (2023) Average portfolio optimization using multi-layer neural networks with risk consideration. Available at SSRN, 2023
124. Rezaei M, Rastgoo R, Athitsos V (2023) TriHorn-Net: a model for accurate depth-based 3D hand pose estimation. Expert Syst Appl 223:119922
125. Ahmadi SS, Khotanlou H (2022) A hybrid of inference and stacked classifiers to indoor scenes classification of rgb-d images. In: 2022 International conference on machine vision and image processing (MVIP). 2022. IEEE
126. Mirzapour O, Arpanahi SK (2017) Photovoltaic parameter estimation using heuristic optimization. In: 2017 IEEE 4th international conference on knowledge-based engineering and innovation (KBEI). 2017. IEEE
127. Khorshidi M, Ameri M, Goli A (2023) Cracking performance evaluation and modelling of RAP mixtures containing different recycled materials using deep neural network model. Road Mater Pavement Des 1-20
128. Rastegar RM et al (2022) From evidence to assessment: DEVELOPING a scenario-based computational design algorithm to support informed decision-making in primary care clinic design workflow. Int J Archit Comput 20(3):567-586
129. Esmaeili N, Bamdad Soofi J (2022) Expounding the knowledge conversion processes within the occupational safety and health management system (OSH-MS) using concept mapping. Int J Occup Saf Ergon 28(2):1000-1015
130. Akyash M, Mohammadzade H, Behroozi H (2021) Dtw-merge: a novel data augmentation technique for time series classification. arXiv preprint arXiv:2103.01119
131. Darbandi M (2017) Proposing new intelligence algorithm for suggesting better services to cloud users based on Kalman filtering. J Comput Sci Appl 5(1):11-16
132. Darbandi M (2017) Kalman filtering for estimation and prediction servers with lower traffic loads for transferring highlevel processes in cloud computing. Int J Technol Innov Res 23(1):10-20
133. Liu H et al (2023) MEMS piezoelectric resonant microphone array for lung sound classification. J Micromech Microeng 33(4):044003
134. Loghmani N, Moqadam R, Allahverdy A (2022) Brain tumor segmentation using multimodal mri and convolutional neural network. In: 2022 30th international conference on electrical engineering (ICEE). 2022. IEEE
135. Niknejad N, Caro JL, Bidese-Puhl R, Bao Y, Staiger EA (2023) Equine kinematic gait analysis using stereo videography and deep learning: stride length and stance duration estimation. J ASABE 66(4):865-877
136. Amiri Z et al (2023) Resilient and dependability management in distributed environments: a systematic and comprehensive literature review. Clust Comput 26(2):1565-1600
137. Zeng Q et al (2020) Hyperpolarized Xe NMR signal advancement by metal-organic framework entrapment in aqueous solution. Proc Natl Acad Sci 117(30):17558-17563
138. Liu N et al (2021) An eyelid parameters auto-measuring method based on 3D scanning. Displays 69:102063
139. Li C et al (2021) Long noncoding RNA p21 enhances autophagy to alleviate endothelial progenitor cells damage and promote endothelial repair in hypertension through SESN2/AMPK/TSC2 pathway. Pharmacol Res 173:105920
140. Li B et al (2022) Dynamic event-triggered security control for networked control systems with cyber-attacks: a model predictive control approach. Inf Sci 612:384-398
141. Li H, Peng R, Wang Z-A (2018) On a diffusive susceptible-infected-susceptible epidemic model with mass action mechanism and birth-death effect: analysis, simulations, and comparison with other mechanisms. SIAM J Appl Math 78(4):2129-2153
142. Amiri Z et al (2023) The personal health applications of machine learning techniques in the internet of behaviors. Sustainability 15(16):12406
143. Zhu Y et al (2021) Deep learning-based predictive identification of neural stem cell differentiation. Nat Commun 12(1):2614
144. Yang S et al (2022) Dual-level representation enhancement on characteristic and context for image-text retrieval. IEEE Trans Circuits Syst Video Technol 32(11):8037-8050
145. Yan L et al (2023) Multi-feature fusing local directional ternary pattern for facial expressions signal recognition based on video communication system. Alex Eng J 63:307-320
146. Dai et al (2022) Task co-offloading for d2d-assisted mobile edge computing in industrial internet of things. IEEE Trans Industr Inf 19(1):480-490
147. Yan L et al (2021) Method of reaching consensus on probability of food safety based on the integration of finite credible data on block chain. IEEE access 9:123764-123776
148. Jiang H et al (2020) An energy-efficient framework for internet of things underlaying heterogeneous small cell networks. IEEE Trans Mob Comput 21(1):31-43
149. Sun L, Zhang M, Wang B, Tiwari P (2023) Few-shot classincremental learning for medical time series classification. IEEE J Biomed Health Inform. https://doi.org/10.1109/JBHI.2023. 3247861
150. Gao Z, Pan X, Shao J, Jiang X, Su Z, Jin K, Ye J (2023) Automatic interpretation and clinical evaluation for fundus fluorescein angiography images of diabetic retinopathy patients by deep learning. Br J Ophthalmol 107(12):1852-1858
151. Wang H et al (2022) Transcranial alternating current stimulation for treating depression: a randomized controlled trial. Brain 145(1):83-91
152. Luan D et al (2022) Robust two-stage location allocation for emergency temporary blood supply in postdisaster. Discret Dyn Nat Soc 2022:1-20
153. Chen G et al (2022) Continuance intention mechanism of middle school student users on online learning platform based on qualitative comparative analysis method. Math Probl Eng 2022:1-12
154. Cui G et al (2013) Synthesis and characterization of Eu (III) complexes of modified cellulose and poly (N-isopropylacrylamide). Carbohyd Polym 94(1):77-81
155. Cheng B et al (2016) Situation-aware IoT service coordination using the event-driven SOA paradigm. IEEE Trans Netw Serv Manag 13(2):349-361
156. Cheng B et al (2017) Situation-aware dynamic service coordination in an IoT environment. IEEE/ACM Trans Netw 25(4):2082-2095
157. Zhuang Y, Jiang N, Xu Y (2022) Progressive distributed and parallel similarity retrieval of large CT image sequences in mobile telemedicine networks. Wirel Commun Mob Comput 2022:1-13
158. Tang Y et al (2021) An improved method for soft tissue modeling. Biomed Signal Process Control 65:102367
159. Zhang Z et al (2022) Endoscope image mosaic based on pyramid ORB. Biomed Signal Process Control 71:103261
160. Lu S et al (2023) Iterative reconstruction of low-dose CT based on differential sparse. Biomed Signal Process Control 79:104204
161. Lu S et al (2023) Soft tissue feature tracking based on deepmatching network. CMES Comput Model Eng Sci 136(1):363
162. Liu M et al (2023) Three-dimensional modeling of heart soft tissue motion. Appl Sci 13(4):2493
163. Heidari A et al (2023) A hybrid approach for latency and battery lifetime optimization in IoT devices through offloading and CNN learning. Sustain Comput Inform Syst 39:100899
164. Heidari A, Jafari Navimipour N, Unal M (2022) The history of computing in Iran (Persia)-since the achaemenid empire. Technologies 10(4):94
165. Ahmadpour S-S, Heidari A, Navimpour NJ, Asadi M-A, Yalcin S (2023) An efficient design of multiplier for using in nano-scale IoT systems using atomic silicon. IEEE Internet Things J 10(16):14908-14909. https://doi.org/10.1109/JIOT.2023. 3267165
166. Amiri Z, Heidari A, Navimipour NJ et al (2023) Adventures in data analysis: a systematic review of deep learning techniques for pattern recognition in cyber-physical-social systems. Multimed Tools Appl. https://doi.org/10.1007/s11042-023-16382-x
Publisher’s Note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

  1. Arash Heidari
    arash_heidari@ieee.org
    Nima Jafari Navimipour
    nima.navimipour@khas.edu.tr; jnnima@khas.edu.tw
    1 Department of Computer Engineering, Tabriz Branch, Islamic Azad University, Tabriz, Iran
    2 Department of Software Engineering, Haliç University, 34060 Istanbul, Turkey
    3 Department of Computer Engineering, Kadir Has University, Istanbul, Turkey
    4 Future Technology Research Center, National Yunlin University of Science and Technology, 64002 Douliou, Yunlin, Taiwan
    5 Computer Engineering Department, Hamedan Branch, Islamic Azad University, Hamedan, Iran
    Immunology Research Center, Tabriz University of Medical Sciences, Tabriz, Iran