استخدام التعلم العميق والتعلم الانتقالي للكشف الدقيق عن أورام الدماغ Employing deep learning and transfer learning for accurate brain tumor detection

المجلة: Scientific Reports، المجلد: 14، العدد: 1
DOI: https://doi.org/10.1038/s41598-024-57970-7
PMID: https://pubmed.ncbi.nlm.nih.gov/38538708
تاريخ النشر: 2024-03-27

استخدام التعلم العميق والتعلم الانتقالي للكشف الدقيق عن أورام الدماغ

سانديب كومار ماثيفانان سريديفي سوناميثو سانكار موروغيسان هاريهاران راجادوراي باسو ديف شيفاهاري ومحمد عاصف شاه

الملخص

تُستخدم طرق التعلم العميق المدعومة بالذكاء الاصطناعي لتشخيص أورام الدماغ بدقة عالية، وذلك بفضل قدرتها على معالجة كميات كبيرة من البيانات. تُعتبر التصوير بالرنين المغناطيسي المعيار الذهبي لتشخيص أورام الدماغ باستخدام رؤية الآلة، متفوقةً على التصوير المقطعي المحوسب، والأشعة فوق الصوتية، وتصوير الأشعة السينية من حيث الفعالية. على الرغم من ذلك، يبقى تشخيص أورام الدماغ مسعىً صعبًا بسبب التركيبة المعقدة للدماغ. تتناول هذه الدراسة إمكانيات هياكل التعلم العميق للنقل لرفع دقة تشخيص أورام الدماغ. يُعتبر التعلم بالنقل تقنية في التعلم الآلي تسمح لنا بإعادة استخدام النماذج المدربة مسبقًا في مهام جديدة. يمكن أن يكون هذا مفيدًا بشكل خاص لمهام التصوير الطبي، حيث غالبًا ما تكون البيانات المصنفة نادرة. تم تقييم أربعة هياكل مختلفة للتعلم بالنقل في هذه الدراسة: ResNet152، VGG19، DenseNet169، وMobileNetv3. تم تدريب النماذج والتحقق من صحتها على مجموعة بيانات من قاعدة بيانات مرجعية: كاجل. تم اعتماد التحقق المتقاطع بخمس طيات للتدريب والاختبار. لتعزيز توازن مجموعة البيانات وتحسين أداء النماذج، تم تطبيق تقنيات تحسين الصور على البيانات لأربع فئات: الغدة النخامية، الطبيعية، المينينجيوما، والجلوم. حقق MobileNetv3 أعلى دقة بلغت 99.75%، متفوقًا بشكل كبير على الطرق الأخرى الموجودة. يُظهر هذا إمكانيات هياكل التعلم العميق للنقل في إحداث ثورة في مجال تشخيص أورام الدماغ.

الكلمات الرئيسية: الذكاء الاصطناعي، ورم الدماغ، التعلم الانتقالي، التشخيص، التصوير الطبي
الدماغ البشري، الموجود في الجمجمة، هو عضو حيوي مسؤول عن وظائف متنوعة، تحكمه شبكة من مليارات الخلايا العصبية التي تنسق النبضات الكهربائية والكيميائية، مما يشكل تجاربنا ووجودنا. . هذا العضو الاستثنائي هو محور في مجالات الإدراك والعاطفة والشخصية. يتكون من مكونات متميزة، كل منها له دور متخصص، ويجسد الدماغ التعقيد. القشرة الدماغية، وهي طبقة خارجية ملتوية، تتولى زمام الوعي، بينما يتحمل المخيخ مسؤولية التوازن والتنسيق. . هذه التعاون المتناغم بين مناطق الدماغ المختلفة ضروري للتنسيق السلس لأنشطتنا اليومية واستجاباتنا للعالم من حولنا. ومع ذلك، فإن الطبيعة المرنة للدماغ لا تحميه تمامًا من التهديدات. ظهور نمو خلوي غير طبيعي، محاطًا ككتلة أو ورم، يُعرف باسم ورم أو نسيج جديد. يمكن العثور على الأورام في أعضاء مختلفة، بما في ذلك الدماغ. التمييز بين الأورام الحميدة والخبيثة أمر حاسم لفهم تأثيرها على الصحة. الأورام الحميدة، التي تكون بطيئة ومحدودة، أقل خطورة ولكن يمكن أن تشكل تهديدًا إذا اقتحمت الأعضاء أو الأنسجة الحيوية. الأورام الخبيثة عدوانية ويمكن أن تغزو الأنسجة المحيطة وتنتشر من خلال النقائل. إن فهم نمو وسلوك هذه الأورام أمر بالغ الأهمية للتدخل في الوقت المناسب والحفاظ على الوظائف المعقدة للدماغ البشري، الذي يعد معجزة تنسج نسيج التجربة الإنسانية. ورم الدماغ هو تجمع غير طبيعي للخلايا داخل الدماغ، والذي يمكن أن يظهر إما مباشرة من نسيج الدماغ أو يتسلل إلى الدماغ من خلال النقائل، حيث تنتشر الخلايا السرطانية من أجزاء أخرى من الجسم إلى الدماغ. تشخيص أورام الدماغ يتضمن نهجًا شاملاً، غالبًا ما يتضمن اختبارات التصوير وخزعة لتحديد خصائص الأورام ودرجتها. يشمل الطيف المتنوع من أورام الدماغ الأورام الناشئة من خلايا مختلفة.
أنواع، كل منها يحمل تحديات وآثار فريدة تؤثر على أساليب التشخيص واستراتيجيات العلاج ونتائج المرضى يمكن أن تتطور الأورام الدبقية الخبيثة، التي تنشأ من خلايا الدماع في الدماغ، في أي منطقة من مناطق الدماغ وتتطلب تدخلات علاجية مستهدفة للتنقل عبر المصفوفة الخلوية، مما يبرز الحاجة إلى علاج فعال في هذا النوع من الأورام القوية. الورم السحائي، وهو فئة مميزة من الأورام، ينشأ في السحايا، الأغشية الواقية التي تحيط بالدماغ والحبل الشوكي. ومن المثير للاهتمام أن معظم الأورام السحائية تعتبر حميدة نسبيًا وغالبًا لا تشكل تهديدًا فوريًا للصحة. الغدة النخامية، الواقعة في قاعدة الدماغ، يمكن أن تسبب الأورام الغدية، وهي أورام تعطل تنظيم الهرمونات، والأورام الشوانية، التي تنشأ من خلايا الشوان المسؤولة عن إنشاء غلاف المايلين الذي يحمي الألياف العصبية. الورم الدبقي، وهو أكثر أنواع أورام الدماغ خبيثة وعدوانية، يشكل تحديات كبيرة في التشخيص والعلاج. إن فهم تعقيدات هذه الأورام الدماغية المتنوعة أمر بالغ الأهمية لتكييف استراتيجيات العلاج الفعالة، مما يضيف تعقيدًا لفهم علم الأمراض الدماغية. .
السعي المستمر نحو المعرفة في علم الأورام العصبية يحمل وعدًا بتقدم تقنيات التشخيص والتدخلات العلاجية، مما يوفر شعاعًا من الأمل للأفراد الذين يواجهون تعقيدات هذه الاقتحامات القوية في المجال الحساس للدماغ البشري. لقد حسنت دمج التعلم العميق والذكاء الاصطناعي (AI) بشكل كبير تحليل الصور الطبية، مما أدى إلى تقدم كبير في الكشف والتشخيص وتوصيف مختلف الحالات الطبية. وقد مكن ذلك المتخصصين في الرعاية الصحية من اتخاذ قرارات أكثر استنارة، لا سيما في التصنيف الدقيق لأنواع السرطان، مثل سرطان الرئة وسرطان الثدي. وقد أسفر هذا الدمج عن تشخيصات مبكرة، وتحسين قرارات العلاج، وتحسين نتائج المرضى. تلعب الذكاء الاصطناعي دورًا حاسمًا في تخطيط الجراحة، مما يمكّن من تقسيم دقيق لحدود الآفات والهياكل الدماغية، مع تحقيق توازن بين التدخل والحفاظ على جودة الحياة. يتنبأ بالمضاعفات ومعدلات التكرار والاستجابات العلاجية، مما يوجه استراتيجيات المتابعة المثلى ويمكّن من توجيه المرضى بشكل شخصي من خلال بروتوكولات الفحص المخصصة. تعلم النقل (TL) هو تقنية في تعلم الآلة حظيت باهتمام كبير في المجال الطبي، حيث تركز على الاستفادة من النماذج الموجودة مسبقًا المدربة على مجموعات بيانات كبيرة لأداء مهام محددة. التعلم بالنقل هو أداة حاسمة في تحليل الصور الطبية، مما يمكّن من إنشاء نماذج عالية الأداء مع تقليل وقت التدريب وتكلفة الحوسبة. مع تطور هذا المجال، من المتوقع أن يلعب التعلم بالنقل دورًا أكثر أهمية في تحسين رعاية المرضى. لقد أظهرت نماذج التعلم بالنقل المختلفة، بما في ذلك VGG وResNet وInception وMobileNet وDenseNet، فعالية ملحوظة في هذا المجال. تُستخدم نماذج التعلم الانتقالي، التي تستفيد من عمق وتعقيد الشبكات العصبية، لتحديد الأنماط المعقدة في الصور الطبية. يمتد هذا النهج المتنوع إلى ما هو أبعد من هذه الهياكل المعروفة، حيث تساهم العديد من النماذج الأخرى في توسيع مجموعة الأدوات المتاحة لتحليل الصور الطبية. لقد سرعت تقنية التعلم بالنقل في تصوير الطب بشكل كبير من عملية التطوير وحسنت من أداء ودقة النماذج المدربة مسبقًا، مما أتاح تشخيصات أسرع وأكثر دقة للآفات السرطانية، لا سيما في تحديد وتصنيف الآفات السرطانية. . إن المكاسب في الكفاءة التي تم تحقيقها من خلال نماذج التعلم بالنقل لها آثار كبيرة على رعاية المرضى، حيث إن الكشف المبكر والتصنيف الدقيق لأنواع السرطان أمران أساسيان لبدء استراتيجيات العلاج المستهدفة وفي الوقت المناسب. مع استمرار تطور التآزر بين التعلم العميق والذكاء الاصطناعي والتعلم بالنقل، فإن مشهد تحليل الصور الطبية مستعد لتغيير تحويلي. إن دمج هذه التقنيات لا يعزز فقط قدرات المتخصصين في الرعاية الصحية، بل يحمل أيضًا وعدًا بتحسين نتائج المرضى وإعادة تشكيل نموذج التشخيص الطبي. في دراستنا، قمنا بمقارنة أربعة نماذج للتعلم بالنقل – VGG19 و ResNet152 و DenseNet169 و MobileNetv3 – لتحديد أي منها هو الأكثر فعالية في تصنيف بيانات التصوير بالرنين المغناطيسي للدماغ. تكمن المساهمة الرئيسية لورقتنا في الاستخدام المبتكر للتعلم بالنقل والتعديل الدقيق على صور الرنين المغناطيسي لتصنيف أورام الدماغ إلى أربع مجموعات.
(ط) قمنا بتعديل نماذج التعلم بالنقل بعد المعالجة وطبقناها على ثلاثة مجموعات بيانات مرجعية لتحسين أدائها. بالإضافة إلى ذلك، قمنا بتحسين نماذج مثل ResNet152 و VGG19 و DenseNet169 و MobileNetv3 من خلال إضافة طبقة متصلة بالكامل واحدة.
(2) لإجراء مقارنة ذات مغزى، أنشأنا معيارًا يمكن من خلاله تقييم منهجيات التعلم بالنقل المقترحة لدينا مقارنةً بالأبحاث السابقة. النتيجة الرئيسية لدراستنا هي تحقيق أقصى دقة. أظهر MobileNetv3 دقة استثنائية قدرها في سياق تاريخي، بينما حقق InceptionV3 دقة ملحوظة قدرها في السيناريوهات التشغيلية.
(3) يسمح التعلم بالنقل بالاستفادة من النماذج المدربة مسبقًا، وهو مفيد بشكل خاص عند التعامل مع بيانات طبية محدودة معلمة.
(4) حقق MobileNetv3، وهو هيكل محدد للتعلم بالنقل، دقة استثنائية في تشخيص أورام الدماغ.
(5) تسلط هذه النتائج الضوء على فعالية منهجيات التعلم بالنقل لدينا في تصنيف أورام الدماغ، مما يظهر تأثيرها المحتمل على تعزيز دقة التشخيص في تحليل الصور الطبية.
تم هيكلة المقالة على النحو التالي: القسم “الأعمال ذات الصلة”: يقدم نظرة عامة موجزة عن الأدبيات ذات الصلة. القسم “المواد والأساليب”: يقدم المنهجية المقترحة ويحدد إعداد التجربة، بما في ذلك إعداد البيانات، وتدريب النموذج، وتقييم الأداء. القسم “النتائج التجريبية والمناقشة”: يقدم النتائج التجريبية وتحليلها الشامل. القسم “الاستنتاج والعمل المستقبلي”: يختتم المقالة بملخص للنتائج ويحدد الاتجاهات المحتملة للبحث المستقبلي.
من خلال الاستفادة من قوة الشبكات العصبية التلافيفية العميقة، قمنا بتطوير إطار عمل عالي الدقة لتصنيف أورام الدماغ إلى ثلاث فئات متميزة: السحائية، والورم الدبقي، والأدينوم النخامي. تعتمد مقاربتنا المقترحة على ثلاث هياكل مختلفة من الشبكات العصبية التلافيفية، وهي AlexNet و GoogLeNet و VGGNet، لاستخراج ميزات ذات صلة وقوية من صور الرنين المغناطيسي. لتعزيز أداء نماذجنا، استخدمنا استراتيجيات التعلم بالنقل، بما في ذلك التعديل الدقيق والتجميد، وتقنيات زيادة البيانات لتوسيع مجموعة البيانات
وتقليل الإفراط في التخصيص. أظهرت التجارب الواسعة باستخدام مجموعة بيانات أورام الدماغ من Figshare أن هيكل VGG16 المحسن حقق دقة تصنيف وكشف مثيرة للإعجاب تصل إلى ، مما يوضح فعالية إطار العمل المقترح لدينا في تصنيف أورام الدماغ بدقة . في هذه الدراسة، تم استخدام شبكة عصبية احتمالية (PNN) لتصنيف صور الرنين المغناطيسي للدماغ. تم اختيار PNN بسبب هيكله البسيط وعملية تدريبه السريعة. تم استخدام مجموعة بيانات مكونة من 30 عينة من صور الرنين المغناطيسي للدماغ لتدريب مصنف PNN، وتم تقييم أدائه باستخدام 12 مجموعة مختلفة من الصور. تم اختبار المصنف المدرب مع مجموعة من عوامل التنعيم، بما في ذلك الانتشار. تظهر النتائج التجريبية أن مصنف PNN يحقق دقة قدرها ، والتي تعتبر فعالة بالنظر إلى قيمة الانتشار . تستخدم الطريقة المقترحة هيكلًا من ثلاث خطوات لتحسين الوضوح. في البداية، يتم دمج المعلومات السياقية من خلال تعزيز منطقة الورم وتحديدها كمنطقة الاهتمام. بعد ذلك، يقوم خوارزمية تقسيم مكاني تكيفي، تستند إلى ترتيب الكثافة، بتقسيم منطقة الورم الموسعة إلى مناطق فرعية. يتم استخراج قطع الصور الخام، التي تعمل كخصائص محلية، من هذه المناطق الفرعية. في الخطوة النهائية، يتم استخدام إطار عمل Fisher kernel لدمج الخصائص المحلية لكل منطقة فرعية في تمثيل متجه واحد. يؤدي دمج هذه التمثيلات إلى إنشاء توقيع على مستوى الصورة. بعد ذلك، يتم إجراء المقارنة بين الصورة الاستعلام والصور المخزنة في قاعدة البيانات باستخدام طريقة تعلم المقياس المغلق بعد استخراج الميزات. تظهر التقييمات، التي تم إجراؤها على مجموعة بيانات كبيرة تتكون من 3604 صورة تحتوي على السحائيات والأورام الدبقية والأورام النخامية، دقة متوسطة مثيرة للإعجاب قدرها في دراسات واسعة النطاق .
يمكن اكتشاف العلامات المبكرة لمرض باركنسون (PD) في خط يد الشخص. من خلال الاستفادة من استراتيجيات التعلم بالنقل وزيادة البيانات، تقدم هذه الدراسة مصنفًا جديدًا للشبكات العصبية التلافيفية (CNN) لتشخيص PD بدقة. تم تقييم طريقتين للتعلم بالنقل، التجميد والتعديل الدقيق، باستخدام مجموعات بيانات ImageNet و MNIST كمهام مصدر. أدت استراتيجية تعتمد على التعديل الدقيق المطبقة على مجموعات بيانات ImageNet و PaHaW إلى شبكة مدربة بدقة قدرها . تستخدم هذه الدراسة تقنية تعلم عميقة متقدمة لتحديد وتصنيف أورام الدماغ في صور الرنين المغناطيسي. يعد تشخيص أورام الدماغ، وهو مهمة حاسمة، عملية تستغرق وقتًا طويلاً وتتطلب جهدًا كبيرًا من أطباء الأشعة. تعتمد تقييماتهم فقط على خبراتهم وأحكامهم الفردية، والتي غالبًا ما تكون غير دقيقة. لمعالجة التحدي المتزايد لتشخيص أورام الدماغ بدقة، تستخدم هذه الدراسة التعلم العميق لتصنيف صور الرنين المغناطيسي لأورام الدماغ بدقة عالية. تم استخدام نموذج التعلم بالنقل للشبكة العصبية التلافيفية (CNN) من AlexNet لهذا الغرض. تعمل تقنيتنا على تبسيط العملية التشخيصية بالكامل، محققة دقة قدرها ، مما يعزز المرونة والكفاءة والدقة في الرعاية الصحية . لقد حول دمج الذكاء الاصطناعي (AI)، وخاصة من خلال الاستفادة من التعلم العميق (DL)، مشهد تصنيف واكتشاف الحالات الطبية المعقدة، مثل أورام الدماغ وغيرها من الأمراض الخطيرة. لقد أظهر التعلم العميق كفاءة استثنائية في تقسيم وتصنيف أورام الدماغ بدقة. تقدم هذه الدراسة منهجية مدفوعة بالذكاء الاصطناعي لتصنيف أورام الدماغ، باستخدام خوارزميات التعلم العميق واستغلال مجموعات البيانات المتاحة للجمهور. تصنف هذه المجموعات أورام الدماغ إلى مجموعتين: خبيثة وغير سرطانية، وتتكون من مجموعة اختبار مكونة من 696 صورة ذات وزن T1. تحقق الطريقة المقترحة أداءً ملحوظًا، حيث تحقق دقة قصوى قدرها . تسلط هذه النتائج الضوء على فعالية الخوارزمية المقترحة في التصنيف الدقيق لأورام الدماغ . تهدف هذه الدراسة إلى أتمتة اكتشاف وتشخيص أورام الدماغ من خلال تنفيذ تقنية تصنيف دقيقة. يتم مقارنة أداء تسعة مصنفات للتعلم بالنقل المدرب مسبقًا، وهي InceptionResNetV2 و InceptionV3 و Xception و ResNet18 و ResNet50 و ResNet101 و ShuffleNet و DenseNet201 و MobileNetV2، بشكل منهجي. تستخدم التقييمات مجموعة بيانات متاحة للجمهور لتصنيف أورام الدماغ (MRI) مأخوذة من Kaggle. من الجدير بالذكر أن طريقة InceptionResNetV2 للتعلم بالنقل تتفوق على تقنيات التعلم العميق الأخرى، محققة دقة مثيرة للإعجاب ( )، ودقة ( )، واسترجاع ( )، وقيمة F-measure ( ) . إن اعتماد استراتيجية تعلم البيانات الوصفية متعددة الطبقات ودمج طبقة الشبكة العصبية التلافيفية (CNN) يسهل تصنيف صور الرنين المغناطيسي للدماغ بدقة. للتعامل بفعالية مع البيانات عالية الأبعاد، يتم استخدام تقديرات الترميز النادر، بينما يعمل الترميز القائم على البيانات الوصفية كخطة ترميز. هذه الطريقة المبتكرة تحقق نتائج مثيرة للإعجاب من حيث التصنيف، سواء من الناحية الموضوعية أو الذاتية. تم التحقق منها باستخدام مجموعتي بيانات، BRATS وREMBRANDT، حيث يتفوق خوارزم تصنيف صور الرنين المغناطيسي للدماغ المقترح على أداء الطرق الحالية . باستخدام نهج متعدد المراحل، يبدأ الأسلوب المقترح بمعالجة صور الرنين المغناطيسي لإزالة الضوضاء والعيوب باستخدام فلتر تكيفي. بعد ذلك، يتم تطبيق تجميع فازي معزز (EFCMC) لتقسيم الصور، تليها استخراج الميزات باستخدام مصفوفة تكرار المستوى الرمادي المحلي (LBGLCM). تحقق هذه الاستراتيجية الشاملة أداء تصنيف ملحوظ، حيث تصل إلى حساسية قدرها , وخصوصية قدرها , ودقة قدرها في تصنيف أورام الدماغ .
تُستخدم كاشفات حواف كيرش لتحديد بكسلات حواف الحدود، تليها تحسين تباين تكييف هيستوجرام لتعزيز صورة الدماغ. بعد ذلك، يتم تحويل صورة الدماغ المعززة باستخدام تحويل Ridgelet للحصول على معاملات متعددة الدقة. يتم استخراج الميزات من معاملات Ridgelet المحولة، وتحسينها باستخدام PCA، وتصنيفها كغليوما أو غير غليوما باستخدام مصنف نظام الخبراء العصبي الضبابي التكيفي المشترك (CANFES). تحقق هذه المنهجية الشاملة أداء تصنيف ملحوظ، حيث تصل إلى حساسية، خصوصية، دقة، دقة، معدل الخطأ الإيجابي، و98.185 معدل الخطأ السلبي. بينما يمكن أن تعزز الصور المحتوى، إلا أنها ليست ضرورية دائمًا. في هذه الحالة، توفر الجملة المعدلة وصفًا واضحًا وموجزًا للمنهجية المقترحة وأدائها دون الحاجة إلى وسائل بصرية . هذه الدراسة تقدم طريقة جديدة لتصنيف أورام الدماغ باستخدام التعلم العميق للنقل، مع دمج تقنية جديدة للتعديل الدقيق ومصنف SVM. يتم تقييم استراتيجية التصنيف المعتمدة على التعلم العميق للنقل على مجموعة بيانات Figshare، التي تشمل أورام الدماغ من أصل السحايا، الغليوما، والغدة النخامية، تحت سيناريوهات مختلفة. تُظهر طريقة التعلم العميق للنقل المقترحة نتائج واعدة، حيث تحقق دقة مع بنية CNN ومصنف SVM، و دقة مع بنية ResNet-50 ومعلمات التعديل الدقيق . تم تطوير نموذج تجميعي خفيف الوزن لتحسين اكتشاف وتصنيف سرطان الدماغ باستخدام بيانات الرنين المغناطيسي. يتضمن النموذج معالجة مسبقة لصور الرنين المغناطيسي، واستخراج ميزات الكثافة، والملمس، والشكل. تم تقييم النموذج باستخدام مجموعة بيانات BraTS 2020 و
حقق أداءً ممتازًا، مع دقة، 0.94 دقة، 0.93 استرجاع، 0.94 درجة F1، وقيمة AUC-ROC قدرها 0.984. تقدم هذه الطريقة أداة قيمة للتشخيص المبكر والتخطيط الفعال للعلاج في سرطان الدماغ . الحل لتقسيم أورام الدماغ في التصوير الطبي، يستخدم بنية نموذج U-Net، المعروفة بأداء تقسيمها الدلالي، لتدريب النماذج على بيانات موزعة من مؤسسات طبية مختلفة. نهج التعلم الفيدرالي قابل للتوسع، مناسب للنشر على نطاق واسع في التصوير الطبي. تُظهر النتائج التجريبية تحسنًا كبيرًا في الخصوصية ومعامل دايس عند زيادة عدد العملاء. تتفوق الطريقة على الأساليب الحالية المعتمدة على CNN وRNN، محققة دقة وأداء وكفاءة أعلى. تحمل النتائج وعدًا بتبني أوسع في تطبيقات التصوير الطبي دون المساس بسرية البيانات . منهجية هجينة لتقسيم أورام الدماغ في صور الرنين المغناطيسي، تجمع بين الميزات اليدوية والشبكات العصبية التلافيفية. تستخرج الطريقة الميزات من صور الرنين المغناطيسي وتدرب بنية CNN لاكتشاف البيانات ذات الصلة. قامت مجموعة بيانات تحدي تقسيم أورام الدماغ بتقييم أداء النهج الهجين، حيث أظهرت أداءً متفوقًا مقارنة بالطرق التقليدية. تحمل الأبحاث وعدًا لتطبيقات سريرية في العالم الحقيقي . استراتيجية متسلسلة لتقسيم أورام الدماغ، تدمج الشبكات العصبية التلافيفية (CNNs) مع خوارزميات التعلم الآلي المعتمدة على الميزات اليدوية. تستخدم الطريقة بيانات من أربعة أوضاع للرنين المغناطيسي وشبكة عصبية تلافيفية عالمية (GCNN). حقق النموذج درجة دايس قدرها ، متفوقًا على الأساليب الحديثة. هذه الطريقة المبتكرة لديها القدرة على تعزيز تقسيم أورام الدماغ بشكل كبير، مما يساعد الأطباء في تشخيص وعلاج المرضى، وتقليل التكلفة، والوقت، والخطأ في التقسيم اليدوي . الجدول 1 يقدم نظرة شاملة على الأساليب الحديثة المختلفة التي تم دمجها في نموذجنا المقترح.

المواد والطرق
المادة

لتدريب النموذج، استخدمنا مجموعة بيانات أورام الدماغ المستمدة من Kaggle . تشمل هذه المجموعة صور الرنين المغناطيسي لدماغ 7,023 فردًا، بما في ذلك أولئك الذين يعانون من أورام دماغية وأولئك الذين لا يعانون. تتضمن حالات من السحايا، الغليوما، أورام الغدة النخامية، وغير الأورام. تحتوي كل فئة ضمن هذه المجموعة على أكثر من 1,600 صورة عالية الجودة. يقدم الجدول 2 توزيع الصور عبر مجموعات التدريب والاختبار. تتكون مجموعة البيانات من إجمالي 7,023 صورة. من بين هذه الصور، تُستخدم للتدريب، بينما تُستخدم للاختبار. من بين هذه الصور، 1405 طبيعية، و5618 خبيثة. توضح الشكل 1 تكرار كل نوع من أنواع تصوير أورام الدماغ. يكشف أنه يوجد حوالي 1,800 صورة في فئة لا ورم، و1,757 صورة في فئة الغدة النخامية، و1,645 صورة في فئة الغليوما، و1,621 صورة في فئة السحايا.
المؤلف السنة مجموعة البيانات الطريقة القيود
أرشيا رحمن 2019 Figshare AlexNet، GoogLeNet، VGGNet غياب تحليل عميق أو تفسير لقابلية تفسير النموذج
تسنيم آزاد عبير 2018 Kaggle PNN نقص في التحليل التفصيلي أو المناقشة بشأن التحيزات المحتملة الموجودة في بيانات التدريب
جون تشينغ 2016 Figshare استرجاع الصور القائم على المحتوى نقص في المناقشة الصريحة أو الاعتبار للقيود المحتملة المتعلقة بتعميم الخوارزمية المقترحة على مجموعات بيانات خارجية أو إعدادات سريرية متنوعة
أمينة ناصر 2019 MNIST، PaHaW ImageNet غياب مناقشة أو تحليل مفصل بشأن التحيزات المحتملة الموجودة في مجموعات بيانات التدريب، وخاصة ImageNet وMNIST، التي تم استخدامها كمهام مصدر للتعلم بالنقل
باكاري بادجي 2022 Kaggle CNN الخاص بـ AlexNet نقص في الاعتبار الصريح أو المناقشة حول قابلية تفسير نموذج التعلم العميق
راجات مهروترا 2020 Figshare CNN غياب تحليل شامل أو مناقشة حول التأثير المحتمل لعدم توازن الفئات في مجموعة البيانات على أداء النموذج
نعيم الله 2022 Kaggle Inceptionresnetv2 الأداء الضعيف نسبيًا للنماذج المدربة مسبقًا عند استخدامها كتصنيفات مستقلة
سارافانان 2022 BRATS، REMBRANDT CDBLNL نقص في الوضوح أو المناقشة التفصيلية بشأن القيود أو التحديات المحتملة المرتبطة بنموذج CDBLNL المقترح
سارافانان سرينيفاسان 2023 REMBRANDT RNN التلافيفية أحد العيوب في العمل المقدم هو نقص التحليل التفصيلي أو المناقشة حول قابلية تفسير نموذج CRNN (الشبكة العصبية التلافيفية المتكررة) المقترح
بشتيوان جبار كريم 2023 Figshare CNN + SVM المعدل نقص في المناقشة التفصيلية أو استكشاف التحيزات المحتملة في مجموعة بيانات Figshare المستخدمة للتقييم. يمكن أن تؤثر التحيزات في مجموعات البيانات الطبية، خاصة المتعلقة بأورام الدماغ، بشكل كبير على قابلية تعميم طريقة التصنيف المقترحة
الجدول 1. تفاصيل الأساليب الحديثة.
المرحلة خبيث (80%) طبيعي (20%) الإجمالي
تدريب 4494 1124 5618
اختبار 1124 281 1405
الإجمالي 5618 1405 7023
الجدول 2. مجموعة بيانات التدريب والاختبار لكل فئة.
الشكل 1. مخطط دائري يوضح توزيع الصور عبر فئات الأورام.

طرق

النموذج المقترح، الموضح في الشكل 2، يستخدم أربعة أساليب معروفة في التعلم الانتقالي – ResNet152 و VGG19 و DenseNet169 و MobileNetv3 – لإنشاء أربع فئات لتحليل وتقدير الإطار الموصى به. تمر البيانات بأربعة تقنيات للتعلم الانتقالي، وبعد التحليل، يتم تقسيمها إلى مجموعة التدريب و مجموعة الاختبار. هذا الانقسام حاسم لتدريب النموذج، والتحقق من أدائه، وتقييم قابليته للتعميم. النموذج المقترح يثبت موثوقيته في سيناريوهات متنوعة. في هذه الدراسة، نستخدم تعزيز الصور، وهي تقنية رئيسية تستخدم ImageDataGenerator من Keras، لتوسيع مجموعة البيانات لتدريب نموذج تعلم عميق في تشخيص أورام الدماغ. من خلال إنشاء نسخ معدلة من الصور مع تدويرات، وتكبير، وتقليب، يتعرض النموذج لمجموعة أوسع من التغيرات، مما يحسن قدرته على التعامل مع بيانات جديدة. هذا أمر حيوي لمحاكاة التباين في التصوير الطبي، مما يجعل النموذج أكثر قوة أمام الضوضاء والتغيرات. الهدف النهائي هو بناء نموذج تعلم عميق موثوق وقوي، خاصة في المجال الطبي حيث تكون البيانات محدودة، والتكيف مع الحالات المتنوعة وغير المرئية أمر حاسم. إنه يقدم تغييرات مثل التدويرات، والتقليب، والإزاحة، والتكبير، مما يساهم في توازن الفئات أثناء تدريب النموذج.
تساهم هذه الاستراتيجية في زيادة البيانات في إنشاء مجموعة بيانات تدريبية أكثر شمولاً وتنوعًا، مما يمكّن النموذج من التعميم بشكل أفضل عبر مجموعة متنوعة من السيناريوهات. إن استخدام ImageDataGenerator أثناء تدريب النموذج يوفر ميزة مزدوجة. أولاً، يضمن أن النموذج التعليمي العميق يتعرض لمجموعة أغنى من أمثلة التدريب، مما يسهل تعلم الأنماط والميزات المعقدة بشكل أفضل. ثانيًا، تعزز عملية توليد الصور المعززة تلقائيًا من قوة النموذج من خلال جعله أقل عرضة للتكيف المفرط وأكثر قدرة على التكيف مع تنوع المدخلات. لقد تم الاعتراف بهذه الطريقة المدفوعة بالزيادة لفعاليتها في تحسين الأداء العام لنماذج التعلم العميق، مما يؤدي إلى تحسين الدقة والمرونة في التطبيقات الواقعية. تظهر الشكل 3 الصور العادية والمُعزَّزة لرنين الدماغ المغناطيسي.
الشكل 2. نموذج الهيكل المقترح.
الشكل 3. التكبير (أ) عادي؛ (ب) صور مكبرة.

تقييم نموذج التعلم المنقول

تعلم النقل هو تقنية في تعلم الآلة تتيح لنموذج تم تدريبه لمهمة واحدة أن يُعاد استخدامه لمهمة مختلفة ولكن ذات صلة. تقلل هذه الطريقة من الوقت والجهد المطلوبين لتطوير نماذج عالية الأداء، خاصةً للمهام المعقدة مثل التعرف على الصور ومعالجة اللغة الطبيعية. من خلال ضبط أوزان نموذج موجود، يمكن للباحثين مواجهة تحديات جديدة بفعالية. يستفيد تعلم النقل من المعرفة المكتسبة من مجموعة بيانات كبيرة خلال التدريب الأولي، مما يسمح للنموذج بمواجهة تحديات جديدة بفعالية. تتناقض هذه الطريقة مع الطريقة التقليدية لتدريب نموذج من الصفر، والتي يمكن أن تكون مستهلكة للوقت والموارد. لقد أثبت تعلم النقل نجاحه في مجالات متنوعة، بما في ذلك تحديد الصور، ومعالجة اللغة الطبيعية، والتعرف على الكلام، خاصة في السيناريوهات التي تحتوي على بيانات تدريب محدودة. في هذا العمل، تم استخدام أربعة نماذج مختلفة لتعلم النقل، كل منها يستخدم صورة مدخلة بحجم RGB ( لضمان التوحيد عبر جميع النماذج. لقد لعب التعلم المنقول دورًا حاسمًا في العديد من تطبيقات التعلم العميق، بما في ذلك تصنيف الصور، والتعرف على الكائنات، وتشخيص الحالات الطبية.
ResNet152. ResNet-152 هو هيكل شبكة عصبية تلافيفية عميقة تم تطويره بواسطة أبحاث مايكروسوفت، ويحتوي على 152 طبقة. الابتكار الرئيسي فيه هو إدخال الاتصالات المتبقية أو الاتصالات المتجاوزة، التي تمكّن الشبكة من تعلم الوظائف المتبقية، مما يسهل تدريب الشبكات العميقة جداً. عمق ResNet-152 يسمح له باستخراج ميزات وأنماط معقدة من البيانات، مما يجعله فعالاً في مهام مثل تصنيف الصور والتعرف على الكائنات. هذا العمق المعماري، جنبًا إلى جنب مع الاتصالات المتجاوزة، يعالج مشكلة تلاشي التدرج، مما يسهل تدريب الشبكات العميقة للغاية كما هو موضح في الشكل 4.
مجموعة الهندسة البصرية 19. VGG19 هي بنية شبكة عصبية تلافيفية عميقة، وهي تطور لبنية VGG16 الأصلية. تتكون من 19 طبقة، بما في ذلك 16 طبقة تلافيفية و3 طبقات متصلة بالكامل. تلتقط VGG19 أنماطًا وميزات معقدة في بيانات الصور من خلال بنيتها العميقة، التي تستخدم مرشحات الالتفاف لاستخراج الميزات تقلل طبقات التجميع الأقصى من الأبعاد المكانية للإدخال، مما يقلل من التعقيد الحسابي. الطبقات النهائية متصلة بالكامل، مما يسمح بالتنبؤات بناءً على الميزات عالية المستوى المستخرجة بواسطة طبقات الالتفاف. تستخدم VGG19 دالة تفعيل الوحدة الخطية المصححة (ReLU) للخطية. تُستخدم على نطاق واسع في تصنيف الصور، وقد أصبحت VGG19 معيارًا في رؤية الكمبيوتر. على الرغم من عمقها وبساطتها، فقد تم تجاوزها من قبل الهياكل الحديثة مثل ResNet وInception من حيث الأداء والكفاءة. توضح الشكل 5 بنية VGG19.
دينس نت 169. دينس نت 169 هو هيكل شبكة عصبية تلافيفية (CNN) مصمم للتغلب على التحديات في إعادة استخدام الميزات وتدفق التدرجات في الشبكات العميقة. سُمي بهذا الاسم نسبةً إلى 169 طبقة فيه، ويتميز بالاتصال الكثيف، حيث تتلقى كل طبقة مدخلات من جميع الطبقات السابقة، مما يعزز إعادة استخدام الميزات وتدفق المعلومات بشكل أفضل. لمعالجة التعقيد الحسابي، يستخدم دينس نت 169 طبقات عنق الزجاجة، التي تتضمن التفافات لتقليل عدد خرائط الميزات المدخلة كتل كثيفة، تحتوي كل منها على عدة
الشكل 4. بنية ResNet152.
الشكل 5. بنية VGG19.
تساهم الطبقات المتصلة بكثافة في العمق العام وقدرات استخراج الميزات. يتم استخدام طبقات الانتقال بين الكتل الكثيفة للتحكم في نمو خريطة الميزات وتقليل الأبعاد المكانية. تستخدم هياكل DenseNet عادةً التجميع المتوسط العالمي، مما يقلل من عدد المعلمات ويساعد في تحسين التعميم. لقد أظهرت DenseNet169 أداءً قويًا في مهام تصنيف الصور وتشتهر بكفاءتها في المعلمات، حيث تحقق دقة تنافسية مع عدد أقل من المعلمات مقارنةً بالهياكل الأخرى. توضح الشكل 6 هيكل DenseNet169.
MobileNetv3. MobileNetV3 هو هيكل شبكة عصبية مصمم للأجهزة المحمولة والأجهزة الطرفية ذات الموارد الحاسوبية المحدودة. إنه الإصدار الثالث من سلسلة MobileNet، مع التركيز على الكفاءة والسرعة والدقة. تشمل الميزات الرئيسية كتل بناء فعالة من حيث الموارد، ووزن خفيف للمخلفات المعكوسة، ونسختين: MobileNetV3-Large وMobileNetV3-Small. . تعمل هذه اللبنات الأساسية على تحسين حسابات واستخدام الذاكرة، مما يضمن تشغيلًا فعالًا على الأجهزة ذات الموارد المحدودة. تقلل البقايا المقلوبة من العبء الحسابي مع الحفاظ على قدرة الشبكة على استخراج ميزات ذات مغزى من بيانات الإدخال. يتوفر MobileNetV3 في نوعين: MobileNetV3-Large للموارد الحاسوبية المتوسطة وMobileNetV3-Small للقيود الصارمة. توضح الشكل 7 بنية MobileNetV3.
MobileNetV3 هو هيكل شبكة مصمم لمهام مثل تصنيف الصور، واكتشاف الكائنات، والتجزئة الدلالية. يستخدم دوال تفعيل غير خطية، مثل swish و hard-swish، لتحسين النموذج.
الشكل 6. بنية DenseNet169.
الشكل 7. هيكل MobileNetv3.
الدقة وتعلم حدود القرار الأكثر تعقيدًا. تُستخدم كتل الضغط والتحفيز الفعالة (SE) لإعادة معايرة الميزات على مستوى القناة، مما يعزز القدرة التمثيلية للشبكة. تُستخدم تقنيات مثل البحث في بنية الشبكة وتقليص الشبكة لتحسين البنية للنشر على الأجهزة ذات الموارد المحدودة. التصميم الخفيف لـ MobileNetV3 يجعله مناسبًا للنشر على الأجهزة المحمولة، مما يمكّن الاستدلال في الوقت الحقيقي على الأجهزة الطرفية ذات الموارد المحدودة. تتميز البنية بكتلة عنق الزجاجة، مما يسمح بالتعديل الديناميكي لأهمية القناة، مما يعزز الأداء. الجدول 3. المواصفات وكتلة عنق الزجاجة لـ MobileNetV3.

إعداد وتقييم التجارب

في هذه التجربة، تم استخدام مجموعة بيانات كبيرة من الصور، وتم تدريب نموذجنا على Google Colab. لضمان فعالية مراحل التدريب والاختبار، من الضروري الوصول إلى بيئة حوسبة قوية. تم استخدام Kaggle لإعادة نشر أسماء تدريب مجموعة البيانات. من المهم أن نفس مجموعة البيانات تم استخدامها لجميع النماذج المتقدمة، بما في ذلك مجموعة التدريب ومجموعة الاختبار. تم تدريب نموذج التعلم الانتقالي (TL) باستخدام مجموعة البيانات التدريبية المحددة، وتم تقييمه بعد ذلك باستخدام مجموعة البيانات الاختبارية المقابلة. يمكن أن يُعزى نجاح نماذجنا إلى المساهمات التعاونية من Sklearn وTensorFlow وKeras. لتحقيق أداء مثالي في جميع النماذج المتطورة، تم تحديد حجم الكتلة 128 ليكون الأكثر فعالية. توضح الجدول 4 تفاصيل المعلمات الفائقة لنماذج التعلم الانتقالي.
قمنا بتطبيق خسارة الانتروبيا المتقاطعة على كل من مجموعة التدريب ومجموعة الاختبار لكل عصر. تم تدريب جميع النماذج لمدة 50 عصرًا باستخدام مُحسِّن آدم بمعدل تعلم قدره 0.001. تُظهر الشكل 8 خسارة التدريب والتحقق لكل نموذج على مدار عصور التدريب. بالنسبة لنماذج ResNet152 و VGG19 و MobileNetv3، فإن خسائر التدريب والتحقق قريبة جدًا وأحيانًا تتداخل. ومع ذلك، يُظهر نموذج DenseNet169 سلوكًا مختلفًا. بينما تنخفض خسارة التدريب، تزداد خسارة التحقق في كل عصر. وهذا يشير إلى أن نموذج DenseNet169 قد يكون يعاني من الإفراط في التكيف مع بيانات التدريب. على النقيض من ذلك، يُظهر نموذج MobileNetv3 عملية تدريب مستقرة مع تقلبات طفيفة في كل من خسارة التدريب وخسارة التحقق. بنهاية التدريب، يحقق نموذج MobileNetv3 خسارة تدريب قدرها 0.0451 وخسارة تحقق قدرها 0.1265. بينما تحقق نماذج VGG19 و ResNet152 خسائر تدريب قدرها 0.0603 و 0.001 وخسائر تحقق قدرها 0.1862 و 0.010 على التوالي. من بين
مدخل مشغل حجم الإخراج خطوة
التفاف ثنائي الأبعاد 16 2
بنك 16 16 2
بنك 72 ٢٤ ٢
بنك ٨٨ ٢٤ 1
بنك 96 40 2
بنك ٢٤٠ 40 1
بنك ٢٤٠ 40 1
بنك ١٢٠ ٤٨ 1
بنك ١٤٤ ٤٨ 1
بنك ٢٨٨ 96 2
بنك 576 96 1
بنك 576 96 1
التفاف ثنائي الأبعاد 576 1
مسبح 1
التفاف ثنائي الأبعاد ن.ب.ن ١٠٢٤ 1
التفاف ثنائي الأبعاد ن.ب.ن ك 1
الجدول 3. المواصفات وكتلة عنق الزجاجة لـ MobileNetv3.
تQuantifying الأداء والتقييم تقييم نتائج القياس
حجم الدفعة 128
محسّن آدم
عدد العصور 50
معدل التعلم 0.001
معيار التقييم خسارة الانتروبيا المتقاطعة
تدريب التحقق المتقاطع بخمسة أضعاف
الجدول 4. المعلمات الفائقة لنماذج التعلم الانتقالي لتصنيف الصور.
الشكل 8. خسارة التدريب والاختبار لـ DenseNet169 و MobileNetv3 و VGG19 و ResNet152.
النماذج التي تم تقييمها، أظهرت ResNet152 أداءً متفوقًا، حيث حققت أدنى خسارة تحقق تبلغ 0.0241 عند العصر 39 ودقة تحقق تبلغ .
من بين النماذج التي تم تقييمها، أظهر DenseNet169 أقل خسارة في التحقق تبلغ 0.0664 في العصر 18 ولكنه شهد أكبر تقلب في كل من دقة التدريب والتحقق. وفي النهاية حقق دقة تدريب والتحقق تبلغ و على التوالي. كما أظهرت VGG19 و MobileNetv3 نتائج واعدة، حيث حققت VGG19 دقة تدريب وتحقق تبلغ و على التوالي، وحقق MobileNetv3 دقة تدريب وتحقق تبلغ و على التوالي. بينما كانت دقة التدريب والتحقق من الصحة لنموذج VGG19 مستقرة نسبيًا، أظهرت دقة التحقق من الصحة لنموذج MobileNetv3 بعض التقلبات. توضح الشكل 9 دقة التدريب والاختبار لأربعة نماذج تعلم انتقالية. توضح الجدول 5 دقة وفقدان قيم مرحلة التدريب ومرحلة الاختبار للنماذج الأربعة.

النتائج التجريبية والمناقشة

تستفيد نماذج التعلم المنقول المقترحة من مصفوفة الالتباس لتقييم أدائها، مستخدمة مقاييس مثل الدقة، والاسترجاع، ودرجة F1، والدقة العامة. توفر مصفوفة الالتباس، التي تكون عادةً مصفوفة مربعة، نظرة شاملة على أداء النموذج. تقدم الجدول 6 مصفوفة الالتباس، حيث تشير TP إلى الإيجابيات الحقيقية، وFP إلى الإيجابيات الكاذبة، وFN إلى السلبيات الكاذبة. يتم اشتقاق درجة F1 كمتوسط هارموني للدقة والاسترجاع.
قمنا بإجراء تقييم شامل لأداء نموذجنا، وتُعرض النتائج من خلال فحص مقاييس الأداء المختلفة. على وجه التحديد، في الشكل 10، نعرض مصفوفة الالتباس المرتبطة بنموذج MobileNet. مصفوفة الالتباس يعد أداة قيمة لتقييم نموذج
الشكل 9. دقة التدريب والاختبار لـ DenseNet169 و MobileNetv3 و VGG19 و ResNet152.
العمارة مرحلة التدريب مرحلة الاختبار
الدقة (%) خسارة الدقة (%) خسارة
ريزنت152 98.86 0.0603 ٩٦.٩٢ 0.1854
VGG19 99.07 0.0451 95.62 0.1245
دينس نت 169 99.22 0.0241 ٩٧.٥٣ 0.958
موبايل نت في3 99.75 0.0359 ٩٨.٥٢ 0.1272
الجدول 5. الأداء عبر أربعة نماذج تعلم نقل على مدى 50 حقبة.
إيجابي متوقع سلبي متوقع
إيجابي فعلي تي بي FN
سلبي فعلي FP TN
الجدول 6. صيغة مصفوفة الالتباس.
نتائج التصنيف. في هذه المصفوفة، يتم تصنيف أنواع الأورام بشكل منهجي من 0 إلى 3، حيث يتوافق كل معرف رقمي مع نوع ورم محدد: 0 لـ ‘الغدة النخامية’، 1 لـ ‘طبيعي’، 2 لـ ‘الورم السحائي’، و3 لـ ‘الورم الدبقي’. يسمح هذا الترقيم المنهجي بتمثيل واضح لنتائج تصنيف النموذج. عند الفحص الدقيق لمصفوفة الالتباس، يتضح أن نموذج MobileNet أظهر أداءً جديرًا بالثناء. على وجه التحديد، قام النموذج بتحديد 24 صورة تنتمي إلى فئة ‘الغدة النخامية’ بشكل صحيح، وصنف بدقة 24 صورة على أنها ‘لا ورم’، وتعرف على 43 صورة كـ ‘ورم سحائي’، وحدد بشكل صحيح 32 صورة كـ ‘ورم دبقي’.
الشكل 11، يوضح الصور المصنفة بشكل غير صحيح بواسطة النموذج المقترح. توفر هذه القيم العددية داخل المصفوفة رؤى قيمة حول فعالية النموذج في تصنيف الصور بدقة عبر فئات الأورام المختلفة. تلخص الجدول 7 مقاييس الأداء لأربعة نماذج تعلم نقل على مجموعة بيانات الاختبار، مما يوفر رؤى حول فعاليتها في التعامل مع المهمة المعطاة. حقق نموذج ResNet152 أعلى دقة، يليه VGG19، وDenseNet169، وMobileNetV3، التي أظهرت دقة جديرة بالثناء لكنها كانت متأخرة قليلاً. تم إجراء هذه التقييمات بعد تدريب كل نموذج لمدة 50 حقبة، مما يشير إلى أن
الشكل 10. مصفوفة الارتباك لـ MobileNetv3.
الشكل 11. مصنف بشكل غير صحيح بواسطة النموذج المقترح.
لقد تفوقت ResNet152 باستمرار على النماذج الأخرى. تبرز الهياكل المعمارية المتنوعة للنماذج الأربعة التوازنات الدقيقة بين الكفاءة الحاسوبية ودقة النموذج. تساعد هذه التحليل في تمييز نقاط القوة والضعف لديهم، مما يوفر رؤى قيمة لاتخاذ قرارات مستنيرة.

نقاش

يوفر الجدول 8 نظرة شاملة على مقاييس الدقة لجميع النماذج عند كل من الحد الأقصى والحد الأدنى لعدد العصور. يتفوق نموذج MobileNet على جميع النماذج الأخرى، محققًا أعلى دقة تدريب. في العصر 50 وأقصى دقة تحقق في العصر 45. لتسهيل التواصل الموجز والتدوين، نستخدم المصطلحات Mx_Acc و Mi_Acc لتمثيل الدقة القصوى والدقة الدنيا، على التوالي، و Mx_Ep و Mi_Ep لتمثيل الحد الأقصى من العصور والحد الأدنى من العصور، على التوالي. توضح الجدول 9 مدة مجموعة التدريب لكل عصر، مما يوفر رؤى حول الوقت المطلوب لاستثمار في تدريب النموذج على وحدة معالجة الرسوميات (GPU) في Google Collaboratory.
الهندسات فصل دقة استدعاء درجة F1 دقة
ريزنت152 الغدة النخامية 1 0.93 0.98 0.985
عادي 0.98 1 0.97
ورم السحايا 1 1 1
ورم دبقي 0.96 1 0.99
إجمالي 3.94 3.93 3.94
VGG19 الغدة النخامية 1 1 0.95 0.960
عادي 0.95 0.92 0.95
ورم السحايا 1 1 1
ورم دبقي 0.93 1 0.94
إجمالي 3.88 3.92 3.84
دينس نت 169 الغدة النخامية 1 0.85 0.94 0.9675
عادي 0.88 1 0.93
ورم السحايا 1 1 1
ورم دبقي 1 1 1
إجمالي 3.88 3.85 3.87
موبايل نت في3 الغدة النخامية 1 1 1 0.960
عادي 1 0.83 0.92
ورم السحايا 1 1 1
ورم دبقي 0.88 1 0.92
إجمالي 3.88 3.83 3.84
الجدول 7. أداء الاختبار الخماسي لأربعة نماذج تعلم نقل على مجموعة البيانات.
نموذج التعلم المنقول مرحلة م -إيصال م -إيبي مي-أك مي-إيبي
VGG19 تدريب ٩٨.٧٨ 50 70.22 1
اختبار ٩٦.٩١ 50 81.45 1
ريزنت152 تدريب 98.12 50 69.34 1
اختبار ٩٧.٧٨ ٤٥ 80.96 ٦
دينس نت 169 تدريب 99.08 ٣٨ 95.42 1
اختبار ٩٨.٦٨ ٤٧ 90.77 2
موبايل نت في3 تدريب 99.75 30 77.12 1
اختبار 99.52 ٤٦ 90.27 1
الجدول 8. ملخص الدقة عبر العصور لنماذج التعلم العميق المختلفة.
نماذج TL الجدول الزمني (س:د)
ريزنت152
VGG19
دينس نت 169
موبايل نت في3
الجدول 9. مدة التدريب حسب الحقبة لنماذج التعلم بالنقل.
تعتبر هذه المعلومات حاسمة لتحسين تخصيص الموارد وزيادة كفاءة إجراءات تدريب النماذج.
الكشف الدقيق وتصنيف أورام الدماغ في الصور الطبية، لا سيما تلك التي تم الحصول عليها من خلال التصوير بالرنين المغناطيسي والأشعة المقطعية، هي جوانب حاسمة في التشخيص الطبي. يعتبر التصوير بالرنين المغناطيسي أداة قوية للتشخيص الطبي، حيث يلعب دورًا كبيرًا في تشخيص وتصنيف أنواع مختلفة من أورام الدماغ. تلخص الجدول 8 والشكل 12 التقدم والتطورات المستقبلية المتوقعة في كشف وتصنيف أورام الدماغ، مقارنةً بالحالة الحالية مع ما نتوقع تحقيقه في المستقبل. نموذج MobileNetv3 هو جزء رئيسي من نهجنا المقترح وقد حقق معدل دقة مثير للإعجاب من . هذا يُظهر أن النموذج فعال في تمييز وتوقع وجود خلايا ورم الدماغ في الصور الطبية، مما يجعله أداة قيمة للتشخيص الطبي. توضح الجدول 10 مقارنة دقة التصنيف للنموذج المقترح والنماذج الأخرى الموجودة. تُظهر الشكل 12 مقارنة دقة التصنيف للنموذج المقترح والنماذج الأخرى.
وقت التدريب لنماذج التعلم الانتقالي
الشكل 12. الجدول الزمني للتدريب لأربعة نماذج تعلم نقل.
مؤلف سنة مجموعة بيانات طريقة الدقة (%)
تسنيم آزاد عبير 2018 كاجل PNN ٨٣.٣٣
باكاري بادجي ٢٠٢٢ كاجل شبكة أليكس نت العصبية 99.12
نعيم الله ٢٠٢٢ كاجل إنسيبشن ريزنت في2 ٩٨.٩١
سارافانان ٢٠٢٠ كاجل كانفيس ٩٨.٧٣
النموذج المقترح ٢٠٢٣ كاجل نهج التعلم بالنقل 99.75
الجدول 10. مقارنة دقة التصنيف للنموذج المقترح والنماذج الأخرى الموجودة.
طرق متطورة. توضح الشكل 13 بوضوح أن النموذج المقترح تفوق على النماذج الأخرى بدقة تبلغ .

الخاتمة والأعمال المستقبلية

في هذه الدراسة، نتعمق في تطبيق أساليب التعلم الانتقالي لتصنيف أورام الدماغ باستخدام صور الرنين المغناطيسي. تقوم الدراسة بتقييم دقيق لفعالية أربعة نماذج مختلفة من التعلم الانتقالي – ResNet152 و VGG19 و DenseNet169 و MobileNetv3 – عبر ثلاثة مجموعات بيانات متنوعة لصور أورام الدماغ. تشمل التقييمات مقاييس أداء حاسمة، بما في ذلك الدقة، والموثوقية، ودرجة F1، والاسترجاع. ومن المRemarkably، يظهر ResNet152 كالأفضل بين النماذج، حيث يحقق أداءً متميزًا بدقة تبلغ ، متجاوزًا أداء جميع النماذج الأخرى في الدراسة. بالإضافة إلى ذلك، يظهر MobileNetv3 فعالية استثنائية بدقة تبلغ مظهراً أدائه القوي في الدماغ
الشكل 13. مقارنة دقة الطرق المقترحة والطرق المتطورة.
تصنيف الأورام. من المهم أن نبرز أن هذه الدراسة تعتمد على مجموعة بيانات ثانوية. يمكن أن تستكشف الأبحاث المستقبلية توسيع تطبيق النموذج المقترح ليشمل صور الأشعة المقطعية، مما يعزز قابليته للتكيف. يحمل هذا التوسع إمكانية توسيع تأثير النموذج في التطبيقات الطبية. في الختام، يظهر النموذج المقترح، وخاصة ResNet152 وMobileNetv3، وعدًا كبيرًا في تقدم تصنيف الصور الطبية. إن التحقيق المستمر والاستكشاف، الذي يشمل مجموعة من طرق التصوير، يقدم إمكانية لاكتشاف رؤى قيمة يمكن أن تعزز بشكل كبير التطبيقات في التشخيص الطبي. من خلال توسيع الدراسة لتشمل تقنيات تصوير متنوعة تتجاوز فحوصات الرنين المغناطيسي التي تم فحصها حاليًا – مثل PET، والأشعة المقطعية، أو الموجات فوق الصوتية – يمكن للباحثين تحقيق فهم أكثر شمولاً لقابلية النموذج المقترح للتكيف وفعاليته عبر طيف أوسع من بيانات التصوير الطبي. إن دمج طرق التصوير المتنوعة لا يسمح فقط بتقييم أكثر شمولاً لأداء النموذج المقترح، بل يساهم أيضًا في مرونته وقابليته للتطبيق في السيناريوهات الطبية الواقعية. تأتي كل طريقة تصوير مع تحديات وخصائص فريدة، ويمكن أن يؤدي الاستكشاف الجماعي إلى تحسين قدرات النموذج المقترح مع تحديد مجالات للتحسين. تحتوي الدراسة على بعض القيود. لم تتحقق من مدى جودة عمل النموذج في مواقف مختلفة أو على مجموعات بيانات أخرى، مما يجعل من غير الواضح كيف سيؤدي في العالم الحقيقي. قد لا تمثل مجموعة البيانات المستخدمة جميع أنواع المرضى، مما يسبب تحيزات محتملة في التنبؤات. كما أن الدراسة لم تأخذ في الاعتبار تكاليف تدريب واستخدام النماذج، مما قد يكون مشكلة لاستخدامها في الرعاية الصحية. على الرغم من هذه القيود، ستسعى الأعمال المستقبلية إلى تحسين فائدة النموذج في بيئات الرعاية الصحية المختلفة. في المستقبل، نهدف إلى استكشاف المزيد من هياكل النماذج، وتحسين أدائها، وجعلها أكثر ملاءمة لمجموعات بيانات ومواقف سريرية مختلفة. ستركز الأبحاث المستمرة على التحقق من مدى جودة عمل هذه النماذج في العالم الحقيقي من خلال اختبارها على مجموعات بيانات مختلفة وفي بيئات سريرية متنوعة. بالإضافة إلى ذلك، نخطط لتحسين تقنيات تعزيز الصور لفئات الأورام المحددة لضمان مجموعة بيانات متوازنة جيدًا ونماذج قوية.

توفر البيانات

استخدمنا مجموعة البيانات المتوازنة المتاحة للجمهورhttps://www.kaggle.com/datasets/masoudnickparvar/مجموعة بيانات تصوير الرنين المغناطيسي لورم الدماغ
تاريخ الاستلام: 9 يناير 2024؛ تاريخ القبول: 23 مارس 2024
نُشر على الإنترنت: 27 مارس 2024

References

  1. Mockly, S., Houbron, É. & Seitz, H. A rationalized definition of general tumor suppressor micrornas excludes miR-34a. Nucleic Acids Res. 50(8), 4703-4712 (2022).
  2. Lauko, A., Lo, A., Ahluwalia, M. S. & Lathia, J. D. Cancer cell heterogeneity & plasticity in glioblastoma and brain tumors. Semin. Cancer Biol. 82(1), 162-175 (2022).
  3. Wang, F. et al. Cerebrospinal fluid-based metabolomics to characterize different types of brain tumors. J. Neurol. 267(1), 984-993 (2020).
  4. Swati, Z. et al. Content-based brain tumor retrieval for MR images using transfer learning. IEEE Access 7(1), 17809-17822 (2019).
  5. Chelghoum, R., Ikhlef, A., Hameurlaine, A., & Jacquir, S. Transfer learning using convolutional neural network architectures for brain tumor classification from MRI images, in IFIP International Conference on Artificial Intelligence Applications and Innovations, Vol. 583, 189-200 (Springer, 2020).
  6. Khan, H., Jue, W., Mushtaq, M. & Mushtaq, M. U. Brain tumor classification in MRI image using convolutional neural network’. Math. Biosci. Eng. 17(5), 6203-6216 (2020).
  7. Kumar, S. & Mankame, D. P. Optimization driven deep convolution neural network for brain tumor classification. Biocybern. Biomed. Eng. 40(3), 1190-1204 (2020).
  8. Sharif, J., Amin, M., Raza, M. & Yasmin, S. C. S. An integrated design of particle swarm optimization (PSO) with fusion of features for detection of brain tumor. Pattern Recognit. Lett. 129, 150-157 (2020).
  9. Amin, J., Sharif, M., Yasmin, M. & Fernandes, S. L. A distinctive approach in brain tumor detection and classification using MRI. Pattern Recognit. Lett. 139, 118-127 (2020).
  10. Woźniak, M., Siłka, J. & Wieczorek, M. Deep neural network correlation learning mechanism for CT brain tumor detection. Neural Comput. Appl. 35, 14611-14626 (2021).
  11. Al Rub, S. A., Alaiad, A., Hmeidi, I., Quwaider, M. & Alzoubi, O. Hydrocephalus classification in brain computed tomography medical images using deep learning. Simul. Model. Pract. 123, 102705 (2023).
  12. Mehnatkesh, H., Jalali, S. M. J., Khosravi, A. & Nahavandi, S. An intelligent driven deep residual learning framework for brain tumor classification using MRI images. Expert Syst. Appl. 213, 119087 (2023).
  13. Raja, P. S. & Viswasarani, A. Brain tumor classification using a hybrid deep autoencoder with Bayesian fuzzy clustering-based segmentation approach. Biocybern. Biomed. Eng. 40(1), 440-453 (2020).
  14. Cè, M. et al. Artificial intelligence in brain tumor imaging: A step toward personalized medicine. Curr. Oncol. 30(3), 2673-2701 (2023).
  15. Badža, M. M. & Barjaktarović, M. Č. Classification of brain tumors from MRI images using a convolutional neural network. Appl. Sci. 10(6), 1999 (2020).
  16. Ismael, S. A. A., Mohammed, A. & Hefny, H. An enhanced deep learning approach for brain cancer MRI images classification using residual networks. Artif. Intell. Med. 102(1), 101779 (2020).
  17. Rehman, M. A., Khan, T., Saba, Z., Mehmood, U. & Tariq, N. A. Microscopic brain tumor detection and classification using 3D CNN and feature selection architecture. Microsc. Res. Tech. 84(1), 133-149 (2021).
  18. Tabatabaei, S., Rezaee, K. & Zhu, M. Attention transformer mechanism and fusion based deep learning architecture for MRI brain tumor classification system. Biomed. Signal Process. Control 86(1), 105119 (2023).
  19. Rehman, A., Naz, S., Razzak, M. I., Akram, F. & Imran, M. A deep learning-based framework for automatic brain tumors classification using transfer learning. Circuits Syst. Signal Process. 39(1), 757-775 (2019).
  20. Abir, T. A., Siraji, J. A. & Ahmed, E. Analysis of a novel MRI Based Brain Tumour Classification Using Probabilistic Neural Network (PNN). Int. J. Sci. Res. Sci. Eng. Technol. 4(8), 69-75 (2018).
  21. Cheng, J. et al. Retrieval of brain tumors by adaptive spatial pooling and fisher vector representation. PLoS ONE 11(6), 1-15 (2016).
  22. Naseer, A. et al. Refining Parkinson’s neurological disorder identification through deep transfer learning. Neural Comput. Appl. 32(1), 839-854 (2018).
  23. Badjie, B. & Ülker, E. D. A deep transfer learning based architecture for brain tumor classification using MR images. Inf. Technol. Control 51(2), 333-343 (2022).
  24. Rajat Mehrotra, M. A., Ansari, R. A. & Anand, R. S. A Transfer Learning approach for AI-based classification of brain tumors. Mach. Learn. Appl. 2(1), 100003 (2020).
  25. Ullah, N. et al. An effective approach to detect and identify brain tumors using transfer learning. Appl. Sci 12(11), 1-17 (2022).
  26. Saravanan, S. et al. Computational and mathematical methods in medicine glioma brain tumor detection and classification using convolutional neural network. Comput. Math. Methods Med. 4380901, 1-12 (2022).
  27. Srinivasan, S. et al. Grade classification of tumors from brain magnetic resonance images using a deep learning technique. Diagnostics 13(6), 1-20 (2023).
  28. Saravanan, S. & Thirumurugan, P. Performance analysis of glioma brain tumor segmentation using Ridgelet transform and coactive adaptive neuro fuzzy expert system methodology. J. Med. Imaging Health Inf. 10(11), 2642-2648 (2020).
  29. Karim, P. J., Mahmood, S. R. & Sah, M. Brain tumor classification using fine-tuning based deep transfer learning and support vector machine. Int. J. Comput. Digit. Syst. 13(1), 84-96 (2023).
  30. Ullah, F. et al. Evolutionary model for brain cancer-grading and classification. IEEE Access 99(1), 1-15 (2023).
  31. Ullah, F. et al. Enhancing brain tumor segmentation accuracy through scalable federated learning with advanced data privacy and security measures. Mathematics 11(9), 1-27 (2023).
  32. Ullah, F. et al. Brain tumor segmentation from MRI images using handcrafted convolutional neural network. Diagnostics 13(16), 1-15 (2023).
  33. Ullah, F., Nadeem, M. & Abrar, M. Revolutionizing brain tumor segmentation in MRI with dynamic fusion of handcrafted features and global pathway-based deep learning. KSII Trans. Internet Info. Syst. 18(1), 105-125 (2024).
  34. M. Nickparvar, Brain tumor MRI dataset (2023). https://www.kaggle.com/datasets/masoudnickparvar/brain-tumor-mri-dataset.
  35. Islam, M. M., Uddin, M. R., Ferdous, M. J., Akter, S. & Akhtar, M. N. BdSLW-11: Dataset of Bangladeshi sign language words for recognizing 11 daily useful BdSL words. Data Brief 45, 108747 (2022).
  36. Xu, X., Li, W. & Duan, Q. Transfer learning and SE-ResNet152 networks-based for small-scale unbalanced fish species identification. Comput. Electron. Agric. 180(1), 1-7 (2023).
  37. Bansa, M., Kumar, M., Sachdeva, M. & Mittal, A. Transfer learning for image classification using VGG19: Caltech-101 image data set. J. Ambient Intell. Hum. Comput. 14(1), 3609-3620 (2023).
  38. Al-rimy, B. A. S., Saeed, F., Al-Sarem, M., Albarrak, A. M. & Qasem, S. N. An adaptive early stopping technique for DenseNet169based knee osteoarthritis detection model. Diagnostics 13(11), 1-19 (2023).
  39. Li, Y., Xiong, X., Xin, W., Huang, J. & Hao, H. MobileNetV3-CenterNet: A target recognition method for avoiding missed detection effectively based on a lightweight network. J. Beijing Inst. Technol. 32(1), 82-94 (2023).
  40. Chang, Y. L. et al. Consolidated convolutional neural network for hyperspectral image classification. Remote Sens. 14(1), 1571 (2022).

مساهمات المؤلفين

تصور، س.ك.م. و س.س.; المنهجية، س.م. و ح.ر.; التحقق، ح.ر. و م.أ.س.; تنظيم البيانات، ب.د.س.; الكتابة – المسودة الأصلية، س.س. و س.ك.م.; الكتابة – المراجعة والتحرير، س.ك.م. و ح.ر.; التصور، ب.د.س.; الإشراف س.ك.م. و م.أ.س.; إدارة المشروع، س.ك.م. و م.أ.س. جميع المؤلفين قرأوا ووافقوا على النسخة المنشورة من المخطوطة.

تمويل

لم تتلقَ هذه الدراسة أي تمويل خارجي.

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.

معلومات إضافية

يجب توجيه المراسلات والطلبات للحصول على المواد إلى م.أ.س.
معلومات إعادة الطباعة والتصاريح متاحة علىwww.nature.com/reprints.
ملاحظة الناشر: تظل شركة سبرينغر ناتشر محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسب 4.0 الدولية، التي تسمح بالاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج بأي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح إذا ما تم إجراء تغييرات. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمواد. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارةhttp://creativecommons.org/licenses/by/4.0/.
© المؤلف(ون) 2024

  1. كلية علوم الحاسوب والهندسة، جامعة جالغوتيا، غريتر نويدا 203201، الهند. قسم علوم الحاسوب والهندسة، معهد فيل تيك رانجاراجان د. ساغونثالا للبحث والتطوير في العلوم والتكنولوجيا، تشيناي 600062، الهند. مدرسة علوم الحوسبة والهندسة، جامعة VIT بهوبال، طريق بهوبال-إندور كوثريكالان، سيهور 466114، الهند. جامعة كيبري ديهار، 250، كيبري ديهار، الصومال، إثيوبيا. مركز تأثير وأثر البحث، معهد تشيتكارا للهندسة والتكنولوجيا، جامعة تشيتكارا، راجبورا، البنجاب 140401، الهند. قسم البحث والتطوير، جامعة لوفلي المهنية، فاجوارا، البنجاب 144001، الهند. البريد الإلكتروني:drmohdasifshah@kdu.edu.et

Journal: Scientific Reports, Volume: 14, Issue: 1
DOI: https://doi.org/10.1038/s41598-024-57970-7
PMID: https://pubmed.ncbi.nlm.nih.gov/38538708
Publication Date: 2024-03-27

Employing deep learning and transfer learning for accurate brain tumor detection

Sandeep Kumar Mathivanan , Sridevi Sonaimuthu , Sankar Murugesan , Hariharan Rajadurai , Basu Dev Shivahare & Mohd Asif Shah

Abstract

Artificial intelligence-powered deep learning methods are being used to diagnose brain tumors with high accuracy, owing to their ability to process large amounts of data. Magnetic resonance imaging stands as the gold standard for brain tumor diagnosis using machine vision, surpassing computed tomography, ultrasound, and X-ray imaging in its effectiveness. Despite this, brain tumor diagnosis remains a challenging endeavour due to the intricate structure of the brain. This study delves into the potential of deep transfer learning architectures to elevate the accuracy of brain tumor diagnosis. Transfer learning is a machine learning technique that allows us to repurpose pre-trained models on new tasks. This can be particularly useful for medical imaging tasks, where labelled data is often scarce. Four distinct transfer learning architectures were assessed in this study: ResNet152, VGG19, DenseNet169, and MobileNetv3. The models were trained and validated on a dataset from benchmark database: Kaggle. Five-fold cross validation was adopted for training and testing. To enhance the balance of the dataset and improve the performance of the models, image enhancement techniques were applied to the data for the four categories: pituitary, normal, meningioma, and glioma. MobileNetv3 achieved the highest accuracy of 99.75%, significantly outperforming other existing methods. This demonstrates the potential of deep transfer learning architectures to revolutionize the field of brain tumor diagnosis.

Keywords Artificial intelligence, Brain tumor, Transfer learning, Diagnosis, Medical imaging
The human brain, located in the cranium, is a crucial organ responsible for various functions, governed by a network of billions of neurons that coordinate electrical and chemical impulses, shaping our experiences and existence . This extraordinary organ is a linchpin in the realms of perception, emotion, and character. Comprising distinct components, each with specialized roles, the brain epitomizes complexity. The cerebral cortex, a convoluted outer layer, takes the reins of consciousness, while the cerebellum assumes responsibility for balance and coordination . This harmonious collaboration among various brain regions is crucial for the seamless orchestration of our daily activities and responses to the world around us. However, the resilient nature of the brain does not shield it entirely from threats. The emergence of abnormal cell growth, encapsulated as a mass or lump, is known as a tumor or neoplasm . Tumors can be found in various organs, including the brain. The distinction between benign and malignant tumors is crucial for understanding their health impact. Benign tumors, slow and localized, are less dangerous but can pose a threat if they encroach on vital organs or tissues . Malignant tumors are aggressive and can invade surrounding tissues and spread through metastasis. Understanding the growth and behavior of these tumors is crucial for timely intervention and preserving the intricate functionality of the human brain, which is a marvel that weaves the tapestry of human experience . A brain tumor is an abnormal cell accumulation within the brain, which can either emerge directly from brain tissue or infiltrate the brain through metastasis, where cancerous cells from other parts of the body spread to the brain . Brain tumor diagnosis involves a comprehensive approach, often involving imaging tests and a biopsy to identify the tumors characteristics and grade. The diverse spectrum of brain tumors includes neoplasms from various cell
types, each with unique challenges and implications that influence diagnostic approaches, treatment strategies, and patient outcomes . Malignant gliomas, arising from brain’s glial cells, can develop in any brain region and require targeted therapeutic interventions to navigate the cellular matrix, emphasizing the need for effective treatment in this formidable tumor type . Meningiomas, a distinct category of tumors, originate in the meninges, the protective membranes enveloping the brain and spinal cord. Interestingly, most meningiomas are relatively benign and often do not pose an immediate threat to health . The pituitary gland, located at the brain’s base, can cause adenomas, tumors disrupting hormonal regulation, and Schwannomas, stemming from Schwann cells responsible for creating the myelin sheath that protects nerve fibers . Glioblastomas, the most malignant and aggressive type of brain tumors, pose significant challenges in diagnosis and treatment. Understanding the intricacies of these diverse brain tumors is crucial for tailoring effective treatment strategies, adding complexity to the understanding of brain pathology .
The relentless pursuit of knowledge in neuro-oncology holds the promise of advancing diagnostic techniques and therapeutic interventions, providing a beacon of hope for individuals grappling with the complexities of these formidable intrusions into the delicate domain of the human brain . The integration of deep learning and artificial intelligence (AI) has significantly improved medical image analysis, leading to significant advancements in the detection, diagnosis, and characterization of various medical conditions. This has enabled healthcare professionals to make more informed decisions, particularly in the accurate classification of cancer types, such as lung and breast cancer. This integration has resulted in earlier diagnoses, improved treatment decisions, and improved patient outcomes . Artificial intelligence plays a crucial role in surgical planning, enabling precise segmentation of lesion boundaries and brain structures, balancing intervention with quality-of-life preservation. It predicts complications, recurrence rates, and therapeutic responses, guiding optimal follow-up strategies and enabling personalized patient guidance through tailored screening protocols . Transfer learning (TL) is a machine learning technique that has gained significant attention in the medical field, focusing on leveraging pre-existing models trained on large datasets for specific tasks . Transfer learning is a crucial tool in medical image analysis, enabling the creation of high-performing models with reduced training time and computational cost. As the field evolves, transfer learning is expected to play a more significant role in improving patient care. Various transfer learning models, including VGG, ResNet, Inception, MobileNet, and DenseNet, have shown remarkable efficacy in this area . Transfer learning models, utilizing neural networks’ depth and complexity, are used to identify intricate patterns in medical images. This versatile approach extends beyond these well-known architectures, with numerous other models contributing to the growing range of tools for medical imaging analysis . Transfer learning in medical imaging has significantly expedited the development process and improved the performance and accuracy of pretrained models, enabling faster and more accurate diagnoses of cancerous lesions, particularly in the identification and classification of cancerous lesions . The efficiency gains achieved through transfer learning models have significant implications for patient care, as early detection and precise classification of cancer types are essential for initiating timely and targeted treatment strategies. As the synergy between deep learning, artificial intelligence, and transfer learning continues to evolve, the landscape of medical image analysis is poised for transformative change. The amalgamation of these technologies not only augments the capabilities of healthcare professionals but also holds the promise of improving patient outcomes and reshaping the paradigm of medical diagnostics. In our study, we compared four transfer learning models-VGG19, ResNet152, DenseNet169, and MobileNetv3-to determine which one is most effective in classifying brain MRI data. The main contribution of our paper lies in the innovative use of transfer learning and fine-tuning on MR images to categorize brain tumors into four groups.
(i) We fine-tuned the transfer learning models after processing and applied them to three benchmark datasets to optimize their performance. Additionally, we enhanced models like ResNet152, VGG19, DenseNet169, and MobileNetv3 by adding a single fully connected layer.
(ii) To establish a meaningful comparison, we created a benchmark against which our proposed transfer learning methodologies can be evaluated in comparison to previous research. The key outcome of our study is the achievement of maximum precision. MobileNetv3 demonstrated outstanding precision of in a historical context, while InceptionV3 achieved remarkable precision of in operational scenarios.
(iii) Transfer learning allows leveraging pre-trained models, especially beneficial when dealing with limited labelled medical data.
(iv) MobileNetv3, a specific transfer learning architecture, achieved exceptional accuracy in brain tumor diagnosis.
(v) These results highlight the effectiveness of our transfer learning methodologies in the classification of brain tumors, showcasing their potential impact on advancing diagnostic accuracy in medical image analysis.
The article is structured as follows: Section “Related work”: Provides a concise overview of the relevant literature. Section “Material and methods”: Introduces the proposed methodology and outlines the experimental setup, including data preparation, model training, and performance evaluation. Section “Experimental results and discussion”: Presents the experimental results and their thorough analysis. Section “Conclusion and future work”: Concludes the article with a summary of the findings and outlines potential directions for future research.
Leveraging the power of deep convolutional neural networks, we developed a highly accurate framework for classifying brain tumors into three distinct categories: meningioma, glioma, and pituitary adenoma. Our proposed approach employs three different CNN architectures, namely AlexNet, GoogLeNet, and VGGNet, to extract relevant and robust features from MRI scans. To further enhance the performance of our models, we employed transfer learning strategies, including fine-tuning and freezing, and data augmentation techniques to expand the dataset
and reduce overfitting. Extensive experimentation using the Figshare MRI brain tumor dataset revealed that the optimized VGG16 architecture achieved an impressive detection and classification accuracy of up to , demonstrating the effectiveness of our proposed framework in accurate brain tumor categorization . In this study, a probabilistic neural network (PNN) is employed for classifying MR brain images. PNN is chosen due to its simple structure and rapid training process. A dataset of 30 brain MRI samples was used to train the PNN classifier, and its performance was evaluated using 12 different sets of images. The trained classifier was tested with a range of smoothing factors, including spread. Experimental results demonstrate that the PNN classifier achieves an accuracy of , which is considered effective given the spread value . The proposed method employs a three-step structure for improved clarity. Initially, contextual information is incorporated by enhancing the tumour region and designating it as the region of interest. Subsequently, an adaptive spatial division algorithm, grounded in intensity ordering, partitions the expanded tumour region into subregions. Raw image patches, serving as local characteristics, are then extracted from these subregions. In the final step, the Fisher kernel framework is employed to amalgamate the local characteristics of each subregion into a singular vector representation. Concatenating these representations results in the creation of an image-level signature. Subsequently, the comparison between the query picture and the images stored in the database is carried out using a closed-form metric learning method after extracting features. The evaluation, performed on a substantial dataset consisting of 3604 images featuring meningiomas, gliomas, and pituitary tumours, demonstrates an impressive average accuracy in extensive studies .
Early signs of Parkinson’s disease (PD) can be detected in a person’s handwriting. Leveraging transfer learning and data augmentation strategies, this study introduces a novel deep convolutional neural network (CNN) classifier for accurate PD diagnosis. Two transfer learning methods, freezing and fine-tuning, are evaluated using the ImageNet and MNIST datasets as source tasks. A fine-tuning-based strategy applied to the ImageNet and PaHaW datasets resulted in a trained network with an accuracy of . This study utilizes an advanced deep learning technique to identify and classify brain tumors in MRI scans. Diagnosing brain tumors, a critical task, is time-consuming and labor-intensive for radiologists. Their assessments are solely based on their expertise and individual judgments, which are often inaccurate. To address the growing challenge of accurate brain tumor diagnosis, this work employs deep learning to categorize brain tumor MRI images with high precision. AlexNet’s convolutional neural network (CNN) transfer learning model was employed for this purpose. Our technology streamlines the entire diagnostic process, achieving an accuracy of , thereby enhancing resilience, efficiency, and accuracy in healthcare . The integration of artificial intelligence (AI), specifically leveraging deep learning (DL), into medical imaging has transformed the landscape of classifying and detecting intricate medical conditions, such as brain tumors and other serious diseases. Deep learning has showcased exceptional proficiency in accurately segmenting and classifying brain tumors. This study introduces an AI-driven methodology for the classification of brain tumors, employing deep learning algorithms and utilizing publicly available datasets. These datasets categorize brain tumors into two groups: malignant and noncancerous, comprising a testing set of 696 T1-weighted images. The proposed approach attains notable performance, achieving a maximum accuracy of . These outcomes underscore the efficacy of the proposed algorithm in the precise classification of brain tumor . This study aims to automate the detection and diagnosis of brain tumors through the implementation of a fine-grained classification technique. The performance of nine pre-trained transfer learning (TL) classifiersnamely, InceptionResNetV2, InceptionV3, Xception, ResNet18, ResNet50, ResNet101, ShuffleNet, DenseNet201, and MobileNetV2-is systematically compared. The evaluation utilizes a publicly available brain tumor classification (MRI) dataset sourced from Kaggle. Notably, the InceptionResNetV2 TL method outperforms other deep learning (DL) techniques, achieving impressive accuracy ( ), precision ( ), recall ( ), and F-measure ( ) values . Embracing a multilayer-based metadata learning strategy and incorporating a convolutional neural network (CNN) layer, the proposed system architecture facilitates accurate brain MRI classification. To effectively handle high-dimensional data, sparse coding estimates are employed, while metadata-based vector encoding serves as the encoding scheme. This innovative approach yields results that are both objectively and subjectively compelling in terms of categorization. Validated using two datasets, BRATS and REMBRANDT, the proposed brain MRI classification algorithm surpasses the performance of existing methods . Employing a multi-stage approach, the proposed method commences with preprocessing MRI images to eliminate noise and artifacts using an adaptive filter. Subsequently, enhanced fuzzy c-means clustering (EFCMC) is applied for image segmentation, followed by feature extraction utilizing the local-binary grey level co-occurrence matrix (LBGLCM). This comprehensive strategy achieves remarkable classification performance, attaining a sensitivity of , a specificity of , and an accuracy of in brain tumor classification .
Kirsch’s edge detectors are utilized to identify boundary edge pixels, followed by contrast adaptive histogram equalization to enhance the brain image. Subsequently, the enhanced brain image is transformed using Ridgelet transform to obtain multi-resolution coefficients. Features are extracted from Ridgelet transformed coefficients, optimized using PCA, and classified as Glioma or non-Glioma using the Co-Active Adaptive Neuro Fuzzy Expert System (CANFES) classifier. This comprehensive methodology achieves remarkable classification performance, attaining sensitivity, specificity, accuracy, precision, FPR, and 98.185 FNR. While images can enhance the content, they are not always necessary. In this case, the revised sentence provides a clear and concise description of the proposed methodology and its performance without the need for visual aids . This study presents a novel brain tumor classification method using deep transfer learning, incorporating a new fine-tuning technique and an SVM classifier. The proposed transfer learning-based classification strategy is evaluated on the Figshare dataset, which includes MRI brain tumors of meningioma, glioma, and pituitary gland origin, under various scenarios. The proposed deep transfer learning approach demonstrates promising results, achieving accuracy with a CNN architecture and an SVM classifier, and accuracy with a ResNet-50 architecture and fine-tuning parameters . A lightweight ensemble model has been developed to improve brain cancer detection and classification using MRI data. The model incorporates MRI preprocessing, intensity, texture, and shape feature extraction. The model was evaluated using the BraTS 2020 dataset and
achieved excellent performance, with accuracy, 0.94 precision, 0.93 recall, 0.94 F1 score, and an AUC-ROC value of 0.984 . This approach offers a valuable tool for early diagnosis and effective treatment planning in brain cancer . The solution for brain tumor segmentation in medical imaging, it uses the U-Net model architecture, known for its semantic segmentation performance, to train models on distributed data from various medical institutions. The federated learning approach is scalable, suitable for large-scale deployment in medical imaging. The experimental results show a significant improvement in specificity and dice coefficient when increasing the number of clients. The method surpasses existing CNN and RNN-based approaches, achieving higher accuracy, performance, and efficiency. The findings hold promise for wider adoption in medical imaging applications without compromising data confidentiality . A hybrid methodology for brain tumor segmentation in MRI scans, combining handcrafted features with convolutional neural networks. The approach extracts feature from MRI scans and trains a CNN architecture to detect relevant data. The Brain Tumor Segmentation challenge dataset evaluated the performance of the hybrid approach, showing superior performance compared to conventional methods. The research holds promise for real-world clinical applications . A cascaded strategy for brain tumor segmentation, integrating convolutional neural networks (CNNs) with handcrafted feature-based machine learning algorithms. The method uses data from four MRI modalities and a Global Convolutional Neural Network (GCNN). The model achieved a Dice score of , surpassing state-of-the-art methods. This innovative approach has the potential to significantly enhance brain tumor segmentation, aiding clinicians in diagnosing and treating patients, and reducing the cost, time, and error of manual segmentation . Table 1 provides a comprehensive overview of the different state-of-the-art methods that have been incorporated into our proposed model.

Material and methods
Material

For model training, we utilized the brain tumor dataset sourced from Kaggle . This dataset encompasses MRI images of the brains of 7,023 individuals, including those with brain tumors and those without. It comprises cases of meningioma, glioma, pituitary gland tumors, and non-tumor. Each category within this collection contains over 1,600 high-quality images. Table 2 provides a breakdown of the image distribution across the training and test sets. The dataset consists of a total of 7,023 images. Out of these, images are used for training, while images are used for testing. Among these images, 1405 normal, and 5618 are malignant. Figure 1 depicts the frequency of each type of brain tumor imaging. It reveals that there are approximately 1,800 images in the No Tumor class, 1,757 images in the Pituitary class, 1,645 images in the Glioma class, and 1,621 images in the Meningioma class.
Author Year Dataset Method Limitations
Arshia Rehman 2019 Figshare AlexNet, GoogLeNet, VGGNet Absence of an in-depth analysis or explanation of the interpretability of the model
Tasnim Azad Abir 2018 Kaggle PNN Lack of detailed analysis or discussion regarding the potential biases present in the training data
Jun Cheng 2016 Figshare Content-based image retrieval Lack of explicit discussion or consideration of potential limitations related to the generalization of the proposed algorithm to external datasets or diverse clinical settings
Amina Naseer 2019 MNIST, PaHaW ImageNet The absence of a detailed discussion or analysis regarding the potential biases present in the training datasets, particularly ImageNet and MNIST, which were used as source tasks for transfer learning
Bakary Badjie 2022 Kaggle AlexNet’s CNN Lack of explicit consideration or discussion about the interpretability of the deep learning mode
Rajat Mehrotra 2020 Figshare CNN The absence of a comprehensive analysis or discussion about the potential impact of class imbalances in the dataset on the model’s performance
Naeem Ullah 2022 Kaggle Inceptionresnetv2 The comparatively weak performance of pre-trained deep learning (DL) models when used as stand-alone classifiers
Saravanan 2022 BRATS, REMBRANDT CDBLNL Lack of clarity or detailed discussion regarding the potential limitations or challenges associated with the proposed CDBLNL model
Saravanan Srinivasan 2023 REMBRANDT Convolutional RNN One demerit in the presented work is the lack of detailed analysis or discussion about the interpretability of the proposed CRNN (Convolutional Recurrent Neural Network) model
Pshtiwan Jabar Karim 2023 Figshare CNN + fine-tuned SVM Lack of detailed discussion or exploration of potential biases in the Figshare dataset used for evaluation. Biases in medical datasets, especially related to brain tumors, can significantly impact the generalizability of the proposed classification method
Table 1. State-of-the-art methods details.
Phase Malignant (80%) Normal (20%) Total
Train 4494 1124 5618
Test 1124 281 1405
Total 5618 1405 7023
Table 2. Training and testing dataset for each class.
Figure 1. Pie chart illustrating the distribution of images across tumor classes.

Methods

The proposed model, illustrated in Fig. 2, employs four well-known transfer learning approaches-ResNet152, VGG19, DenseNet169, and MobileNetv3-to create four classes for analyzing and estimating the recommended frame. The data undergoes four transfer learning techniques, and following analysis, it’s divided into an training set and a testing set. This split is crucial for training, validating model performance, and assessing generalizability. The proposed model proves reliable in diverse scenarios. In this study, we use image augmentation, a key technique using Keras’ ImageDataGenerator, to expand the dataset for training a deep learning model in brain tumor diagnosis. By creating modified copies of images with rotations, zooming, and flipping, the model gets exposed to a wider range of variations, improving its ability to handle new data. This is vital for simulating the variability in medical imaging, making the model more robust to noise and variations. The ultimate goal is to build a reliable and strong deep learning model, especially in the medical field where data is limited, and adapting to diverse and unseen cases is crucial. It introduces variations like rotations, flips, shifts, and zooms, contributing to balanced classes during model training.
This augmentation strategy contributes to a more comprehensive and diverse training dataset, empowering the model to generalize better across a myriad of scenarios. The utilization of ImageDataGenerator during model training yields a twofold advantage. Firstly, it ensures that the deep learning model is exposed to a richer set of training examples, facilitating improved learning of intricate patterns and features. Secondly, the automatic generation of augmented images enhances the model’s robustness by making it less susceptible to overfitting and more adaptable to diverse input variations. This augmentation-driven approach has been recognized for its efficacy in enhancing the overall performance of deep learning models, leading to improved accuracy and resilience in real-world applications . Figure 3 depicts the normal and augmented images of brain MRI.
Figure 2. Proposed model architecture.
Figure 3. Augmentation (a) normal; (b) augmented images.

Transfer learning model evaluation

Transfer learning is a machine learning technique that enables a model trained for one task to be repurposed for a different but related task. This method reduces the time and effort required to develop high-performance models, especially for complex tasks like image recognition and natural language processing. By fine-tuning the weights of an existing model, researchers can effectively tackle new challenges. Transfer learning leverages knowledge acquired from a large dataset during initial training, allowing the model to effectively tackle new challenges. This approach contrasts with the traditional method of training a model from the ground up, which can be timeconsuming and resource-intensive. Transfer learning has proven successful in various domains, including image identification, natural language processing, and speech recognition, especially in scenarios with limited training data. In this work, four different transfer learning models were employed, each using an input RGB picture size of ( ) to ensure uniformity across all models. Transfer learning has played a crucial role in numerous deep learning applications, including image categorization, object recognition, and medical condition diagnosis.
ResNet152. ResNet-152 is a deep convolutional neural network architecture developed by Microsoft Research, featuring 152 layers. Its key innovation is the introduction of residual connections or skip connections, which enable the network to learn residual functions, making it easier to train very deep networks . ResNet-152’s depth allows it to extract intricate features and patterns from data, making it effective for tasks like image classification and object recognition. This architectural depth, coupled with skip connections, addresses the vanishing gradient problem, facilitating the training of extremely deep networks refer in Fig. 4.
Visual geometry group 19. VGG19 is a deep convolutional neural network architecture, an evolution of the original VGG16 architecture. It consists of 19 layers, including 16 convolutional layers and 3 fully connected layers. VGG19 captures intricate patterns and features in image data through its deep architecture, which uses convolutional filters for feature extraction . Max-pooling layers reduce input spatial dimensions, lowering computational complexity. The final layers are fully connected, allowing predictions based on high-level features extracted by the convolutional layers. VGG19 uses the Rectified Linear Unit (ReLU) activation function for nonlinearity. Widely used for image classification, VGG19 has become a benchmark in computer vision. Despite its depth and simplicity, it has been surpassed by modern architectures like ResNet and Inception in terms of performance and efficiency. Figure 5 depicts the architecture of VGG19.
DenseNet169. DenseNet169 is a convolutional neural network (CNN) architecture designed to overcome challenges in feature reuse and gradient flow in deep networks. Named after its 169 layers, it features dense connectivity, where each layer receives input from all preceding layers, promoting efficient feature reuse and enhanced information flow. To address computational complexity, DenseNet169 utilizes bottleneck layers, which incorporate convolutions to reduce the number of input feature maps . Dense blocks, each containing multiple
Figure 4. ResNet152 architecture.
Figure 5. VGG19 architecture.
densely connected layers, contribute to the overall depth and feature extraction capabilities. Transition layers are employed between dense blocks to control feature map growth and reduce spatial dimensions. DenseNet architectures commonly use global average pooling, which reduces the number of parameters and aids in better generalization. DenseNet169 has demonstrated strong performance in image classification tasks and is known for its parameter efficiency, achieving competitive accuracy with fewer parameters compared to other architectures. Figure 6 depicts the DenseNet169 architecture.
MobileNetv3. MobileNetV3 is a neural network architecture designed for mobile and edge devices with limited computational resources. It is the third iteration of the MobileNet series, focusing on efficiency, speed, and accuracy. Key features include resource-efficient building blocks, lightweight inverted residuals, and two variants: MobileNetV3-Large and MobileNetV3-Small . These building blocks optimize computation and memory usage, ensuring efficient operation on resource-limited hardware. Inverted residuals reduce computational overhead while maintaining the network’s ability to extract meaningful features from input data. MobileNetV3 is available in two variants: MobileNetV3-Large for moderate computational resources and MobileNetV3-Small for strict constraints. Figure 7 depicts the architecture of MobileNetv3.
MobileNetV3 is a network architecture designed for tasks such as image classification, object detection, and semantic segmentation. It uses non-linear activation functions, such as swish and hard-swish, to improve model
Figure 6. DenseNet169 architecture.
Figure 7. MobileNetv3 architecture.
accuracy and learn more complex decision boundaries. Efficient Squeeze-and-Excitation (SE) blocks are used for channel-wise feature recalibration, enhancing the network’s representational power. Techniques like neural architecture search and network pruning are employed to optimize the architecture for deployment on devices with limited resources. The lightweight design of MobileNetV3 makes it suitable for deployment on mobile devices, enabling real-time inference on edge devices with constrained resources. The architecture features a bottleneck block, allowing for dynamic adjustment of channel importance, enhancing performance. Table 3. Specification and bottle neck block of MobileNetv3.

Preparation and evaluation of experiments

In this experiment, a large dataset of images was employed, and the training of our model was conducted on Google Colab. To ensure the effectiveness of the training and testing phases, access to a robust computing environment is essential. Kaggle was used to re-publish the dataset’s training names. Importantly, the same dataset was utilized for all advanced models, encompassing both the training set and the test set. The Transfer Learning (TL) model underwent training using the specified training dataset and was subsequently evaluated using the corresponding test dataset. The success of our models can be attributed to the collaborative contributions of Sklearn, TensorFlow, and Keras. For optimal performance in all high-end models, a block size of 128 was determined to be the most effective. Table 4 illustrates the hyperparameter details of transfer learning models.
We applied the cross-entropy loss to both the train and test sets for each epoch. All models were trained for 50 epochs using the Adam optimizer with a learning rate of 0.001 . Figure 8 shows the training and validation loss for each model over the course of the training epochs. For the ResNet152, VGG19, and MobileNetv3 models, the training and validation losses are very close and sometimes overlap. However, the DenseNet169 model exhibits a different behavior. While the training loss decreases, the validation loss increases for every epoch. This suggests that the DenseNet169 model may be overfitting the training data. In contrast, the MobileNetv3 model shows a stable training process with minimal fluctuations in both training and validation loss. By the end of training, the MobileNetv3 model achieves a training loss of 0.0451 and a validation loss of 0.1265 . The VGG19 and ResNet152 models achieve training losses of 0.0603 and 0.001 and validation losses of 0.1862 and 0.010 , respectively. Among
Input Operator Size Output Stride
conv2d, 16 2
bneck, 16 16 2
bneck, 72 24 2
bneck, 88 24 1
bneck, 96 40 2
bneck, 240 40 1
bneck, 240 40 1
bneck, 120 48 1
bneck, 144 48 1
bneck, 288 96 2
bneck, 576 96 1
bneck, 576 96 1
conv2d, 576 1
pool, 1
conv2d, , NBN 1024 1
conv2d, , NBN k 1
Table 3. Specification and bottle neck block of MobileNetv3.
Quantifying performance and evaluation Assessing measurement outcomes
Size of the batch 128
Optimizer Adam
No. of epochs 50
Rate of learning 0.001
Evaluation criterion Cross entropy loss
Training Five-fold cross validation
Table 4. Hyperparameters of transfer learning models for image classification.
Figure 8. Training and testing loss of DenseNet169, MobileNetv3, VGG19 and ResNet152.
the evaluated models, ResNet152 exhibited superior performance, achieving the highest validation loss of 0.0241 at epoch 39 and validation accuracy of .
Among the evaluated models, DenseNet169 exhibited the lowest validation loss of 0.0664 at epoch 18 but experienced the most fluctuation in both training and validation accuracy. It ultimately achieved training and validation accuracies of and , respectively. VGG19 and MobileNetv3 also demonstrated promising results, with VGG19 achieving training and validation accuracies of and , respectively, and MobileNetv3 achieving training and validation accuracies of and , respectively. While VGG19’s training and validation accuracies were relatively stable, MobileNetv3’s validation accuracy showed some fluctuation. Figure 9 depicts the training and testing accuracy of four transfer learning models. Table 5, illustrates the four models training phase and testing phase accuracy and loss values.

Experimental results and discussion

The proposed transfer learning models leverage the confusion matrix to assess their performance, employing metrics like precision, recall, F1 score, and accuracy. The confusion matrix, typically a square matrix, provides a comprehensive overview of model performance. Table 6 presents the confusion matrix, where TP denotes true positives, FP denotes false positives, and FN denotes false negatives. The F1 score is derived as the harmonic mean of precision and recall.
We conducted a comprehensive assessment of our model’s performance, and the findings are presented through the examination of various performance metrics. Specifically, in Fig. 10, we depict the confusion matrix associated with the MobileNet model. The confusion matrix serves as a valuable tool for evaluating the model’s
Figure 9. Training and testing accuracy of DenseNet169, MobileNetv3, VGG19 and ResNet152.
Architecture Training phase Testing phase
Acc (%) Loss Acc (%) Loss
ResNet152 98.86 0.0603 96.92 0.1854
VGG19 99.07 0.0451 95.62 0.1245
DenseNet169 99.22 0.0241 97.53 0.958
MobileNetv3 99.75 0.0359 98.52 0.1272
Table 5. Performance across four transfer learning models Over 50 Epochs.
Predicted positive Predicted negative
Actual positive TP FN
Actual negative FP TN
Table 6. Formula for confusion matrix.
classification outcomes. In this matrix, the tumor classes are systematically labelled from 0 to 3 , where each numerical identifier corresponds to a specific tumor type: 0 for ‘Pituitary,’ 1 for ‘Normal’, 2 for ‘Meningioma,’ and 3 for ‘Glioma.’ This systematic numbering allows for a clear representation of the model’s classification results. Upon close inspection of the confusion matrix, it is evident that the MobileNet model demonstrated commendable performance. Specifically, the model correctly identified 24 images belonging to the ‘Pituitary’ class, accurately classified 24 images as ‘No tumor’, recognized 43 images as ‘Meningioma’, and correctly identified 32 images as ‘Glioma.’
Figure 11, depicts the incorrectly classified images by the proposed model. These numerical values within the matrix provide valuable insights into the model’s effectiveness in accurately categorizing images across different tumor classes. Table 7 summarizes the performance metrics of four transfer learning models on the test dataset, providing insights into their efficacy in handling the given task. ResNet152 achieved the highest accuracy, followed by VGG19, DenseNet169, and MobileNetV3, which demonstrated commendable accuracy but trailed slightly behind. These evaluations were conducted after training each model for 50 epochs, suggesting that
Figure 10. MobileNetv3 confusion matrix.
Figure 11. Incorrectly classified by proposed model.
ResNet152 consistently outperformed the other models. The varying architectures of the four models underscore the nuanced trade-offs between computational efficiency and model accuracy. This analysis aids in discerning their strengths and weaknesses, offering valuable insights for informed decision-making.

Discussion

Table 8 provides a comprehensive overview of the accuracy metrics for all models at both the maximum and minimum epoch numbers. The MobileNet model outperforms all other models, achieving the highest training accuracy of at epoch 50 and a peak validation accuracy of at epoch 45 . To facilitate concise communication and notation, we use the terms Mx_Acc and Mi_Acc to represent Maximum Accuracy and Minimum Accuracy, respectively, and Mx_Ep and Mi_Ep to represent Maximum Epochs and Minimum Epochs, respectively. Table 9 details the duration of the training set for each epoch, providing insights into the time investment required for model training on Google Collaboratory’s Graphics Processing Unit (GPU) runtime.
Architectures Class Precision Recall F1 score Accuracy
ResNet152 Pituitary 1 0.93 0.98 0.985
Normal 0.98 1 0.97
Meningioma 1 1 1
Glioma 0.96 1 0.99
Total 3.94 3.93 3.94
VGG19 Pituitary 1 1 0.95 0.960
Normal 0.95 0.92 0.95
Meningioma 1 1 1
Glioma 0.93 1 0.94
Total 3.88 3.92 3.84
DenseNet169 Pituitary 1 0.85 0.94 0.9675
Normal 0.88 1 0.93
Meningioma 1 1 1
Glioma 1 1 1
Total 3.88 3.85 3.87
MobileNetv3 Pituitary 1 1 1 0.960
Normal 1 0.83 0.92
Meningioma 1 1 1
Glioma 0.88 1 0.92
Total 3.88 3.83 3.84
Table 7. Five-fold test performance of four transfer learning models on the dataset.
Transfer learning model Phase M -Acc M -Ep Mi-Acc Mi-Ep
VGG19 Training 98.78 50 70.22 1
Testing 96.91 50 81.45 1
ResNet152 Training 98.12 50 69.34 1
Testing 97.78 45 80.96 6
DenseNet169 Training 99.08 38 95.42 1
Testing 98.68 47 90.77 2
MobileNetv3 Training 99.75 30 77.12 1
Testing 99.52 46 90.27 1
Table 8. Accuracy summary across epochs for different transfer learning models.
TL models Timeline (HH:MM)
ResNet152
VGG19
DenseNet169
MobileNetv3
Table 9. Epoch-wise training duration for transfer learning models.
This information is crucial for optimizing resource allocation and enhancing the efficiency of model training procedures.
The precise detection and classification of brain tumors in medical images, particularly those obtained through MRI and CT scans, are crucial aspects of medical diagnostics. MRI is a powerful tool for medical diagnostics, playing a significant role in both diagnosing and categorizing various types of brain tumors. Table 8 and Fig. 12 summarizes the progress and anticipated future advancements in brain tumor detection and classification, comparing the current state with what we expect to achieve in the future. The MobileNetv3 model is a key part of our proposed approach and has achieved an impressive accuracy rate of . This shows that the model is effective at discerning and predicting the presence of brain tumor cells in medical images, making it a valuable tool for medical diagnosis. Table 10 illustrates the classification accuracy comparison of the proposed and other existing models. Figure 12 depicts the classification accuracy comparison of proposed and other
Training Time for Transfer Learning Models
Figure 12. Training timeline for four transfer learning models.
Author Year Dataset Method Accuracy (%)
Tasnim Azad Abir 2018 Kaggle PNN 83.33
Bakary Badjie 2022 Kaggle AlexNet’s CNN 99.12
Naeem Ullah 2022 Kaggle Inceptionresnetv2 98.91
Saravanan 2020 Kaggle CANFES 98.73
Proposed model 2023 Kaggle Transfer Learning approach 99.75
Table 10. Classification accuracy comparison of the proposed and other existing models.
state-of-the-art methods. Figure 13 clearly demonstrates that the proposed model outperformed other models with an accuracy of .

Conclusion and future work

In this investigation, we delve into the application of transfer learning methods for the classification of brain tumors using MRI scans. The study meticulously assesses the efficacy of four distinct transfer learning mod-els-ResNet152, VGG19, DenseNet169, and MobileNetv3-across three diverse brain tumor image datasets. The evaluation encompasses crucial performance metrics, including accuracy, precision, f1-score, and recall. Remarkably, ResNet152 emerges as the frontrunner among the models, demonstrating outstanding performance with an accuracy of , surpassing the performance of all other models in the study. Additionally, MobileNetv3 demonstrates exceptional efficacy with an accuracy of , showcasing its robust performance in brain
Figure 13. Accuracy comparison of proposed and state-of-the-art methods.
tumor classification. It’s important to highlight that this study relies on a secondary dataset. Future research could explore extending the proposed model’s application to CT images, enhancing its adaptability. This extension holds the potential to broaden the model’s impact in medical applications. In conclusion, the proposed model, particularly ResNet152 and MobileNetv3, shows significant promise in advancing medical image classification. Continued investigation and exploration, involving a range of imaging modalities, offer the potential to uncover valuable insights that could significantly enhance applications in medical diagnostics. By expanding the study to include diverse imaging techniques beyond the currently examined MRI scans-such as PET, CT, or ultra-sound-researchers can achieve a more comprehensive understanding of the proposed model’s adaptability and effectiveness across a broader spectrum of medical imaging data. The integration of diverse imaging modalities not only allows for a more holistic assessment of the proposed model’s performance but also contributes to its resilience and applicability in real-world medical scenarios. Each imaging modality comes with unique challenges and characteristics, and a collective exploration can refine the proposed model’s capabilities while pinpointing areas for improvement. The study has some limitations. It didn’t check how well the model works in different situations or on other datasets, making it unclear how it would perform in the real world. The dataset used might not represent all kinds of patients, causing potential biases in the predictions. The study also didn’t consider the costs of training and using the models, which could be a problem for using them in healthcare. Despite these limitations, future work will aim to improve the model’s usefulness in different healthcare settings. In the future, we aim to explore more model architectures, improve their performance, and make them better suited for different datasets and clinical situations. Ongoing research will focus on checking how well these models work in the real world by testing them on different datasets and in various clinical settings. Additionally, we plan to refine image enhancement techniques for specific tumor categories to ensure a well-balanced dataset and robust models.

Data availability

We used the balanced dataset which is publicly available https://www.kaggle.com/datasets/masoudnickparvar/ brain-tumor-mri-dataset
Received: 9 January 2024; Accepted: 23 March 2024
Published online: 27 March 2024

References

  1. Mockly, S., Houbron, É. & Seitz, H. A rationalized definition of general tumor suppressor micrornas excludes miR-34a. Nucleic Acids Res. 50(8), 4703-4712 (2022).
  2. Lauko, A., Lo, A., Ahluwalia, M. S. & Lathia, J. D. Cancer cell heterogeneity & plasticity in glioblastoma and brain tumors. Semin. Cancer Biol. 82(1), 162-175 (2022).
  3. Wang, F. et al. Cerebrospinal fluid-based metabolomics to characterize different types of brain tumors. J. Neurol. 267(1), 984-993 (2020).
  4. Swati, Z. et al. Content-based brain tumor retrieval for MR images using transfer learning. IEEE Access 7(1), 17809-17822 (2019).
  5. Chelghoum, R., Ikhlef, A., Hameurlaine, A., & Jacquir, S. Transfer learning using convolutional neural network architectures for brain tumor classification from MRI images, in IFIP International Conference on Artificial Intelligence Applications and Innovations, Vol. 583, 189-200 (Springer, 2020).
  6. Khan, H., Jue, W., Mushtaq, M. & Mushtaq, M. U. Brain tumor classification in MRI image using convolutional neural network’. Math. Biosci. Eng. 17(5), 6203-6216 (2020).
  7. Kumar, S. & Mankame, D. P. Optimization driven deep convolution neural network for brain tumor classification. Biocybern. Biomed. Eng. 40(3), 1190-1204 (2020).
  8. Sharif, J., Amin, M., Raza, M. & Yasmin, S. C. S. An integrated design of particle swarm optimization (PSO) with fusion of features for detection of brain tumor. Pattern Recognit. Lett. 129, 150-157 (2020).
  9. Amin, J., Sharif, M., Yasmin, M. & Fernandes, S. L. A distinctive approach in brain tumor detection and classification using MRI. Pattern Recognit. Lett. 139, 118-127 (2020).
  10. Woźniak, M., Siłka, J. & Wieczorek, M. Deep neural network correlation learning mechanism for CT brain tumor detection. Neural Comput. Appl. 35, 14611-14626 (2021).
  11. Al Rub, S. A., Alaiad, A., Hmeidi, I., Quwaider, M. & Alzoubi, O. Hydrocephalus classification in brain computed tomography medical images using deep learning. Simul. Model. Pract. 123, 102705 (2023).
  12. Mehnatkesh, H., Jalali, S. M. J., Khosravi, A. & Nahavandi, S. An intelligent driven deep residual learning framework for brain tumor classification using MRI images. Expert Syst. Appl. 213, 119087 (2023).
  13. Raja, P. S. & Viswasarani, A. Brain tumor classification using a hybrid deep autoencoder with Bayesian fuzzy clustering-based segmentation approach. Biocybern. Biomed. Eng. 40(1), 440-453 (2020).
  14. Cè, M. et al. Artificial intelligence in brain tumor imaging: A step toward personalized medicine. Curr. Oncol. 30(3), 2673-2701 (2023).
  15. Badža, M. M. & Barjaktarović, M. Č. Classification of brain tumors from MRI images using a convolutional neural network. Appl. Sci. 10(6), 1999 (2020).
  16. Ismael, S. A. A., Mohammed, A. & Hefny, H. An enhanced deep learning approach for brain cancer MRI images classification using residual networks. Artif. Intell. Med. 102(1), 101779 (2020).
  17. Rehman, M. A., Khan, T., Saba, Z., Mehmood, U. & Tariq, N. A. Microscopic brain tumor detection and classification using 3D CNN and feature selection architecture. Microsc. Res. Tech. 84(1), 133-149 (2021).
  18. Tabatabaei, S., Rezaee, K. & Zhu, M. Attention transformer mechanism and fusion based deep learning architecture for MRI brain tumor classification system. Biomed. Signal Process. Control 86(1), 105119 (2023).
  19. Rehman, A., Naz, S., Razzak, M. I., Akram, F. & Imran, M. A deep learning-based framework for automatic brain tumors classification using transfer learning. Circuits Syst. Signal Process. 39(1), 757-775 (2019).
  20. Abir, T. A., Siraji, J. A. & Ahmed, E. Analysis of a novel MRI Based Brain Tumour Classification Using Probabilistic Neural Network (PNN). Int. J. Sci. Res. Sci. Eng. Technol. 4(8), 69-75 (2018).
  21. Cheng, J. et al. Retrieval of brain tumors by adaptive spatial pooling and fisher vector representation. PLoS ONE 11(6), 1-15 (2016).
  22. Naseer, A. et al. Refining Parkinson’s neurological disorder identification through deep transfer learning. Neural Comput. Appl. 32(1), 839-854 (2018).
  23. Badjie, B. & Ülker, E. D. A deep transfer learning based architecture for brain tumor classification using MR images. Inf. Technol. Control 51(2), 333-343 (2022).
  24. Rajat Mehrotra, M. A., Ansari, R. A. & Anand, R. S. A Transfer Learning approach for AI-based classification of brain tumors. Mach. Learn. Appl. 2(1), 100003 (2020).
  25. Ullah, N. et al. An effective approach to detect and identify brain tumors using transfer learning. Appl. Sci 12(11), 1-17 (2022).
  26. Saravanan, S. et al. Computational and mathematical methods in medicine glioma brain tumor detection and classification using convolutional neural network. Comput. Math. Methods Med. 4380901, 1-12 (2022).
  27. Srinivasan, S. et al. Grade classification of tumors from brain magnetic resonance images using a deep learning technique. Diagnostics 13(6), 1-20 (2023).
  28. Saravanan, S. & Thirumurugan, P. Performance analysis of glioma brain tumor segmentation using Ridgelet transform and coactive adaptive neuro fuzzy expert system methodology. J. Med. Imaging Health Inf. 10(11), 2642-2648 (2020).
  29. Karim, P. J., Mahmood, S. R. & Sah, M. Brain tumor classification using fine-tuning based deep transfer learning and support vector machine. Int. J. Comput. Digit. Syst. 13(1), 84-96 (2023).
  30. Ullah, F. et al. Evolutionary model for brain cancer-grading and classification. IEEE Access 99(1), 1-15 (2023).
  31. Ullah, F. et al. Enhancing brain tumor segmentation accuracy through scalable federated learning with advanced data privacy and security measures. Mathematics 11(9), 1-27 (2023).
  32. Ullah, F. et al. Brain tumor segmentation from MRI images using handcrafted convolutional neural network. Diagnostics 13(16), 1-15 (2023).
  33. Ullah, F., Nadeem, M. & Abrar, M. Revolutionizing brain tumor segmentation in MRI with dynamic fusion of handcrafted features and global pathway-based deep learning. KSII Trans. Internet Info. Syst. 18(1), 105-125 (2024).
  34. M. Nickparvar, Brain tumor MRI dataset (2023). https://www.kaggle.com/datasets/masoudnickparvar/brain-tumor-mri-dataset.
  35. Islam, M. M., Uddin, M. R., Ferdous, M. J., Akter, S. & Akhtar, M. N. BdSLW-11: Dataset of Bangladeshi sign language words for recognizing 11 daily useful BdSL words. Data Brief 45, 108747 (2022).
  36. Xu, X., Li, W. & Duan, Q. Transfer learning and SE-ResNet152 networks-based for small-scale unbalanced fish species identification. Comput. Electron. Agric. 180(1), 1-7 (2023).
  37. Bansa, M., Kumar, M., Sachdeva, M. & Mittal, A. Transfer learning for image classification using VGG19: Caltech-101 image data set. J. Ambient Intell. Hum. Comput. 14(1), 3609-3620 (2023).
  38. Al-rimy, B. A. S., Saeed, F., Al-Sarem, M., Albarrak, A. M. & Qasem, S. N. An adaptive early stopping technique for DenseNet169based knee osteoarthritis detection model. Diagnostics 13(11), 1-19 (2023).
  39. Li, Y., Xiong, X., Xin, W., Huang, J. & Hao, H. MobileNetV3-CenterNet: A target recognition method for avoiding missed detection effectively based on a lightweight network. J. Beijing Inst. Technol. 32(1), 82-94 (2023).
  40. Chang, Y. L. et al. Consolidated convolutional neural network for hyperspectral image classification. Remote Sens. 14(1), 1571 (2022).

Author contributions

Conceptualization, S.K.M. and S.S.; methodology, S.M. and H.R.; validation, H.R. and M.A.S.; data curation, B.D.S.; writing—original draft, S.S. and S.K.M.; writing—review and editing, S.K.M. and H.R.; visualization, B.D.S.; supervision S.K.M., and M.A.S.; project ad-ministration, S.K.M., and M.A.S. All authors have read and agreed to the published version of the manuscript.

Funding

This research received no external funding.

Competing interests

The authors declare no competing interests.

Additional information

Correspondence and requests for materials should be addressed to M.A.S.
Reprints and permissions information is available at www.nature.com/reprints.
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by/4.0/.
© The Author(s) 2024

  1. School of Computer Science and Engineering, Galgotias University, Greater Noida 203201, India. Department of Computer Science and Engineering, Vel Tech Rangarajan Dr.Sagunthala R&D Institute of Science and Technology, Chennai 600062, India. School of Computing Science and Engineering, VIT Bhopal University, Bhopal-Indore Highway Kothrikalan, Sehore 466114, India. Kebri Dehar University, 250, Kebri Dehar, Somali, Ethiopia. Centre of Research Impact and Outcome, Chitkara University Institute of Engineering and Technology, Chitkara University, Rajpura, Punjab 140401, India. Division of Research and Development, Lovely Professional University, Phagwara, Punjab 144001, India. email: drmohdasifshah@kdu.edu.et