تعزيز اكتشاف أورام الدماغ في صور الرنين المغناطيسي من خلال الذكاء الاصطناعي القابل للتفسير باستخدام Grad-CAM مع Resnet 50 Enhancing brain tumor detection in MRI images through explainable AI using Grad-CAM with Resnet 50

المجلة: BMC Medical Imaging، المجلد: 24، العدد: 1
DOI: https://doi.org/10.1186/s12880-024-01292-7
PMID: https://pubmed.ncbi.nlm.nih.gov/38734629
تاريخ النشر: 2024-05-11

تعزيز اكتشاف أورام الدماغ في صور الرنين المغناطيسي من خلال الذكاء الاصطناعي القابل للتفسير باستخدام Grad-CAM مع Resnet 50

محمد مصطفى , ماهيش ت. , فينوت كومار و سوريش غولوادي

الملخص

تتناول هذه الدراسة التحدي الحاسم في الكشف عن أورام الدماغ باستخدام صور الرنين المغناطيسي، وهي مهمة محورية في التشخيص الطبي تتطلب دقة عالية وقابلية للتفسير. بينما أظهر التعلم العميق نجاحًا ملحوظًا في تحليل الصور الطبية، لا يزال هناك حاجة كبيرة لنماذج ليست دقيقة فحسب، بل قابلة للتفسير أيضًا لمهنيي الرعاية الصحية. غالبًا ما تعمل المنهجيات الحالية، التي تعتمد بشكل أساسي على التعلم العميق، كصناديق سوداء، مما يوفر القليل من الرؤية في عملية اتخاذ القرار الخاصة بها. تقدم هذه البحث نهجًا متكاملًا باستخدام ResNet50، وهو نموذج تعلم عميق، مقترنًا بتخطيط تنشيط الفئة المعتمد على التدرج (Grad-CAM) لتقديم إطار عمل شفاف وقابل للتفسير للكشف عن أورام الدماغ. استخدمنا مجموعة بيانات من صور الرنين المغناطيسي، تم تحسينها من خلال زيادة البيانات، لتدريب نموذجنا والتحقق من صحته. تظهر النتائج تحسنًا كبيرًا في أداء النموذج، مع دقة اختبار تبلغ ومقاييس الدقة والاسترجاع تتجاوز , مما يبرز فعالية النموذج في تمييز وجود الورم. يوفر تطبيق Grad-CAM تفسيرات بصرية مفيدة، توضح مجالات تركيز النموذج في اتخاذ التنبؤات. إن دمج الدقة العالية وقابلية التفسير يحمل تداعيات عميقة على التشخيص الطبي، مما يوفر طريقًا نحو أدوات كشف أورام الدماغ أكثر موثوقية وقابلية للتفسير.

الكلمات الرئيسية: الذكاء الاصطناعي القابل للتفسير، كشف أورام الدماغ، صور الرنين المغناطيسي، التعلم العميق، Grad-CAM، ResNet50، تحليل الصور الطبية

المقدمة

تشكل أورام الدماغ، التي تتضمن مجموعة من الأورام داخل الدماغ، مخاطر صحية كبيرة وتحديات في التشخيص الطبي. يتم تصنيفها إلى أورام أولية، تنشأ في الدماغ، وأورام ثانوية، تنتشر من أجزاء أخرى من الجسم. إن
معدل حدوث أورام الدماغ يبرز الحاجة الملحة لأدوات تشخيص دقيقة. تظهر أورام الدماغ أعراضًا غير متجانسة تتراوح من الصداع إلى إعاقات عصبية أكثر خطورة، مما يتطلب الكشف المبكر والدقيق لتحسين نتائج العلاج [1].
علاوة على ذلك، تتطلب الأعراض المتداخلة لأورام الدماغ مع اضطرابات عصبية أخرى أداة تشخيصية تقدم حساسية وخصوصية عالية. تتطلب الطرق التشخيصية التقليدية، على الرغم من فعاليتها، غالبًا إجراءات جراحية أو قد تكون محدودة في قدرتها على الكشف عن الأورام الصغيرة أو في مراحلها المبكرة.
لقد برز التصوير بالرنين المغناطيسي (MRI) كركيزة في التشخيص غير الجراحي لأورام الدماغ [2]، حيث يقدم صورًا تفصيلية عن تشريح الدماغ وعلم الأمراض. يوفر التصوير بالرنين المغناطيسي تباينًا غير مسبوق في الأنسجة الرخوة
، مما يسهل التمييز بين الأنسجة السليمة والمرضية. إنه أداة حيوية في تقييم موقع الورم وحجمه وتأثيره المحتمل على الهياكل الدماغية المجاورة، وهو أمر حاسم في تخطيط العلاج. ومع ذلك، فإن تفسير صور الرنين المغناطيسي يعتمد بشكل كبير على خبرة أطباء الأشعة وقد يكون مستهلكًا للوقت، مما يبرز الحاجة إلى تقنيات مساعدة لتحسين دقة وكفاءة التشخيص.
لقد أحدث التعلم العميق، وهو فرع من فروع التعلم الآلي، ثورة في مجال تحليل الصور الطبية، حيث قدم تحسينات كبيرة في الكشف وتصنيف الأمراض المختلفة [3]. في كشف أورام الدماغ، يمكن لخوارزميات التعلم العميق تحليل بيانات الرنين المغناطيسي المعقدة، وتحديد الأنماط التي لا يمكن رؤيتها بالعين المجردة، والتعلم من هذه الأنماط لإجراء تنبؤات دقيقة. لقد أظهرت هذه الخوارزميات، وخاصة الشبكات العصبية التلافيفية (CNNs)، براعتها في تعزيز دقة وسرعة تشخيص أورام الدماغ، مما يقلل من الاعتماد على التفسير البشري ويقلل من الأخطاء التشخيصية. في الشكل 1، تظهر بعض الحالات البصرية لأورام الدماغ من مجموعة البيانات.
الهدف الرئيسي من هذه البحث هو استغلال قدرات التعلم العميق، وبشكل خاص بنية ResNet50، بالتزامن مع تخطيط تنشيط الفئة المعتمد على التدرج (Grad-CAM)، لتعزيز الكشف وقابلية تفسير تشخيصات أورام الدماغ من صور الرنين المغناطيسي. تهدف هذه الدراسة إلى:
  1. تنفيذ نموذج تعلم عميق يوفر دقة متقدمة في الكشف عن أورام الدماغ من صور الرنين المغناطيسي.
  2. دمج Grad-CAM مع نموذج التعلم العميق لتقديم تفسيرات بصرية لتنبؤات النموذج، مما يعزز قابلية التفسير وموثوقية نظام الذكاء الاصطناعي.
  3. تقييم أداء النموذج باستخدام مجموعة شاملة من المقاييس، لضمان موثوقيته وقابليته للتطبيق في بيئة سريرية.
  4. المساهمة في مجموعة المعرفة من خلال تقديم رؤى حول كيفية جعل الذكاء الاصطناعي أكثر شفافية ومساعدة في التشخيص الطبي، خاصة في سياق كشف أورام الدماغ.
من خلال هذه الأهداف، تهدف الدراسة إلى سد الفجوة بين تقنيات الذكاء الاصطناعي المتقدمة وقابلية التطبيق السريرية، مما يوفر أداة لا تتفوق فقط في الدقة ولكن أيضًا في تقديم الوضوح والرؤية في عملياتها التشخيصية. هذه المساهمة حيوية في تقدم مجال التشخيص الطبي، حيث تعتبر الثقة والشفافية بنفس أهمية الدقة والكفاءة.
لقد كان كشف أورام الدماغ باستخدام صور الرنين المغناطيسي نقطة تركيز للبحث بسبب قدرة الرنين المغناطيسي على تقديم صور تفصيلية وعالية التباين. تم استخدام تقنيات معالجة الصور التقليدية المختلفة، بما في ذلك التقسيم واستخراج الميزات، للتمييز بين الأنسجة الدماغية الطبيعية وغير الطبيعية. ومع ذلك، غالبًا ما تتطلب هذه الطرق تدخلًا يدويًا وتكون محدودة من خلال اعتمادها على ميزات محددة مسبقًا، والتي قد لا تلتقط التعقيد الكامل لخصائص أورام الدماغ.
الشكل 1: صور عينة من مجموعة البيانات
لقد شهدت التطورات الأخيرة تحولًا نحو طرق الكشف التلقائي عن أورام الدماغ، مستفيدة من خوارزميات التعلم الآلي لتحسين دقة وكفاءة التشخيص. على سبيل المثال، طبقت الدراسات آلات الدعم المتجهة (SVM) ومصنفات الغابة العشوائية على بيانات الرنين المغناطيسي، مما أظهر نجاحًا كبيرًا في تحديد الأورام [4]. ومع ذلك، غالبًا ما تتطلب هذه الأساليب في التعلم الآلي هندسة ميزات دقيقة، مما قد يكون مستهلكًا للوقت وقد لا تعمم بشكل جيد عبر مجموعات بيانات متنوعة.
لقد أحدث التعلم العميق، وخاصة الشبكات العصبية التلافيفية (CNNs)، ثورة في مجال التصوير الطبي. على عكس التعلم الآلي التقليدي، يلغي التعلم العميق الحاجة إلى استخراج الميزات يدويًا، مما يسمح للنموذج بتعلم الميزات مباشرة من البيانات. كانت هذه القدرة تحولية بشكل خاص في كشف أورام الدماغ [5]، حيث تتطلب الطبيعة المعقدة والمتنوعة للأورام تحليلًا دقيقًا.
أظهرت الدراسات التي تستخدم التعلم العميق لكشف أورام الدماغ نجاحًا ملحوظًا. على سبيل المثال، تم استخدام الشبكات العصبية التلافيفية بشكل واسع لتصنيف وتقسيم أورام الدماغ في صور الرنين المغناطيسي [6، 7]، محققة تحسينات كبيرة في الدقة مقارنة بالمنهجيات السابقة. كما استكشفت بعض الأبحاث استخدام التعلم الانتقالي، حيث يتم ضبط النماذج المدربة مسبقًا على مجموعات بيانات كبيرة لمهام التصوير الطبي المحددة، مما يحقق نتائج مثيرة للإعجاب حتى مع مجموعات بيانات صغيرة نسبيًا [8].
على الرغم من هذه التقدمات، فإن أحد القيود الرئيسية لنماذج التعلم العميق في التصوير الطبي، وخاصة في كشف أورام الدماغ، هو طبيعتها “الصندوق الأسود”. تجعل الهياكل المعقدة لهذه النماذج من الصعب فهم الأسباب وراء تنبؤاتها، وهو ما يمثل حاجزًا كبيرًا لقبولها وتنفيذها في البيئات السريرية [9]. في الجدول 1، تم تقديم ملخص لدراسات مختلفة.
بينما وضعت نماذج التعلم العميق معايير جديدة في دقة اكتشاف أورام الدماغ من صور الرنين المغناطيسي، فإن نقص القابلية للتفسير لا يزال عقبة كبيرة. إن القدرة على فهم وثقة عملية اتخاذ القرار للنموذج أمر حاسم لتمكين الأطباء من اعتماد هذه الأدوات التشخيصية المدعومة بالذكاء الاصطناعي.
علاوة على ذلك، تركز العديد من الدراسات الحالية بشكل أساسي على دقة النموذج، وغالبًا ما تتجاهل جانب القابلية للتعميم. من الضروري أن لا تؤدي النماذج أداءً جيدًا فقط على البيانات التي تم تدريبها عليها، بل يجب أن تحافظ أيضًا على أدائها عبر مجموعات بيانات متنوعة وغير مرئية.
تتناول هذه الدراسة هذه الفجوات من خلال دمج GradCAM مع نموذج التعلم العميق، وتحديداً ResNet50، لتقديم تفسيرات بصرية لتوقعات النموذج. يوفر Grad-CAM تصوراً لخريطة حرارية، يبرز المناطق في صور الرنين المغناطيسي التي لها تأثير كبير.
تؤثر على قرار النموذج، مما يوفر نافذة على “عملية تفكير” النموذج. لا يهدف هذا النهج فقط إلى تعزيز قابلية تفسير النموذج، بل يسعى أيضًا لبناء الثقة بين الأطباء من خلال توفير أداة ذكاء اصطناعي شفافة يمكن أن تساعد في اتخاذ القرارات التشخيصية [20].
بالإضافة إلى ذلك، يركز هذا البحث على تقييم قابلية تعميم النموذج من خلال اختبار أدائه على مجموعة بيانات منفصلة وغير مرئية، مما يضمن أن الحل المقترح قوي وقابل للتطبيق في البيئات السريرية الواقعية [21]. من خلال هذه الجهود، يهدف الدراسة إلى تقديم أداة تعتمد على الذكاء الاصطناعي أكثر شفافية وفهمًا وموثوقية لاكتشاف أورام الدماغ، مع معالجة الفجوات الحرجة في المشهد الحالي لتحليل الصور الطبية.

المنهجية

تم تصميم منهجية هذه الدراسة للاستفادة من التعلم العميق في الكشف عن أورام الدماغ من صور الرنين المغناطيسي، مع التركيز بشكل خاص على تعزيز قابلية تفسير النموذج باستخدام Grad-CAM. يتضمن ذلك عملية شاملة تشمل إعداد مجموعة البيانات، ومعالجة البيانات، وتدريب النموذج باستخدام ResNet50 [22]، وتطبيق Grad-CAM من أجل قابلية التفسير، وتقييم أداء النموذج. تم تصميم كل خطوة بدقة لضمان أن النموذج لا يحقق دقة عالية فحسب، بل يوفر أيضًا رؤى حول عملية اتخاذ القرار الخاصة به، وهو أمر حاسم للقبول السريري. توضح الشكل 2 سير العمل للنموذج المقترح.

وصف مجموعة البيانات

تتكون مجموعة البيانات المستخدمة في هذه الدراسة من صور أشعة الرنين المغناطيسي للدماغ المصنفة على أنها ‘ورم’ أو ‘لا ورم’، مما يسهل مهمة التصنيف الثنائي. تم الحصول على هذه الصور من مجموعة بيانات تصوير طبي متاحة للجمهور [23]، مما يضمن قابلية إعادة إنتاج الدراسة. تم وضع علامات على كل صورة بواسطة أطباء أشعة خبراء، مما يوفر حقيقة موثوقة لتدريب النموذج وتقييمه. توضح الشكل 3 بعض الصور الأساسية المعالجة مسبقًا.
يوفر الجدول 2 ملخصًا لمجموعة البيانات.
تقدم الشكل 4 توزيع البيانات.
تتضمن مجموعة البيانات مجموعة متنوعة من الصور لتشمل أنواع وأحجام ومواقع الأورام المختلفة، بهدف تعزيز قدرة النموذج على التعميم. تحتوي على آلاف الصور، مقسمة إلى مجموعات التدريب والتحقق والاختبار. تُستخدم مجموعة التدريب لتدريب النموذج، ومجموعة التحقق لضبط المعلمات الفائقة ومنع الإفراط في التكيف، ومجموعة الاختبار لتقييم أداء النموذج على البيانات غير المرئية.

خطوات معالجة البيانات

في سياق أبحاث تصوير الدماغ، وخاصة في مجال تحليل أورام الدماغ، الدقيق
دراسة هدف ملخص
باتيل وكيرانج، (2023) [10] تصميم نموذج تجميعي عميق لتحسين دقة التصنيف متعدد الفئات لأورام الدماغ باستخدام صور الرنين المغناطيسي، مع معالجة تحديات تحديد موقع الورم وتصنيفه. يقدم نموذجًا عميقًا يجمع بين شبكات SCNN و VGG16 لتصنيف أورام الدماغ من صور الرنين المغناطيسي، محققًا دقة تصل إلى 97.77% ومعالجًا قضايا الإفراط في التكيف وعدم توازن مجموعة البيانات.
ووزنياك وآخرون، (2023) [11] تقديم نموذج CLM لتعزيز كفاءة هياكل الشبكات العصبية العميقة، لا سيما في تقييم أشعة مقطعية للدماغ. يقدم نموذج CLM الذي يدمج الشبكة العصبية الداعمة مع CNN لتسريع التعلم وزيادة الكفاءة، محققًا دقة تقارب 96% في تقييم أشعة الدماغ المقطعية.
عبد السلاموف وآخرون، (2023) [12] تعزيز اكتشاف أورام الدماغ باستخدام نموذج YOLOv7 المحسن مع تحسين الصور، وزيادة البيانات، وتقنيات دمج الميزات. يقدم نموذج YOLOv7 المحسن للكشف الدقيق عن أورام الدماغ في صور الرنين المغناطيسي، محققًا أداءً تنافسيًا ويظهر فائدة محتملة في التطبيقات الطبية.
محمود وآخرون، (2023) [13] تطوير بنية شبكة عصبية تلافيفية (CNN) للكشف الفعال عن أورام الدماغ من صور الرنين المغناطيسي، مع مقارنة أدائها مع النماذج المعتمدة. يقترح بنية شبكة عصبية تلافيفية (CNN) لاكتشاف أورام الدماغ من صور الرنين المغناطيسي، محققة أداءً متفوقًا مقارنةً بالنماذج المعتمدة. الدقة، 98.43% AUC، و91.19% استرجاع.
أسد وآخرون، (2023) [14] تطوير نظام تلقائي للكشف المبكر عن أورام الدماغ باستخدام شبكة عصبية عميقة مع خوارزمية تحسين SGD. يستخدم شبكة عصبية تلافيفية عميقة مع تحسين SGD لاكتشاف أورام الدماغ، متفوقًا على الطرق الأساسية ويقترح إمكانية استخدامها في أمراض أخرى.
كانشنامالا وآخرون، (2023) [15] تطوير نظام دقيق لاكتشاف وتصنيف أورام الدماغ باستخدام ShCNN المعتمد على ExpDHO وDeep CNN، مما يعزز الدقة والحساسية والخصوصية. يقترح نهجًا يجمع بين ShCNN المعتمد على ExpDHO وDeep CNN لاكتشاف وتصنيف أورام الدماغ، محققًا قيم دقة وحساسية ونوعية تتجاوز 0.9.
أغاروال وآخرون، (2023) [16] تطوير نهج محسّن قائم على ResNet لتقسيم أورام الدماغ في صور الرنين المغناطيسي. يقدم نهجًا محسّنًا قائمًا على ResNet لتجزئة أورام الدماغ، محققًا دقة أعلى وتسريع عملية التعلم.
أرتشانا وكوماراسامي، (2023) [17] تقييم دقة طريقة جديدة تعتمد على BKNN لتقسيم أورام الدماغ في صور الرنين المغناطيسي. يقدم طريقة تعتمد على BKNN لتقسيم أورام الدماغ، تهدف إلى تحسين الدقة وتبسيط عملية التقسيم.
غياتري وآخرون، (2023) [18] تقييم فعالية بنية VGG-16 في الكشف بدقة عن أورام الدماغ من خلال التعلم العميق. يقيم أداء VGG-16 في اكتشاف أورام الدماغ، محققًا دقة تصل إلى 94% بعد تحسين المعلمات الفائقة.
حق وآخرون، (2023) [19] تطوير تقنيات فعالة تعتمد على الشبكات العصبية التلافيفية لتحديد وتصنيف أورام الدماغ من بيانات الرنين المغناطيسي. يقدم تقنيات قائمة على الشبكات العصبية التلافيفية لتحديد وتصنيف أورام الدماغ باستخدام بيانات التصوير بالرنين المغناطيسي، محققًا دقة عالية ويستفيد من الحقول العشوائية الشرطية للتقسيم الدقيق.
الشكل 2 سير العمل للنموذج المقترح
الشكل 3 صورة أساسية معالجة مسبقًا
جدول 2 وصف مجموعة البيانات
أصلي معزز
ورم 155 1240
لا ورم 98 784
تعتبر منهجيات المعالجة المسبقة أساسية لتحسين سلامة وفائدة مجموعة البيانات المستخدمة في تدريب النموذج والتحقق منه لاحقًا. تتضمن الخطوة الأولى في المعالجة المسبقة توحيد الصور، حيث تخضع جميع فحوصات التصوير بالرنين المغناطيسي لعمليات تقليص وإعادة قياس صارمة لتت conform إلى أبعاد موحدة واتجاه مكاني موحد. يضمن ذلك التجانس عبر مجموعة البيانات [24]، مما يسهل إجراءات معالجة البيانات واستخراج الميزات بشكل متسق. بعد التوحيد، يتم تطبيق تقنيات تطبيع الشدة (المعادلة 1) لإعادة معايرة
قيم شدة صور الرنين المغناطيسي على مقياس موحد.
من خلال التخفيف من تأثير التباينات الكامنة في معايير التصوير، تعزز هذه المعايرة حساسية النموذج تجاه الفروق التشريحية الدقيقة والميزات المرضية، مما يؤدي إلى تحسين قدرته التمييزية.
في الوقت نفسه، يتم تنفيذ بروتوكولات تنظيف البيانات بدقة لإزالة الصور الفاسدة أو الزائدة التي قد تُدخل ضوضاء أو تحيز في عملية التعلم. يتضمن ذلك فحوصات شاملة لمراقبة الجودة، بما في ذلك تحديد وتصحيح العيوب مثل عيوب الحركة، التشوهات المتعلقة بالماسح الضوئي، أو غيرها من الشذوذات التي قد تعقد تدريب النموذج. من خلال تنسيق البيانات بدقة، يتم الحفاظ على النزاهة و
توزيع البيانات
الشكل 4 توزيع مجموعة البيانات
تُحافظ موثوقية مجموعة البيانات، مما يضمن أن المراحل اللاحقة من تطوير النموذج تستند إلى عينة بيانات قوية وتمثيلية.
علاوة على ذلك، قد تشمل منهجيات المعالجة المسبقة المتقدمة استخدام خوارزميات متطورة لتسجيل الصور، والتقسيم، وتصحيح العيوب. يسهل تسجيل الصور المحاذاة المكانية لصور الرنين المغناطيسي من مواضيع أو نقاط زمنية مختلفة على قالب تشريحي مشترك، مما يمكّن من إجراء مقارنات ذات مغزى بين الأفراد وتحليلات طولية. تحدد خوارزميات التقسيم مناطق الاهتمام داخل الدماغ، مما يسهل التحديد الدقيق لحدود الورم ويمكّن من التوصيف الكمي لشكل الورم وحجمه. بالإضافة إلى ذلك، تستفيد استراتيجيات تصحيح العيوب من تقنيات معالجة الإشارات المتقدمة للتخفيف من آثار الضوضاء، والتشويه، أو غيرها من عيوب التصوير، مما يحافظ على دقة البيانات.
تعتبر معالجة صور الرنين المغناطيسي خطوة حيوية لضمان أن تكون بيانات الإدخال ملائمة لعملية التعلم لنماذج التعلم العميق. يتم اختيار كل خطوة من خطوات المعالجة بعناية وتطبيقها لتحسين قدرة النموذج على اكتشاف أورام الدماغ بدقة وموثوقية عالية.
يتم تغيير حجم جميع صور الرنين المغناطيسي إلى أبعاد قياسية لضمان التوحيد في حجم الإدخال للنموذج. هذا أمر ضروري لأن الشبكات العصبية التلافيفية (CNNs) تتطلب حجم إدخال ثابت. يساعد إعادة قياس قيم البكسل إلى نطاق من 0 إلى 1 في استقرار عملية التدريب حيث أنه يقوم بتطبيع تحديثات التدرج أثناء عملية الانتشار العكسي، مما يؤدي إلى تقارب أسرع. يمكن أن تختلف صور الرنين المغناطيسي في التباين والسطوع بسبب بروتوكولات المسح المختلفة. يجلب تطبيع الشدة جميع الصور إلى مقياس شدة مشترك، مما يساعد النموذج على التركيز على المعلومات الهيكلية بدلاً من التغيرات الناتجة عن عملية التصوير. هذه الخطوة حاسمة لتحسين حساسية النموذج للميزات المرضية الفعلية.
أورام الدماغ. من الضروري إزالة الصور التي تحتوي على عيوب، مثل ضبابية الحركة أو الضوضاء الناتجة عن الماسح الضوئي، لمنع النموذج من تعلم ميزات غير ذات صلة أو مضللة. تعزز مجموعات البيانات النظيفة قدرة النموذج على التعميم من خلال التعلم من صور عالية الجودة خالية من العيوب. توسيع البيانات، بما في ذلك التدوير، والانعكاس، والتغيير في الحجم، والتشوهات المرنة، يوسع مجموعة البيانات بشكل مصطنع ويقدم مجموعة متنوعة من التحولات التي قد يواجهها النموذج في سيناريوهات العالم الحقيقي. هذا مهم بشكل خاص لمهام التصوير الطبي، حيث يحاكي التباين في مظهر الورم وموقعه، مما يعزز قوة النموذج وقدرته على التعميم.
الأثر المتوقع لهذه الخطوات المسبقة على أداء النموذج متعدد الأوجه. في المقام الأول، تهدف إلى تحسين دقة النموذج من خلال تزويده ببيانات ذات جودة تمثل مختلف تجليات أورام الدماغ. ثانياً، تساعد هذه الخطوات في منع الإفراط في التكيف من خلال ضمان عدم تعلم النموذج للضوضاء أو العيوب، والتي يمكن أن تكون شائعة في الصور الطبية. أخيراً، تعزز المعالجة المسبقة قدرة النموذج على التعميم، مما يمكّنه من الأداء الجيد عبر مجموعات بيانات ذات خصائص تصويرية مختلفة.
من المتوقع أن يؤدي التطبيق الحكيم لهذه الخطوات المسبقة إلى نموذج ليس فقط دقيقًا للغاية في اكتشاف أورام الدماغ، ولكن أيضًا فعالًا في التدريب وفعالًا عبر بيئات التصوير المتنوعة. تسهم uniformity وجودة البيانات المعالجة مسبقًا بشكل مباشر في فعالية تعلم النموذج، مما يؤدي في النهاية إلى أداة موثوقة وذات قيمة سريرية.

تقنيات زيادة البيانات

في مجال تحليل أورام الدماغ، حيث تقدم التعقيدات والتنوع في شكل الورم تحديات كبيرة، فإن استخدام تعزيز البيانات
تُصبح التقنيات ضرورية لتعزيز ثراء مجموعة البيانات، مما يزيد من قوة النموذج وقدراته على التعميم. تشمل منهجيات التAugmentation مجموعة من العمليات التحويلية، كل منها مصمم لإدخال تنوعات مختلفة تعكس سيناريوهات الأورام في العالم الحقيقي. تُعتبر التدوير تقنية أساسية، حيث تسهل إنشاء صور من زوايا متعددة لمحاكاة المنظورات المتنوعة التي يتم مواجهتها في التصوير السريري [20]. في الشكل 5، تُظهر بعض الصور المعززة.
بالإضافة إلى ذلك، فإن عمليات التدوير أفقيًا ورأسيًا تنوع اتجاهات الصور، مما يحاكي بشكل فعال الترتيبات المكانية المتنوعة للأورام داخل الدماغ. تساهم عمليات تغيير الحجم أيضًا من خلال تغيير حجم الصور لمحاكاة طيف أحجام الأورام التي يتم مواجهتها في الممارسة السريرية، مما يعزز قدرة النموذج على تمييز الأورام ذات الأبعاد المختلفة. تعمل عمليات الترجمة، سواء عموديًا أو أفقيًا، على إزاحة الصور مكانيًا لتدريب النموذج على تحديد موقع الأورام، بغض النظر عن موقعها داخل الدماغ. توضح الشكل 6 صورة واحدة بعد خطوات مختلفة.
تشوه مرن، تقنية تعزير متطورة، تقدم تشوهات واقعية للصور، مما يحاكي التباينات الشكلية المتنوعة التي تُلاحظ في الهياكل الورمية الفعلية. بالإضافة إلى ذلك، فإن التعديلات على مستويات السطوع والتباين تحاكي
نطاق ظروف التصوير التي يتم مواجهتها في البيئات السريرية، مما يضمن قدرة النموذج على التكيف مع بيئات المسح المتنوعة. بشكل جماعي، تتجاوز هذه استراتيجيات التعزيز مجرد توسيع مجموعة البيانات، مما يمنح مجموعة البيانات تمثيلاً شاملاً لتنوع الأورام، وهو أمر حاسم لتدريب نموذج قوي.
في جوهرها، تعتبر زيادة البيانات آلية محورية لتعزيز مرونة النموذج وقدرته على التكيف مع تعقيدات تحليل أورام الدماغ. من خلال احتواء مجموعة البيانات على العديد من تجليات الأورام، تمكّن تقنيات زيادة البيانات النموذج من التعميم بفعالية عبر طيف من السيناريوهات السريرية. وبالتالي، تظهر زيادة البيانات ليس فقط كاستراتيجية حسابية ولكن كعنصر أساسي في تحسين القدرات التشخيصية لنماذج التصوير العصبي، مما يدفع في النهاية حدود اكتشاف أورام الدماغ وتوصيفها.

نظرة عامة على نموذج التعلم العميق (ResNet50) وأهميته

ResNet50 هو نوع من بنية الشبكة المتبقية (ResNet)، والتي تم تصميمها لتدريب الشبكات العصبية العميقة للغاية بفعالية مع 50 طبقة. يقدم ResNet مفهوم التعلم المتبقي، الذي يتعامل مع مشكلة تلاشي التدرج، مما يسمح للشبكة بالتعلم بشكل أسرع وأكثر فعالية، حتى مع زيادة عمق الشبكة.
الشكل 5 الصور المعززة
الشكل 6 الصورة بعد خطوات المعالجة المسبقة
تزداد العمق. يتم تحقيق ذلك من خلال استخدام اتصالات التخطي، أو اتصالات الاختصار، التي تسمح بتراجع التدرج مباشرة إلى الطبقات السابقة.
ResNet50، وهو هيكل شبكة عصبية تلافيفية بارز، يتميز بعمقه وعناصر تصميمه المعقدة المصممة لتسهيل استخراج الميزات الغنية وانتشار التدرجات. يتكون ResNet50 من 50 طبقة، ويجمع بين الطبقات التلافيفية، وطبقات تفعيل الوحدة الخطية المصححة (ReLU) (المعادلة 2)، وطبقات تطبيع الدفعات، وطبقات متصلة بالكامل. تتكون المعادلات 3 و10 من المعادلات المختلفة المستخدمة في عملية بناء النموذج.
قاعدة تحديث محسن آدم (اللحظة الأولى)
تدور الفرضية الأساسية لهذه العمارة حول فكرة بناء شبكة عميقة قادرة على اكتساب تمثيلات هرمية للبيانات المدخلة، وهو أمر ضروري لمهام التعرف على الأنماط المعقدة. في صميم فعالية ResNet50 توجد الكتل المتبقية، حيث يتم إضافة المدخلات إلى مخرجات الكتلة مباشرة، مما يخلق اتصالًا مختصرًا. هذه الآلية تخفف من مشكلة تلاشي التدرج من خلال تسهيل تدفق التدرجات دون عوائق أثناء عملية الانتشار العكسي، مما يمكّن من التدريب الناجح للشبكات العميقة.
علاوة على ذلك، يتضمن ResNet50 تصميمًا ذو عنق زجاجة داخل كتلته لتخفيف التعقيد الحسابي مع الحفاظ على الفعالية. يتضمن هذا التصميم استخدام سلسلة من العمليات داخل كل كتلة: أولاً، يتم استخدام التفاف لتقليل أبعاد خرائط الميزات المدخلة؛ بعد ذلك، يتم تطبيق التفاف لالتقاط الأنماط المكانية المعقدة؛ وأخيرًا، يتم استخدام التفاف لاستعادة الأبعاد الأصلية. من خلال استخدام هذه الهياكل ذات العنق الزجاجة بشكل استراتيجي، يقوم ResNet50 بتحسين الكفاءة الحسابية دون المساس بقدرة الشبكة على التقاط الميزات المعقدة، مما يمكّن التدريب الفعال والاستدلال عبر تطبيقات متنوعة في رؤية الكمبيوتر وما بعدها.
يظهر ResNet50 كأداة محورية بفضل هيكله العميق وقدرته على استخراج الميزات المعقدة من بيانات التصوير الطبي. من خلال الاستفادة من قدراته في تعلم الميزات الهرمية، يتفوق ResNet50 في تمييز الأنماط الدقيقة والمعقدة داخل صور الرنين المغناطيسي التي تشير إلى وجود أورام. علاوة على ذلك، تعزز تطبيقات التعلم الانتقالي من فائدته في مهام التصوير الطبي، حيث تمثل أحجام مجموعات البيانات المحدودة تحديات لتدريب الشبكات العميقة من الصفر. من خلال التدريب المسبق على مجموعات بيانات واسعة مثل ImageNet ومن ثم تحسينه على صور الرنين المغناطيسي، يستفيد ResNet50 من المعرفة بالميزات العامة المكتسبة من مجموعات البيانات الأكبر للتكيف مع تفاصيل اكتشاف الأورام، مما يعزز أدائه وقدرته على التعميم.
علاوة على ذلك، يساهم دمج تقنيات التفسير مثل رسم خرائط تنشيط الفئة المعتمدة على التدرج (Grad-CAM) مع ResNet50 في فائدته في الإعدادات السريرية. تتيح هذه المنهجية تصور المناطق البارزة داخل الصور المدخلة التي تؤثر على عملية اتخاذ القرار للنموذج، مما يعزز من قابلية التفسير. يحصل الأطباء على رؤى حول الأسباب وراء توقعات النموذج، حيث يوضح Grad-CAM المناطق التي تعتبر دالة على وجود الأورام. لا يعزز هذا الثقة في تشخيصات النموذج فحسب، بل يسهل أيضًا عمليات اتخاذ القرار التعاونية بين الأطباء وأنظمة الذكاء الاصطناعي، مما يعزز في النهاية رعاية المرضى وتخطيط العلاج.
تم تعديل ResNet50 لمهمة التصنيف الثنائي لاكتشاف أورام الدماغ. يتم استبدال الطبقة النهائية المتصلة بالكامل في نموذج ResNet50 القياسي، الذي يستخدم عادةً لتصنيف 1000 فئة، بطبقة جديدة مصممة لتمييز بين فئتين: ‘ورم’ و ‘لا ورم’. هذه التعديلات ضرورية لتكييف النموذج المدرب مسبقًا مع المهمة المحددة.
يتم تدريب النموذج على مجموعة بيانات الرنين المغناطيسي المعززة، مستفيدًا من الانتشار العكسي لتقليل دالة الخسارة وتحديث الأوزان. خلال التدريب، يتم الاستفادة من فعالية كتل ResNet50 المتبقية لالتقاط
التفاصيل المعقدة اللازمة لاكتشاف الأورام بدقة. ثم يتم تطبيق Grad-CAM على النموذج المدرب، مما يوفر تفسيرات بصرية تبرز المناطق في صور الرنين المغناطيسي الأكثر تأثيرًا على توقعات النموذج، مما يوفر رؤية شفافة في آليات تشغيل النموذج.
يوفر الخوارزمية 1 نهجًا منظمًا للاستفادة من ResNet50 مع Grad-CAM لمهمة اكتشاف أورام الدماغ من صور الرنين المغناطيسي، مع التركيز على الدقة في التصنيف والشفافية في اتخاذ قرارات النموذج من خلال التفسيرات البصرية.
الخوارزمية 1. اكتشاف أورام الدماغ باستخدام ResNet50 مع Grad-CAM
المدخلات:
  • مجموعة من صور الرنين المغناطيسي للدماغ لتقييم وجود أورام الدماغ.
  • أوزان نموذج ResNet50 المدرب مسبقًا.
المخرجات:
  • تصنيف كل صورة رنين مغناطيسي إلى ‘ورم’ أو ‘لا ورم’.
  • تفسيرات Grad-CAM التي تبرز المناطق المؤثرة على توقعات النموذج.
الخطوات:
  1. تحضير البيانات:
  • تحميل مجموعة بيانات صور الرنين المغناطيسي للدماغ.
  • تطبيع كثافات الصور وإعادة تحجيم الصور لتتناسب مع حجم الإدخال لنموذج ResNet50.
  • تقسيم مجموعة البيانات إلى مجموعات تدريب، تحقق، واختبار.
  1. زيادة البيانات (لمجموعة التدريب):
  • تطبيق التدوير، والانعكاس، والتكبير، والترجمة، والتشويه المرن، وتعديلات السطوع/التباين على الصور في مجموعة التدريب لتعزيز تعميم النموذج.
  1. تكوين النموذج:
  • تهيئة نموذج ResNet50. إذا كنت تستخدم التعلم الانتقالي، قم بتحميل الأوزان المدربة مسبقًا؛ وإلا، قم بالتهيئة بأوزان عشوائية.
  • استبدال الطبقة النهائية المتصلة بالكامل بطبقة جديدة مصممة للتصنيف الثنائي (ورم، لا ورم).
  1. التدريب:
  • لكل عصر، قم بالتكرار على مجموعة التدريب في دفعات:
  • قم بإجراء تمرير أمامي للنموذج لحساب التوقعات.
  • احسب الخسارة باستخدام الانتروبيا المتقاطعة الثنائية.
  • قم بإجراء الانتشار العكسي لحساب التدرجات.
  • قم بتحديث أوزان النموذج باستخدام مُحسِّن (مثل SGD أو Adam).
  • بعد كل عصر، قم بتقييم النموذج على مجموعة التحقق لمراقبة الأداء وتطبيق التوقف المبكر أو حفظ النموذج حسب الحاجة.
  1. الاختبار والتقييم:
  • قم بتقييم النموذج النهائي على مجموعة الاختبار لتحديد أدائه باستخدام مقاييس مثل الدقة، والدقة، والاسترجاع، وF1-Score، والخصوصية.
  • قم بإنشاء مصفوفة الارتباك ومنحنى ROC لتقييم أداء النموذج بالتفصيل.
  1. تصوير Grad-CAM:
  • بالنسبة لصور الاختبار المختارة، قم بتطبيق Grad-CAM لإنشاء خرائط حرارية تبرز المناطق الأكثر تأثيرًا على توقعات النموذج.
  • قم بتراكب هذه الخرائط الحرارية على الصور الأصلية لتصور مناطق التركيز للنموذج.
  1. توليد المخرجات:
  • قم بتصنيف كل صورة في مجموعة الاختبار كـ ‘ورم’ أو ‘لا ورم’ بناءً على توقعات النموذج.
  • قدم تفسيرات Grad-CAM جنبًا إلى جنب مع التوقعات من أجل قابلية التفسير والتحليل الإضافي.

عملية التدريب والتحقق والاختبار

تتضمن عملية تدريب نموذج ResNet50 في اكتشاف أورام الدماغ تسلسلًا دقيقًا من الخطوات تهدف إلى تحسين أدائه وموثوقيته. تبدأ بتهيئة النموذج، حيث يتم غالبًا الاستفادة من الأوزان المدربة مسبقًا من مجموعات بيانات مثل ImageNet لبدء عملية التعلم، مما يسهل التعلم الانتقالي ويسرع التقارب نحو الأهداف المحددة للمهمة. بعد ذلك، يتم اختيار دالة خسارة مناسبة، عادةً ما تكون الانتروبيا المتقاطعة الثنائية لمهام التصنيف الثنائي، لت quantifying الفجوة بين المخرجات المتوقعة والعلامات الفعلية. ثم يتم اختيار مُحسِّن، مثل SGD أو Adam، لتحديث أوزان الشبكة بشكل تكراري بناءً على التغذية الراجعة من دالة الخسارة.
يتم استخدام معالجة الدفعات لتقسيم مجموعة بيانات التدريب إلى مجموعات فرعية قابلة للإدارة، مما يمكّن من تحديث الأوزان بشكل تدريجي ويعزز الكفاءة الحسابية. خلال كل تكرار تدريبي، يتم تمرير البيانات عبر الشبكة، مما يولد توقعات. بعد ذلك، يتم حساب تدرج الخسارة بالنسبة لأوزان الشبكة، مما يسهل تحديث الأوزان بواسطة المُحسِّن لتقليل الخسارة.
تت unfold عملية التدريب على مدى عدة عصور، حيث يمثل كل عصر تمريرة كاملة عبر مجموعة بيانات التدريب بأكملها. قد يتم استخدام تقنيات مثل الإسقاط أو تنظيم L2 لتخفيف الإفراط في التكيف، مما يضمن أن النموذج يتعمم بشكل جيد على البيانات غير المرئية.
في الوقت نفسه، تحدث عملية التحقق في نهاية كل عصر، حيث يتم تقييم أداء النموذج على مجموعة تحقق منفصلة. توفر هذه التقييمات رؤى حول قدرات تعميم النموذج وتوجه قرارات ضبط المعلمات. يتم تعديل المعلمات مثل معدل التعلم وحجم الدفعة بناءً على مقاييس الأداء مثل الدقة والدقة والاسترجاع. علاوة على ذلك، قد يتم تنفيذ معايير التوقف المبكر لوقف التدريب إذا تدهور أداء النموذج على مجموعة التحقق، مما يقلل من الإفراط في التكيف عن طريق منع النموذج من تعلم الضوضاء من مجموعة بيانات التدريب. من خلال هذا النظام التدريبي والتحققي التكراري، يتم صقل نموذج ResNet50 لتحقيق أداء وموثوقية مثلى في مهمة اكتشاف أورام الدماغ.
تشمل عملية اختبار نموذج التعلم العميق المطور في الكشف عن أورام الدماغ عدة خطوات صارمة للتأكد من موثوقيته وفعاليته وقابليته للتفسير. بعد الانتهاء من مراحل التدريب والتحقق، يخضع النموذج للتقييم النهائي باستخدام مجموعة اختبار محددة تتكون من بيانات لم يتم رؤيتها خلال المراحل السابقة. تعتبر هذه الخطوة الحاسمة ضرورية لتقييم قابلية تطبيق النموذج في العالم الحقيقي وأدائه تحت ظروف جديدة.
يتم حساب مجموعة شاملة من مقاييس الأداء، بما في ذلك الدقة والدقة والاسترجاع ودرجة F1 ومصفوفات الالتباس، بدقة لتقييم فعالية النموذج في الكشف عن أورام الدماغ بشكل كمي. خاصة في مجال التشخيص الطبي، تعتبر مقاييس مثل الحساسية والنوعية ذات أهمية كبيرة، حيث تقدم رؤى حول قدرة النموذج على تحديد الحالات الإيجابية والسلبية بشكل صحيح.
بالإضافة إلى التقييمات الكمية، يتم تناول جانب القابلية للتفسير من خلال إنشاء تصورات GradCAM للصور الاختبارية. تقدم هذه التصورات رؤى نوعية حول مناطق التركيز داخل الصور المدخلة التي تؤثر بشكل كبير على توقعات النموذج. تعتبر هذه القابلية للتفسير ضرورية للحصول على قبول سريري، حيث تزود الممارسين برؤى مدفوعة بالذكاء الاصطناعي يمكن فهمها وموثوقة.
علاوة على ذلك، يعتبر الأداء على مجموعة الاختبار مقياسًا قويًا لقابلية تعميم النموذج، حيث يقيس فعاليته وموثوقيته المحتملة في البيئات السريرية الواقعية. من خلال هذه العملية الدقيقة من التدريب والتحقق والاختبار، يخضع نموذج التعلم العميق للتنقيح لضمان الدقة والموثوقية والقابلية للتفسير، مما يتماشى مع المتطلبات الحاسمة لتحليل الصور الطبية. تؤكد هذه المقاربة الشاملة الالتزام بتقديم حلول قوية وقابلة للتطبيق سريريًا في مجال الكشف عن أورام الدماغ.

مقاييس الأداء المستخدمة للتقييم

يتطلب تقييم أداء نموذج التعلم العميق، مثل ResNet50، اختيارًا دقيقًا لمقاييس الأداء للتأكد من فعاليته وموثوقيته وقابليته للتطبيق السريري. تلعب المقاييس المختارة دورًا محوريًا في تقديم رؤى حول قدرة النموذج التنبؤية وقدرته على التمييز بين حالات الورم وغير الورم. الدقة (Eq. 11)، التي تعرف على أنها نسبة الملاحظات المتوقعة بشكل صحيح إلى إجمالي الملاحظات، توفر مقياسًا أساسيًا لصحة النموذج بشكل عام. الدقة (Eq. 12)، التي تشير إلى نسبة الملاحظات الإيجابية المتوقعة بشكل صحيح إلى إجمالي الإيجابيات المتوقعة، تعتبر حاسمة في التشخيص الطبي لتقليل الإيجابيات الكاذبة، بينما الاسترجاع (Eq. 13)، الذي يقيس نسبة الملاحظات الإيجابية المتوقعة بشكل صحيح إلى جميع الإيجابيات الفعلية، يضمن قدرة النموذج على اكتشاف أكبر عدد ممكن من حالات الورم الحقيقية. TP تعني إيجابي حقيقي، TN تعني سلبي حقيقي، FP تعني إيجابي كاذب و FN تعني سلبي كاذب.
تعتبر درجة F1 (Eq. 14)، التي تمثل المتوسط التوافقي للدقة والاسترجاع، توازنًا بين تداولهما وتكون مفيدة بشكل خاص في توزيعات الفئات غير المتكافئة. تكمل النوعية، التي تحدد نسبة السلبيات الفعلية التي تم التعرف عليها بشكل صحيح، الاسترجاع لضمان تشخيصات دقيقة من خلال تقليل السلبيات الكاذبة.
توفر مصفوفة الالتباس، التي تتضمن الإيجابيات الحقيقية، الإيجابيات الكاذبة، السلبيات الحقيقية، والسلبيات الكاذبة، رؤية شاملة لأداء النموذج عبر فئات مختلفة. منحنى خصائص التشغيل المستقبلية (ROC) (Eq. 15) والمساحة تحت المنحنى (AUC) تقدم رؤى حول قدرة النموذج على التمييز بين الفئات عبر إعدادات عتبة مختلفة، وهو أمر حاسم في تقييم قدرته التمييزية. متوسط الخطأ التربيعي (MSE) (Eq. 16)، جذر متوسط الخطأ التربيعي (RMSE) (Eq. 17) ومتوسط الخطأ المطلق (MAE) (Eq. 18) المستخدمة عادة في مهام الانحدار، توفر رؤى كمية حول حجم خطأ النموذج.
تم حساب F2-Score (Eq. 19) وكابا كوهين (Eq. 20) أيضًا.
بالإضافة إلى ذلك، تعمل مقاييس القابلية للتفسير مثل تصورات Grad-CAM كقيم تقييم نوعية، توضح مناطق التركيز للنموذج أثناء التنبؤ، مما يثبت عملية اتخاذ القرار الخاصة به في سياق سريري. بشكل جماعي، تضمن هذه المقاييس التقنية العالية تقييمًا شاملاً لأداء نموذج التعلم العميق، مما يعزز موثوقيته وفعاليته في التطبيقات السريرية للكشف عن أورام الدماغ من صور الرنين المغناطيسي.

التجارب والنتائج

خضع نموذج التعلم العميق المطور للكشف عن أورام الدماغ لتدريب واختبار صارمين ضمن بيئة حسابية قوية، مستفيدًا من بايثون كلغة برمجة لمكتباته الواسعة في التعلم الآلي ومعالجة البيانات. كانت PyTorch هي الإطار الرئيسي للتعلم العميق، الذي تم اختياره بسبب رسمه البياني الديناميكي للاحتساب واستخدامه الفعال للذاكرة، مما يجعله مناسبًا لتدريب الشبكات العصبية المعقدة مثل ResNet50. تضمنت المكتبات الأساسية torchvision للوصول إلى النموذج وتحويلات الصور، وPIL لعمليات ملفات الصور، وNumPy للحسابات العددية، وmatplotlib/Seaborn للتصور. تقنيات التوسيع وسعت مجموعة البيانات بشكل كبير من 253 صورة أولية إلى 2024، شاملةً التدوير، والانقلابات، والتكبير، والترجمات، والتشوهات المرنة، وتعديلات السطوع/التباين، مما يعزز تعميم النموذج ويقلل من مخاطر الإفراط في التكيف. استمر عملية التدريب لمدة 10 عصور، مع حجم دفعة قدره 16 وتعديلات ديناميكية لمعدل التعلم بناءً على أداء مجموعة التحقق. أظهرت التقدم الملحوظ عبر العصور تحسنًا مستمرًا، مما أدى إلى دقة اختبار قدرها . في الشكل 7، يتم عرض خسارة التدريب والدقة حسب العصور.
تجاوزت مقاييس الدقة والاسترجاع لفئات الورم وغير الورم و ، على التوالي، بينما كانت درجة F1 تتراوح حول . تم تعزيز القابلية للتفسير من خلال تصورات Grad-CAM، التي تربط توقعات النموذج مع العلامات الشعاعية لأورام الدماغ، مما يعزز الثقة السريرية. تؤكد هذه النتائج الشاملة فعالية النموذج في الكشف عن أورام الدماغ من صور الرنين المغناطيسي، موضحةً عملية تدريبه، ومقاييس أدائه، وقدراته التفسيرية للتبني السريري. خلال مراحل التحقق والاختبار، تم إجراء تقييمات حاسمة لتقييم أداء النموذج وقدرته على التعميم على البيانات غير المرئية. طوال عملية التحقق، أظهر النموذج دقة استثنائية، حيث بلغت ذروتها عند بحلول العصر الثامن، مما يؤكد كفاءته في تصنيف صور الرنين المغناطيسي إلى فئات ‘ورم’ و ‘لا ورم’
بدقة. عززت مقاييس الدقة والاسترجاع ودرجة F1 موثوقية النموذج، حيث اقتربت القيم من 100% بحلول العصر الثامن، مما يدل على أداء قوي في تحديد الحالات الإيجابية الحقيقية مع تقليل الإيجابيات والسلبية الكاذبة. على مجموعة الاختبار، أظهر النموذج دقة مثيرة للإعجاب قدرها ، مدعومة بقيم دقة واسترجاع عالية لكل من فئات ‘لا ورم’ و ‘ورم’، مما يؤكد فعاليته في التمييز بين الحالات المرضية والصحية. قدمت تصورات نتائج Grad-CAM طبقة تفسيرية إضافية لتوقعات النموذج، حيث تم إنشاء خرائط حرارية م overlay على صور الرنين المغناطيسي لتسليط الضوء على المناطق التي تؤثر بشكل كبير على التوقعات. كانت هذه التصورات، التي تعتبر أداة مهمة للأطباء، تثبت انتباه النموذج للميزات السريرية ذات الصلة، مما يعزز الثقة والموثوقية. في الختام، تقدم مجموعة من المقاييس الكمية وتصوير Grad-CAM النوعي إطار تقييم شامل، مما يؤكد فعالية النموذج في الكشف عن أورام الدماغ مع ضمان الشفافية والموثوقية الضرورية للتبني السريري.
خلال مراحل التحقق والاختبار، تم فحص أداء النموذج وقدرته على التعميم بدقة، مما أسفر عن رؤى شاملة حول فعاليته في اكتشاف أورام الدماغ. ظهرت دقة التحقق كمقياس محوري، حيث حقق النموذج دقة قصوى ملحوظة تبلغ بحلول العصر الثامن، مما يبرز كفاءته في تصنيف صور الرنين المغناطيسي بشكل صحيح إلى فئات ‘ورم’ و’لا ورم’. كما أوضحت مقاييس الدقة والاسترجاع ودرجة F1 موثوقية النموذج، حيث اقتربت قيم الدقة والاسترجاع من بحلول العصر الثامن، مما يترجم إلى درجة F1 تبلغ حوالي . هذه المقاييس أكدت قدرة النموذج على تحديد الحالات الإيجابية الحقيقية مع تقليل الإيجابيات الكاذبة والسلبية الكاذبة، وهو أمر أساسي للتشخيص الطبي الدقيق.
في مرحلة الاختبار اللاحقة، أظهر النموذج دقة جديرة بالثناء تبلغ ، وهي أقل قليلاً من دقة التحقق ولكنها لا تزال تشير إلى أداء ممتاز. تجاوزت مقاييس الدقة لفئتي ‘لا ورم’ و’ورم’ 98%، بينما تجاوزت قيم الاسترجاع و ، على التوالي، مما يؤكد كفاءة النموذج في تحديد الحالات الإيجابية والسلبية الحقيقية بشكل صحيح. أكدت درجة F1 المتوازنة حول لكلا الفئتين قدرة النموذج على الحفاظ على التوازن بين الدقة والاسترجاع، وهو أمر حاسم للمهام التشخيصية حيث تحمل التصنيفات الخاطئة عواقب كبيرة. توفر الجدول 3 مقاييس الأداء.
يوضح الشكل 8 مقاييس الأداء حسب الفئة.
يوضح الشكل 9 مصفوفة الارتباك للنموذج المقترح.
يوفر الجدول 4 رؤى حول مقاييس الخطأ للنموذج.
يوضح الشكل 10 مقاييس الخطأ للنموذج.
تظهر قيمة كابا لكوهين ودرجة F2 في الجدول 5.
تم تصوير كابا لكوهين ودرجة F2 حسب العصر في الشكل 11.
بالإضافة إلى المقاييس الكمية، أضاف استخدام رسم تنشيط الفئة المدعوم بالتدرج (GradCAM) طبقة تفسيرية لتنبؤات النموذج. أنشأ Grad-CAM خرائط حرارية متراكبة على صور الرنين المغناطيسي، مما يسلط الضوء على المناطق التي تؤثر بشكل كبير على قرارات النموذج. في الصور التي تصور الأورام، أبرزت خرائط الحرارة بشكل رئيسي مناطق الورم، مما يثبت انتباه النموذج للميزات السريرية ذات الصلة. بالإضافة إلى مجرد التصور، قدمت هذه الخرائط الحرارية رؤى لا تقدر بثمن للأطباء، حيث قدمت تأكيدًا بصريًا على أن قرارات النموذج كانت مستندة إلى علامات مرضية ذات صلة بدلاً من ميزات الصورة غير ذات الصلة. ساعدت هذه المساعدات التفسيرية في تعزيز الثقة و
الشكل 7 الدقة والخسارة أثناء التدريب
الموثوقية بين الممارسين الطبيين، مما يضمن أن اتخاذ قرارات النموذج يتماشى مع التوقعات والمعرفة السريرية. يوضح الشكل 12 تصور grad cam لبعض الصور النموذجية.
إن دمج المقاييس الكمية والتصورات النوعية لـ Grad-CAM قدم إطار تقييم شامل، موضحًا فعالية النموذج في اكتشاف أورام الدماغ مع تقديم رؤى حول منطق اتخاذ القرار الخاص به. لم يثبت هذا التقييم متعدد الأوجه دقة النموذج التشخيصية فحسب، بل زاد أيضًا من شفافيتها وموثوقيتها، وهو أمر بالغ الأهمية للحصول على القبول والتبني في البيئات السريرية.

المناقشة

تقييم نموذج ResNet50، المدعوم بـ Grad-CAM من أجل القابلية للتفسير، في اكتشاف أورام الدماغ من صور الرنين المغناطيسي يكشف عن أدائه المتميز وأهميته السريرية. مع وصول دقة الاختبار إلى 98.52%، يظهر النموذج قوة وموثوقية ملحوظة. تؤكد مقاييس الدقة والاسترجاع، التي ترتفع إلى مستويات عالية بشكل استثنائي، كفاءة النموذج في تحديد وجود الورم بدقة بينما
الجدول 3 مقاييس الأداء
الدقة الاسترجاع درجة F1
لا ورم 0.99 0.97 0.98
ورم 0.98 0.99 0.99
تقليل التشخيصات الخاطئة – وهو جانب حاسم في السياقات الطبية حيث تحمل كل تشخيص خاطئ عواقب كبيرة.
عند مقارنتها بالنماذج الأساسية أو الدراسات السابقة، التي غالبًا ما تظهر مستويات دقة أقل لمهام مماثلة، تبرز أداء نموذج ResNet50 بشكل بارز. عادة ما تكافح الأساليب التقليدية في التعلم الآلي أو النماذج السابقة في التعلم العميق لتحقيق مثل هذه المستويات العالية من الدقة والاسترجاع، خاصة في المهمة الدقيقة والمعقدة لاكتشاف أورام الدماغ من صور الرنين المغناطيسي. يميز دمج Grad-CAM هذه الدراسة بشكل أكبر، حيث يقدم طبقة من القابلية للتفسير غالبًا ما تكون غائبة في الأساليب التقليدية. يتضمن الجدول 6 مقارنة مع الدراسات الأساسية.
تظهر فعالية زيادة البيانات كعامل محوري في تعزيز قدرة النموذج على التعميم. من خلال تقديم تحولات متنوعة، يتعلم النموذج التعرف على الأورام عبر عروض مختلفة، مما يقلل من خطر الإفراط في التكيف مع الخصائص المحددة لبيانات التدريب. هذا يحمل أهمية كبيرة في التصوير الطبي، حيث تتنوع الحالات بين المرضى وظروف التصوير بشكل شائع.
تساهم اختيار ResNet50 كهيكل للنموذج بشكل كبير في الأداء العالي الملحوظ. هيكله العميق، مع الاتصالات المتبقية، يمكّن النموذج من تعلم ميزات معقدة من صور الرنين المغناطيسي، وهو أمر ضروري لاكتشاف الأورام بدقة. تؤكد نجاح هذه البنية في هذا السياق فعاليتها وقابليتها للتكيف مع مهام التعرف على الصور المختلفة، بما في ذلك تلك في المجال الطبي.
الشكل 8 تقرير التصنيف
الشكل 9 مصفوفة الارتباك
الجدول 4 مقاييس الخطأ
المقاييس القيمة
MSE 0.015
RMSE 0.122
MAE 0.015
عامل حاسم في اعتماد أدوات التشخيص المدفوعة بالذكاء الاصطناعي هو قدرتها على تقديم مخرجات تفسيرية تتماشى مع الحكم السريري الخبير. لهذا الغرض، تستخدم الدراسة المقترحة رسم تنشيط الفئة المدعوم بالتدرج (Grad-CAM) لتوليد
تفسيرات بصرية لتنبؤات النموذج. تشير الأبحاث السابقة التي أجريت في هذا المجال جنبًا إلى جنب مع الاستطلاعات التي أجريت إلى أن grad cam أفضل لتصورات النموذج التفسيرية تتماشى مع التقييمات الإشعاعية الخبيرة.
تقدم تصورات Grad-CAM رؤى مثيرة حول عملية اتخاذ القرار للنموذج. من خلال تسليط الضوء على مناطق التركيز أثناء التنبؤات، تؤكد هذه التصورات أن النموذج لا يتعلم فقط، بل يركز أيضًا على الميزات الصحيحة داخل صور الرنين المغناطيسي. على سبيل المثال، يتماشى تركيز تنشيط خريطة الحرارة على مناطق الورم مع التوقعات السريرية،
الشكل 10 مقاييس الخطأ
الجدول 5 المقاييس المتقدمة
المقاييس القيمة
درجة F2 0.99
كابا لكوهين 0.97
مقدمة تأكيد مريحة بأن اكتشافات النموذج تستند إلى ميزات مرضية ذات صلة بدلاً من الارتباطات الزائفة. لفهم ذلك بشكل أفضل، يعزز الشكل 13 التفسير البصري.
في الممارسة السريرية، تحمل مثل هذه التفسيرات البصرية إمكانات هائلة لتعزيز التعاون بين
الشكل 11 كابا لكوهين ودرجة F2 حسب العصر
الشكل 12 تصور Grad-CAM
الجدول 6 مقارنة مع الدراسات الأساسية
الدراسة التقنية الدقة
خان وآخرون. (2023) [27] اكتشاف أورام الدماغ باستخدام التعلم العميق 95.94%
كومار وآخرون. (2023) [28] تصنيف أورام الدماغ باستخدام نماذج CNN 96.2%
حسين وآخرون. (2023) [5] تصنيف أورام الدماغ متعددة الفئات باستخدام هياكل DL 96.94%
أنيا-إيزازا وآخرون. (2023) [29] تصنيف واكتشاف أورام الدماغ باستخدام هياكل DL وCross-Transformer 97%
بيلاي وآخرون. (2023) [30] اكتشاف أورام الدماغ باستخدام نماذج التعلم العميق للنقل 91.58%
شارما وآخرون. (2023) [31] اكتشاف أورام الدماغ باستخدام ResNet50 المعدل مع ميزات HOG 88%
بيدادا وآخرون. (2023) [32] تقسيم أورام الدماغ باستخدام U-Net المعدل مع الشبكات المتبقية 93.40%
رحمن وإسلام (2023) [33] تصنيف أورام الدماغ باستخدام شبكة عصبية تلافيفية عميقة متوازية (PDCNN) 97.33%
النموذج المقترح Resnet50 المحسن مع Gradcam 98.52%
أنظمة الذكاء الاصطناعي والمهنيين الطبيين. إنها تسهل فهمًا أكثر اطلاعًا وتفصيلًا للتشخيصات المدعومة بالذكاء الاصطناعي، مما يمكّن الأطباء من الثقة ودمج أدوات الذكاء الاصطناعي بشكل فعال في عملية التشخيص الخاصة بهم. وهذا يضمن أن التكنولوجيا تعمل كأداة موثوقة بدلاً من أن تكون صندوقًا أسود غير شفاف وغير قابل للتفسير. تلخص الجدول 7 مقاييس الأداء من حيث الخسارة والدقة لمختلف هياكل الشبكات العصبية التلافيفية (CNN) عند تطبيقها على مهمة اكتشاف أورام الدماغ في صور الرنين المغناطيسي. تم تقييم هذه الهياكل لتوفير نظرة شاملة على فعاليتها، مما يسمح باتخاذ قرارات مستنيرة بشأن النموذج الأمثل للنشر في البيئات السريرية.
البيانات المعروضة في الجدول 7 توضح التباين في الأداء عبر نماذج التعلم العميق المختلفة، حيث يظهر الهيكل المقترح ميزة ملحوظة في الدقة. تشير هذه النتائج إلى أن الهيكل المقترح
يتميز النموذج، بأسلوبه الفريد في العمليات التلافيفية، بأداء أفضل من الهياكل الأخرى المستخدمة على نطاق واسع لهذه المهمة المحددة. من الضروري ملاحظة أن هيكل النموذج ليس العامل الوحيد المحدد للأداء؛ حيث تلعب عوامل مثل تعقيد مجموعة البيانات، ومعالجة البيانات المسبقة، واستراتيجيات التAugmentation أيضًا أدوارًا حاسمة في تحقيق دقة عالية وخسارة منخفضة في خوارزميات اكتشاف أورام الدماغ.

قيود مجموعة البيانات وآثارها على القابلية للتعميم

لقد استخدمت الدراسة الحالية مجموعة بيانات، على الرغم من كونها كبيرة بما يكفي لتدريب نموذج تعلم عميق بدقة عالية، إلا أنها تقدم بعض القيود التي يجب معالجتها لفهم النطاق الكامل لمدى قابلية تطبيق النموذج. ومن الجدير بالذكر أن حجم مجموعة البيانات وتنوعها محدودان، مما قد يؤثر على قدرة النموذج على تعميم نتائجه خارج نطاق الدراسة.
الشكل 13 جرايدكام حسب الحقبة
الجدول 7 مقاييس الأداء المقارنة لمختلف هياكل الشبكات العصبية التلافيفية
سي إن إن خسارة 0.5071
دقة 80.16%
EfficientNetB0 خسارة 0.4281
دقة 86.51%
دينسنت 201 خسارة 0.3953
دقة 80.16%
البداية خسارة 0.3982
دقة 81.75%
إكسبشن خسارة 0.412
دقة 85.71%
موبيل نت خسارة 0.3439
دقة 84.13%
النموذج المقترح خسارة 0.0702
دقة 98.30%
مجموعة البيانات، التي تتكون من عدد محدود من صور الرنين المغناطيسي، ليست واسعة بما يكفي لتشمل التنوع الكامل للأورام الدماغية. على الرغم من أن نماذج التعلم العميق، مثل النموذج الذي قمنا بتنفيذه، قادرة على تعلم أنماط معقدة في البيانات، إلا أن أدائها مرتبط بشكل جوهري بكمية وجودة بيانات التدريب. يحد حجم مجموعة البيانات من تعرض النموذج لمجموعة واسعة من التباينات التي تحدث في الأورام الدماغية، مما قد يعيق أدائه التنبؤي في السيناريوهات السريرية التي لا تمثلها بيانات التدريب. تتضمن مجموعة البيانات في الغالب صور الرنين المغناطيسي من ديموغرافيا محدودة وقد لا تمثل بشكل كاف التنوع الموجود في السكان العالميين. تختلف الأورام الدماغية بشكل كبير في مظهرها، ليس فقط بسبب العوامل البيولوجية ولكن أيضًا بسبب التباينات الديموغرافية. لذلك، من المحتمل أن تؤدي مجموعة بيانات ذات تنوع ديموغرافي أكبر إلى تحسين قابلية تعميم النموذج وموثوقيته عبر مختلف السكان. تؤكد هذه القيود على الحاجة إلى الحذر عند استنتاج نتائج الدراسة على السكان العامين. قد لا تعكس الدقة العالية والدقة التي أظهرها نموذجنا فعليًا فعاليته في بيئة سريرية، حيث يكون نطاق مظهر الأورام وخلفيات المرضى أوسع بكثير. يجب أن تركز الأبحاث المستقبلية على الحصول على مجموعة بيانات أكثر تنوعًا وشمولية يمكن أن تمثل بشكل أفضل حدوث الأورام الدماغية على مستوى العالم. سيمكن ذلك من تطوير نموذج ذو قابلية تعميم محسنة، يعكس بشكل أكثر دقة الأداء الذي قد يتوقع في بيئات سريرية متنوعة.
بينما توفر الدراسة الحالية رؤى قيمة حول قدرات التعلم العميق في اكتشاف أورام الدماغ، فإنها تبرز أيضًا الحاجة إلى تحسين مستمر في جمع البيانات وتدريب النماذج.
من خلال معالجة هذه القيود، يمكن أن تؤدي الأعمال المستقبلية إلى أدوات تشخيصية أكثر قوة وقابلية للتطبيق على نطاق واسع، مما يسهم في تحسين رعاية المرضى والنتائج في مجال التصوير الطبي.

الاعتبارات الأخلاقية في استخدام الذكاء الاصطناعي للتشخيصات السريرية

بينما نقف على حافة عصر جديد في تشخيص الأمراض، مدفوعين بالتقدم في الذكاء الاصطناعي (AI)، من الضروري معالجة الاعتبارات الأخلاقية التي ترافق نشر هذه التقنيات. يتطلب استخدام بيانات المرضى الحساسة لتدريب نماذج الذكاء الاصطناعي الالتزام الصارم باللوائح المتعلقة بالخصوصية مثل قانون قابلية نقل وتأمين التأمين الصحي (HIPAA) واللائحة العامة لحماية البيانات (GDPR). نحن ندعو إلى عمليات إزالة الهوية القوية لضمان بقاء بيانات المرضى سرية وآمنة، وبالتالي الحفاظ على خصوصية الأفراد. حماية البيانات من الوصول غير المصرح به والانتهاكات أمر بالغ الأهمية. يجب أن يترافق نشر الذكاء الاصطناعي في البيئات السريرية مع تدابير متقدمة للأمن السيبراني لحماية المعلومات من تسريبات البيانات المحتملة، وضمان أمان وسلامة معلومات المرضى. بينما يمتلك الذكاء الاصطناعي القدرة على تحسين دقة التشخيص بشكل كبير، لا يزال هناك خطر التشخيص الخاطئ. من الضروري وضع بروتوكولات واضحة للإشراف البشري، حيث يعمل الذكاء الاصطناعي كأداة لدعم القرار بدلاً من كونه طبيب تشخيص نهائي. هذا يضمن أن المسؤولية النهائية عن التشخيص تبقى مع المهنيين الطبيين المدربين، مما يقلل من خطر التشخيص الخاطئ بسبب أخطاء الذكاء الاصطناعي. يجب إبلاغ المرضى عن دور الذكاء الاصطناعي في عملية تشخيصهم، ويجب الحصول على موافقتهم مع الشفافية الكاملة حول استخدام أدوات الذكاء الاصطناعي. هذا يعزز الثقة ويسمح للمرضى باتخاذ قرارات مستنيرة بشأن رعايتهم الصحية. يمكن أن تؤدي نماذج الذكاء الاصطناعي عن غير قصد إلى perpetuate التحيزات الموجودة في بيانات التدريب، مما يؤدي إلى نتائج صحية غير متساوية. من الضروري استخدام مجموعات بيانات متنوعة للتدريب والتحقق من النماذج عبر مختلف الفئات السكانية لضمان التطبيق العادل للذكاء الاصطناعي في التشخيصات السريرية. بعد النشر، يجب مراقبة أنظمة الذكاء الاصطناعي والتحقق منها باستمرار لضمان أدائها كما هو متوقع مع مرور الوقت. هذا مهم بشكل خاص حيث قد تتدهور نماذج الذكاء الاصطناعي أو تصبح أقل دقة مع تطور مجموعات المرضى وعروض الأمراض. إن النشر الأخلاقي للذكاء الاصطناعي في الرعاية الصحية هو مسؤولية مشتركة تتطلب التعاون بين التقنيين ومقدمي الرعاية الصحية والأخلاقيين وصانعي السياسات. من خلال معالجة هذه القضايا الأخلاقية بشكل استباقي، يمكننا توجيه مسار الذكاء الاصطناعي نحو تعزيز تقديم الرعاية الصحية مع الحفاظ على أعلى معايير رعاية المرضى والسلامة.

اتجاهات البحث المستقبلية والتكامل السريري

البحث المقترح يمثل خطوة هامة إلى الأمام في تطبيق الذكاء الاصطناعي في الكشف عن أورام الدماغ. ومع ذلك، فإن الطريق من البحث إلى التنفيذ السريري متعدد الأبعاد، مما يتطلب مزيدًا من التحقيق. الاتجاه الرئيسي للبحث المستقبلي هو استكشاف كيفية دمج أدوات الذكاء الاصطناعي بسلاسة في سير العمل السريري الحالي. يتضمن ذلك تطوير واجهات سهلة الاستخدام تسمح لأطباء الأشعة بالتفاعل بسهولة مع توقعات الذكاء الاصطناعي، وإنشاء بروتوكولات حول متى وكيف يجب أخذ توصيات الذكاء الاصطناعي بعين الاعتبار، وتقييم تأثير أدوات الذكاء الاصطناعي على دقة التشخيص وكفاءة الوقت في البيئات السريرية الحية. من الضروري إجراء دراسات طولية وتجارب سريرية لتقييم فعالية وسلامة التشخيصات المدعومة بالذكاء الاصطناعي على مدى فترات طويلة. لن يحقق ذلك فقط مصداقية أدوات الذكاء الاصطناعي على المدى الطويل، بل سيساعد أيضًا في تحديد أي مشكلات غير متوقعة قد تنشأ في بيئة العالم الحقيقي. بالتزامن مع التقدم التكنولوجي، هناك حاجة لتطوير إرشادات تنظيمية وأخلاقية واضحة تحكم استخدام الذكاء الاصطناعي في التشخيصات الطبية. يجب أن يركز البحث المستقبلي على المساهمة في المناقشات السياسية وإنشاء إرشادات شاملة تضمن سلامة المرضى، وخصوصية البيانات، والرعاية العادلة. لتعزيز نشر الذكاء الاصطناعي في البيئات السريرية، فإن التعاون بين التخصصات أمر ضروري. يجب أن يهدف البحث المستقبلي إلى تعزيز الشراكات بين باحثي الذكاء الاصطناعي، والأطباء، والأخلاقيين، وصانعي السياسات لضمان توافق تطوير أدوات الذكاء الاصطناعي مع الاحتياجات السريرية والمعايير الأخلاقية. يعد إعداد الجيل القادم من مقدمي الرعاية الصحية للعمل جنبًا إلى جنب مع الذكاء الاصطناعي أمرًا حاسمًا. يجب أن يركز البحث المستقبلي أيضًا على البرامج التعليمية ووحدات التدريب التي تزود المهنيين الطبيين بالمهارات اللازمة لاستخدام الذكاء الاصطناعي بفعالية في ممارستهم. أخيرًا، يجب أن يستمر البحث في تطوير التكنولوجيا نفسها، وتحسين الدقة، وقابلية التفسير، والعمومية لنماذج الذكاء الاصطناعي. يتضمن ذلك استكشاف هياكل الذكاء الاصطناعي الجديدة، وتطوير تقنيات تفسير أكثر تقدمًا، وتوسيع مجموعات البيانات لتشمل مجموعة واسعة من الأمراض وخصائص المرضى. إن مستقبل الذكاء الاصطناعي في التشخيصات الطبية هو رحلة واعدة ومعقدة. من خلال تحديد مسارات بحث واضحة، يمكننا ضمان أن تقدمنا في الذكاء الاصطناعي لا يدفع فقط حدود التكنولوجيا، بل يتم أيضًا ترجمته بعناية وفعالية إلى تحسين الرعاية السريرية. يتطلب ذلك ليس فقط فهمًا عميقًا للتكنولوجيا، ولكن أيضًا جهدًا واعيًا للتوافق مع الأهداف السريرية، والاعتبارات الأخلاقية، والمتطلبات التنظيمية، مما يؤدي في النهاية إلى تقديم نتائج أفضل للمرضى.
تطبيق نموذج التعلم العميق مثل ResNet50، المعزز بتقنيات زيادة البيانات والمكمل بـ Grad-CAM للتفسير، يمثل أداة قوية للكشف عن أورام الدماغ من صور الرنين المغناطيسي. الأداء العالي للنموذج، جنبًا إلى جنب مع الشفافية التي يوفرها Grad-CAM، لا يعزز فقط مجال تحليل الصور الطبية، بل يمهد أيضًا الطريق لقبول واستخدام أوسع للذكاء الاصطناعي في البيئات السريرية.

الخاتمة

تقدم هذه الدراسة التطبيق الواعد لنموذج التعلم العميق، وخاصة ResNet50 المعزز بـ Grad-CAM، للكشف عن أورام الدماغ في صور الرنين المغناطيسي. تحقيق دقة اختبار تبلغ جنبًا إلى جنب مع مقاييس عالية من الدقة والاسترجاع يبرز فعالية النموذج في تحديد أورام الدماغ بدقة. ساهمت تقنيات زيادة البيانات بشكل كبير في تعزيز قوة النموذج وقدراته على التعميم عبر سيناريوهات التصوير المتنوعة. علاوة على ذلك، قدم دمج Grad-CAM رؤى قيمة في عملية اتخاذ القرار للنموذج من خلال تسليط الضوء على المناطق ذات الصلة داخل الصور التي أثرت على توقعاته، وهو أمر حاسم لبناء الثقة وقابلية التفسير في تطبيقات الذكاء الاصطناعي الطبية. على الرغم من هذه النتائج الواعدة، تم التعرف على عدة قيود ومجالات للتحسين. أولاً، تعترف الدراسة بحجم مجموعة البيانات المحدودة نسبيًا وتنوعها، مما يبرز الحاجة إلى مجموعات بيانات أكبر وأكثر تنوعًا تشمل طيفًا أوسع من تقديمات الأورام. يمكن أن توفر استكشاف هياكل بديلة مثل EfficientNet أو DenseNet رؤى حول تحسين تعقيد النموذج وكفاءة الحوسبة. بالإضافة إلى ذلك، تشمل اتجاهات البحث المستقبلية التحقق السريري لضمان التوافق مع تقييمات الخبراء ودمجها في سير العمل السريري في العالم الحقيقي لتقييم تأثير التشخيص ونتائج المرضى. يمكن أن تعزز تحسينات طرق التفسير مثل GradCAM ودمج مصادر البيانات متعددة الوسائط قدرات النموذج التشخيصية وتعزز الثقة بين المهنيين الطبيين. بشكل عام، بينما تمثل هذه الدراسة تقدمًا كبيرًا في الكشف عن أورام الدماغ المدعوم بالذكاء الاصطناعي في صور الرنين المغناطيسي، تهدف جهود البحث المستمرة إلى تعزيز الدقة، وقابلية التفسير، والقابلية السريرية، مما يمهد الطريق لتحسين رعاية المرضى في تحليل الصور الطبية.

مساهمات المؤلفين

تولى م.م.م مراجعة الأدبيات والمنهجية. قام م.ت.ر بإجراء التحليل الرسمي، وجمع البيانات والتحقيق. قام ف.ك.ف بإعداد المسودة الأولية والتحليل الإحصائي. أشرف س.ج على المشروع بشكل عام. قرأ جميع مؤلفي المقالة ووافقوا على المقالة النهائية.

التمويل

لم تتلقَ هذه الدراسة تمويلًا خارجيًا.

توفر البيانات والمواد

البيانات التي تدعم نتائج هذه الدراسة متاحة علنًا على https:// www.kaggle.com/datasets/navoneel/brain-mri-images-for-brain-tumor-detec tion.

الإعلانات

غير قابل للتطبيق.
غير متاح.

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.
تاريخ الاستلام: 13 أبريل 2024 تاريخ القبول: 6 مايو 2024
تاريخ النشر عبر الإنترنت: 11 مايو 2024

References

  1. Solanki S, et al. “Brain Tumor Detection and Classification Using Intelligence Techniques: An Overview.” IEEE Access. 2023;11:12870-86. https:// doi.org/10.1109/access.2023.3242666.
  2. Thenuwara G, Curtin J, Tian F. Advances in diagnostic tools and therapeutic approaches for gliomas: a comprehensive review. Sensors. 2023;23:9842.
  3. Thakur A, et al. Transformative breast Cancer diagnosis using CNNs with optimized ReduceLROnPlateau and Early stopping Enhancements. Int J Comput Intell Syst. 2024;17(1):14.
  4. Song J, et al. “Magnetic Resonance Imaging (MRI) Brain Tumor Image Classification Based on Five Machine Learning Algorithms.” Cloud Comput Data Sci. 2023, pp. 122-33. https://doi.org/10.37256/ccds. 42202 32740.
  5. Hossain S, et al. “Vision Transformers, Ensemble Model, and Transfer Learning Leveraging Explainable AI for Brain Tumor Detection and Classification.” IEEE J Biomed Health Informatics. 2024;28(3):1261-72. https://doi. org/10.1109/jbhi.2023.3266614.
  6. Saeedi S, et al. MRI-based brain tumor detection using convolutional deep learning methods and chosen machine learning techniques. BMC Med Inf Decis Mak. 2023;23(1):16.
  7. Anwar RW, et al. “Transfer Learning in Brain Tumor Classification: Challenges, Opportunities, and Future Prospects.” 2023 14th International Conference on Information and Communication Technology Convergence (ICTC). 2023. https://doi.org/10.1109/ictc58733.2023.10392830.
  8. Ullah F, et al. “Evolutionary Model for Brain Cancer-Grading and Classification.” IEEE Access. 2023;11:126182-94. https://doi.org/10.1109/access. 2023.3330919.
  9. Ullah F, et al. Enhancing brain tumor segmentation accuracy through scalable federated learning with advanced data privacy and security measures. Mathematics. 2023;11(19):4189.
  10. Patil S. Ensemble of deep learning models for brain tumor detection. Procedia Comput Sci. 2023;218:2468-79.
  11. Woźniak M. Jakub Siłka, and Michał Wieczorek. Deep neural network correlation learning mechanism for CT brain tumor detection. Neural Comput Appl. 2023;35(20):14611-26.
  12. Abdusalomov A, Bobomirzaevich M, Mukhiddinov, Taeg Keun Whangbo. Brain Tumor Detect Based deep Learn Approaches Magn Reson Imaging Cancers. 2023;15(16):4172.
  13. Mahmud , Ishtyaq , Mamun, Abdelgawad . A deep analysis of brain tumor detection from mr images using deep learning networks. Algorithms. 2023;16(4):176.
  14. Asad R , et al. Computer-aided early melanoma brain-tumor detection using deep-learning approach. Biomedicines. 2023;11(1):184.
  15. Kanchanamala, Pendela KG, Revathi. Belsam Jeba Ananth. Optimizationenabled hybrid deep learning for brain tumor detection and classification from MRI. Biomed Signal Process Control. 2023;84:104955.
  16. Aggarwal , et al. An early detection and segmentation of Brain Tumor using deep neural network. BMC Med Inf Decis Mak. 2023;23(1):78.
  17. Archana KV, Komarasamy G. A novel deep learning-based brain tumor detection using the bagging ensemble with K-nearest neighbor. J Intell Syst. 2023;32(1):20220206.
  18. Gayathri P, et al. Exploring the potential of vgg-16 architecture for accurate brain tumor detection using deep learning. J Computers Mech Manage. 2023;2(2):23056-23056.
  19. Haq Ejaz UI, et al. “An MRI-Based Deep Learning Approach for Efficient Classification of Brain Tumors.” J Ambient Intell Humaniz Comput. 2021;14(6):6697-718. https://doi.org/10.1007/s12652-021-03535-9.
  20. Ullah F, et al. Brain Tumor Segmentation from MRI Images Using Handcrafted Convolutional Neural Network. Diagnostics. 2023;13(16):2650.
  21. Ullah F, Nadeem M. and Mohammad Abrar. Revolutionizing Brain Tumor Segmentation in MRI with Dynamic Fusion of Handcrafted Features and Global Pathway-Based Deep Learning.” KSII Trans Internet Inform Syst. 2024;18(1)- https://doi.org/10.3837/tiis.2024.01.007.
  22. Koonce B. “ResNet 50.” Convolutional neural networks with swift for tensorflow, 2021, pp. 63-72. https://doi.org/10.1007/978-1-4842-6168-2_6.
  23. Navoneel, Brain MRI Images for Brain Tumor Detection., Kaggle. https:// www.kaggle.com/datasets/navoneel/brain-mri-images-for-brain-tumordetection.
  24. Albalawi E, et al. Oral squamous cell carcinoma detection using EfficientNet on histopathological images. Front Med. 2024;10:1349336.
  25. Moteri A, Moteeb, et al. Enhancing accessibility for improved diagnosis with modified EfficientNetV2-S and cyclic learning rate strategy in women with disabilities and breast cancer. Front Med. 2024;11:1373244.
  26. Sannasi Chakravarthy SR, Bharanidharan N, Kumar V. Deep transfer learning with fuzzy ensemble approach for the early detection of breast cancer. BMC Med Imaging. 2024;24:82. https://doi.org/10.1186/ s12880-024-01267-8.
  27. Khan M , Attique, et al. Multimodal brain tumor detection and classification using deep saliency map and improved dragonfly optimization algorithm. Int J Imaging Syst Technol. 2023;33(2):572-87.
  28. Kavin Kumar K, et al.”Brain Tumor Identification Using Data Augmentation and Transfer Learning Approach.” Comput Syst Sci Eng. 2023;46(2):1845-61. https://doi.org/10.32604/csse.2023.033927.
  29. Anaya-Isaza Andrés, et al. Optimizing MRI-based brain tumor classification and detection using AI: a comparative analysis of neural networks, transfer learning, data augmentation, and the cross-transformer network. Eur J Radiol Open. 2023;10:100484.
  30. Pillai R, Sharma A, Sharma N, Gupta R. “Brain Tumor Classification using VGG 16, ResNet50, and Inception V3 Transfer Learning Models,” 2023 2nd International Conference for Innovation in Technology (INOCON), Bangalore, India. 2023, pp. 1-5. https://doi.org/10.1109/INOCON57975. 2023.10101252.
  31. Sharma A, Kumar, et al. HOG transformation based feature extraction framework in modified Resnet50 model for brain tumor detection. Biomed Signal Process Control. 2023;84:104737.
  32. Pedada K, Rao, et al. A novel approach for brain tumour detection using deep learning based technique. Biomed Signal Process Control. 2023;82:104549.
  33. Rahman T, Md Saiful Islam. MRI brain tumor detection and classification using parallel deep convolutional neural networks. Measurement: Sens. 2023;26:100694.

ملاحظة الناشر

تظل Springer Nature محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.

  1. *المراسلة:
    سورش غولوادي
    suresh.guluwadi@astu.edu.et
    كلية الهندسة العليمة (مستقلة)، إيرود، تاميل نادو، الهند
    قسم علوم الحاسوب والهندسة، جامعة جين (المعترف بها)، بنغالور 562112، الهند
    مدرسة علوم الحاسوب والهندسة ونظم المعلومات، جامعة فيلور معهد التكنولوجيا، فيلور 632014، الهند
    جامعة أداما للعلوم والتكنولوجيا، أداما 302120، إثيوبيا

Journal: BMC Medical Imaging, Volume: 24, Issue: 1
DOI: https://doi.org/10.1186/s12880-024-01292-7
PMID: https://pubmed.ncbi.nlm.nih.gov/38734629
Publication Date: 2024-05-11

Enhancing brain tumor detection in MRI
Check for updates images through explainable AI using Grad-CAM with Resnet 50

Mohamed Musthafa , Mahesh T. , Vinoth Kumar and Suresh Guluwadi

Abstract

This study addresses the critical challenge of detecting brain tumors using MRI images, a pivotal task in medical diagnostics that demands high accuracy and interpretability. While deep learning has shown remarkable success in medical image analysis, there remains a substantial need for models that are not only accurate but also interpretable to healthcare professionals. The existing methodologies, predominantly deep learning-based, often act as black boxes, providing little insight into their decision-making process. This research introduces an integrated approach using ResNet50, a deep learning model, combined with Gradient-weighted Class Activation Mapping (Grad-CAM) to offer a transparent and explainable framework for brain tumor detection. We employed a dataset of MRI images, enhanced through data augmentation, to train and validate our model. The results demonstrate a significant improvement in model performance, with a testing accuracy of and precision-recall metrics exceeding , showcasing the model’s effectiveness in distinguishing tumor presence. The application of Grad-CAM provides insightful visual explanations, illustrating the model’s focus areas in making predictions. This fusion of high accuracy and explainability holds profound implications for medical diagnostics, offering a pathway towards more reliable and interpretable brain tumor detection tools.

Keywords Explainable AI, Brain tumor detection, MRI images, Deep learning, Grad-CAM, ResNet50, Medical image analysis

Introduction

Brain tumors, comprising a range of neoplasms within the brain, pose significant health risks and challenges in medical diagnostics. They are categorized into primary tumors, originating in the brain, and secondary tumors, which metastasize from other body parts. The global
incidence of brain tumors underscores a critical need for precise diagnostic tools. Brain tumors exhibit heterogeneous symptoms ranging from headaches to more severe neurological impairments, necessitating early and accurate detection to optimize treatment outcomes [1].
Moreover, the overlapping symptoms of brain tumors with other neurological disorders necessitate a diagnostic tool that offers both high sensitivity and specificity. Traditional diagnostic methods, while effective, often require invasive procedures or can be limited in their ability to detect small or early-stage tumors.
Magnetic Resonance Imaging (MRI) has emerged as a cornerstone in the non-invasive diagnosis of brain tumors [2], offering detailed images of the brain’s anatomy and pathology. MRI provides unparalleled soft tissue
contrast, facilitating the distinction between healthy and pathological tissues. It is instrumental in assessing the tumor’s location, size, and potential impact on adjacent brain structures, critical for treatment planning. However, the interpretation of MRI scans is highly reliant on the expertise of radiologists and can be time-consuming, highlighting the need for assistive technologies to improve diagnostic accuracy and efficiency.
Deep learning, a subset of machine learning, has revolutionized the field of medical image analysis, offering substantial improvements in detecting and classifying various diseases [3]. In brain tumor detection, deep learning algorithms can analyze complex MRI data, identify patterns imperceptible to the human eye, and learn from these patterns to make accurate predictions. These algorithms, particularly convolutional neural networks (CNNs), have demonstrated their prowess in enhancing the accuracy and speed of brain tumor diagnostics, reducing the reliance on human interpretation and potentially minimizing diagnostic errors. In Fig. 1, some of visual instances of the brain tumor are shown from the dataset.
The primary objective of this research is to harness the capabilities of deep learning, specifically the ResNet50 architecture, in conjunction with Gradient-weighted Class Activation Mapping (Grad-CAM), to enhance the detection and interpretability of brain tumor diagnoses from MRI scans. This study aims to:
  1. Implement a deep learning model that provides state-of-the-art accuracy in detecting brain tumors from MRI images.
  2. Integrate Grad-CAM with the deep learning model to offer visual explanations for the model’s predictions, enhancing the interpretability and trustworthiness of the AI system.
  3. Evaluate the model’s performance using a comprehensive set of metrics, ensuring its reliability and applicability in a clinical setting.
  4. Contribute to the body of knowledge by providing insights into how AI can be made more transparent and assistive in medical diagnostics, particularly in the context of brain tumor detection.
Through these objectives, the study aims to bridge the gap between advanced AI technologies and clinical applicability, offering a tool that not only excels in accuracy but also in providing clarity and insight into its diagnostic processes. This contribution is pivotal in advancing the field of medical diagnostics, where trust and transparency are as crucial as accuracy and efficiency.
Brain tumor detection using MRI images has been a focal point of research due to MRI’s capability to provide detailed and high-contrast images. Various traditional image processing techniques, including segmentation and feature extraction, have been employed to differentiate between normal and abnormal brain tissues. However, these methods often require manual intervention and are limited by their reliance on predefined features, which may not capture the full complexity of brain tumor characteristics.
Fig. 1 Sample Images from Dataset
Recent advancements have seen a shift toward automatic brain tumor detection methods, leveraging machine learning algorithms to improve diagnostic accuracy and efficiency. For example, studies have applied Support Vector Machines (SVM) and Random Forest classifiers to MRI data, demonstrating significant success in tumor identification [4]. Yet, these machine learning approaches often require meticulous feature engineering, which can be labor-intensive and may not generalize well across diverse datasets.
Deep learning, particularly convolutional neural networks (CNNs), has revolutionized the field of medical imaging. Unlike traditional machine learning, deep learning eliminates the need for manual feature extraction, allowing the model to learn features directly from the data. This capability has been particularly transformative in brain tumor detection [5], where the intricate and varied nature of tumors necessitates a nuanced analysis.
Studies utilizing deep learning for brain tumor detection have shown remarkable success. CNNs, for instance, have been extensively used to classify and segment brain tumors in MRI scans [6, 7], achieving substantial improvements in accuracy compared to previous methodologies. Some research has also explored the use of transfer learning, where pre-trained models on large datasets are fine-tuned for specific medical imaging tasks, yielding impressive results even with relatively small datasets [8].
Despite these advancements, a critical limitation of deep learning models in medical imaging, particularly in brain tumor detection, is their “black box” nature. The complex architectures of these models make it challenging to understand the reasoning behind their predictions, which is a significant barrier to their acceptance and implementation in clinical settings [9]. In Table 1 a summary of different studies has been given.
While deep learning models have set new benchmarks in the accuracy of brain tumor detection from MRI images, their lack of interpretability remains a significant hurdle. The ability to understand and trust the model’s decision-making process is crucial for clinicians to adopt these AI-assisted diagnostic tools.
Furthermore, many existing studies focus predominantly on model accuracy, often overlooking the aspect of generalizability. It is crucial for models to not only perform well on the data they were trained on but also maintain their performance across diverse and unseen datasets.
This study addresses these gaps by integrating GradCAM with a deep learning model, specifically ResNet50, to offer visual explanations for the model’s predictions. Grad-CAM provides a heatmap visualization, highlighting the regions in the MRI images that significantly
influence the model’s decision, thereby offering a window into the model’s “thought process.” This approach not only aims to enhance the model’s interpretability but also strives to build trust among clinicians by providing a transparent AI tool that can assist in diagnostic decisions [20].
Additionally, this research emphasizes evaluating the model’s generalizability by testing its performance on a separate, unseen dataset, ensuring that the proposed solution is robust and applicable in real-world clinical settings [21]. Through these efforts, the study aims to contribute a more transparent, understandable, and reliable AI-based tool for brain tumor detection, addressing critical gaps in the current landscape of medical imaging analysis.

Methodology

The methodology of this study is structured to leverage deep learning for brain tumor detection from MRI images, with a specific focus on enhancing the interpretability of the model using Grad-CAM. This involves a comprehensive process that includes dataset preparation, data preprocessing, model training with ResNet50 [22], application of Grad-CAM for interpretability, and evaluation of the model’s performance. Each step is meticulously designed to ensure that the model not only achieves high accuracy but also provides insights into its decision-making process, crucial for clinical acceptability. Figure 2 depicts the workflow of the proposed model.

Description of the dataset

The dataset used in this study comprises MRI brain images labeled as ‘tumor’ or ‘no tumor’, facilitating a binary classification task. These images are sourced from a publicly accessible medical imaging dataset [23], ensuring the study’s reproducibility. Each image is annotated by expert radiologists, providing a reliable ground truth for model training and evaluation. Figure 3 shows some basic pre-processed images.
Table 2 provides a summary of the dataset.
Figure 4 presents the data distribution.
The dataset includes a diverse range of images to encompass various tumor types, sizes, and locations, aiming to enhance the model’s generalizability. It contains thousands of images, split into training, validation, and test sets. The training set is used to train the model, the validation set to tune the hyperparameters and prevent overfitting, and the test set to evaluate the model’s performance on unseen data.

Data preprocessing steps

In the context of neuroimaging research, particularly in the realm of brain tumor analysis, meticulous
Study Objective Summary
Patil & Kirange, (2023) [10] Design a deep ensemble model to improve the accuracy of multiclass classification for brain tumors using MRI scans, addressing the challenges of tumor localization and classification. Presents a deep ensemble model combining SCNN and VGG16 networks for brain tumor classification from MRI scans, achieving 97.77% accuracy and addressing issues of overfitting and dataset imbalance.
Woźniak et al., (2023) [11] Introduce a CLM to enhance the efficiency of deep neural network architectures, particularly for evaluating CT brain scans. Presents a CLM model integrating support neural network with CNN for faster learning and higher efficiency, achieving approximately 96% accuracy in CT brain scan evaluation.
Abdusalomov et al., (2023) [12] Enhance brain tumor detection using an improved YOLOv7 model with image enhancement, data augmentation, and feature fusion techniques. Introduces a refined YOLOv7 model for accurate detection of brain tumors in MRI scans, achieving competitive performance and demonstrating potential usefulness in medical applications.
Mahmud et al., (2023) [13] Develop a CNN architecture for efficient brain tumor detection from MR images, comparing its performance with established models. Proposes a CNN architecture for brain tumor detection from MR images, achieving superior performance compared to established models with accuracy, 98.43% AUC, and 91.19% recall.
Asad et al., (2023) [14] Develop an automatic system for early detection of brain tumors using a deep CNN with SGD optimization algorithm. Employs a deep CNN with SGD optimization for brain tumor detection, outperforming baseline methods and suggesting potential for other diseases.
Kanchanamala et al., (2023) [15] Develop an accurate brain tumor detection and classification system using ExpDHO-based ShCNN and Deep CNN, enhancing accuracy, sensitivity, and specificity. Proposes an approach combining ExpDHO-based ShCNN and Deep CNN for brain tumor detection and classification, achieving accuracy, sensitivity, and specificity values exceeding 0.9.
Aggarwal et al., (2023) [16] Develop an improved ResNet-based approach for brain tumor segmentation in MRI images. Presents an improved ResNet-based approach for brain tumor segmentation, achieving higher precision and accelerating the learning process.
Archana & Komarasamy, (2023) [17] Evaluate the accuracy of a novel BKNN-based method for brain tumor segmentation in MRI images. Introduces a BKNN-based method for brain tumor segmentation, aiming to improve accuracy and simplify the segmentation process.
Gayathri et al., (2023) [18] Assess the effectiveness of the VGG-16 architecture in accurately detecting brain tumors through deep learning. Evaluates the performance of VGG-16 in brain tumor detection, achieving 94% accuracy after hyperparameter optimization.
Haq et al., (2023) [19] Develop efficient CNN-based techniques for brain tumor identification and classification from MRI data. Presents CNN-based techniques for brain tumor identification and classification using MRI data, achieving high accuracy and leveraging conditional random fields for fine segmentation.
Fig. 2 Workflow of the proposed model
Fig. 3 Basic Pre-Processed Image
Table 2 Dataset description
Original Augmented
Tumor 155 1240
No Tumor 98 784
preprocessing methodologies are fundamental for optimizing the integrity and utility of the dataset utilized for subsequent model training and validation. The initial preprocessing step involves image standardization, whereby all MRI scans are subjected to rigorous resizing and rescaling operations to conform to a standardized dimension and spatial orientation. This ensures homogeneity across the dataset [24], facilitating consistent data processing and feature extraction procedures. Following standardization, intensity normalization (Eq. 1) techniques are applied to recalibrate
the intensity values of MRI images onto a uniform scale.
By mitigating the influence of inherent variations in imaging parameters, such normalization enhances the model’s sensitivity to subtle anatomical nuances and pathological features, thereby optimizing its discriminatory capacity.
Concomitantly, data cleaning protocols are rigorously executed to eliminate corrupt or extraneous images that may introduce noise or bias into the learning process. This entails comprehensive quality control checks, including the identification and rectification of artifacts such as motion artifacts, scanner-related distortions, or other anomalies that could confound model training. Through meticulous data curation, the integrity and
Data Distribution
Fig. 4 Dataset distribution
reliability of the dataset are upheld, ensuring that subsequent stages of model development are founded upon a robust and representative data sample.
Furthermore, advanced preprocessing methodologies may encompass the utilization of sophisticated algorithms for image registration, segmentation, and artifact correction. Image registration facilitates the spatial alignment of MRI scans from different subjects or time points onto a common anatomical template, enabling meaningful inter-subject comparisons and longitudinal analyses. Segmentation algorithms delineate regions of interest within the brain, facilitating precise delineation of tumor boundaries and enabling quantitative characterization of tumor morphology and volume. Additionally, artifact correction strategies leverage advanced signal processing techniques to mitigate the effects of noise, distortion, or other imaging artifacts, thereby preserving data fidelity.
The preprocessing of MRI images is a pivotal step in ensuring that the input data is conducive to the learning process of deep learning models. Each preprocessing step is deliberately chosen and applied to optimize the model’s ability to detect brain tumors with high accuracy and reliability.
All MRI images are resized to a standard dimension to ensure uniformity in input size for the model. This is essential because convolutional neural networks (CNNs) require a fixed input size. Rescaling the pixel values to a range of 0 to 1 assists in stabilizing the training process as it normalizes the gradient updates during backpropagation, leading to faster convergence. MRI images can vary in contrast and brightness due to different scanning protocols. Intensity normalization brings all images to a common intensity scale, which helps the model focus on structural information rather than variations caused by the imaging process. This step is crucial for improving the model’s sensitivity to the actual pathological features of
brain tumors. The removal of images with artifacts, such as motion blur or scanner-induced noise, is necessary to prevent the model from learning irrelevant or misleading features. Clean datasets enhance the model’s ability to generalize by learning from high-quality, artifact-free images. Data augmentation, including rotation, flipping, scaling, and elastic deformations, artificially expands the dataset and introduces a variety of transformations that the model might encounter in real-world scenarios. This is particularly important for medical imaging tasks, as it simulates variability in tumor appearance and location, thereby enhancing the model’s robustness and ability to generalize.
The expected impact of these preprocessing steps on model performance is multifaceted. Primarily, they aim to improve the model’s accuracy by providing it with quality data that is representative of the various manifestations of brain tumors. Secondly, these steps help in preventing overfitting by ensuring the model does not learn noise or artifacts, which can be common in medical images. Finally, preprocessing enhances the model’s generalizability, enabling it to perform well across datasets with different imaging characteristics.
The judicious application of these preprocessing steps is anticipated to yield a model that is not only highly accurate in detecting brain tumors but also efficient in training and effective across diverse imaging environments. The uniformity and quality of preprocessed data directly contribute to the model’s learning efficacy, ultimately resulting in a tool that is both reliable and clinically valuable.

Data Augmentation Techniques

In the domain of brain tumor analysis, where the intricacies and heterogeneity of tumor morphology present significant challenges, the utilization of data augmentation
techniques becomes imperative to bolster the dataset’s richness, thereby augmenting the model’s robustness and generalization capabilities. These augmentation methodologies encompass a range of transformative processes, each designed to introduce diverse variations reflective of real-world tumor scenarios. Rotation serves as a foundational technique, facilitating the generation of images from multiple angles to emulate the diverse perspectives encountered in clinical imaging [20]. In Fig. 5 some augmented images are shown.
In conjunction, flipping operations horizontally and vertically diversify image orientations, effectively mimicking the varying spatial arrangements of tumors within the brain. Scaling manipulations further contribute by resizing images to simulate the spectrum of tumor sizes encountered in clinical practice, thereby enhancing the model’s ability to discern tumors of varying dimensions. Translation operations, both vertically and horizontally, spatially displace images to train the model in tumor localization, regardless of their position within the brain. Figure 6 shows one image after different steps.
Elastic deformation, a sophisticated augmentation technique, introduces realistic distortions to images, thereby emulating the diverse morphological irregularities observed in actual tumor structures. Additionally, adjustments to brightness and contrast levels simulate
the range of imaging conditions encountered in clinical settings, ensuring the model’s adaptability to diverse scanning environments. Collectively, these augmentation strategies transcend mere dataset expansion, imbuing the dataset with a comprehensive representation of tumor diversity crucial for robust model training.
In essence, data augmentation serves as a pivotal mechanism for fortifying the model’s resilience and adaptability to the complexities of brain tumor analysis. By encapsulating the myriad manifestations of tumors within the dataset, these augmentation techniques enable the model to generalize effectively across a spectrum of clinical scenarios. Thus, data augmentation emerges not only as a computational strategy but as a fundamental component in refining the diagnostic capabilities of neuroimaging models [25, 26], ultimately advancing the frontiers of brain tumor detection and characterization.

Overview of the Deep Learning Model (ResNet50) and its relevance

ResNet50 is a variant of the Residual Network (ResNet) architecture, which is designed to train extremely deep neural networks with 50 layers effectively. ResNet introduces the concept of residual learning, which tackles the vanishing gradient problem, allowing the network to learn faster and more effectively, even as the network
Fig. 5 Augmented images
Fig. 6 Image after pre-processing steps
depth increases. This is achieved through the use of skip connections, or shortcut connections, that allow the gradient to be directly backpropagated to earlier layers.
ResNet50, a prominent convolutional neural network architecture, is characterized by its depth and intricate design elements tailored to facilitate rich feature extraction and gradient propagation. Comprising 50 layers, ResNet50 integrates convolutional layers, rectified linear unit (ReLU) (Eq. 2) activation layers, batch normalization layers, and fully connected layers. Equations 3,10 consists of the various equations used in the model building process.
Adam Optimizer Update Rule (First Moment)
This architecture’s fundamental premise revolves around the notion of constructing a deep network capable of acquiring hierarchical representations of input data, essential for intricate pattern recognition tasks. Central to ResNet50’s efficacy are its residual blocks, wherein the input to a block is directly added to its output, thus establishing a shortcut connection. This mechanism alleviates the vanishing gradient predicament by facilitating the unimpeded flow of gradients during backpropagation, thereby enabling the successful training of deep networks.
Furthermore, ResNet50 incorporates a bottleneck design within its blocks to mitigate computational complexity while maintaining efficacy. This design entails employing a sequence of operations within each block: first, a convolution is utilized to reduce the dimensionality of the input feature maps; subsequently, a convolution is applied to capture intricate spatial patterns; finally, another convolution is employed to restore the original dimensionality. By strategically employing these bottleneck structures, ResNet50 optimizes computational efficiency without compromising the network’s capacity to capture complex features, thereby enabling proficient training and inference across diverse applications in computer vision and beyond.
ResNet50 emerges as a pivotal tool owing to its deep architecture and adeptness in extracting intricate features from medical imaging data. Leveraging its hierarchical feature learning capabilities, ResNet50 excels in discerning subtle and complex patterns within MRI images that signify the presence of tumors. Moreover, the application of transfer learning augments its utility in medical imaging tasks, where limited dataset sizes pose challenges for training deep networks from scratch. By pre-training on extensive datasets like ImageNet and subsequently finetuning on MRI images, ResNet50 harnesses the knowledge of generic features acquired from larger datasets to adapt to the nuances of tumor detection, thereby enhancing its performance and generalization capacity.
Furthermore, the integration of interpretability techniques such as Gradient-weighted Class Activation Mapping (Grad-CAM) with ResNet50 contributes to its utility in clinical settings. This methodology enables the visualization of salient regions within input images that influence the model’s decision-making process, thereby enhancing interpretability. Clinicians gain insights into the rationale behind the model’s predictions, as Grad-CAM elucidates the areas deemed indicative of tumor presence. This not only bolsters confidence in the model’s diagnoses but also facilitates collaborative decision-making processes between clinicians and AI systems, ultimately enhancing patient care and treatment planning.
ResNet50 is adapted for the binary classification task of detecting brain tumors. The final fully connected layer of the standard ResNet50 model, typically used for 1000-class classification, is replaced with a new layer tailored to distinguish between two classes: ‘tumor’ and ‘no tumor’. This adaptation is crucial for tailoring the pre-trained model to the specific task at hand.
The model is trained on the augmented MRI dataset, leveraging backpropagation to minimize the loss function and update the weights. During training, the effectiveness of ResNet50’s residual blocks is leveraged to capture the
intricate details necessary for accurate tumor detection. Grad-CAM is then applied to the trained model, providing visual explanations that highlight the regions in the MRI images most influential to the model’s predictions, thus offering a transparent view into the model’s operational mechanics.
The algorithm 1 provides a structured approach to leveraging ResNet50 combined with Grad-CAM for the task of brain tumor detection from MRI images, emphasizing both accuracy in classification and transparency in model decision-making through visual explanations.
Algorithm 1. Brain Tumor Detection Using ResNet50 with Grad-CAM
Input:
  • A set of MRI brain images to be evaluated for the presence of brain tumors.
  • Pre-trained ResNet50 model weights.
Output:
  • Classification of each MRI image into ‘tumor’ or ‘no tumor’.
  • Grad-CAM visualizations highlighting the regions influencing the model’s predictions.
Steps:
  1. Data Preparation:
  • Load the MRI brain image dataset.
  • Normalize the image intensities and resize images to match the input size of the ResNet50 model.
  • Split the dataset into training, validation, and testing sets.
  1. Data Augmentation (for the training set):
  • Apply rotation, flipping, scaling, translation, elastic deformation, and brightness/contrast adjustments to the images in the training set to enhance model generalization.
  1. Model Configuration:
  • Initialize the ResNet50 model. If using transfer learning, load pre-trained weights; otherwise, initialize with random weights.
  • Replace the final fully connected layer with a new layer tailored for binary classification (tumor, no tumor).
  1. Training:
  • For each epoch, iterate over the training set in batches:
  • Perform a forward pass of the model to compute predictions.
  • Calculate the loss using binary cross-entropy.
  • Perform backpropagation to compute gradients.
  • Update model weights using an optimizer (e.g., SGD or Adam).
  • After each epoch, evaluate the model on the validation set to monitor performance and apply early stopping or model checkpointing as needed.
  1. Testing and Evaluation:
  • Evaluate the final model on the test set to determine its performance using metrics such as accuracy, precision, recall, F 1 -score, and specificity.
  • Generate confusion matrix and ROC curve to assess model performance in detail.
  1. Grad-CAM Visualization:
  • For selected test images, apply Grad-CAM to generate heatmaps highlighting the regions of the image most influential to the model’s predictions.
  • Overlay these heatmaps on the original images to visualize the focus areas of the model.
  1. Output Generation:
  • Classify each image in the test set as ‘tumor’ or ‘no tumor’ based on the model’s predictions.
  • Provide Grad-CAM visualizations alongside the predictions for interpretability and further analysis.

Training, validation and testing process

The training process for the ResNet50 model in brain tumor detection entails a meticulous sequence of steps aimed at optimizing its performance and robustness. Commencing with model initialization, pre-trained weights from datasets like ImageNet are often leveraged to kickstart the learning process, facilitating transfer learning and expediting convergence towards task-specific objectives. Subsequently, a suitable loss function, typically binary cross-entropy for binary classification tasks, is selected to quantify the disparity between predicted outputs and actual labels. An optimizer, such as SGD or Adam, is then chosen to iteratively update the network’s weights based on feedback from the loss function.
Batch processing is employed to partition the training dataset into manageable subsets, enabling incremental weight updates and enhancing computational efficiency. During each training iteration, a forward pass propagates data through the network, generating predictions. Following this, a backward pass, known as backpropagation, computes the gradient of the loss with respect to the network weights, facilitating weight updates by the optimizer to minimize the loss.
The training process unfolds over multiple epochs, with each epoch representing a complete pass through the entire training dataset. Techniques like dropout or L2 regularization may be employed to mitigate overfitting, ensuring the model generalizes well to unseen data.
Concurrently, the validation process occurs at the end of each epoch, where the model’s performance is evaluated on a separate validation set. This assessment offers insights into the model’s generalization capabilities and informs hyperparameter tuning decisions. Hyperparameters such as learning rate and batch size are adjusted based on performance metrics such as accuracy, precision, and recall. Furthermore, early stopping criteria may be implemented to halt training if the model’s performance on the validation set deteriorates, mitigating overfitting by preventing the model from learning noise from the training dataset. Through this iterative training and validation regimen, the ResNet50 model is honed to achieve optimal performance and reliability in the task of brain tumor detection.
The testing process for the developed deep learning model in brain tumor detection involves several rigorous steps to ascertain its reliability, effectiveness, and interpretability. Following the completion of training and validation phases, the model undergoes final evaluation using a designated test set comprising data that remains unseen during prior phases. This critical step serves to assess the model’s real-world applicability and performance under novel conditions.
A comprehensive array of performance metrics, including accuracy, precision, recall, F1-score, and confusion matrices, are meticulously computed to quantitatively evaluate the model’s efficacy in detecting brain tumors. Particularly within the realm of medical diagnostics, metrics such as sensitivity and specificity hold significant importance, providing insights into the model’s ability to correctly identify both positive and negative cases.
In addition to quantitative assessments, the interpretability aspect is addressed through the generation of GradCAM visualizations for test images. These visualizations offer qualitative insights into the areas of focus within the input images that significantly influence the model’s predictions. Such interpretability is paramount for garnering clinical acceptance, as it furnishes practitioners with comprehensible and trustworthy AI-driven insights.
Moreover, the performance on the test set serves as a robust measure of the model’s generalizability, gauging its potential effectiveness and reliability in real-world clinical settings. Through this meticulous training, validation, and testing process, the deep learning model undergoes refinement to ensure not only accuracy but also reliability and interpretability, thereby aligning with the critical requirements of medical imaging analysis. This comprehensive approach underscores the commitment to delivering robust and clinically applicable solutions in the domain of brain tumor detection.

Performance metrics used for evaluation

The evaluation of a deep learning model’s performance, such as ResNet50, demands a meticulous selection of performance metrics to ascertain its effectiveness, reliability, and clinical applicability. The chosen metrics play a pivotal role in offering insights into the model’s predictive prowess and its capacity to discern between tumor and non-tumor instances. Accuracy (Eq. 11), defined as the ratio of correctly predicted observations to total observations, provides a fundamental measure of the model’s overall correctness. Precision (Eq. 12), recalling the ratio of correctly predicted positive observations to the total predicted positives, is crucial in medical diagnostics to minimize false positives, while recall (Eq. 13), quantifying the ratio of correctly predicted positive observations to all actual positives, ensures the model’s capability to detect as many true tumor cases as possible. TP is for True Positive, TN is for True Negative, FP is for False Positive and FN is for False Negative.
The F1 score (Eq. 14), being the harmonic mean of precision and recall, balances their trade-off and is particularly useful in uneven class distributions. Specificity, delineating the proportion of actual negatives correctly identified, complements recall in ensuring accurate diagnoses by minimizing false negatives.
The confusion matrix, incorporating true positives, false positives, true negatives, and false negatives, provides a holistic view of the model’s performance across different classes. Receiver Operating Characteristic (ROC) curve (Eq. 15) and Area Under the Curve (AUC) offer insights into the model’s ability to distinguish between classes across various threshold settings, crucial in assessing its discriminative capacity. Mean Squared Error (MSE) (Eq. 16) ,Root Mean Squared Error (RMSE) (Eq. 17) & Mean Absolute Error (MAE) (Eq. 18) typically used in regression tasks, provide quantitative insights into the magnitude of the model’s error.
F2-Score (Eq. 19) and Cohen’s Kappa (Eq. 20) is also calculated further.
Additionally, interpretability metrics like Grad-CAM visualizations serve as qualitative assessments, elucidating the model’s focus areas during prediction, thereby validating its decision-making process in a clinical context. Collectively, these highly technical metrics ensure a comprehensive evaluation of the deep learning model’s performance, reinforcing its reliability and efficacy in clinical applications of brain tumor detection from MRI images.

Experimentation and results

The deep learning model developed for brain tumor detection underwent rigorous training and testing within a robust computational environment, leveraging Python as the programming language for its extensive machine learning and data processing libraries. PyTorch served as the primary deep learning framework, chosen for its dynamic computation graph and efficient memory utilization, particularly conducive to training complex neural networks like ResNet50. Essential libraries included torchvision for model access and image transformations, PIL for image file operations, NumPy for numerical computations, and matplotlib/Seaborn for visualization. Augmentation techniques significantly expanded the dataset from an initial 253 images to 2024, encompassing rotations, flips, scaling, translations, elastic deformations, and brightness/contrast adjustments, thereby enhancing model generalization and mitigating overfitting risks. The training process spanned 10 epochs, with a batch size of 16 and dynamic learning rate adjustments based on validation set performance. Notable epoch-wise progress showcased consistent improvement, culminating in a test accuracy of . In Fig. 7 the training loss and accuracy as per epochs is shown.
Precision and recall metrics for tumor and no-tumor classes exceeded and , respectively, while F1-score averaged around . Interpretability was enhanced through Grad-CAM visualizations, correlating model predictions with radiological markers of brain tumors, reinforcing clinical trust. These comprehensive results underscore the model’s effectiveness in detecting brain tumors from MRI images, elucidating its training process, performance metrics, and interpretive capabilities for clinical adoption. During the validation and testing phases, crucial assessments were conducted to evaluate the model’s performance and its ability to generalize to unseen data. Throughout the validation process, the model demonstrated exceptional accuracy, peaking at by the eighth epoch, affirming its proficiency in classifying MRI images into ‘tumor’ and ‘no tumor’
categories accurately. Precision, recall, and F1-score metrics further underscored the model’s reliability, with values nearing 100% by the eighth epoch, indicative of robust performance in identifying true positive cases while minimizing false positives and negatives. On the test set, the model exhibited an impressive accuracy of , complemented by high precision and recall values for both ‘no tumor’ and ‘tumor’ classes, confirming its effectiveness in discerning between pathological and healthy states. Visualization of Grad-CAM results provided an additional interpretive layer to the model’s predictions, generating heatmaps overlaid on MRI images to highlight regions significantly influencing predictions. These visualizations, instrumental for clinicians, validated the model’s attention to clinically relevant features, enhancing trust and reliability. In conclusion, the combination of quantitative metrics and qualitative Grad-CAM visualizations offers a comprehensive evaluation framework, affirming the model’s efficacy in brain tumor detection while ensuring transparency and trustworthiness crucial for clinical adoption.
During the validation and testing phases, the model’s performance and generalization ability were meticulously scrutinized, yielding comprehensive insights into its efficacy in brain tumor detection. Validation accuracy emerged as a pivotal metric, with the model achieving a remarkable peak accuracy of by the eighth epoch, underscoring its proficiency in correctly classifying MRI images into ‘tumor’ and ‘no tumor’ categories. Precision, recall, and F1-score metrics further elucidated the model’s reliability, with precision and recall values nearing by the eighth epoch, translating into an F1-score of approximately . These metrics underscored the model’s capacity to identify true positive cases while minimizing false positives and negatives, essential for precise
medical diagnostics. In the subsequent testing phase, the model exhibited a commendable accuracy of , slightly lower than the validation accuracy but still indicative of stellar performance. Precision metrics for both ‘no tumor’ and ‘tumor’ classes exceeded 98%, while recall values surpassed and , respectively, affirming the model’s proficiency in correctly identifying actual positive and negative cases. The balanced F1-score around for both classes corroborated the model’s ability to maintain equilibrium between precision and recall, crucial for diagnostic tasks where erroneous classifications carry significant ramifications. Table 3 provides the performance metrics.
Figure 8 class wise performance metrics is shown.
Figure 9 depicts the confusion matrix of the proposed model.
The Table 4 gives insights of the error metrics of the model.
Figure 10 depicts the Error Metrics of the model.
Cohen’s Kappa and F2 Score value is shown in Table 5.
Cohen’s Kappa and F2 Score has been depicted epoch wise in Fig. 11.
Augmenting the quantitative metrics, the utilization of Gradient-weighted Class Activation Mapping (GradCAM) added an interpretive layer to the model’s predictions. Grad-CAM generated heatmaps superimposed on MRI images, spotlighting regions significantly influencing the model’s decisions. In images depicting tumors, the heatmaps predominantly highlighted tumor regions, validating the model’s attention to clinically relevant features. Beyond mere visualization, these heatmaps offered invaluable insights to clinicians, providing a visual affirmation that the model’s decisions were grounded in relevant pathological markers rather than extraneous image features. Such interpretive aids fostered trust and
Fig. 7 Accuracy and Loss During Training
reliability among medical practitioners, ensuring that the model’s decision-making aligned with clinical expectations and knowledge. Figure 12 depicts grad cam visualization of some sample images.
The amalgamation of quantitative metrics and qualitative Grad-CAM visualizations furnished a comprehensive evaluation framework, elucidating the model’s efficacy in brain tumor detection while offering insights into its decision-making rationale. This multifaceted evaluation not only substantiated the model’s diagnostic accuracy but also augmented its transparency and trustworthiness, paramount for garnering acceptance and adoption in clinical settings.

Discussion

The evaluation of the ResNet50 model, augmented with Grad-CAM for interpretability, in detecting brain tumors from MRI images unveils its outstanding performance and clinical significance. With a testing accuracy reaching 98.52%, the model showcases remarkable robustness and reliability. Precision and recall metrics, soaring to exceptionally high levels, underscore the model’s proficiency in accurately identifying tumor presence while
Table 3 Performance Metrics
Precision Recall F1 Score
No Tumor 0.99 0.97 0.98
Tumor 0.98 0.99 0.99
minimizing false diagnoses-a critical aspect in medical contexts where every misdiagnosis carries significant consequences.
When compared with baseline models or previous studies, which often exhibit lower accuracy levels for similar tasks, the ResNet50 model’s performance stands out prominently. Traditional machine learning approaches or earlier deep learning models typically struggle to achieve such high precision and recall levels, particularly in the nuanced and complex task of brain tumor detection from MRI images. The incorporation of Grad-CAM further distinguishes this study, offering a layer of interpretability often absent in conventional approaches. Table 6 comprises of comparison with baseline studies.
The effectiveness of data augmentation emerges as a pivotal factor in enhancing the model’s generalization capability. By introducing diverse transformations, the model learns to recognize tumors across various presentations, mitigating the risk of overfitting to the training data’s specific characteristics. This holds significant importance in medical imaging, where variability across patients and imaging conditions is ubiquitous.
The selection of ResNet50 as the model architecture significantly contributes to the high performance observed. Its deep layered structure, coupled with residual connections, empowers the model to learn intricate features from MRI images, essential for accurate tumor detection. The success of this architecture in this context reaffirms its efficacy and adaptability to various image recognition tasks, including those in the medical domain.
Fig. 8 Classification Report
Fig. 9 Confusion Matrix
Table 4 Error Metrics
Metrics Value
MSE 0.015
RMSE 0.122
MAE 0.015
A critical factor in the adoption of AI-driven diagnostic tools is their ability to provide interpretative outputs that resonate with expert clinical judgment. To this end, the proposed study employs Gradient-weighted Class Activation Mapping (Grad-CAM) to generate visual
explanations for the model’s predictions. The previous research works carried out in this field along with the survey’s carried out signifies that grad cam is better for the model’s interpretative visualizations align with expert radiological assessments.
The Grad-CAM visualizations offer compelling insights into the model’s decision-making process. By spotlighting areas of focus during predictions, these visualizations validate that the model is not only learning but also focusing on the correct features within MRI images. For instance, the concentration of heatmap activations over tumor regions aligns with clinical
Fig. 10 Error Metrics
Table 5 Advanced Metrics
Metrics Value
F2 Score 0.99
Cohen’s Kappa 0.97
expectations, providing a reassuring confirmation that the model’s detections are based on relevant pathological features rather than spurious correlations. To understand this more Fig. 13 enhances the visual interpretation.
In clinical practice, such visual explanations hold immense potential to enhance collaboration between
Fig. 11 Epoch Wise Cohen’s Kappa and F2 Score
Fig. 12 Grad-CAM Visualization
Table 6 comparison with baseline studies
Study Technique Accuracy
Khan et al. (2023) [27] Brain tumor detection using deep learning 95.94%
Kumar et al. (2023) [28] Brain tumor classification using CNN models 96.2%
Hossain et al. (2023) [5] Multiclass brain tumor classification using DL architectures 96.94%
Anaya-Isaza et al. (2023) [29] Brain tumor classification and detection using DL architectures and Cross-Transformer 97%
Pillai et al. (2023) [30] Brain tumor detection using deep transfer learning models 91.58%
Sharma et al. (2023) [31] Brain tumor detection using Modified ResNet50 with HOG features 88%
Pedada et al. (2023) [32] Brain tumor segmentation using modified U-Net with residual networks 93.40%
Rahman and Islam (2023) [33] Brain tumor classification using parallel deep convolutional neural network (PDCNN) 97.33%
Proposed Model Optimized Resnet50 with Gradcam 98.52%
AI systems and medical professionals. They facilitate a more informed and nuanced understanding of AIassisted diagnoses, empowering clinicians to trust and effectively integrate AI tools into their diagnostic process. This ensures that the technology acts as a reliable aid rather than an opaque and uninterpretable black box. Table 7 encapsulates the loss and accuracy performance metrics of different Convolutional Neural Network (CNN) architectures when applied to the task of brain tumor detection in MRI images. These architectures are benchmarked to provide a comprehensive overview of their effectiveness, allowing for informed decisions on the optimal model for deployment in clinical settings.
The data presented in Table 7 showcases the variability in performance across different deep learning models, with the Proposed architecture displaying a notable edge in accuracy. These results suggest that the Proposed
model, with its distinctive approach to convolutional operations, outperforms other widely used architectures for this specific task. It is essential to note that the model’s architecture is not the sole determinant of performance; factors such as dataset complexity, data preprocessing, and augmentation strategies also play critical roles in achieving high accuracy and low loss in brain tumor detection algorithms.

Limitations of the dataset and implications for Generalizability

The current study has employed a dataset that, while sufficiently large to train a deep learning model with high accuracy, presents certain limitations that must be addressed to understand the full scope of the model’s applicability. Notably, the dataset’s size and diversity are constrained, which may impact the model’s ability to generalize its findings beyond the scope of the study. The
Fig. 13 Epoch wise Gradcam
Table 7 Comparative Performance Metrics of Various Convolutional Neural Network Architectures
CNN Loss 0.5071
Accuracy 80.16%
EfficientNetB0 Loss 0.4281
Accuracy 86.51%
Densenet201 Loss 0.3953
Accuracy 80.16%
Inception Loss 0.3982
Accuracy 81.75%
Xception Loss 0.412
Accuracy 85.71%
Mobilenet Loss 0.3439
Accuracy 84.13%
Proposed Model Loss 0.0702
Accuracy 98.30%
dataset, comprising a finite number of MRI images, is not expansive enough to encapsulate the full heterogeneity of brain tumors. Although deep learning models, such as the one we have implemented, are capable of learning complex patterns in data, their performance is inherently tied to the quantity and quality of the training data. The size of the dataset limits the model’s exposure to the wide range of variations that occur in brain tumors, potentially hindering its predictive performance in clinical scenarios that are not represented in the training data. The dataset predominantly includes MRI images from a limited demographic and may not adequately represent the diversity seen in the global population. Brain tumors vary significantly in their appearance, not only due to biological factors but also due to demographic variations. Therefore, a dataset with greater demographic diversity would likely improve the model’s generalizability and reliability across different populations. These limitations underscore the need for caution when extrapolating the study’s findings to the general population. The high accuracy and precision demonstrated by our model may not fully predict its effectiveness in a clinical setting, where the range of tumor appearances and patient backgrounds is considerably broader. Future research should focus on acquiring and incorporating a more diverse and extensive dataset that can better represent the global incidence of brain tumors. This would enable the development of a model with enhanced generalizability, more accurately reflecting the performance one might expect in diverse clinical environments.
While the present study provides valuable insights into the capabilities of deep learning for brain tumor detection, it also highlights the need for continual improvement in dataset collection and model training
methodologies. By addressing these limitations, future work can lead to more robust and widely applicable diagnostic tools, ultimately contributing to improved patient care and outcomes in the domain of medical imaging.

Ethical considerations in the deployment of AI for clinical diagnostics

As we stand on the precipice of a new era in medical diagnostics, propelled by advancements in artificial intelligence (AI), it is imperative to address the ethical considerations that accompany the deployment of such technologies. The use of sensitive patient data to train AI models demands stringent adherence to privacy regulations such as the Health Insurance Portability and Accountability Act (HIPAA) and the General Data Protection Regulation (GDPR). We advocate for robust de-identification processes to ensure that patient data remains confidential and secure, thereby upholding the privacy of individuals. Protecting the data from unauthorized access and breaches is crucial. The deployment of AI in clinical settings must be accompanied by state-of-the-art cybersecurity measures to safeguard against potential data leaks, ensuring the security and integrity of patient information. While AI has the potential to significantly improve diagnostic accuracy, there remains the risk of misdiagnosis. It is essential to establish clear protocols for human oversight, where AI acts as a decision support tool rather than a definitive diagnostician. This ensures that the ultimate responsibility for diagnosis remains with trained medical professionals, mitigating the risk of misdiagnosis due to AI errors.: Patients must be informed about the role of AI in their diagnostic process, and consent should be obtained with full transparency about the use of AI tools. This promotes trust and allows patients to make informed decisions about their healthcare. AI models can inadvertently perpetuate biases present in the training data, leading to unequal healthcare outcomes. It is critical to use diverse datasets for training and validate models across different demographics to ensure the equitable application of AI in clinical diagnostics. Post-deployment, AI systems must be continuously monitored and validated to ensure they perform as expected over time. This is especially important as AI models may degrade or become less accurate as patient populations and disease presentations evolve. The ethical deployment of AI in healthcare is a shared responsibility that requires collaboration between technologists, healthcare providers, ethicists, and policymakers. By proactively addressing these ethical concerns, we can steer the course of AI towards augmenting healthcare delivery while maintaining the highest standards of patient care and safety.

Future research directions and clinical integration

Proposed research marks a significant step forward in the application of AI for brain tumor detection. However, the path from research to clinical implementation is multifaceted, necessitating further investigation. A primary direction for future research is the exploration of how AI tools can be seamlessly integrated into existing clinical workflows. This involves the development of user-friendly interfaces that allow radiologists to easily interact with AI predictions, the establishment of protocols for when and how AI recommendations are to be considered, and the assessment of the impact of AI tools on diagnostic accuracy and time efficiency in live clinical environments. It is imperative to conduct longitudinal studies and clinical trials to evaluate the efficacy and safety of AI-assisted diagnostics over extended periods. This will not only validate the long-term reliability of AI tools but also identify any unforeseen issues that may arise in a real-world setting. In concert with technological advancements, there is a need for developing clear regulatory and ethical guidelines that govern the use of AI in medical diagnostics. Future research should focus on contributing to policy discussions and the creation of comprehensive guidelines that ensure patient safety, data privacy, and equitable care. To advance the deployment of AI in clinical settings, interdisciplinary collaboration is essential. Future research should aim to foster partnerships between AI researchers, clinicians, ethicists, and policy-makers to ensure that the development of AI tools aligns with clinical needs and ethical standards. Preparing the next generation of healthcare providers to work alongside AI is critical. Future research should also focus on educational programs and training modules that equip medical professionals with the necessary skills to effectively utilize AI in their practice. Finally, research should continue to advance the technology itself, improving the accuracy, interpretability, and generalizability of AI models. This includes the exploration of novel AI architectures, the development of more advanced interpretability techniques, and the expansion of datasets to include a wider array of pathologies and patient demographics. The future of AI in medical diagnostics is a promising yet complex journey. By setting clear research trajectories, we can ensure that our advancements in AI not only push the boundaries of technology but are also thoughtfully and effectively translated into improved clinical care. This entails not only a deep understanding of the technology but also a conscientious effort to align with clinical goals, ethical considerations, and regulatory requirements, ultimately leading to the delivery of better patient outcomes.
The application of a deep learning model like ResNet50, augmented with data augmentation techniques and complemented by Grad-CAM for interpretability, presents a powerful tool for brain tumor detection from MRI images. The model’s high performance, coupled with the transparency provided by Grad-CAM, not only advances the field of medical imaging analysis but also paves the way for more widespread acceptance and use of AI in clinical settings.

Conclusion

This study presents the promising application of a deep learning model, particularly ResNet50 augmented with Grad-CAM, for brain tumor detection in MRI images. Achieving a testing accuracy of alongside high precision and recall metrics underscores the model’s efficacy in identifying brain tumors accurately. Leveraging data augmentation techniques significantly bolstered the model’s robustness and generalization capabilities across diverse imaging scenarios. Moreover, the integration of Grad-CAM provided valuable insights into the model’s decision-making process by highlighting relevant areas within the images that influenced its predictions, crucial for building trust and interpretability in medical AI applications. Despite these promising results, several limitations and areas for improvement are recognized. Firstly, the study acknowledges the relatively limited dataset size and diversity, emphasizing the need for larger and more varied datasets encompassing a broader spectrum of tumor presentations. Exploring alternative architectures like EfficientNet or DenseNet could offer insights into optimizing model complexity and computational efficiency. Additionally, future research directions include clinical validation to ensure alignment with expert assessments and integration into real-world clinical workflows to evaluate diagnostic impact and patient outcomes. Refining explainability methods such as GradCAM and integrating multimodal data sources could further enhance the model’s diagnostic capabilities and foster trust among medical professionals. Overall, while this study marks a significant advancement in AI-driven brain tumor detection in MRI images, ongoing research efforts aim to enhance accuracy, interpretability, and clinical applicability, paving the way for improved patient care in medical imaging analysis.

Authors’ contributions

M.M.M took care of the review of literature and methodology. M.T.R has done the formal analysis, data collection and investigation. V.K.V has done the initial drafting and statistical analysis. S.G has supervised the overall project. All the authors of the article have read and approved the final article.

Funding

This research received no external funding.

Availability of data and materials

The data that support the findings of this study are openly available at https:// www.kaggle.com/datasets/navoneel/brain-mri-images-for-brain-tumor-detec tion.

Declarations

Not Applicable.
NA.

Competing interests

The authors declare no competing interests.
Received: 13 April 2024 Accepted: 6 May 2024
Published online: 11 May 2024

References

  1. Solanki S, et al. “Brain Tumor Detection and Classification Using Intelligence Techniques: An Overview.” IEEE Access. 2023;11:12870-86. https:// doi.org/10.1109/access.2023.3242666.
  2. Thenuwara G, Curtin J, Tian F. Advances in diagnostic tools and therapeutic approaches for gliomas: a comprehensive review. Sensors. 2023;23:9842.
  3. Thakur A, et al. Transformative breast Cancer diagnosis using CNNs with optimized ReduceLROnPlateau and Early stopping Enhancements. Int J Comput Intell Syst. 2024;17(1):14.
  4. Song J, et al. “Magnetic Resonance Imaging (MRI) Brain Tumor Image Classification Based on Five Machine Learning Algorithms.” Cloud Comput Data Sci. 2023, pp. 122-33. https://doi.org/10.37256/ccds. 42202 32740.
  5. Hossain S, et al. “Vision Transformers, Ensemble Model, and Transfer Learning Leveraging Explainable AI for Brain Tumor Detection and Classification.” IEEE J Biomed Health Informatics. 2024;28(3):1261-72. https://doi. org/10.1109/jbhi.2023.3266614.
  6. Saeedi S, et al. MRI-based brain tumor detection using convolutional deep learning methods and chosen machine learning techniques. BMC Med Inf Decis Mak. 2023;23(1):16.
  7. Anwar RW, et al. “Transfer Learning in Brain Tumor Classification: Challenges, Opportunities, and Future Prospects.” 2023 14th International Conference on Information and Communication Technology Convergence (ICTC). 2023. https://doi.org/10.1109/ictc58733.2023.10392830.
  8. Ullah F, et al. “Evolutionary Model for Brain Cancer-Grading and Classification.” IEEE Access. 2023;11:126182-94. https://doi.org/10.1109/access. 2023.3330919.
  9. Ullah F, et al. Enhancing brain tumor segmentation accuracy through scalable federated learning with advanced data privacy and security measures. Mathematics. 2023;11(19):4189.
  10. Patil S. Ensemble of deep learning models for brain tumor detection. Procedia Comput Sci. 2023;218:2468-79.
  11. Woźniak M. Jakub Siłka, and Michał Wieczorek. Deep neural network correlation learning mechanism for CT brain tumor detection. Neural Comput Appl. 2023;35(20):14611-26.
  12. Abdusalomov A, Bobomirzaevich M, Mukhiddinov, Taeg Keun Whangbo. Brain Tumor Detect Based deep Learn Approaches Magn Reson Imaging Cancers. 2023;15(16):4172.
  13. Mahmud , Ishtyaq , Mamun, Abdelgawad . A deep analysis of brain tumor detection from mr images using deep learning networks. Algorithms. 2023;16(4):176.
  14. Asad R , et al. Computer-aided early melanoma brain-tumor detection using deep-learning approach. Biomedicines. 2023;11(1):184.
  15. Kanchanamala, Pendela KG, Revathi. Belsam Jeba Ananth. Optimizationenabled hybrid deep learning for brain tumor detection and classification from MRI. Biomed Signal Process Control. 2023;84:104955.
  16. Aggarwal , et al. An early detection and segmentation of Brain Tumor using deep neural network. BMC Med Inf Decis Mak. 2023;23(1):78.
  17. Archana KV, Komarasamy G. A novel deep learning-based brain tumor detection using the bagging ensemble with K-nearest neighbor. J Intell Syst. 2023;32(1):20220206.
  18. Gayathri P, et al. Exploring the potential of vgg-16 architecture for accurate brain tumor detection using deep learning. J Computers Mech Manage. 2023;2(2):23056-23056.
  19. Haq Ejaz UI, et al. “An MRI-Based Deep Learning Approach for Efficient Classification of Brain Tumors.” J Ambient Intell Humaniz Comput. 2021;14(6):6697-718. https://doi.org/10.1007/s12652-021-03535-9.
  20. Ullah F, et al. Brain Tumor Segmentation from MRI Images Using Handcrafted Convolutional Neural Network. Diagnostics. 2023;13(16):2650.
  21. Ullah F, Nadeem M. and Mohammad Abrar. Revolutionizing Brain Tumor Segmentation in MRI with Dynamic Fusion of Handcrafted Features and Global Pathway-Based Deep Learning.” KSII Trans Internet Inform Syst. 2024;18(1)- https://doi.org/10.3837/tiis.2024.01.007.
  22. Koonce B. “ResNet 50.” Convolutional neural networks with swift for tensorflow, 2021, pp. 63-72. https://doi.org/10.1007/978-1-4842-6168-2_6.
  23. Navoneel, Brain MRI Images for Brain Tumor Detection., Kaggle. https:// www.kaggle.com/datasets/navoneel/brain-mri-images-for-brain-tumordetection.
  24. Albalawi E, et al. Oral squamous cell carcinoma detection using EfficientNet on histopathological images. Front Med. 2024;10:1349336.
  25. Moteri A, Moteeb, et al. Enhancing accessibility for improved diagnosis with modified EfficientNetV2-S and cyclic learning rate strategy in women with disabilities and breast cancer. Front Med. 2024;11:1373244.
  26. Sannasi Chakravarthy SR, Bharanidharan N, Kumar V. Deep transfer learning with fuzzy ensemble approach for the early detection of breast cancer. BMC Med Imaging. 2024;24:82. https://doi.org/10.1186/ s12880-024-01267-8.
  27. Khan M , Attique, et al. Multimodal brain tumor detection and classification using deep saliency map and improved dragonfly optimization algorithm. Int J Imaging Syst Technol. 2023;33(2):572-87.
  28. Kavin Kumar K, et al.”Brain Tumor Identification Using Data Augmentation and Transfer Learning Approach.” Comput Syst Sci Eng. 2023;46(2):1845-61. https://doi.org/10.32604/csse.2023.033927.
  29. Anaya-Isaza Andrés, et al. Optimizing MRI-based brain tumor classification and detection using AI: a comparative analysis of neural networks, transfer learning, data augmentation, and the cross-transformer network. Eur J Radiol Open. 2023;10:100484.
  30. Pillai R, Sharma A, Sharma N, Gupta R. “Brain Tumor Classification using VGG 16, ResNet50, and Inception V3 Transfer Learning Models,” 2023 2nd International Conference for Innovation in Technology (INOCON), Bangalore, India. 2023, pp. 1-5. https://doi.org/10.1109/INOCON57975. 2023.10101252.
  31. Sharma A, Kumar, et al. HOG transformation based feature extraction framework in modified Resnet50 model for brain tumor detection. Biomed Signal Process Control. 2023;84:104737.
  32. Pedada K, Rao, et al. A novel approach for brain tumour detection using deep learning based technique. Biomed Signal Process Control. 2023;82:104549.
  33. Rahman T, Md Saiful Islam. MRI brain tumor detection and classification using parallel deep convolutional neural networks. Measurement: Sens. 2023;26:100694.

Publisher’s Note

Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

  1. *Correspondence:
    Suresh Guluwadi
    suresh.guluwadi@astu.edu.et
    Al-Ameen Engineering College (Autonomous), Erode, Tamil Nadu, India
    Department of Computer Science and Engineering, JAIN (Deemed-tobe University), Bengaluru 562112, India
    School of Computer Science Engineering and Information Systems, Vellore Institute of Technology University, Vellore 632014, India
    Adama Science and Technology University, Adama 302120, Ethiopia