نموذج هجين قابل للتفسير يعتمد على تقنيات التعلم الآلي المتقدمة ونماذج التعلم العميق لتصنيف أورام الدماغ باستخدام صور الرنين المغناطيسي A hybrid explainable model based on advanced machine learning and deep learning models for classifying brain tumors using MRI images

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-85874-7
PMID: https://pubmed.ncbi.nlm.nih.gov/39794374
تاريخ النشر: 2025-01-10

تقارير علمية

مفتوح

نموذج هجين قابل للتفسير يعتمد على تقنيات التعلم الآلي المتقدمة ونماذج التعلم العميق لتصنيف أورام الدماغ باستخدام صور الرنين المغناطيسي

مد. ناهيدوزمان , لوي فيصل عبدالرزاق , حفصة بنت كيبريا , أميث خانداكار , محمد أرسلين عياري , مد. فيصل أحمد , مومنول أحسن , جولفيكار حيدر , محمد علي موني & مارسين كوالسكي ®

ملخص

تشكل أورام الدماغ تحديًا صحيًا عالميًا كبيرًا، ويعد الكشف المبكر عنها وتصنيفها بدقة أمرًا حيويًا لاستراتيجيات العلاج الفعالة. تقدم هذه الدراسة نهجًا جديدًا يجمع بين شبكة عصبية تلافيفية قابلة للفصل بعمق خفيف الوزن (PDSCNN) ونموذج هجين من الانحدار الجبهي (RRELM) لتصنيف أربعة أنواع من أورام الدماغ (غليوما، منينجيوما، لا ورم، وغدة نخامية) بناءً على صور الرنين المغناطيسي. يعزز النهج المقترح وضوح وشفافية ميزات الورم في صور الرنين المغناطيسي من خلال استخدام تعديل تباين الهيستوغرام التكيفي المحدود (CLAHE). ثم يتم استخدام PDSCNN خفيف الوزن لاستخراج الأنماط المحددة للورم مع تقليل التعقيد الحسابي. يتم اقتراح نموذج هجين من RRELM، مما يعزز ELM التقليدي لتحسين أداء التصنيف. تم مقارنة الإطار المقترح مع نماذج متطورة مختلفة من حيث دقة التصنيف، ومعلمات النموذج، وأحجام الطبقات. حقق الإطار المقترح دقة متوسطة ملحوظة، واسترجاع، وقيم دقة بلغت 99.35%، 99.30%، و99.22%، على التوالي، من خلال التحقق المتقاطع بخمس طيات. تفوق PDSCNN-RRELM على نموذج آلة التعلم المتطرفة مع المعكوس الزائف (PELM) وأظهر أداءً متفوقًا. أدى إدخال الانحدار الجبهي في إطار ELM إلى تحسينات كبيرة في أداء التصنيف ومعلمات النموذج وأحجام الطبقات مقارنة بتلك الخاصة بالنماذج المتطورة. بالإضافة إلى ذلك، تم إثبات قابلية تفسير الإطار باستخدام تفسيرات شابلي التراكمية (SHAP)، مما يوفر رؤى حول عملية اتخاذ القرار وزيادة الثقة في التشخيصات الواقعية.

الكلمات الرئيسية: ورم دماغي، صور الرنين المغناطيسي، الشبكات العصبية التلافيفية (CNN)، آلات التعلم المتطرفة (ELM)، تعديل تباين الهيستوغرام التكيفي المحدود (CLAHE)، SHAP (تفسيرات شابلي التراكمية)
الدماغ البشري، مقعد الوعي والإدراك، هو قمة آلتنا البيولوجية المعقدة. تنظم هذه العضو الاستثنائي أفعالنا وذكرياتنا وأفكارنا، وحتى أدق حركات أطرافنا تحت سلطته المهيمنة. . ومع ذلك، وسط تعقيده الغامض، يكون الدماغ عرضة لخصوم هائلين يعرفون بأورام الدماغ، التي تنشأ من النمو غير الطبيعي لخلاياه الخاصة. هذا
النمو الخبيث دمر الهيكل العصبي الدقيق، مما يظهر كطيف التحدي لسرطان الدماغ – وباء صامت لا يترك ركنًا من أركان العالم غير متأثر.
تظهر إحصائيات مقلقة من منظمة الصحة العالمية (WHO) أن السرطان أودى بحياة 9.6 مليون شخص حول العالم في عام 2018. بسبب هذا التحدي، ظهرت أورام الدماغ كمساهم كبير . تصنف هذه الأورام بشكل عام إلى أورام أولية وثانوية، وتقدم هذه الأمراض تحديات تشخيصية وعلاجية مميزة . تنشأ أورام الدماغ الأولية داخل حدود الدماغ، بينما تتسلل الأورام الثانوية الخبيثة بهدوء إلى المجال الدماغي عبر مجرى الدم من مناطق أخرى من الجسم. تقسم منظمة الصحة العالمية أورام الدماغ إلى أربع فئات، تصنف وفقًا لطبيعتها الخبيثة أو الحميدة، تغطي الطيف من النمو الخبيث إلى الأورام العدوانية .
لمواجهة هذا التركيز الهائل، يعد الكشف المبكر والتصنيف الدقيق لأورام الدماغ أمرًا بالغ الأهمية، حيث يمثل حجر الزاوية لوضع استراتيجيات علاج فعالة. في هذه السعي، ظهرت التصوير بالرنين المغناطيسي (MRI) والتصوير المقطعي المحوسب (CT) كأدوات لا غنى عنها، حيث توفر رؤى حاسمة في المشهد التشريحي لهذه الكتل الغامضة . تكمن الصعوبة، مع ذلك، في فصل الأنسجة الدماغية الطبيعية بدقة عن النمو غير الطبيعي، وهي مهمة تصبح أكثر صعوبة بسبب التباين الفطري في الحجم والشكل والموقع لهذه الأورام.
من خلال استغلال القوة التحويلية للتعلم الآلي، شهد مجال معالجة الصور الطبية زيادة ملحوظة في أنظمة التشخيص المدعومة بالحاسوب الحديثة التي تهدف إلى تعزيز خبرة أطباء الأشعة . من خلال دمج مزايا خوارزميات التعلم الآلي المتقدمة والعميقة وثروة المعلومات في الصور الطبية الحيوية، تحمل هذه الأنظمة المبتكرة وعدًا هائلًا في تحسين رعاية المرضى وتحسين تصنيف أورام الدماغ. يمكن أن يوجه التصنيف الدقيق للأورام في مراحلها المبكرة الأطباء في صياغة خطط علاج شخصية، مما يفتح عصر الطب الدقيق .
من بين الأنواع العديدة من أورام الدماغ الأولية، هناك ثلاثة خصوم بارزين في المرحلة المركزية: الغليومات، أورام الغدة النخامية، والمينينجيوما. تشكل الغليومات، التي تنشأ من الخلايا الدبقية التي توفر دعمًا حيويًا للخلايا العصبية، تحديًا كبيرًا بسبب طبيعتها المتسللة. تنشأ أورام الغدة النخامية، التي تكون حميدة بطبيعتها، داخل الغدد النخامية وت disrupt التوازن الهرموني الدقيق الضروري للتوازن الجسدي. من ناحية أخرى، تزدهر المينينجيوما على الأغشية الواقية التي تحيط بالدماغ والحبل الشوكي، مما يتطلب تدقيقًا دقيقًا.
في هذا السياق، تتطلب المهمة الهائلة لتصنيف أورام الدماغ بدقة استكشافًا شاملاً لتقنيات التعلم الآلي والعميق المتطورة ودمجها في مجال معالجة الصور الطبية الحيوية. بالإضافة إلى مجرد مساعدة أطباء الأشعة في مساعيهم التشخيصية، فإن هذه الأساليب المبتكرة لديها القدرة على إحداث ثورة في نتائج المرضى، مما يقلل من العواقب القاتمة المرتبطة بالأورام عالية الدرجة ويمنح الأمل المتجدد والحياة الممتدة. وبالتالي، يمثل السعي نحو تشخيص دقيق لأورام الدماغ علامة فارقة محورية في الرحلة الشاقة نحو علاج فعال. لتحقيق هذا الهدف، تم التركيز بشكل كبير على تحديد وتصنيف صور الرنين المغناطيسي لأورام الدماغ. تقدم هذه الدراسة نهجًا جديدًا يجمع بين الشبكات العصبية التلافيفية (CNNs) وآلات التعلم المتطرفة (ELMs) لتشخيص أورام الدماغ. يتيح استخراج الميزات التمييزية من صور الرنين المغناطيسي باستخدام CNN لـ ELM تصنيف أورام الدماغ بدقة. يحمل هذا الدمج المتناغم لتقنيات التعلم الآلي المتقدمة وعدًا هائلًا في تحويل مشهد تشخيص أورام الدماغ، وإحداث ثورة في تصنيف الأمراض، وفي النهاية تقليل معدلات وفيات المرضى. تقدم هذه الورقة مجموعة من المساهمات الهامة التي تعزز مجال تصنيف أورام الدماغ وتعزز قابلية تفسير نماذج التعلم العميق. يمكن تلخيص المساهمات الرئيسية لهذه الدراسة على النحو التالي:
  • استخدام CLAHE حسّن من وضوح وشفافية ميزات الورم المهمة في صور الرنين المغناطيسي، مما يعزز من مهام التحليل والتصنيف اللاحقة.
  • تم اقتراح شبكة عصبية تلافيفية قابلة للفصل بعمق خفيف الوزن (PDSCNN) لاستخراج الميزات ذات الصلة من صور الرنين المغناطيسي المحسنة. يلتقط هذا النموذج الأنماط المحددة للورم بكفاءة مع تقليل التعقيد الحسابي.
  • تم اقتراح نموذج هجين من الانحدار الجبهي (RRELM)، الذي يعزز ELM التقليدي من خلال استبدال المعكوس الزائف بالانحدار الجبهي لتحسين أداء التصنيف.
  • قامت هذه الدراسة بمقارنة الإطار المقترح مع نماذج متطورة مختلفة (SOTA) بناءً على أداء التصنيف، ومعلمات النموذج، وأحجام الطبقات.
  • تم عرض قابلية تفسير الإطار من خلال استخدام SHAP، مما يسمح بفهم أعمق لعملية اتخاذ القرار للنموذج، وزيادة الثقة في تطبيقه التشخيصي في العالم الحقيقي.

مراجعة الأدبيات

التقسيم الدقيق للصور الطبية يلعب دورًا محوريًا في اكتشاف وتصنيف أورام الدماغ، مما يساعد في اتخاذ قرارات علاجية مستنيرة وفي الوقت المناسب. لقد ظهرت التصوير بالرنين المغناطيسي (MRI) كركيزة في هذا الجهد، حيث توفر معلومات تشريحية مفصلة للتحليل الدقيق. على مر السنين، تم اقتراح العديد من التقنيات لمعالجة المهمة الصعبة لتصنيف أورام الدماغ في التصوير بالرنين المغناطيسي. اقترح أحمد وآخرون تقنية معالجة مسبقة من ثلاث خطوات لتحسين جودة صور الرنين المغناطيسي، مصحوبة بهيكل شبكة عصبية تلافيفية مخصصة. يستخدم الهيكل تطبيع الدفعات للتدريب السريع، ومعدلات تعلم أعلى، وتبسيط في تهيئة الأوزان. مع تصميم مدمج يتكون من عدد قليل من الطبقات التلافيفية وطبقات التجميع القصوى، حقق النموذج المقترح معدلات دقة استثنائية من بشكل عام، لأورام الدبقيات، لأورام السحايا، للغدة النخامية، و للصور الطبيعية. تظهر النتائج التجريبية قوة ودقة الكشف المحسنة للهيكل المقترح مقارنة بتلك النماذج المختلفة للتعلم الانتقالي، مثل VGG16 و VGG19 ، عبر مختلف أمراض الدماغ في فترة زمنية قصيرة. وبالمثل، قدم ناياك وآخرون نسخة تعتمد على شبكة عصبية تلافيفية كثيفة من EfficientNet مع تطبيع الحد الأدنى والحد الأقصى لتصنيف 3,260 صورة رنين مغناطيسي للدماغ إلى أربع فئات (دبقي، سحائي، نخامية، وبدون ورم). النموذج
أظهر دقة عالية في تصنيف قاعدة البيانات المحدودة من خلال دمج طبقات كثيفة وطبقات إسقاط. تم دمج زيادة البيانات وتطبيع الحد الأدنى والحد الأقصى لتعزيز تباين خلايا الورم. أظهرت النتائج التجريبية أداءً استثنائيًا، مع دقة تدريب تبلغ ودقة اختبار تبلغ .
بالإضافة إلى ذلك، قدم العنزي وآخرون نموذج تعلم عميق جديد للانتقال للتشخيص المبكر لأورام الدماغ وفئاتها الفرعية. في البداية، تم بناء وتقييم نماذج CNN معزولة لصور الرنين المغناطيسي للدماغ. ثم تم إعادة استخدام نموذج CNN ذو 22 طبقة، وتصنيف ثنائي، مع أوزان معدلة لتصنيف فئات الورم عبر التعلم الانتقالي. حقق النموذج المتعلم عبر الانتقال دقة عالية تبلغ لصور الرنين المغناطيسي من نفس الجهاز وأظهر قابلية للتكيف وموثوقية مع دقة على مجموعة بيانات غير مرئية من جهاز آخر. أظهر الإطار المقترح إمكانيات لمساعدة الأطباء وأطباء الأشعة في التشخيص المبكر لأورام الدماغ. قدم خان وآخرون نظام تصنيف قائم على التعلم العميق الهرمي (HDL2BT) باستخدام شبكة عصبية تلافيفية. يقوم النظام بتصنيف الدبقيات، السحائيات، النخاميات، وأنواع غير الأورام بدقة من صور الرنين المغناطيسي مع دقة ومعدل خطأ . تفوق النموذج المقترح على طرق الكشف والتقسيم السابقة لأورام الدماغ، مما يوفر مساعدة سريرية قيمة في التشخيص. في المقابل، كانت دراسة إيرماك تهدف إلى تمكين التشخيص المبكر لأورام الدماغ من صور الرنين المغناطيسي من خلال التصنيف المتعدد باستخدام شبكة CNN مخصصة . تم اقتراح ثلاثة نماذج CNN متميزة لمهام تصنيف مختلفة. يتم تحسين المعلمات الفائقة لنماذج CNN تلقائيًا عبر خوارزمية بحث الشبكة. حقق النموذج الأول دقة في الكشف عن أورام الدماغ. صنف النموذج الثاني بدقة أورام الدماغ إلى خمسة أنواع (طبيعي، دبقي، سحائي، نخامية، وورم نقوي)، مع دقة. نجح النموذج الثالث في تصنيف أورام الدماغ إلى ثلاث درجات (الدرجة الثانية، الدرجة الثالثة، والدرجة الرابعة) مع دقة. أظهر تحليل مقارن مع نماذج CNN الأخرى المتطورة (SOTA) (AlexNet، Inceptionv3، ResNet-50، VGG-16، و GoogleNet) الأداء المتفوق للنماذج المقترحة.
اقترح بادزا وآخرون هيكل شبكة عصبية تلافيفية مبسطة لتصنيف أورام الدماغ تستهدف بشكل صريح ثلاثة أنواع من الأورام (دبقي، سحائي، ونخامية) باستخدام صور الرنين المغناطيسي المعززة بتباين T1. تم تقييم أداء الشبكة باستخدام طرق مختلفة، بما في ذلك طرق التحقق المتقاطع وقواعد البيانات. أظهرت قاعدة بيانات الصور المعززة أفضل دقة تبلغ في التحقق المتقاطع (CV) بعشر طيات. أظهر الهيكل العصبي التلافيفي المطور قدرة ممتازة على التعميم وسرعة تنفيذ فعالة، مما يجعله أداة دعم قرار واعدة لأطباء الأشعة في التشخيص الطبي. وبالمثل، قدم مزوغي وآخرون هيكل شبكة عصبية تلافيفية ثلاثية الأبعاد فعالة وآلية بالكامل لتصنيف أورام الدماغ الدبقية إلى درجات منخفضة ومرتفعة باستخدام صور تسلسل الرنين المغناطيسي T1-Gado الحجمية. يدمج الهيكل بفعالية المعلومات السياقية المحلية والعالمية مع تقليل الأوزان من خلال نوى صغيرة. تم استخدام تقنيات المعالجة المسبقة، بما في ذلك تطبيع الشدة وتعزيز التباين التكيفي، لمعالجة تباين البيانات، وتم استخدام الزيادة لتدريب قوي. تفوق النهج المقترح على الطرق الحالية، محققًا دقة إجمالية مثيرة للإعجاب تبلغ على مجموعة بيانات التحقق. تؤكد هذه الدراسة على أهمية المعالجة المسبقة المناسبة للرنين المغناطيسي وزيادة البيانات في تحقيق تصنيف دقيق باستخدام نهج قائم على CNN. بالإضافة إلى ذلك، قدم غماي وآخرون نهج استخراج ميزات هجين مقترن مع آلة التعلم المتطرفة المنتظمة (RELM) لتصنيف أورام الدماغ بدقة . تتضمن الطريقة معالجة صور الدماغ بتطبيع الحد الأدنى والحد الأقصى لتعزيز التباين، تليها استخراج ميزات هجين. يتم بعد ذلك إجراء تصنيف أنواع الأورام باستخدام RELM. أظهرت التقييمات التجريبية على مجموعة بيانات عامة جديدة تفوق النهج على الطرق الحالية، محققة دقة تصنيف محسنة من 91.51 إلى باستخدام تقنية الاحتفاظ العشوائي. اقترح جوان وآخرون طريقة فعالة لتصنيف أورام الدماغ باستخدام خطوات المعالجة المسبقة، واستخراج الموقع القائم على التجميع، واستخراج الميزات، والتنقيح، والمحاذاة، والتصنيف. أظهرت الطريقة أداءً متفوقًا على الطرق الحالية على مجموعة بيانات أورام الدماغ المتاحة للجمهور، محققة دقة تصنيف إجمالية مثيرة للإعجاب تبلغ . قدم ديباك وآخرون نظام تصنيف يستخدم التعلم العميق الانتقالي مع GoogLeNet المدرب مسبقًا لاستخراج الميزات من صور الرنين المغناطيسي للدماغ. تم دمج نماذج المصنف المثبتة لتصنيف الميزات المستخرجة. حقق النظام دقة تصنيف متوسطة مثيرة للإعجاب تبلغ باستخدام التحقق المتقاطع على مستوى المريض بخمس طيات، متفوقًا على الطرق الحالية المتطورة. قدم شايك وآخرون شبكة متعددة المستويات للاهتمام (MANet) تتضمن اهتمامًا مكانيًا وعبر القنوات للتعرف على الأورام. تعطي هذه الطريقة الأولوية لمناطق الورم مع الحفاظ على الاعتماد الزمني عبر القنوات. أظهرت التقييمات التجريبية على مجموعات بيانات Figshare و BraTS المرجعية أن النموذج المقترح حقق أداءً متفوقًا، مع أعلى دقة تبلغ على مجموعة بيانات Figshare و على مجموعة بيانات BraTS2018، متفوقًا على النماذج الحالية. اقترح أهويا وآخرون نهجًا آليًا لتصنيف أورام الدماغ، وتحديد موقعها، وتقسيمها باستخدام مجموعات بيانات T1W-CE-MRI. تم تقييم نماذج DarkNet المدربة مسبقًا (DarkNet-19 و DarkNet-53) وحققت دقة عالية تبلغ للتدريب و للتحقق. حقق أفضل نموذج DarkNet-53 دقة اختبار تبلغ ومنطقة تحت المنحنى (AUC) تبلغ 0.99 على 1070 صورة اختبار T1W-CE.
أظهر استعراض شامل للأدبيات أنه على الرغم من أن نماذج التعلم العميق (DL) قد أظهرت نجاحًا ملحوظًا في تحديد أورام الدماغ من صور الرنين المغناطيسي، إلا أنه كان هناك إغفال كبير في تقييم التعقيدات الحسابية لهذه النماذج. ركزت معظم الدراسات على تحقيق أداء تصنيف عالٍ، متجاهلة عوامل حاسمة مثل عمق النموذج، وعدد المعلمات، ووقت المعالجة. من الجدير بالذكر أن نماذج التعلم الانتقالي (TL) أثبتت أنها تستغرق وقتًا طويلاً بسبب متطلبات تدريبها مع ملايين المعلمات . علاوة على ذلك، تم تجاهل القابلية للتفسير، وهي جانب حيوي من تحليل النموذج، إلى حد كبير، مما ترك فجوة في فهم المناطق المحددة في الصورة التي تعطيها النماذج الأولوية لتصنيف أورام الدماغ.
في ضوء هذه التحديات، تقترح هذه الدراسة المتطورة إطار عمل مبتكر وخفيف الوزن يضمن تصنيف دقيق لأورام الدماغ ويتناول قيود النماذج الحالية. قام المؤلفون باستخراج ميزات معلوماتية عالية تقلل بشكل كبير من عدد الطبقات والمعلمات و
وقت الحساب من خلال استغلال القوة التمييزية لشبكة CNN القابلة للفصل بعمق بشكل متوازي. ومن الجدير بالذكر أنه تم تقديم نهج رائد من خلال دمج الانحدار الجبهي في نموذج ELM الهجين المقترح، بدلاً من الطريقة الأكثر زيفًا. يعزز هذا الدمج أداء التصنيف لنموذج الانحدار الجبهي الهجين الجديد (RRELM)، متجاوزًا قدرات الأساليب السابقة. بالإضافة إلى ذلك، تم تجاوز الحدود البحثية التقليدية من خلال تحقيق مستوى غير مسبوق من القابلية للتفسير ضمن الإطار المقترح. من خلال تطوير شبكة CNN-ELM الهجينة القابلة للتفسير، حصل المؤلفون على رؤى حول كيفية عمل النموذج المقترح، مما سمح لهم بفك شفرة المناطق المحددة في الصورة التي تساهم بشكل بارز في تصنيف أورام الدماغ. لقد ظهرت التعلم بالنقل كنهج محوري في تمثيل الصور، لا سيما في المجالات التي تحتوي على بيانات محدودة معلمة. تسلط الدراسة حول التعرف على فئات الطعام Zhang et al. الضوء على دور التعلم بالنقل في استغلال النماذج المدربة مسبقًا لتكييف الميزات لمهام محددة في المجال، مما يوضح أهميته في التعامل بكفاءة مع مجموعات البيانات المتنوعة. وبالمثل، تجمع الدراسة حول اكتشاف النزيف الدماغي الصغير (FeatureNet) بين التعلم بالنقل وتقنيات التجميع، حيث يتم تجميد الطبقات المبكرة لاستخدام الميزات العامة بينما يتم ضبط المصنفات مثل الشبكات العصبية العشوائية لتحقيق دقة محسنة . حقق هذا النهج نتائج رائدة، مما يبرز إمكانيات التعلم بالنقل في مهام التصوير الطبي المعقدة. علاوة على ذلك، يظهر نموذج CTBViT لتصنيف السل دمج التعلم بالنقل مع المحولات البصرية، باستخدام كتلة تقليل الباتش ومصنفات عشوائية لتحسين الأداء وتقليل الإفراط في التخصيص . تؤكد هذه الدراسات مجتمعة على قابلية التكيف وفعالية التعلم بالنقل عبر تطبيقات تحليل الصور المختلفة، لا سيما في المجالات ذات الموارد المحدودة.
تقدم هذه البحث حلاً شاملاً يتجاوز المنهجيات الحالية. من خلال دمج تقنيات متطورة في استخراج الميزات، والتصنيف، والقابلية للتفسير، تم تقديم إطار عمل مثير للإعجاب يحقق دقة متفوقة ويتناول القضايا الحاسمة المتعلقة بالتعقيد الحسابي وشفافية النموذج. يمثل هذا البحث تقدمًا كبيرًا نحو ثورة في مجال تحديد أورام الدماغ، مما يضع معيارًا جديدًا لتحقيق الأداء والقابلية للتفسير في تحليل الصور الطبية.

المنهجية

الإطار المقترح

توضح الشكل 1 إطار عمل مبتكر تم تصميمه لتصنيف ثلاثة أنواع متميزة من أورام الدماغ (BTs) من صور الرنين المغناطيسي، إلى جانب تصنيف الصور التي تظهر غياب الأورام. خلال التدريب، يستخدم نموذج RRELM التحقق المتقاطع بخمسة أضعاف لتقييم وحفظ أفضل نموذج أداء، والذي يتم استخدامه بعد ذلك للاختبار النهائي. عند الاختبار، يوفر النموذج المحسن تصنيفًا قويًا لأربع فئات، مميزًا بفعالية بين أنواع مختلفة من أورام الدماغ وحالات عدم وجود الأورام. يعرض الإطار الكامل قوة دمج شبكة CNN المتوازية لاستخراج الميزات مع تنظيم الانحدار الجبهي في المصنف، مما يحقق حلاً فعالًا ودقيقًا لتصنيف الصور الطبية.
تم استخدام تفسير تم إنشاؤه باستخدام طريقة الشرح الإضافي لشابلي (SHAP) للحصول على رؤى حول طبيعة نموذج PDSCNN-RRELM كصندوق أسود. قدمت هذه التقنية البصرية المبتكرة فهمًا أعمق لعملية اتخاذ القرار في النموذج وأبرزت الميزات الأكثر تأثيرًا التي تساهم في نتائج التصنيف. في الأقسام التالية، يتم تقديم كل خطوة من الإطار المقترح
الشكل 1. إطار عمل هجيني لتصنيف أورام الدماغ باستخدام شبكة CNN المتوازية والانحدار الجبهي، مع SHAP للقابلية للتفسير.
يتم تقديم الإطار بمزيد من التفصيل، مما يوفر شرحًا شاملاً للمنهجية المستخدمة والمساهمات الملحوظة التي تم تحقيقها نحو التعرف الدقيق وتصنيف أورام الدماغ في صور الرنين المغناطيسي.

مجموعة بيانات أورام الدماغ

تم الحصول على مجموعة بيانات أورام الدماغ المستخدمة في هذه الدراسة من مستودع Kaggle المرموق. تتكون مجموعة البيانات من أربع فئات متميزة: الدبقيات، والميينجيوما، وعدم وجود ورم، وورم الغدة النخامية. تشمل مجموعة البيانات ما مجموعه 7,023 صورة رنين مغناطيسي موزعة عبر الفئات التالية: الدبقيات (1,621 صورة)، الميينجيوما (1,645 صورة)، عدم وجود ورم (2,000 صورة)، والغدة النخامية (1,757 صورة). تم استخدام استراتيجية تقييم صارمة لضمان موثوقية ونقل النموذج. نظرًا للدور الحاسم لبيانات أورام الدماغ في التطبيقات الطبية والسريرية، فإن ضمان خصوصية المرضى والامتثال للمعايير الأخلاقية أمر أساسي لسلامة هذه الدراسة. هذه المجموعة من البيانات مأخوذة من مستودعات متاحة للجمهور (مستودعات figshare وSARTAJ وBr 35 H)، والتي تهدف جميعها لأغراض البحث. عادةً ما تكون هذه المستودعات منظمة لإخفاء البيانات الشخصية، مما يزيل أي معلومات تحدد هوية المرضى، وبالتالي تتماشى مع إرشادات HIPAA وGDPR لخصوصية البيانات. بالإضافة إلى ذلك، تم جمع ومعالجة مجموعة البيانات وفقًا للمعايير والإرشادات الأخلاقية التي تم وضعها للبيانات الطبية المتاحة للجمهور. لا توجد ميزات تحدد هوية المرضى الفرديين في مجموعة البيانات، مما يضمن الحفاظ على خصوصية الأفراد طوال الدراسة. تم تقسيم مجموعة البيانات بحيث تم تخصيص جزء من الصور لأغراض التدريب، بينما تم تخصيص الجزء المتبقي لاختبار نموذج RRELM الجديد باستخدام منهجية التحقق المتقاطع بخمسة أضعاف. يوضح الشكل 2 مجموعة مختارة من عينات الرنين المغناطيسي لتوفير تمثيل بصري لمجموعة البيانات.
بينما يمثل الشكل 2 أشكال الأورام بصريًا، من الضروري تسليط الضوء على التباين الفطري لمجموعة البيانات، التي تشمل خصائص الخلفية، وعيوب التصوير، ومظاهر الأورام. إن وجود الأنسجة المحيطة مثل نسيج الدماغ، والأوعية الدموية، أو البطينات يقدم تباينات خلفية كبيرة عبر صور الرنين المغناطيسي. بالإضافة إلى ذلك، تساهم عوامل مثل معلمات التصوير، وإعدادات الماسح الضوئي، وخصائص المرضى المحددة في تنوع الصور. علاوة على ذلك، تظهر أورام الدماغ أشكالًا وأحجامًا ومواقع متنوعة، مما يؤدي إلى طيف من المظاهر على صور الرنين المغناطيسي. إن تمييز الدبقيات، المعروفة بوجود حواف غير منتظمة وأنماط غزوية، عن الأنسجة السليمة يمثل تحديًا. من ناحية أخرى، تقدم الميينجيوما عادةً ككتل خارج المحور محددة جيدًا، وغالبًا ما تكون مجاورة للأم الجافية.
تمتد تعقيدات تصنيف هذه الصور إلى ما هو أبعد من تمييز الأورام عن الخلفيات. إن التعرف الدقيق وتصنيف أنواع الأورام بناءً على الخصائص الشكلية والعلاقات المكانية داخل الدماغ أمر بالغ الأهمية. ومن ثم، بينما يوفر الشكل 2 نظرة ثاقبة على تنوع أشكال الأورام، من الضروري التأكيد على تعقيد مهمة التصنيف. يهدف الأسلوب المقترح إلى معالجة هذه التحديات من خلال استغلال تقنيات التعلم الآلي المتقدمة لاستخراج الميزات التمييزية بفعالية، مما يسهل التصنيف الدقيق عبر أنواع الأورام. من خلال التعرف على الفروق الدقيقة في تكوين مجموعة البيانات وتعقيدات توصيف أورام الدماغ، تسعى دراستنا إلى تقديم فهم شامل للتعقيدات المعنية في تصنيف الأورام المستندة إلى الرنين المغناطيسي.

معالجة البيانات

في مجال معالجة الصور، أدرك الباحثون الأهمية القصوى لتحقيق نتائج مثلى. ولهذا الغرض، ظهرت منهجيات متنوعة، تهدف كل منها إلى تحسين الصور الطبية لتحقيق نتائج أفضل. في هذه الدراسة، استخدم الباحثون تقنية تحسين تباين الصورة المحدودة التكيفية (CLAHE) لمعالجة تحدي تحسين تباين الصورة ودقة النموذج. تم تصميم CLAHE في الأصل لمعالجة القيود الجوهرية للصور الطبية ذات التباين المنخفض، حيث تعمل عن طريق تقييد عملية التضخيم ضمن حد معين يحدده المستخدم يُعرف باسم حد القص. . تلعب هذه العتبة دورًا حاسمًا في تخفيف الضوضاء في المدرج التكراري، مما يحدد بالتالي مدى تحسين التباين الذي تم تحقيقه. في هذه الدراسة، قام الباحثون بتحديد حد القص بعناية عند 2.0 بينما اعتمدوا أيضًا على ( حجم شبكة البلاط لتحسين الإمكانيات التحويلية لـ CLAHE في سعيهم نحو تحسين الصورة بشكل متفوق. تُظهر الشكل 3 مجموعة من صور الرنين المغناطيسي الأصلية جنبًا إلى جنب مع نظيراتها المقابلة، التي خضعت لتحسين باستخدام طريقة CLAHE. يمكن ملاحظة التأثير التحويلي لـ CLAHE حيث يعزز بشكل فعال الجودة البصرية والتفاصيل في صور الرنين المغناطيسي، مما يتيح وضوحًا أفضل وتباينًا دقيقًا للتحليل والتفسير الدقيق. تشمل قاعدة البيانات مجموعة متنوعة من الصور، كل منها يقدم أحجامًا مختلفة، مما يتطلب عملية توحيد لتسهيل التكامل السلس في نموذج CNN. في سعي لتحقيق هذا الهدف، خضعت الصور لإجراء تحويل، مما جعلها تتماشى مع حجم موحد من بكسلات. من خلال استخدام تقنية CLAHE القوية، تم تحسين الصور، مما يضمن جودة بصرية مثالية ويسهل التحليل التفصيلي.
اعترافًا بأهمية إدارة التعقيد وتعزيز التوحيد، قام الباحثون بتنفيذ إجراء للتطبيع. نظرًا لوفرة قيم الكثافة المستخدمة لتمثيل صورة، يعتبر التطبيع خطوة حاسمة للتخفيف من التعقيدات الناجمة عن العدد الكبير من البكسلات. لهذا الغرض، تم ضبط مقياس الصور بدقة من النطاق الأصلي 0-255 إلى نطاق مطبع من تضمنت هذه التعديلات الاستراتيجية تقسيم قيم البكسل لكل صورة على 255، مما ساهم في تبسيط التحليل اللاحق من خلال تقليل التعقيد وزيادة الكفاءة الحاسوبية.

شبكة عصبية تلافيفية قابلة للفصل بعمق متوازي

كان الهدف الأساسي هو تطوير نموذج CNN قادر على تحديد الميزات الأساسية بفعالية مع الحفاظ على هيكل مدمج مناسب لتطبيقات العالم الحقيقي المتنوعة. لتحقيق التوازن بين قيود المعلمات وتعقيد الطبقات، تم تصميم نموذج PDS-CNN مبسط خصيصًا لاستخراج ميزات ذات مغزى مع الحد الأدنى من استهلاك الموارد. تُظهر البنية الموضحة في الشكل 4 أناقة هذا النهج الخفيف لالتقاط الميزات المميزة داخل صور الرنين المغناطيسي.
الشكل 2. صور مسح بالرنين المغناطيسي لعينة من الدماغ تظهر (أ) ورم دبقي، (ب) ورم سحائي، (ج) ورم في الغدة النخامية و(د) عدم وجود أورام.
تم اعتماد استراتيجية مصقولة لتبسيط نموذج CNN المقترح مقارنة بنماذج TL. كان النموذج يتكون من تسع طبقات تلافيفية (CLs) وطبقتين متصلتين بالكامل (FCs)، تم معايرتها بعناية لتحقيق توازن. من خلال التجارب التكرارية، لوحظ أن طبقة تلافيفية واحدة ستفشل في التقاط الميزات الأساسية، بينما ستؤدي سلسلة من خمس طبقات تلافيفية إلى إدخال عمق وتعقيد غير ضروريين. وبالتالي، تم تنفيذ أول خمس طبقات تلافيفية بعناية بالتوازي، مستفيدين من الرؤى المكتسبة من التجربة والخطأ الدقيقة. كانت كل طبقة تلافيفية مزودة بـ 256 نواة بأحجام متنوعة، تتراوح من إلى . اختيار استخدام أحجام فلاتر مختلفة تتراوح من إلى استراتيجي. إذا تم استخدام أحجام مرشحات متطابقة، فسوف تستخرج ميزات زائدة، مما يؤدي في النهاية إلى نقص في التنوع في فضاء الميزات. ومع ذلك، من خلال دمج أحجام مرشحات متنوعة، يمكن لكل مرشح التقاط أنواع مميزة من الميزات. عند دمج خرائط الميزات المستمدة من هذه المرشحات، يتم الحصول على مجموعة غنية ومتنوعة من الميزات. يساعد هذا التنوع في التقاط الأنماط المعقدة والتفاصيل الدقيقة الموجودة في البيانات، مما يعزز قدرة النموذج على تمييز وتصنيف الكائنات بدقة. المنطق وراء اختيار نطاق من إلى مستند إلى خصائص أحجام الفلاتر. يعتبر الفلتر مثاليًا لاكتشاف الميزات المحلية مثل الحواف والزوايا وتفاصيل القوام بسبب مجاله الاستقبالي الأصغر. على العكس، فإن يمتلك الفلتر مجال استقبال أكبر، مما يمكّنه من التقاط المزيد من الميزات العالمية أو الأنماط الشاملة الموجودة في بيانات الإدخال. من خلال تضمين أحجام الفلاتر عبر هذا الطيف، يمكن للنموذج الاستفادة بفعالية من كل من المعلومات المحلية والعالمية، مما يحقق توازنًا بين استخراج الميزات التفصيلية والتعرف على الأنماط الشاملة.
تم استخدام حجم حشو ثابت عبر الخمس طبقات الأولى، مما مكن من استخراج معلومات شاملة حتى من العناصر الحدودية. تم دمج خرائط الميزات الناتجة عن الطبقات المتوازية بشكل متناغم ثم تم تغذيتها إلى طبقة تسلسلية.
الشكل 3. صور الرنين المغناطيسي (A) بدون معالجة مسبقة و (B) بعد المعالجة المسبقة باستخدام CLAHE.
لتعزيز بساطة النموذج دون المساس بأداء التصنيف، تم اعتماد نهج جديد يتضمن الالتفاف القابل للفصل العمقي (DSC)، ليحل محل طرق الالتفاف التقليدية. يقوم DSC بتفكيك عملية الالتفاف بمهارة إلى الالتفاف العمقي والالتفاف النقطي، مما يقلل بشكل كبير من عدد المعلمات من 2.2 مليون إلى 0.53 مليون فقط. هذه التخفيض المدروس في التعقيد الحسابي لم يقتصر على تبسيط النموذج فحسب، بل عزز أيضًا أداء التصنيف. بعد آخر أربعة CLs، تم دمج طبقة تطبيع الدفعة (BN) وطبقة تجميع القصوى، وتم تحسين أحجامها لتكون 128 و64 و32 و16، على التوالي، مع النوى والتعبئة VALID. التكامل
الشكل 4. هيكل شبكة عصبية تلافيفية قابلة للفصل بعمق خفيف الوزن (PDS-CNN) مقترح لاستخراج الميزات من صور الرنين المغناطيسي (*DSConv2D: تلافيف قابل للفصل بعمق؛ BN: تطبيع الدفعة).
تنفيذ BN المعجل مع تعزيز استقرار النموذج. لتقديم عدم الخطية وتسهيل التدريب، تم استخدام دالة تفعيل الوحدة الخطية المصححة (ReLU) عبر جميع CLs. علاوة على ذلك، لمكافحة الإفراط في التكيف وتسريع التدريب، تم إدخال طبقات الإسقاط بشكل استراتيجي، متجاهلة بشكل عشوائي العقد. على وجه التحديد، تم وضع طبقتين من التسرب بعد آخر طبقتين من CL، وتم وضع طبقة إضافية بعد أول طبقة FC. بالنظر إلى أن معدل التعلم تم ضبطه على 0.001 باستخدام مُحسِّن ADAM، تم إدارة خسارة النموذج بمهارة من خلال تطبيق دالة خسارة الانتروبيا المتقاطعة الفئوية النادرة، مما يتيح استخراج الميزات بكفاءة. من خلال استخدام نهج تجريبي منهجي، تم اختيار 256 ميزة مميزة بعناية من الطبقة النهائية FC، التي تجسد جوهر قدرات النموذج. توضح الخوارزمية 1 خوارزمية دمج النواة المستخدمة في Separable Conv2d.

الخوارزمية 1

إدخال:

f: عدد الفلاتر
k : عدد النوى المتوازية
س : حجم كل نواة متوازية (مصفوفة بطول k)
c: عدد القنوات
filter_heights: ارتفاع الفلتر لكل نواة متوازية (مصفوفة بطول k)
عرض الفلتر: عرض الفلتر لكل نواة متوازية (مصفوفة بطول k)
الإخراج:
num filters_concat: عدد الفلاتر في الطبقة المدمجة
إجمالي المعلمات: إجمالي عدد المعلمات في الطبقات المتوازية
الإجراء:
  1. تعيين num_filters_concat
  2. تعيين total_parameters
  3. لـ إلى ك :
    أ. تعيين منطقة الفلتر ارتفاعات_الفلاتر[i] * عرض_الفلاتر[i]
    ب. تعيين depthwise_params * filter_heights[i] * filter_widths[i]
    ج. تعيين المعلمات نقطة بنقطة
    د. إذا كانت عملية الالتفاف قابلة للفصل:
مجموعة عمق_المعلمات + نقطة_المعلمات +
إذا كانت الالتفافات طبيعية:
تعيين منطقة_المرشح (التحيز)
إضافة p إلى إجمالي المعلمات
4. إرجاع num _filters_concat، total_parameters
في طبقة متصلة، يعتمد عدد المرشحات المعادة بعد الدمج على التكوين المحدد للطبقة. عند دمج طبقتين أو أكثر، قد تحتوي كل طبقة على عدد مختلف من المرشحات، وستكون الطبقة المدمجة الناتجة لها عدد إجمالي من المرشحات يساوي مجموع المرشحات في كل طبقة فردية.
تعتمد إجمالي المعلمات في النموذج التسلسلي بعد الدمج على نوع الطبقات وتكوينها. تساهم كل طبقة في النموذج بعدد معين من المعلمات بناءً على هيكلها وعدد المرشحات أو الوحدات التي تحتوي عليها. عند دمج الطبقات، سيكون العدد الإجمالي للمعلمات في النموذج التسلسلي هو مجموع المعلمات من جميع الطبقات المعنية في الدمج، بما في ذلك الطبقة المدمجة نفسها.
في هذه الدراسة، تم تحديد القوة الحقيقية للنموذج المقترح من خلال استخراج أكثر الميزات تمييزًا من صور الرنين المغناطيسي المعقدة. لنقل النتائج الرائعة بأقصى وضوح وجاذبية بصرية، تم استغلال القدرة الاستثنائية لتقنية التوزيع العشوائي للجيران (t-SNE)، كما هو موضح في الشكل 5. بمهارة لا مثيل لها، قامت t-SNE بفك هيكل البيانات والعلاقات المعقدة داخل بيانات الرنين المغناطيسي عالية الأبعاد. تقوم هذه الخوارزمية الرائعة بتحويل تعقيد البيانات إلى تمثيل منخفض الأبعاد مع الحفاظ على الفروق الدقيقة والتشابهات المعقدة بين نقاط البيانات.
لضمان الأداء الأمثل لخوارزمية آلة التعلم المتطرفة (ELM)، خضعت الميزات المستخرجة لخطوة حاسمة من التوحيد القياسي باستخدام المقياس القياسي، الذي حول قيم الميزات إلى مقياس موحد، مما يعزز فعالية نموذج ELM في التعامل مع البيانات. من خلال توحيد جميع الميزات، سهلت التغذية اللاحقة لهذه الميزات الموحدة إلى نموذج ELM تحسين الأداء وتحليل أكثر دقة .

التفاعل بين PDSCNN و RRELM

تستخدم عملية استخراج الميزات شبكة عصبية تلافيفية قابلة للفصل بعمق متوازي (PDSCNN) لالتقاط الميزات المكانية بكفاءة. من خلال هيكلها، تستخرج PDSCNN 256 ميزة بارزة من كل صورة رنين مغناطيسي، مما يوفر تمثيلًا غنيًا لأنماط محددة للأورام الضرورية للتصنيف الدقيق. بعد استخراج الميزات بواسطة PDSCNN، تنتج الشبكة 256 خريطة ميزات (كما هو موضح في الشكل 6)، كل منها تلتقط ميزات مكانية مميزة من صور الرنين المغناطيسي. ثم تتم معالجة هذه الخرائط لتشكيل متجه ميزات 1D واحد، والذي يعمل كأساس للتصنيف. رياضيًا، إذا كانت كل خريطة ميزات لها أبعاد من , فإن تسطيح هذه الخرائط ينتج متجهًا بحجم . ومع ذلك، من أجل البساطة والكفاءة الحسابية، غالبًا ما يتم أخذ المتوسط أو تمثيل إحصائي آخر عبر كل خريطة ميزات، مما يضغط المعلومات إلى متجه ميزات بحجم 256 بعدًا f، حيث:

تصوير t-SNE في 3D

الشكل 5. تصوير t-SNE للميزات التمييزية، يكشف عن الهيكل الداخلي لبيانات الرنين المغناطيسي.
هنا، يمثل القيمة الملخصة (مثل المتوسط) لخريطة الميزات i، مما يوفر متجهًا وصفيًا مضغوطًا لأكثر الميزات بروزًا التي اكتشفتها PDSCNN.
بعد ذلك، يتم تطبيق التوحيد القياسي على هذا المتجه الميزات لتوسيع القيم ضمن نطاق متسق. دع تشير إلى المتجه الموحد، حيث يتم تحويل كل مكون كما يلي:
حيث و تمثل المتوسط والانحراف المعياري لخريطة الميزات i عبر مجموعة التدريب، على التوالي. يضمن هذا التوحيد القياسي أن الميزات موحدة، مما يجعلها متوافقة للإدخال في المرحلة التالية دون أن تتأثر بفروق المقياس.
في هذه السلسلة، تعمل PDSCNN و RRELM كنظم متكاملة بشكل وثيق. تعمل PDSCNN كجزء استخراج الميزات، مما ينتج كخروج لها، والذي يصبح الإدخال المباشر لمصنف RRELM.
الشكل 6. تكامل هيكل RRELM من الطبقة النهائية لنموذج PDS-CNN.
ثم يتم إدخال متجه الميزات الموحد في آلة التعلم المتطرفة الانحدار (RRELM)، التي تم اختيارها لصلابتها في التعامل مع الميزات عالية الأبعاد والمترابطة المحتملة. نموذج RRELM هو نسخة محسنة من آلة التعلم المتطرفة التقليدية (ELM) التي تتضمن تنظيم الانحدار للسيطرة على الإفراط في التكيف، وهو مفيد بشكل خاص عند التعامل مع الميزات المترابطة مثل تلك المستمدة من PDSCNN.
في RRELM، يتم حساب ناتج التصنيف y كما يلي:
حيث W هي مصفوفة الأوزان التي تم تعلمها أثناء التدريب، والتي تربط متجه الميزات بحجم 256 بالناتج من أربع فئات (ثلاثة أنواع من الأورام وفئة واحدة غير ورمية)، و b هو مصطلح تحيز يضاف لضبط الناتج النهائي.
يضيف مصطلح التنظيم في RRELM عقوبة تتناسب مع مربع مصفوفة الأوزان W:
حيث هو معلمة تحكم قوة التنظيم. يضمن هذا التنظيم أن النموذج لا يتكيف بشكل مفرط، خاصة عندما تكون الميزات مترابطة بشدة أو زائدة، حيث يشجع الأوزان الأصغر والأكثر استقرارًا.

آلة التعلم المتطرفة الانحدار

قدم هوانغ وآخرون. ELM، وهو شبكة تغذية أمامية رائعة تعتمد على التعلم تحت الإشراف، لاستغلال قوة الشبكات العصبية (NNs) لتصنيف الميزات. من خلال استخدام طبقة مخفية واحدة، أحدثت ELM ثورة في عملية التدريب من خلال القضاء على الحاجة إلى الانتشار العكسي، مما مكن أوقات التدريب من أن تكون أسرع بألف مرة من تلك الخاصة بالشبكات العصبية التقليدية. منحت هذه الطريقة الرائدة النموذج قدرات استثنائية في التعميم وأداء تصنيف لا مثيل له. من الجدير بالذكر، في مجال مهام التصنيف متعددة الفئات على نطاق واسع، أظهرت ELM تقدمًا ملحوظًا، متجاوزة الطرق التقليدية . بينما تم تهيئة المعلمات التي تربط الطبقات المدخلة والمخفية بشكل عشوائي، تم تحديد المعلمات التي تربط الطبقات المخفية والناتجة باستخدام تقنية المعكوس الزائف. ومع ذلك، في هذه الدراسة، تم استبدال المعكوس الزائف بانحدار Ridge، مما أضاف طبقة إضافية من التعقيد. كانت الطبقة المدخلة تحتوي على مجموعة كبيرة من 256 عقدة، وكانت الطبقة المخفية تتكون من 1500 عقدة، وكانت الطبقة الناتجة تتكون من أربع عقد لتصنيف أربعة أنواع من الأورام من صور الرنين المغناطيسي. الخطوات التالية توضح تفاصيل التنفيذ:
التهيئة: تم تهيئة مصفوفة أوزان الإدخال (input_weights) بحجم (input_size × hidden_size) والتحيزات بشكل عشوائي باستخدام توزيع طبيعي.
دالة التنشيط: تم استخدام دالة الوحدة الخطية المعدلة (ReLU) كدالة تنشيط للطبقة المخفية. يمكن تعريفها على أنها , حيث x تمثل الإدخال.
حساب الطبقة المخفية: تقوم دالة hidden_nodes() بحساب ناتج الطبقة المخفية (H_train) باستخدام المعادلات التالية.
train input_weights + biases، حيث train هو مصفوفة الميزات المدخلة.
H_train , حيث relu(x) هي دالة تنشيط ReLU المطبقة عنصرًا عنصرًا على G.
الانحدار Ridge: تم استخدام الانحدار Ridge لتحسين مصفوفة أوزان الناتج (output_weights). يمكن التعبير عن صيغة الانحدار Ridge كما يلي.
output_weights = inv (H_train. T @ H_train + alpha * I) @ H_train. T @ y_train، حيث alpha هو معلمة التنظيم، و I تمثل مصفوفة الهوية بحجم hidden_size، و y_train تشير إلى التسميات المستهدفة.
التنبؤ: تم تقديم دالة predict() لإجراء التنبؤات باستخدام النموذج المدرب. تحسب ناتج الطبقة المخفية للميزات المدخلة المعطاة ( X ) باستخدام المعادلات التالية.
input_weights + biases،
,
التنبؤات output_weights، حيث تمثل التنبؤات الناتج النهائي المتوقع.
من خلال دمج الانحدار Ridge ضمن إطار عمل ELM (RRELM)، كانت هذه المنهجية تهدف إلى تحقيق توازن بين تعلم الميزات الفعال والتنظيم، مما يعزز قدرة النموذج على التعميم وإنتاج تنبؤات دقيقة.

مصفوفات التقييم والتنفيذ

تم تقييم فعالية نموذج PDSCNN-RRELM الخفيف الوزن باستخدام مصفوفة الالتباس (CM)، وهي أداة قيمة لتقييم أداء التصنيف. تم استخدام المعادلات التالية لاشتقاق مقاييس الأداء الرئيسية، بما في ذلك الدقة، والموثوقية، والاسترجاع، ودرجة F1، والمساحة تحت المنحنى (AUC)، من .
حيث يتم تمثيل الإيجابيات الحقيقية، السلبيات الحقيقية، الإيجابيات الكاذبة، والسلبيات الكاذبة بـ و ، على التوالي.
تم تنفيذ جميع خوارزميات التعلم العميق وتقنيات الذكاء الاصطناعي القابل للتفسير (XAI) باستخدام Keras، وهو إطار عمل قوي، بالتعاون مع TensorFlow كخلفية. تم تنظيم النظام بالكامل داخل PyCharm Community Edition (2021.2.3)، وهو بيئة برمجية موثوقة. تم إجراء تدريب واختبار النموذج على منصة حوسبة عالية الأداء تتكون من معالج Intel(R) Core (TM) i9-11,900 من الجيل الحادي عشر يعمل بتردد 2.50 جيجاهرتز، وتكوين ذاكرة وصول عشوائي مثير للإعجاب بسعة 128 جيجابايت، ووحدة معالجة الرسوميات NVIDIA GeForce RTX 3090 بسعة ذاكرة كبيرة تبلغ 24 جيجابايت. ساهمت هذه البنية التحتية القوية، المدعومة بنظام تشغيل Windows 10 Pro بنسخة 64 بت، في تنفيذ عمليات التدريب والاختبار بكفاءة وسرعة، مما أتاح استكشاف هياكل التعلم العميق المعقدة ومنهجيات XAI.

النتائج والمناقشة

نموذج ELM مع المعكوس الزائف

بعد استخراج 256 ميزة الأكثر تمييزًا باستخدام PDSCNN، تم تدريب نموذج ELM مع المعكوس الزائف (PELM) على من البيانات المتاحة، في حين أن الباقي تم تخصيصه لتقييم أداء النموذج. تم استخدام التحقق المتقاطع بخمسة طيات لتقييم دقة النموذج واسترجاعه ودرجة F1 والدقة بشكل شامل. توضح الشكل 7 مصفوفات الالتباس لكل طية، والتي كانت ضرورية في حساب الدقة والاسترجاع ودرجة F1 الخاصة بكل فئة.
حققت الدقة والمتانة والاسترجاع قيمًا ملحوظة من ، و ، على التوالي، لتصنيف أربعة أنواع من أورام الدماغ (الورم الدبقي: 0، ورم السحايا: 1، لا يوجد ورم: 2، والورم النخامي: 3) استنادًا إلى صور الرنين المغناطيسي، كما هو موضح في الجدول 1. كان للطي 2 دقة متوسطة واسترجاع استثنائيين قيم. و ، على التوالي. علاوة على ذلك، توضح الشكل 8 بوضوح منحنى خاصية التشغيل المستقبلي (ROC) لكل فئة، مما يبرز قدرة نموذج PDSCNN-PELM على التمييز بفعالية بين الفئات الأربع من أورام الدماغ. ومن الجدير بالذكر أن أعلى قيم المساحة تحت المنحنى (AUC) لجميع الفئات تجاوزت 99.70%، مما يوضح قوة الإطار المقترح. أفضل AUC لـ يؤكد أكثر على قدرة النموذج على تحقيق دقة تصنيف استثنائية.

ELM مع الانحدار الجبهي

تم تكرار الإجراءات التجريبية، باستثناء استبدال المعكوس الزائف بانحدار ريدج (RRELM) لتعزيز أداء التصنيف. تم تقديم مصفوفات الارتباك الناتجة لكل طية في الشكل 9، مما يبرز قدرة النموذج على تصنيف أنواع أورام الدماغ بدقة. ومن الجدير بالذكر أن طريقة الطية الرابعة أظهرت أداءً استثنائيًا، حيث حققت متوسط دقة وقيمة دقة واسترجاع تبلغ ، و على التوالي، كما هو ملخص في الجدول 2.
الشكل 7. مصفوفات الالتباس لـ PDSCNN-PELM مع خمسة طيات.
رقم الطي اسم الأمراض دقة استدعاء درجة F1 الدقة (%)
طية 1 ورم دبقي (0) 0.99 0.99 0.99
ورم السحايا (1) 0.99 0.98 0.99
لا ورم (2) 1.00 1.00 1.00
الغدة النخامية (3) 0.99 0.99 0.99
متوسط 0.9925* 0.99 0.9925 99.21
فولد 2 ورم دبقي (0) 0.99 0.99 0.99
ورم السحايا (1) 0.98 0.99 0.98
لا ورم (2) 1.00 1.00 1.00
الغدة النخامية (3) 0.99 1.00 0.99
متوسط 0.99 0.9950 0.99 99.21
فولد 3 ورم دبقي (0) 0.99 0.99 0.99
ورم السحايا (1) 0.98 0.98 0.98
لا ورم (2) 1.00 1.00 1.00
الغدة النخامية (3) 1.00 0.99 1.00
متوسط 0.9925 0.99 0.9925 99.14
فولد 4 ورم دبقي (0) 0.98 0.98 0.98
ورم السحايا (1) 0.99 0.98 0.98
لا ورم (2) 1.00 1.00 1.00
الغدة النخامية (3) 0.99 1.00 0.99
متوسط 0.99 0.99 0.9875 99.00
فولد 5 ورم دبقي (0) 1.00 0.98 0.99
ورم السحايا (1) 0.97 0.99 0.98
لا ورم (2) 1.00 1.00 1.00
الغدة النخامية (3) 0.99 0.99 0.99
متوسط 0.99 0.99 0.99 99.07
الجدول 1. أداء التصنيف حسب الفئة لنموذج PDSCNN-PELM في التحقق المتقاطع بخمسة أضعاف.* القيم بالخط العريض تشير إلى أفضل النتائج المتوسطة.
الشكل 8. منحنيات ROC لكل فئة لنموذج PDSCNN-PELM لخمس طيات.

مقارنة بين PELM و RRELM

يوفر الجدول 3 مقارنة شاملة بين PELM و RRELM. من الواضح أن PDSCNN-RRELM أظهر مقاييس أداء متفوقة مقارنة بـ PDSCNN-PELM. على وجه التحديد، وصلت الدقة المتوسطة لـ PDSCNN-RRELM إلى قيمة مثيرة للإعجاب من ، متجاوزًا دقة تحققت بواسطة PDSCNN-PELM. من حيث الاسترجاع، تفوق RRELM على PDSCNN-PELM، محققًا متوسط استرجاع قدره ، وهو تقريباً أعلى. علاوة على ذلك، حقق النموذج الجديد PDSCNN-RRELM دقة ملحوظة تبلغ ، متجاوزًا الـ دقة الـ
الشكل 9. مصفوفات الالتباس لـ PDSCNN-RRELM مع خمسة طيات.
رقم الطي اسم الأمراض دقة استدعاء درجة F1 الدقة (%)
طية 1 ورم دبقي (0) 0.99 1.00 0.99
ورم السحايا (1) 0.99 0.98 0.98
لا ورم (2) 1.00 1.00 1.00
الغدة النخامية (3) 0.99 0.99 0.99
متوسط 0.9925 0.9925 0.99 99.28
فولد 2 ورم دبقي (0) 1.00 0.98 0.99
ورم السحايا (1) 0.98 0.99 0.98
لا ورم (2) 1.00 1.00 1.00
الغدة النخامية (3) 0.99 0.99 0.99
متوسط 0.9925 0.99 0.99 99.14
فولد 3 ورم دبقي (0) 0.99 0.99 0.99
ورم السحايا (1) 0.99 0.98 0.98
لا ورم (2) 1.00 0.99 1.00
الغدة النخامية (3) 0.99 1.00 0.99
متوسط 0.9925 0.9925 0.99 99.04
فولد 4 ورم دبقي (0) 1.00 0.99 0.99
ورم السحايا (1) 0.99 0.99 0.98
لا ورم (2) 1.00 1.00 1.00
الغدة النخامية (3) 0.99 1.00 1.00
متوسط 1.00* 1.00 1.00 99.50
فولد 5 ورم دبقي (0) 0.99 0.98 0.99
ورم السحايا (1) 0.97 0.99 0.98
لا ورم (2) 1.00 1.00 1.00
الغدة النخامية (3) 1.00 1.00 1.00
متوسط 0.99 0.9925 0.9925 99.14
الجدول 2. أداء التصنيف حسب الفئة لنموذج PDSCNN-RRELM في التحقق المتقاطع بخمسة طيات. *القيم بالخط العريض تشير إلى أفضل النتائج.
اسم الطراز متوسط الدقة استرجاع درجة F1 دقة الجامعة الأمريكية في القاهرة
PDSCNN-PELM
PDSCNN-RRELM
الجدول 3. مقارنة أداء التصنيف بين PDSCNN-PELM و PDSCNN-RRELM. *القيم بالخط العريض تشير إلى أفضل النتائج.
نموذج PDSCNN-PELM بفارق تم تقييم قدرة التمييز الطبقي من خلال تحليل ROC، حيث حقق PDSCNN-RRELM أفضل AUC من ، متفوقًا على AUC لـ ، التي حققها PDSCNN-PELM كما هو موضح في الشكل 10. تؤكد هذه النتائج الأداء المتفوق لـ ELM الجديد مع الانحدار الجبهي في تصنيف الأنواع الثلاثة من أورام الدماغ بدقة من صور الرنين المغناطيسي.
باختصار، أدى إدخال الانحدار الجبلي في إطار ELM إلى تحسينات كبيرة في أداء التصنيف. أظهر PDSCNN-RRELM دقة وموثوقية واسترجاع وقيم AUC متفوقة، مما يدل على فعاليته في تصنيف أنواع أورام الدماغ بدقة.

مقارنة أداء PDSCNN-RRELM مع نماذج SOTA

تم تقييم نموذج PDSCNN-RRELM المقترح من خلال مقارنة شاملة لأداء التصنيف وخصائص النموذج مع تلك الخاصة بالنماذج الرائدة (SOTA)، كما هو موضح في الجدول 4. من بين نماذج SOTA، كانت نماذج خان وآخرون. حقق دقة استثنائية قدرها . ومع ذلك، تجاوز النموذج المقترح هذا المعيار من خلال تحقيق دقة أعلى بكثير من ، مما يدل على تحسن في . علاوة على ذلك، كشفت الدقة، وهي مقياس حاسم في التشخيص الطبي، عن تفوق النموذج المقترح. مع دقة قدرها ، تفوق نموذج PDSCNN-RRELM على نموذج خان وآخرون بـ . وبالمثل، أظهر النموذج المقترح أداءً ملحوظًا من حيث الاسترجاع، محققًا معدل استرجاع قدره ، متجاوزًا جميع نماذج SOTA الأخرى. تم تقييم القدرة التمييزية للنموذج المقترح من خلال تحليل ROC. ومن المثير للإعجاب، أن نموذج PDSCNN-RRELM حقق أفضل AUC من مبرزًا قوته التمييزية الفائقة مقارنةً بنماذج SOTA، التي حققت أقصى AUC قدره . تدعم هذه النتائج المقنعة الاستنتاج بأن الإطار المقترح PDSCNNRRELM يتفوق على نماذج SOTA من حيث أداء التصنيف. ومن الجدير بالذكر أنه حقق دقة أعلى، ودقة، واسترجاع، مع إظهار قدرة تمييز استثنائية، كما يتضح من AUC المتميز لـ .
بالنظر إلى الموارد الحاسوبية، تم إجراء مقارنة بين نموذج PDSCNN-RRELM الخفيف ونموذج الشيخ وآخرون. تعديل DarkNet53. استخدم نموذج الشيخ وآخرون 2.2 مليون معلمة و53 طبقة لتصنيف أورام الدماغ بدقة على النقيض من ذلك، تفوق نموذج PDSCNN-RRELM المقترح بشكل كبير. مع وجود 0.53 مليون معلمة فقط (حوالي خمس مرات أقل من أفضل نموذج في الحالة الفنية الحالية) وعشر طبقات (حوالي خمس مرات أقل من أفضل نموذج في الحالة الفنية الحالية)، حقق دقة استثنائية من في الختام، أظهر نموذج PDSCNN-RRELM المقترح الخفيف الوزن أداءً تصنيفياً متفوقاً مقارنةً بنماذج SOTA، كما أظهر انخفاضاً في عدد المعلمات والطبقات. يحمل هذا الإنجاز إمكانيات كبيرة لدعم الممارسين الطبيين في تشخيص أورام الدماغ بدقة، مما يعزز الثقة، ويساهم في النهاية في إنقاذ حياة المرضى.
نموذج PDSCNN-RRELM يتفوق أيضًا على الهياكل المعتمدة على المحولات SOTA مثل LCDEiT. FTVT-b32 رانميرفورمر بطرق مهمة عدة. تُظهر النتائج قدرة النموذج المتميزة على التصنيف، حيث يوازن بفعالية بين الكشف عن الإيجابيات الحقيقية وتقليل الإيجابيات الكاذبة. بالإضافة إلى دقته، يُظهر PDSCNN-RRELM كفاءة ملحوظة، بما في ذلك 0.53 مليون معلمة وهندسة مبسطة من 10 طبقات، على عكس نماذج المحولات الأكثر تعقيدًا، مثل LCDEiT، التي تحتوي على 8 ملايين معلمة. تتفوق نماذج المحولات في التقاط العلاقات بعيدة المدى وإدارة البيانات التسلسلية، مما يجعلها بارعة بشكل خاص في معالجة أنماط البيانات المعقدة والأنشطة التي تتطلب فهمًا سياقيًا. ومع ذلك، فإن هيكلها المعقد والمكثف للمعلمات يتطلب أحيانًا موارد حوسبة كبيرة وفترات تدريب طويلة، مما يقيّد عمليتها للتطبيقات في الوقت الحقيقي أو تلك التي تعاني من نقص الموارد. وبالتالي، بينما يُظهر PDSCNN-RRELM كفاءة وفعالية متفوقتين في بعض المجالات، قد تفضل السياقات التي تعطي الأولوية لقابلية تفسير الروابط المعقدة على الكفاءة الحاسوبية نماذج مدعومة بالمحول.

قابلية تفسير PDSCNN-RRELM باستخدام SHAP

لقد ظهرت الذكاء الاصطناعي القابل للتفسير (XAI) كمفهوم رائد في مجال التعلم العميق. تكمن أهميته في قدرته على كشف الآليات الداخلية للشبكات العصبية العميقة المعقدة، مما يسلط الضوء على عمليات اتخاذ القرار الخاصة بها. هذا أمر بالغ الأهمية بشكل خاص لنماذج التعلم العميق، المعروفة بطبيعتها الغامضة والمعقدة. لمعالجة هذا التحدي، استخدمت دراسة ملحوظة قوة SHAP، وهي تقنية متقدمة تزيل بفعالية غلاف “الصندوق الأسود” الذي يحيط بنماذج التعلم العميق. من خلال استخدام SHAP بالتزامن مع نموذج PDSCNN-RRELM، مكن هذا البحث المتخصصين في المجال الطبي من تقييم النتائج بشكل شامل وتوضيحها، مما يسهل التطبيق العملي في مجال تصنيف أورام الدماغ.
أثر SHAP عميق، حيث إنه لا يقوم فقط بترتيب أهمية الميزات الفردية داخل النموذج، بل quantifies أيضًا مساهماتها من خلال حسابات دقيقة. في هذه الدراسة، كانت الدرجات المعينة لكل بكسل في صورة متوقعة تصور بوضوح الوظائف المعقدة لتلك البكسلات، مما يتيح تصنيفات دقيقة. القيم شابلي المستخرجة بدقة، التي تم الحصول عليها من خلال النظر في جميع التركيبات الممكنة
الشكل 10. منحنيات ROC لكل فئة لنموذج PDSCNN-RRELM لخمس طيات.
تم دمج ميزات مرض BT لتشكيل تمثيلات بكسلية. كشفت النتائج الملحوظة عن نمط مثير للاهتمام: زادت البكسلات الحمراء بشكل كبير من احتمال التعرف الدقيق على الورم، بينما أشارت البكسلات الزرقاء إلى إمكانية حدوث تصنيف خاطئ.
تصوير نتائج SHAP، الذي تم تصويره بشكل أنيق في الشكل 11، منح المتخصصين في الطب كنزًا من الصور التفسيرية لفئات الأورام المختلفة: الورم الدبقي، ورم السحايا، عدم وجود ورم، وأورام الغدة النخامية. كان من الجوانب المثيرة للاهتمام تقريبًا عدم وضوح الخلفيات الرمادية التفسيرية ذات الصلة عند مقارنتها بالصور المدخلة على اليسار. في الصف الأول من الصورة، كانت هيمنة البكسلات الحمراء داخل
مرجع حجم مجموعة البيانات فئة الهدف الدقة (%) استرجاع (%) درجة F1 (%) الدقة (%) العائد السنوي المركب (%) المعلمات (مليون) طبقات نموذج
جومعي وآخرون قطار: 2145 اختبار: 919 ٣ ٩٤.٢٣٣ ريلم
مزوقي وآخرون قطار: 284 اختبار: 67 2 ٩٦.٤٩ شبكة عصبية تلافيفية ثلاثية الأبعاد
خان وآخرون التدريب: 2840 الاختبار: 424 ٣ 99.13 99.13 HDL2BT
أحمد وآخرون التدريب: 2968 الاختبار: 394 القيمة: 32 ٤ ٩٦.٣٤ ٩٨.٢٢ ٩٧.٩٨ 14 شبكة عصبية تلافيفية مخصصة
ناياك وآخرون التدريب: 2608 الاختبار: 652 ٣ ٩٨.٧٥ ٩٨.٧٥ ٩٨.٧٥ ٩٨.٧٨ 5.3 ٢٣٠ نسخة من EfficientNet
العنزي وآخرون القطار: 1980 الاختبار: 495 ٣ ٩٦.٨٩ ٢٢ نقل التعلم العميق
بادزا وآخرون التدريب: 2758 الاختبار: 306 ٣ ٩٧.١٥ 97.82 ٩٧.٤٧ ٩٧.٢٨ ٢٢ شبكة عصبية تلافيفية مخصصة
ديباك وآخرون قطار: 2450 اختبار: 614 ٣ ٩٧.٣٠ ٩٧.٦٠ ٩٧.٠٠ 97.10 99.70 6.6 ٢٢ التعلم العميق للنقل
شيك وآخرون التدريب: 2450 الاختبار: 614 ٣ ٩٦.١٤ 95.99 ٩٦.٠٣ ٩٦.٥١ 99.00 ٢.٤ 53 مانيت
فردوس وآخرون التدريب: 5156 الاختبار: 1031 ٣ ٩٨.١١ ٨ 14 LCDEiT
ريدي وآخرون التدريب: 5712 الاختبار: 1311 ٤ 98.6 98.6 98.6 98.7 32 FTVT-b32
وانغ وآخرون تدريب: 5800 اختبار: 1400 ٤ ٩٨.٨٧ ٩٨.٤٦ ٩٨.٦٦ 98.86 12 رانمير-فورمر
العمل المقترح قطار:5619 اختبار:1404 ٤ 99.35* 99.30 99.25 99.22 99.99 0.53 10 PDSCNN-RRELM
الجدول 4. مقارنة أداء PDSCNN-RRELM مع نماذج SOTA. *القيم بالخط العريض تشير إلى أفضل النتائج.
الشكل 11. صور مسح الرنين المغناطيسي العينة وصور تفسير SHAP المقابلة لفئات أورام الدماغ والفئات الصحية.
صورة تفسير SHAP نقلت بسهولة أن صورة الرنين المغناطيسي تتعلق بورم غليوما، بينما غياب البكسلات الزرقاء أشار بشكل قاطع إلى استبعاد أنواع الأورام الأخرى: ورم السحايا، عدم وجود ورم، والغدة النخامية. ومن المدهش أن الصف الثاني كشف عن نمط متناقض: غياب البكسلات الحمراء في صور تفسير SHAP لورم الغليوما، عدم وجود ورم، والغدة النخامية، مصحوبًا بوفرة من البكسلات الحمراء في صورة تفسير SHAP لورم السحايا. هذه الملاحظة الرائعة أشارت بدقة إلى تصنيف الصورة كتنتمي إلى فئة ورم السحايا. الصف الثالث استمر في الإبهار، مع عرض تركيز
تاريخ الاستلام: 10 سبتمبر 2024؛ تاريخ القبول: 7 يناير 2025
نُشر على الإنترنت: 10 يناير 2025

References

  1. Louis, D. N. et al. The 2016 World Health Organization classification of tumors of the central nervous system: A summary. Acta Neuropathol. 131, 803-820 (2016).
  2. Chahal, P. K., Pandey, S. & Goel, S. A survey on brain tumor detection techniques for MR images. Multimed. Tools Appl. 79, 21771-21814 (2020).
  3. Guan, Y. et al. A framework for efficient brain tumor classification using MRI images (2021).
  4. Komninos, J. et al. Tumors metastatic to the pituitary gland: Case report and literature review. J. Clin. Endocrinol. Metab. 89, 574-580 (2004).
  5. Ahamed, M. F. et al. A review on brain tumor segmentation based on deep learning methods with federated learning techniques. Comput. Med. Imaging Graph. 110, 102313 (2023).
  6. Faysal Ahamed, M., Robiul Islam, M., Hossain, T., Syfullah, K. & Sarkar, O. Classification and segmentation on multi-regional brain tumors using volumetric images of MRI with customized 3D U-Net framework. In Proceedings of International Conference on Information and Communication Technology for Development: ICICTD 2022 223-234 (Springer, 2023).
  7. Titu, M. M. T., Mary, M. M., Ahamed, M. F., Oishee, T. M. & Hasan, M. M. Utilizing customized 3D U-Net framework for the classification and segmentation of multi-regional brain tumors in volumetric MRI images. In 2024 3rd International Conference on Advancement in Electrical and Electronic Engineering (ICAEEE) 1-6 (IEEE, 2024).
  8. Ahamed, M. F. et al. Automated detection of colorectal polyp utilizing deep learning methods with explainable AI. IEEE Access (2024).
  9. Varuna Shree, N. & Kumar, T. N. R. Identification and classification of brain tumor MRI images with feature extraction using DWT and probabilistic neural network. Brain Inf. 5, 23-30 (2018).
  10. Nahiduzzaman, M., Islam, M. R. & Hassan, R. ChestX-Ray6: Prediction of multiple diseases including COVID-19 from chest X-ray images using convolutional neural network. Expert Syst. Appl. 211, 118576 (2023).
  11. Islam, M. R. & Nahiduzzaman, M. Complex features extraction with deep learning model for the detection of COVID19 from CT scan images using ensemble based machine learning approach. Expert Syst. Appl. 195, 116554 (2022).
  12. Nahiduzzaman, M. et al. Diabetic retinopathy identification using parallel convolutional neural network based feature extractor and ELM classifier. Expert Syst. Appl. 217, 119557 (2023).
  13. Nahiduzzaman, M. et al. Hybrid CNN-SVD based prominent feature extraction and selection for grading diabetic retinopathy using extreme learning machine algorithm. IEEE Access 9, 152261-152274 (2021).
  14. Nahiduzzaman, M. et al. A novel method for multivariant pneumonia classification based on hybrid CNN-PCA based feature extraction using extreme learning machine with CXR images. IEEE Access 9, 147512-147526 (2021).
  15. Hossain, M. M., Islam, M. R., Ahamed, M. F., Ahsan, M. & Haider J. A collaborative federated learning framework for lung and colon cancer classifications. Technologies 12, 151 (2024).
  16. Hossain, M. M., Ahamed, M. F., Islam, M. R. & Imam, M. D. R. Privacy preserving federated learning for lung cancer classification. In 2023 26th International Conference on Computer and Information Technology (ICCIT) 1-6 (IEEE, 2023).
  17. Ahamed, M. F., Nahiduzzaman, M., Ayari, M. A., Khandakar, A. & Islam, S. M. R. Malaria parasite classification from RBC smears using lightweight parallel depthwise separable CNN and ridge regression ELM by integrating SHAP techniques (2023).
  18. Sarkar, O. et al. Multi-scale CNN: An explainable AI-integrated unique deep learning framework for lung-affected disease classification. Technologies 11, 134 (2023).
  19. Ullah, F., Nadeem, M. & Abrar, M. Revolutionizing brain tumor segmentation in MRI with dynamic fusion of handcrafted features and global pathway-based deep learning. KSII Trans. Internet Inform. Syst. 18 (2024).
  20. Anwar, R. W., Abrar, M. & Ullah, F. Transfer learning in brain tumor classification: Challenges, opportunities, and future prospects. In 2023 14th International Conference on Information and Communication Technology Convergence (ICTC) 24-29 (IEEE, 2023).
  21. Akbar, M. et al. An effective deep learning approach for the classification of Bacteriosis in peach leave. Front. Plant Sci. 13. https:/ /doi.org/10.3389/fpls.2022.1064854 (2022).
  22. Nazar, U. et al. Review of automated computerized methods for brain tumor segmentation and classification. Curr. Med. Imaging 16, 823-834 (2020).
  23. Ahamed, M. F., Sarkar, O. & Matin, A. Instance segmentation of visible cloud images based on mask R-CNN applying transfer learning approach. In 2020 2nd International Conference on Advanced Information and Communication Technology (ICAICT) 257-262 (IEEE, 2020). https://doi.org/10.1109/ICAICT51780.2020.9333531.
  24. Musallam, A. S., Sherif, A. S. & Hussein, M. K. A new convolutional neural network architecture for automatic detection of brain tumors in magnetic resonance imaging images. IEEE Access 10, 2775-2782 (2022).
  25. Simonyan, K. & Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014).
  26. Nayak, D. R., Padhy, N., Mallick, P. K., Zymbler, M. & Kumar, S. Brain tumor classification using dense efficient-net. Axioms 11, 34 (2022).
  27. Alanazi, M. F. et al. Brain tumor/mass classification framework using magnetic-resonance-imaging-based isolated and developed transfer deep-learning model. Sensors 22, 372 (2022).
  28. Khan, A. H. et al. Intelligent model for brain tumor identification using deep learning. Appl. Computat. Intell. Soft Comput. 2022, 8104054 (2022).
  29. Irmak, E. Multi-classification of brain tumor MRI images using deep convolutional neural network with fully optimized framework. Iran. J. Sci. Technol. Trans. Electr. Eng. 45, 1015-1036 (2021).
  30. Badža, M. M. & Barjaktarović, M. Č. Classification of brain tumors from MRI images using a convolutional neural network. Appl. Sci. 10, 1999 (2020).
  31. Mzoughi, H. et al. Deep multi-scale 3D convolutional neural network (CNN) for MRI gliomas brain tumor classification. J. Digit. Imaging 33, 903-915 (2020).
  32. Gumaei, A., Hassan, M. M., Hassan, M. R., Alelaiwi, A. & Fortino, G. A hybrid feature extraction method with regularized extreme learning machine for brain tumor classification. IEEE Access 7, 36266-36273 (2019).
  33. Deepak, S. & Ameer, P. M. Brain tumor classification using deep CNN features via transfer learning. Comput. Biol. Med. 111, 103345 (2019).
  34. Shaik, N. S. & Cherukuri, T. K. Multi-level attention network: Application to brain tumor classification. Signal. Image Video Process. 16, 817-824 (2022).
  35. Ahuja, S., Panigrahi, B. K. & Gandhi, T. K. Enhanced performance of Dark-nets for brain tumor classification and segmentation using colormap-based superpixel techniques. Mach. Learn. Appl. 7, 100212 (2022).
  36. Brain Tumor MRI Dataset. https://www.kaggle.com/datasets/masoudnickparvar/brain-tumor-mri-dataset/data.
  37. Pisano, E. D. et al. Contrast limited adaptive histogram equalization image processing to improve the detection of simulated spiculations in dense mammograms. J. Digit. Imaging 11, 193-200 (1998).
  38. Ahamed, M. F., Salam, A., Nahiduzzaman, M., Abdullah-Al-Wadud, M. & Islam, S. M. R. streamlining plant disease diagnosis with convolutional neural networks and edge devices. Neural Comput. Appl. 36, 18445-18477 (2024).
  39. Ahamed, M. F. et al. Detection of various gastrointestinal tract diseases through a deep learning method with ensemble ELM and explainable AI. Expert Syst. Appl. 256, 124908 (2024).
  40. Ahamed, M. F. et al. Interpretable deep learning model for tuberculosis detection using X-ray images. In Surveillance, Prevention, and Control of Infectious Diseases: An AI Perspective (eds. Chowdhury, M. E. H. & Kiranyaz, S.) 169-192 (Springer, 2024).
  41. Huang, G. B., Zhu, Q. Y. & Siew, C. K. Extreme learning machine: Theory and applications. Neurocomputing 70, 489-501 (2006).
  42. Nahiduzzaman, M. et al. Parallel CNN-ELM: A multiclass classification of chest X-ray images to identify seventeen lung diseases including COVID-19. Expert Syst. Appl. 229, 120528 (2023).
  43. Nahiduzzaman, M., Nayeem, M. J., Ahmed, M. T. & Zaman, M. S. U. Prediction of heart disease using multi-layer perceptron neural network and support vector machine. In 2019 4th International Conference on Electrical Information and Communication Technology (EICT) 1-6 (IEEE, 2019).
  44. Kibria, H. B., Nahiduzzaman, M., Goni, M. O. F., Ahsan, M. & Haider, J. An ensemble approach for the prediction of diabetes mellitus using a soft voting classifier with an explainable AI. Sensors 22, 7268 (2022).
  45. Powers, D. M. W. Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation. arXiv preprint arXiv:2010.16061(2020).
  46. Swets, J. A. Measuring the accuracy of diagnostic systems. Science (1979) 240, 1285-1293 (1988).
  47. Ferdous, G. J., Sathi, K. A., Hossain, M. A., Hoque, M. M. & Dewan, M. A. A. LCDEiT: A linear complexity data-efficient image transformer for MRI brain tumor classification. IEEE Access 11, 20337-20350 (2023).
  48. Reddy, C. K. K. et al. A fine-tuned vision transformer based enhanced multi-class brain tumor classification using MRI scan imagery. Front. Oncol. 141-23 (2024).
  49. Wang, J., Lu, S. Y., Wang, S. H. & Zhang, Y. D. RanMerFormer: Randomized vision transformer with token merging for brain tumor classification. Neurocomputing 573, 127216 (2024).
  50. Lundberg, S. A unified approach to interpreting model predictions. arXiv Preprint arXiv:1705.07874 (2017).
  51. Bhandari, M., Shahi, T. B., Siku, B. & Neupane, A. Explanatory classification of CXR images into COVID-19, Pneumonia and Tuberculosis using deep learning and XAI. Comput. Biol. Med. 150, 106156 (2022).
  52. Ullah, F. et al. Evolutionary model for brain cancer-grading and classification. IEEE Access 11, 126182-126194 (2023).
  53. Ullah, F. et al. Enhancing brain tumor segmentation accuracy through scalable federated learning with advanced data privacy and security measures. Mathematics 11, 4189 (2023).
  54. Ullah, F. et al. Brain tumor segmentation from MRI images using handcrafted convolutional neural network. Diagnostics 13, 2650 (2023).
  55. Zhang, Y. et al. Deep learning in food category recognition. Inf. Fusion 98, 101859 (2023).
  56. Lu, S. Y., Nayak, D. R., Wang, S. H. & Zhang Y.-D. A cerebral microbleed diagnosis method via FeatureNet and ensembled randomized neural networks. Appl. Soft Comput. 109, 107567 (2021).
  57. Lu, S. Y., Zhu, Z., Tang, Y., Zhang, X. & Liu, X. CTBViT: A novel ViT for tuberculosis classification with efficient block and randomized classifier. Biomed. Signal. Process. Control 100, 106981 (2025).

مساهمات المؤلفين

لقد ساهم جميع المؤلفين بالتساوي خلال العمل البحثي وإعداد المخطوطة.

الإعلانات

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.

معلومات إضافية

يجب توجيه المراسلات والطلبات للحصول على المواد إلى م.ك.
معلومات إعادة الطباعة والتصاريح متاحة علىwww.nature.com/reprints.
ملاحظة الناشر: تظل شركة سبرينجر ناتشر محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسبية-غير التجارية-بدون اشتقاقات 4.0 الدولية، والتي تسمح بأي استخدام غير تجاري، ومشاركة، وتوزيع، وإعادة إنتاج في أي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح إذا قمت بتعديل المادة المرخصة. ليس لديك إذن بموجب هذه الرخصة لمشاركة المواد المعدلة المشتقة من هذه المقالة أو أجزاء منها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارةhttp://creativecommo ns.org/licenses/by-nc-nd/4.0/.
© المؤلفون 2025، نشر مصحح 2025

  1. قسم الهندسة الكهربائية وهندسة الحاسوب، جامعة راجشاهي للهندسة والتكنولوجيا، راجشاهي 6204، بنغلاديش. قسم هندسة تكنولوجيا الفضاء، كلية الهندسة الكهربائية التقنية، الجامعة التقنية الوسطى، بغداد، العراق. قسم علوم الحاسوب، جامعة جيهان السليمانية، السليمانية 46001، إقليم كردستان، العراق. قسم الهندسة الكهربائية، جامعة قطر، الدوحة 2713، قطر. قسم الهندسة المدنية والبيئية، جامعة قطر، الدوحة 2713، قطر. قسم علوم الحاسوب، جامعة يورك، طريق ديرامور، يورك YO10 5GH، المملكة المتحدة. قسم الهندسة، جامعة مانشستر متروبوليتان، شارع تشيستر، مانشستر M1 5GD، المملكة المتحدة. الذكاء الاصطناعي والصحة الرقمية، كلية علوم الصحة وإعادة التأهيل، كلية الصحة والعلوم السلوكية، جامعة كوينزلاند، سانت لوسيا، كوينزلاند 4072، أستراليا. معهد الإلكترونيات الضوئية، الجامعة العسكرية للتكنولوجيا، الجنرال س. كاليكسيغو 2، وارسو 00-908، بولندا. البريد الإلكتروني: marcin.kowalski@wat.edu.pl

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-85874-7
PMID: https://pubmed.ncbi.nlm.nih.gov/39794374
Publication Date: 2025-01-10

scientific reports

OPEN

A hybrid explainable model based on advanced machine learning and deep learning models for classifying brain tumors using MRI images

Md. Nahiduzzaman , Lway Faisal Abdulrazak , Hafsa Binte Kibria , Amith Khandakar , Mohamed Arselene Ayari , Md. Faysal Ahamed , Mominul Ahsan , Julfikar Haider , Mohammad Ali Moni & Marcin Kowalski ®

Abstract

Brain tumors present a significant global health challenge, and their early detection and accurate classification are crucial for effective treatment strategies. This study presents a novel approach combining a lightweight parallel depthwise separable convolutional neural network (PDSCNN) and a hybrid ridge regression extreme learning machine (RRELM) for accurately classifying four types of brain tumors (glioma, meningioma, no tumor, and pituitary) based on MRI images. The proposed approach enhances the visibility and clarity of tumor features in MRI images by employing contrastlimited adaptive histogram equalization (CLAHE). A lightweight PDSCNN is then employed to extract relevant tumor-specific patterns while minimizing computational complexity. A hybrid RRELM model is proposed, enhancing the traditional ELM for improved classification performance. The proposed framework is compared with various state-of-the-art models in terms of classification accuracy, model parameters, and layer sizes. The proposed framework achieved remarkable average precision, recall, and accuracy values of 99.35%, 99.30%, and 99.22%, respectively, through five-fold cross-validation. The PDSCNN-RRELM outperformed the extreme learning machine model with pseudoinverse (PELM) and exhibited superior performance. The introduction of ridge regression in the ELM framework led to significant enhancements in classification performance model parameters and layer sizes compared to those of the state-of-the-art models. Additionally, the interpretability of the framework was demonstrated using Shapley Additive Explanations (SHAP), providing insights into the decisionmaking process and increasing confidence in real-world diagnosis.

Keywords Brain tumor, MRI images, Convolutional neural networks (CNN), Extreme Learning machines (ELM), Contrast-limited adaptive histogram equalization (CLAHE), SHAP (Shapley Additive explanations)
The human brain, the seat of consciousness and cognition, is the pinnacle of our intricate biological machinery. This extraordinary organ orchestrates our actions, memories, thoughts, and even the most delicate movements of our limbs under its commanding presence . However, amidst its enigmatic complexity, the brain is susceptible to formidable adversaries known as brain tumors, which arise from the unusual growth of its own cells. This
malignant growth ravaged the delicate neural architecture, manifesting as the challenging spectrum of brain cancer-a silent epidemic that leaves no corner of the globe untouched.
Unsettling statistics from the World Health Organization (WHO) show that cancer claimed a staggering 9.6 million lives worldwide in 2018. Owing to this challenge, brain tumors have emerged as a significant contributor . These tumors are broadly classified into primary and secondary metastatic tumors, and these afflictions present distinct diagnostic and treatment challenges . Primary brain tumors originate within the confines of the brain, whereas secondary metastatic tumors stealthily infiltrate the cerebral terrain via the bloodstream from other regions of the body. The WHO further divides brain tumors into four categories, which are classified according to their malignant or benign nature, covering the spectrum from insidious growth to aggressive malignancies .
To confront this formidable focus, early detection and accurate classification of brain tumors are paramount, serving as the cornerstone for devising effective treatment strategies. In this quest, magnetic resonance imaging (MRI) and computer tomography (CT) have emerged as indispensable tools, providing critical insights into the anatomical landscape of these enigmatic masses . The difficulty, however, lies in precisely separating normal brain tissue from abnormal growth, a task made more difficult by the inherent variability in size, shape, and location of these tumors.
Harnessing the transformative power of machine learning, the realm of medical image processing has experienced a remarkable surge in modernistic computer-aided diagnosis systems aimed at augmenting the expertise of radiologists . By synergizing the advantages of advanced machine and deep learning algorithms and the wealth of information in biomedical images, these innovative systems hold immense promise in enhancing patient care and optimizing brain tumor classification. Accurate early-stage classification of tumors can guide clinicians in formulating personalized treatment plans, ushering in the era of precision medicine .
Among the myriad types of primary brain tumors, three prominent adversaries are in the central stage: gliomas, pituitary tumors, and meningiomas. Gliomas, stemming from glial cells that provide crucial support to neurons, pose a significant challenge due to their infiltrative nature. Pituitary tumors, which are benign in nature, germinate within the pituitary glands and disrupt the delicate hormonal balance vital to bodily homeostasis. Meningiomas, on the other hand, thrive on the protective membranes enveloping the brain and spinal cord, demanding careful scrutiny.
In this context, the formidable task of accurate brain tumor classification necessitates a comprehensive exploration of cutting-edge machine and deep learning techniques and their integration into the domain of biomedical image processing. In addition to merely assisting radiologists in their diagnostic endeavors, these innovative approaches have the potential to revolutionize patient outcomes, mitigating the grim consequences associated with high-grade tumors and bestowing renewed hope and extended lives. Thus, the pursuit of a precise brain tumor diagnosis represents a pivotal milestone in the arduous journey toward effective treatment. To achieve this objective, significant attention has been focused on identifying and classifying brain tumor MRI images. This study introduces a novel approach that combines convolutional neural networks (CNNs) and extreme learning machines (ELMs) to diagnose brain tumors. The extraction of discriminant features from MRI images using a CNN enables the ELM to classify brain tumors precisely. This synergistic fusion of advanced ML techniques holds immense promise for transforming the landscape of brain tumor diagnosis, revolutionizing disease classification, and ultimately reducing patient mortality rates. This paper presents a set of significant contributions that advance the field of brain tumor classification and enhance the interpretability of deep learning models. The key contributions of this study can be summarized as follows:
  • Employing CLAHE improved the visibility and clarity of important tumor features in the MRI images, thereby enhancing the subsequent analysis and classification tasks.
  • A lightweight parallel depthwise separable CNN (PDSCNN) is proposed to extract relevant features from enhanced MRI images. This model efficiently captures tumor-specific patterns while minimizing computational complexity.
  • A hybrid ridge regression ELM (RRELM) model is proposed, which enhances the traditional ELM by replacing the pseudoinverse with ridge regression for improved classification performance.
  • This study compared the proposed framework with various state-of-the-art (SOTA) models based on classification performance, model parameters, and layer sizes.
  • The interpretability of the framework is showcased by employing SHAP, which allows a deeper understanding of the model’s decision making, increasing confidence in its real-world diagnostic application.

Literature review

The precise segmentation of medical images plays a pivotal role in detecting and classifying brain tumors, aiding timely and informed therapeutic decisions. Magnetic resonance imaging (MRI) has emerged as a cornerstone in this endeavor, providing detailed anatomical information for accurate analysis . Over the years, numerous techniques have been proposed to address the challenging task of brain tumor classification in MRI. Ahmad et al. proposed a three-step preprocessing technique to enhance MRI image quality, accompanied by a custom CNN architecture. The architecture utilizes batch normalization for rapid training, higher learning rates, and simplified weight initialization. With a compact design comprising few convolutional and max pooling layers, the proposed model achieved exceptional accuracy rates of overall, for glioma, for meningioma, for the pituitary, and for normal images. The experimental results demonstrate the robustness and improved detection accuracy of the proposed architecture compared to those of different transfer learning models, such as VGG16 and VGG19 , across various brain diseases within a short timeframe. Similarly, Nayak et al. introduced a dense CNN-based variant of EfficientNet with min-max normalization to classify 3,260 brain MRI images into four categories (glioma, meningioma, pituitary, and no tumor). The model
exhibited high accuracy in categorizing the limited database by incorporating dense and drop-out layers. Data augmentation and min-max normalization were combined to enhance tumor cell contrast. The experimental results demonstrated exceptional performance, with a training accuracy of and a testing accuracy of .
In addition, Alanazi et al. introduced a novel transfer deep learning model for the early diagnosis of brain tumors and their subclasses. Initially, isolated CNN models were built and evaluated for brain MRI images. The 22-layer, binary-classification CNN model was then reutilized with adjusted weights to classify tumor subclasses via transfer learning. The transfer-learned model achieved a high accuracy of for MRI images from the same machine and demonstrated adaptability and reliability with accuracy on an unseen dataset from another machine. The proposed framework showed potential for assisting doctors and radiologists in early brain tumor diagnosis. Khan et al. introduced a hierarchical deep learning-based brain tumor (HDL2BT) classification system using a CNN. The system accurately categorizes glioma, meningioma, pituitary, and nontumor types from MRI images with precision and a miss rate. The proposed model outperformed previous brain tumor detection and segmentation methods, providing valuable clinical assistance in diagnosis. In contrast, Irmak’s study aimed to enable the early diagnosis of brain tumors from MR images through multiclassification using a custom CNN . Three distinct CNN models are proposed for different classification tasks. The hyperparameters of the CNN models are automatically optimized via a grid search algorithm. The first model achieved accuracy in brain tumor detection. The second model accurately classified brain tumors into five types (normal, glioma, meningioma, pituitary, and metastatic), with accuracy. The third model successfully classified brain tumors into three grades (Grade II, Grade III, and Grade IV) with accuracy. A comparative analysis with other state-of-the-art (SOTA) CNN models (AlexNet, Inceptionv3, ResNet-50, VGG-16, and GoogleNet) demonstrated the superior performance of the proposed CNN models.
Badza et al. proposed a simplified CNN architecture for brain tumor classification that explicitly targets three tumor types (glioma, meningioma, and pituitary) using T1-weighted contrast-enhanced MRI images. The network’s performance was evaluated using various approaches, including cross-validation methods and databases. The augmented image database demonstrated the best accuracy of in 10 -fold cross-validation (CV). The developed CNN architecture showed excellent generalization capability and efficient execution speed, making it a promising decision-support tool for radiologists in medical diagnostics. Similarly, Mzoughi et al. introduced an efficient and fully automatic 3D CNN architecture for classifying glioma brain tumors into lowgrade and high-grade gliomas using volumetric T1-Gado MRI sequence images. The architecture effectively integrates local and global contextual information while reducing weights through small kernels. Preprocessing techniques, including intensity normalization and adaptive contrast enhancement, were employed to address data heterogeneity, and augmentation was used for robust training. The proposed approach outperformed the existing methods, achieving an impressive overall accuracy of on the validation dataset. This study emphasizes the significance of proper MRI preprocessing and data augmentation in achieving accurate classification using CNN-based approaches. In addition, Gumaei et al. introduced a hybrid feature extraction approach coupled with a regularized extreme learning machine (RELM) for accurate brain tumor classification . The method involves preprocessing brain images with min-max normalization to enhance contrast, followed by hybrid feature extraction. The classification of tumor types is then performed using the RELM. Experimental evaluations on a new public dataset demonstrated the approach’s superiority over existing methods, achieving an improved classification accuracy from 91.51 to using the random holdout technique. Guan et al. proposed an efficient method for brain tumor grading using preprocessing, clustering-based location extraction, feature extraction, refinement, alignment, and classification steps. The method demonstrated superior performance to existing approaches on a publicly available brain tumor dataset, achieving an impressive overall classification accuracy of . Deepak et al. introduced a classification system utilizing deep transfer learning with a pretrained GoogLeNet for feature extraction from brain MRI images. Proven classifier models were integrated to classify the extracted features. The system achieved an impressive mean classification accuracy of using patient-level fivefold cross-validation, outperforming existing SOTA methods. Shaik et al. introduced a multilevel attention network (MANet) that incorporates spatial and cross-channel attention for tumor recognition. This approach prioritizes tumor regions while maintaining cross-channel temporal dependencies. Experimental evaluation on the Figshare and BraTS benchmark datasets demonstrated that the proposed model achieved superior performance, with the highest accuracy of on the Figshare dataset and on the BraTS2018 dataset, outperforming the existing models. Ahuja et al. proposed an automated brain tumor classification, localization, and segmentation approach using T1W-CE-MRI datasets. Pretrained DarkNet models (DarkNet-19 and DarkNet-53) were evaluated and achieved high accuracies of for training and for validation. The best-performing DarkNet-53 model achieved a testing accuracy of and an area under the curve (AUC) of 0.99 on 1070 T1W-CE testing images.
An extensive review of the literature revealed that although deep learning (DL) models have demonstrated remarkable success in identifying brain tumors from MRI images, there has been significant oversight in evaluating the computational complexities of these models. Most studies have focused on achieving high classification performance, neglecting crucial factors such as the model’s depth, parameter count, and processing time. Notably, transfer learning (TL) models have proven to be time-consuming due to their training requirements with millions of parameters . Furthermore, interpretability, a vital aspect of model analysis, has been largely disregarded, leaving a gap in understanding specific regions in an image that models prioritize for brain tumor classification.
In light of these challenges, this cutting edge study proposes an innovative lightweight framework that ensures accurate brain tumor classification and addresses the limitations of existing models. The authors extracted highly informative features that significantly reduce the number of layers, parameters, and
computation time by harnessing the discriminative power of a parallel depthwise separable CNN. Notably, a pioneering approach was introduced by incorporating ridge regression into the proposed hybrid ELM model, replacing the more-pseudoinverse method. This integration enhances the classification performance of the novel hybrid ridge regression ELM (RRELM) model, surpassing the capabilities of previous approaches. In addition, conventional research boundaries were surpassed by achieving an unprecedented level of interpretability within the proposed framework. By developing a hybrid explainable CNN-ELM, the authors gained insights into the inner workings of the proposed model, allowing them to decipher the specific image regions that contribute most prominently to the classification of brain tumors. Transfer learning has emerged as a pivotal approach in image representation, particularly in fields with limited labeled data. The survey on food category recognition Zhang et al. highlights transfer learning’s role in leveraging pre-trained models to adapt features for domainspecific tasks, demonstrating its relevance in efficiently handling diverse datasets. Similarly, the study on cerebral microbleed detection (FeatureNet) combines transfer learning with ensemble techniques, freezing early layers to utilize generic features while fine-tuning classifiers like randomized neural networks for enhanced accuracy . This approach achieved state-of-the-art results, showcasing the potential of transfer learning in complex medical imaging tasks. Furthermore, the CTBViT model for tuberculosis classification demonstrates the integration of transfer learning with vision transformers, employing a Patch Reduction Block and randomized classifiers to optimize performance and mitigate overfitting . These studies collectively underline the adaptability and efficacy of transfer learning across various image analysis applications, particularly in resource-constrained domains.
This research offers a comprehensive solution that surpasses existing methodologies. By combining cuttingedge techniques in feature extraction, classification, and interpretability, an impressive framework has been presented that achieves superior accuracy and addresses the crucial concerns of computational complexity and model transparency. This research represents a significant advancement toward revolutionizing the field of brain tumor identification, setting a new standard for achieving performance and interpretability in medical image analysis.

Methodology

Proposed framework

Figure 1 illustrates an innovative framework devised for the classification of three distinct types of brain tumors (BTs) from MRI images, alongside the classification of images depicting the absence of tumors. During training, the RRELM model uses fivefold cross-validation to evaluate and save the best-performing model, which is then used for final testing. When tested, the optimized model provides robust four-class classification, effectively distinguishing between different types of brain tumors and non-tumor cases. The entire framework showcases the power of combining a parallel CNN for feature extraction with ridge regression regularization in the classifier, achieving an efficient and accurate medical image classification solution.
An explanation generated using the Shapley Additive Explanation (SHAP) method was employed to gain insights into the black-box nature of the PDSCNN-RRELM model. This innovative visualization technique provided a deeper understanding of the model’s decision-making process and highlighted the most influential features contributing to the classification outcomes. In the subsequent sections, each step of the proposed
Fig. 1. Hybrid framework for brain tumor classification using parallel CNN and ridge regression, with SHAP for interpretability.
framework is presented in greater detail, offering a comprehensive explanation of the methodology employed and the remarkable contributions made toward the accurate identification and classification of BT in MRI scan images.

Brain tumor dataset

The brain tumor dataset utilized in this study was acquired from the esteemed Kaggle repository. The dataset comprises four distinct classes: glioma, meningioma, no tumor, and pituitary tumor. It encompasses a total of 7,023 MRI images distributed across the following classes: glioma ( 1,621 images), meningioma ( 1,645 images), no tumor (2,000 images), and pituitary (1,757 images). A rigorous evaluation strategy was employed to ensure the reliability and generalizability of the model. Considering the critical role of brain tumor data in medical and clinical applications, ensuring patient privacy and adhering to ethical standards are fundamental to the integrity of this study. This dataset is sourced from publicly available repositories (the figshare, SARTAJ, and Br 35 H datasets), all of which are intended for research purposes. These repositories are typically structured to anonymize personal data, removing any patient-identifying information, thus aligning with the HIPAA and GDPR guidelines for data privacy. Additionally, dataset collection and processing followed the ethical standards and guidelines established for publicly available medical imaging data. No identifying features are linked to individual patients in the dataset, ensuring that the privacy of individuals is maintained throughout the study. The dataset was divided such that of the images were allocated for training purposes, whereas the remaining were reserved for testing the novel RRELM model with a fivefold cross-validation methodology. Figure 2 shows a selection of MRI samples to provide a visual representation of the dataset.
While Fig. 2 visually represents tumor shapes, it is imperative to highlight the inherent variability of the dataset, encompassing background characteristics, imaging artifacts, and tumor appearances. The presence of surrounding tissues such as the brain parenchyma, blood vessels, or ventricles introduces considerable background variations across MRI scans. Additionally, factors such as imaging parameters, scanner settings, and patient-specific traits further contribute to image diversity. Moreover, brain tumors manifest diverse shapes, sizes, and locations, leading to a spectrum of appearances on MRI images. The differentiation of gliomas, which are known for having irregular margins and infiltrative patterns, from healthy tissues is challenging. Conversely, meningiomas typically present as well-defined extra-axial masses, often adjacent to the dura mater.
The complexity of classifying these images extends beyond distinguishing tumors from backgrounds. Accurate identification and categorization of tumor types based on morphological characteristics and spatial relationships within the brain are paramount. Hence, while Fig. 2 provides insight into tumor shape diversity, it is essential to underscore the complexity of the classification task. The proposed method aims to address these challenges by leveraging advanced machine learning techniques to extract discriminative features effectively, facilitating accurate classification across tumor types. By recognizing the nuances in the dataset’s composition and the intricacies of brain tumor characterization, our study endeavors to provide a comprehensive understanding of the complexities involved in MRI-based tumor classification.

Data preprocessing

In the domain of image preprocessing, researchers have recognized the paramount importance of achieving optimal results. To this end, various methodologies have emerged, each aiming to enhance medical images for improved outcomes. In this study, the researchers employed the Contrast Limited Adaptive Histogram Equalization (CLAHE) technique to address the challenge of enhancing image contrast and model accuracy. Originally designed to address the inherent limitations of low-contrast medical images, CLAHE operates by constraining the amplification process within a user-defined threshold referred to as the clip limit . This threshold plays a crucial role in smoothing out the noise in the histogram, consequently dictating the extent of contrast improvement achieved. For this study, the researchers judiciously set the clip limit at 2.0 while also adopting an ( ) tile grid size to optimize the transformative potential of CLAHE in their pursuit of superior image enhancement. Figure 3 shows a selection of original MRI images alongside their corresponding counterparts, which have undergone enhancement using the CLAHE method. The transformative impact of CLAHE can be observed as it effectively enhances the visual quality and details of the MRI images, enabling improved clarity and contrast for accurate analysis and interpretation. The database encompasses a diverse range of images, each presenting varying sizes, necessitating a harmonization process to facilitate seamless integration into the CNN model. In pursuit of this objective, the images underwent a conversion procedure, aligning them to a standardized size of pixels. By employing the powerful CLAHE technique, the images were then enhanced, ensuring optimal visual quality and facilitating detailed analysis.
Recognizing the significance of managing complexity and promoting uniformity, the researchers implemented a normalization procedure. Given the abundance of intensity values employed to represent an image, normalization serves as a crucial step to mitigate the intricacies arising from the vast number of pixels. For this purpose, the scale of the images was meticulously adjusted from the original range of 0-255 to a normalized range of . This strategic adjustment involved dividing the pixel values of each image by 255 , effectively streamlining the subsequent analysis by reducing complexity and enhancing computational efficiency.

Parallel depthwise separable convolutional neural network

The primary objective was to develop a CNN model capable of effectively identifying essential features while maintaining a compact structure suitable for diverse real-world applications. To balance the trade-off between parameter limitations and layer complexity, a streamlined PDS-CNN model was crafted and specifically designed to extract meaningful features with minimal resource utilization. The architecture depicted in Fig. 4 exemplifies the elegance of this lightweight approach for capturing distinctive features within the MRI images.
Fig. 2. Sample MRI scan images of brain samples showing (A) glioma, (B) meningioma, (C) pituitary and (D) no tumors.
A refined strategy was adopted to simplify the proposed CNN model compared with the TL models. The model comprised nine convolutional layers (CLs) and two fully connected layers (FCs), which were carefully calibrated to strike a balance. Through iterative experimentation, it was observed that a solitary CL would fail to capture crucial features, while a sequence of five CLs would introduce unnecessary depth and complexity. Consequently, the first five CLs were thoughtfully executed in parallel, leveraging the insights gained from meticulous trial and error. Each CL was equipped with 256 kernels of varying sizes, ranging from to . The choice of employing different filter sizes ranging from to is strategic. If identical filter sizes were utilized, they would extract redundant features, ultimately leading to a lack of diversity in the feature space. However, by incorporating varying filter sizes, each filter can capture distinct types of features. Upon concatenating the feature maps obtained from these filters, a rich and diverse set of features is derived. This diversity aids in capturing intricate patterns and nuanced details present in the data, thus enhancing the model’s ability to discern and classify objects accurately. The rationale behind selecting a range from to is rooted in the characteristics of the filter sizes. A filter is considered ideal for detecting local features such as edges, corners, and texture details due to its smaller receptive field. Conversely, an filter possesses a larger receptive field, enabling it to capture more global features or overarching patterns present in the input data. By encompassing filter sizes across this spectrum, the model can effectively leverage both local and global information, striking a balance between detailed feature extraction and holistic pattern recognition.
A constant padding size was employed across the initial five CLs, enabling comprehensive information extraction even from the border elements. The resulting feature maps generated by the parallel CLs were harmoniously merged and subsequently fed into a sequential CL.
Fig. 3. MRI images (A) without preprocessing and (B) after preprocessing with CLAHE.
To further refine the model’s simplicity without compromising its classification performance, a novel approach involving depthwise separable convolution (DSC) was adopted, supplanting conventional convolution methods. The DSC expertly dissects the convolution process into depthwise convolution and pointwise convolution, dramatically reducing the parameter count from 2.2 million to a mere 0.53 million. This judicious reduction in computational complexity not only streamlined the model but also enhanced its classification performance. Following the last four CLs, a batch normalization (BN) layer and a max pooling layer were integrated, and their sizes were optimized to 128, 64, 32, and 16, respectively, with kernels and VALID padding. The integration
Fig. 4. A novel lightweight parallel depthwise separable convolutional neural network (PDS-CNN) architecture proposed for feature extraction from MRI images (*DSConv2D: depthwise separable convolution; BN : batch normalization).
of the BN expedited execution while bolstering the model’s stability. To introduce nonlinearity and facilitate training, a rectified linear unit (ReLU) activation function was employed across all the CLs. Furthermore, to combat overfitting and expedite training, dropout layers were strategically inserted, randomly disregarding of the nodes. Specifically, two dropout layers were placed after the final two CLs, and an additional layer was positioned after the first FC layer. Considering that the learning rate was set at 0.001 using the ADAM optimizer, the model loss was adeptly managed through the application of the sparse categorical cross-entropy loss function, enabling efficient feature extraction. Employing a systematic trial-and-error approach, 256 distinctive features were thoughtfully selected from the final FC layer, which encapsulates the essence of the model’s capabilities. Algorithm 1 demonstrates the kernel concatenation algorithm used in Separable Conv2d.

Algorithm 1

Input:

f: number of filters
k : number of parallel kernels
s : size of each parallel kernel (an array of length k )
c: number of channels
filter_heights: height of the filter for each parallel kernel (an array of length k )
filter_widths: width of the filter for each parallel kernel (an array of length k )
Output:
num filters_concat: number of filters in the concatenated layer
total parameters: total number of parameters in the parallel layers
Procedure:
  1. Set num_filters_concat
  2. Set total_parameters
  3. For to k :
    a. Set filter_area filter_heights[i] * filter_widths[i]
    b. Set depthwise_params * filter_heights[i] * filter_widths[i]
    c. Set pointwise params
    d. If it is separable convolution:
Set depthwise_params + pointwise_params + f
e. If it is normal convolution:
Set filter_area (bias)
f. Add p to total parameters
4. Return num _filters_concat, total_parameters
In a concatenated layer, the number of filters returned after merging depends on the specific configuration of the layer. When concatenating two or more layers, each layer may have a different number of filters, and the resulting concatenated layer will have a total number of filters equal to the sum of the filters in each individual layer.
The total parameters in the sequential model after concatenation depend on the type of layers and their configurations. Each layer in the model contributes a certain number of parameters based on its architecture and the number of filters or units it contains. When concatenating layers, the total number of parameters in the sequential model will be the sum of the parameters from all the layers involved in the concatenation, including the concatenated layer itself.
In this study, the true power of the proposed model was determined by extracting the most discriminative features from intricate MRI images. To convey the remarkable results with the utmost clarity and visual appeal, the exceptional ability of the t -Distributed Stochastic Neighbor Embedding ( t -SNE) technique was harnessed, as shown in Fig. 5. With unparalleled finesse, t-SNE seamlessly unraveled the inherent structure and intricate relationships within high-dimensional MRI data. This remarkable algorithm skillfully transforms the complexity of the data into a lower-dimensional representation while preserving the subtle nuances and intricate similarities among the data points.
To ensure the optimal performance of the Extreme Learning Machine (ELM) algorithm, the extracted features underwent a crucial step of standardization using the standard scaler, which transformed the feature values to a standardized scale, thereby enhancing the ELM model’s effectiveness in handling the data. By standardizing all the features, the subsequent feeding of these standardized features into the ELM model facilitated improved performance and more accurate analysis .

Interaction between PDSCNN and RRELM

The feature extraction process uses a parallel depthwise separable convolutional neural network (PDSCNN) to capture spatial features efficiently. Through its structure, the PDSCNN extracts 256 prominent features from each MRI image, providing a rich representation of tumor-specific patterns essential for accurate classification. After feature extraction by the PDSCNN, the network produces 256 feature maps (as shown in Fig. 6), each capturing distinct spatial features from the MRI images. These feature maps are then processed to form a single 1D feature vector, which serves as the basis for classification. Mathematically, if each feature map has dimensions of , then flattening these maps results in a vector of size . However, for simplicity and computational efficiency, the mean or another statistical representation across each feature map is often taken, compressing the information into a 256 -dimensional feature vector f , where:

t-SNE Visualization in 3D

Fig. 5. t-SNE visualization of discriminative features, revealing inherent MRI data structure.
Here, represents the summary value (such as the mean) of the i-th feature map, providing a compact, descriptive vector of the most prominent features detected by the PDSCNN.
Next, normalization is applied to this feature vector to scale the values within a consistent range. Let denotes the normalized vector, where each component is transformed as:
where and represent the mean and standard deviation of the i -th feature across the training set, respectively. This normalization ensures that the features are standardized, making them compatible for input into the next stage without being affected by scale differences.
In this pipeline, the PDSCNN and RRELM work as tightly integrated systems. The PDSCNN acts as the feature extraction module, producing as its output, which becomes the direct input to the RRELM classifier.
Fig. 6. Integration of the RRELM architecture from the final layer of the PDS-CNN model.
The normalized feature vector is then fed into the ridge regression extreme learning machine (RRELM), which is chosen for its robustness in handling high-dimensional and potentially correlated features. The RRELM model is an enhanced version of the classic extreme learning machine (ELM) that incorporates ridge regression regularization to control for overfitting, which is especially useful when dealing with intercorrelated features such as those derived from the PDSCNN.
In RRELM, the classification output y is calculated as:
where W is a matrix of weights learned during training, which maps the 256 -dimensional feature vector to the four-class output (three tumor types and one non-tumor class), and b is a bias term added to adjust the final output.
The regularization term in RRELM adds a penalty proportional to the square of the weight matrix W :
where is a hyperparameter controlling the regularization strength. This regularization ensures that the model does not overfit, particularly when features are highly intercorrelated or redundant, as it encourages smaller, more stable weights.

Ridge regression extreme learning machine

Huang et al. introduced the ELM, a remarkable forward feed network based on supervised learning, to harness the power of neural networks (NNs) for feature classification. By employing a single hidden layer, the ELM revolutionized the training process by eliminating the need for backpropagation, enabling training times that were a thousandfold faster than those of conventional NNs. This groundbreaking approach endowed the model with exceptional generalization capabilities and unparalleled classification performance. Notably, in the realm of large-scale multiclass classification tasks, the ELM exhibited remarkable progress, surpassing traditional methods . While the parameters linking the input and hidden layers were initialized randomly, the parameters connecting the hidden and output layers were determined using the pseudoinverse technique. However, in this study, the pseudoinverse was replaced by ridge regression, which injected an additional layer of sophistication. The input layer boasted a grand ensemble of 256 nodes, the hidden layer consisted of 1,500 nodes, and the output layer was composed of four nodes for the classification of four types of BT from MRI images. The following steps outline the implementation details:
Initialization: The input weight matrix (input_weights) of size (input_size × hidden_size) and biases were randomly initialized using a normal distribution.
Activation function: The rectified linear unit (ReLU) function was used as the activation function for the hidden layer. It can be defined as , where x represents the input.
Hidden layer computation: The hidden_nodes() function computes the hidden layer output (H_train) using the following equations.
train input_weights + biases, where train is the input feature matrix.
H_train , where relu(x) is the ReLU activation function applied elementwise to G .
Ridge Regression: Ridge regression was utilized to optimize the output weight matrix (output_weights). The ridge regression formulation can be expressed as follows.
output_weights = inv (H_train. T @ H_train + alpha * I) @ H_train. T @ y_train, where alpha is the regularization parameter, I represents the identity matrix of size hidden_size, and y_train denotes the target labels.
Prediction : The predict() function was introduced to make predictions using the trained model. It computes the output of the hidden layer for the given input features ( X ) using the following equations.
input_weights + biases,
,
predictions output_weights, where predictions represent the final predicted output.
By incorporating Ridge Regression within the ELM (RRELM) framework, this methodology aimed to strike a balance between effective feature learning and regularization, enhancing the model’s ability to generalize and produce accurate predictions.

Assessment matrices and implementation

The effectiveness of the lightweight PDSCNN-RRELM model was evaluated using a confusion matrix (CM), which is a valuable tool for assessing classification performance. The following equations were employed to derive key performance metrics, including accuracy, precision, recall, F1 score, and area under the curve (AUC), from the .
where true positives, true negatives, false positives, and false negatives are represented by and , respectively.
The implementation of all the deep learning algorithms and Explainable Artificial Intelligence (XAI) techniques was accomplished using Keras, a powerful framework, in conjunction with TensorFlow as the backend. The entire system was orchestrated within PyCharm Community Edition (2021.2.3), a reliable software environment. Model training and testing were conducted on a high-performance computing platform comprising an 11th generation Intel(R) Core (TM) i9-11,900 CPU operating at 2.50 GHz , an impressive 128 GB RAM configuration, and an NVIDIA GeForce RTX 3090 graphics processing unit with a substantial 24 GB memory capacity. This robust hardware infrastructure, complemented by the 64-bit Windows 10 Pro operating system, facilitated efficient and expedient execution of the training and testing processes, enabling the exploration of complex deep learning architectures and XAI methodologies.

Results and discussion

An ELM with pseudoinverse

Following the extraction of the most discriminant 256 features using the PDSCNN, the ELM model with pseudoinverse (PELM) was trained on of the available data, whereas the remaining was reserved for evaluating the model’s performance. Fivefold cross-validation was employed to assess the model’s precision, recall, F1 score, and accuracy comprehensively. Figure 7 shows the confusion matrices for each fold, which were instrumental in computing the class-specific precision, recall, and F1 score.
The average accuracy, precision, and recall achieved remarkable values of , and , respectively, for the classification of four types of brain tumors (glioma: 0 , meningioma: 1 , no tumor: 2 , and pituitary: 3 ) based on MRI images, as shown in Table 1. Fold 2 had exceptional average accuracy and recall values of and , respectively. Furthermore, Fig. 8 clearly illustrates a classwise receiver operating characteristic (ROC) curve, demonstrating the ability of the PDSCNN-PELM model to effectively differentiate between the four classes of brain tumors. Notably, the highest Area Under the Curve (AUC) values for all classes exceeded 99.70%, exemplifying the robustness of the proposed framework. The best AUC of further attests to the model’s capacity for achieving outstanding classification accuracy.

ELM with ridge regression

The experimental procedures were replicated, with the exception of replacing the pseudoinverse with ridge regression (RRELM) to enhance the classification performance. The resulting confusion matrices for each fold are presented in Fig. 9, highlighting the model’s ability to classify brain tumor types accurately. Notably, the fourth-fold method demonstrated exceptional performance, achieving average accuracy, precision, and recall values of , and , respectively, as summarized in Table 2.
Fig. 7. Confusion matrices for the PDSCNN-PELM with five folds.
Fold number Diseases name Precision Recall F1-score Accuracy (%)
Fold 1 Glioma (0) 0.99 0.99 0.99
Meningioma (1) 0.99 0.98 0.99
No Tumor (2) 1.00 1.00 1.00
Pituitary (3) 0.99 0.99 0.99
Average 0.9925* 0.99 0.9925 99.21
Fold 2 Glioma (0) 0.99 0.99 0.99
Meningioma (1) 0.98 0.99 0.98
No Tumor (2) 1.00 1.00 1.00
Pituitary (3) 0.99 1.00 0.99
Average 0.99 0.9950 0.99 99.21
Fold 3 Glioma (0) 0.99 0.99 0.99
Meningioma (1) 0.98 0.98 0.98
No Tumor (2) 1.00 1.00 1.00
Pituitary (3) 1.00 0.99 1.00
Average 0.9925 0.99 0.9925 99.14
Fold 4 Glioma (0) 0.98 0.98 0.98
Meningioma (1) 0.99 0.98 0.98
No Tumor (2) 1.00 1.00 1.00
Pituitary (3) 0.99 1.00 0.99
Average 0.99 0.99 0.9875 99.00
Fold 5 Glioma (0) 1.00 0.98 0.99
Meningioma (1) 0.97 0.99 0.98
No Tumor (2) 1.00 1.00 1.00
Pituitary (3) 0.99 0.99 0.99
Average 0.99 0.99 0.99 99.07
Table 1. Classwise classification performances of the PDSCNN-PELM for five-fold CV.*Bold values indicate the best average results.
Fig. 8. Class-wise ROCs of PDSCNN-PELM for five folds.

Comparison between PELM and RRELM

Table 3 provides a comprehensive comparison between the PELM and RRELM. It is evident that the PDSCNNRRELM exhibited superior performance metrics compared to the PDSCNN-PELM. Specifically, the average precision of the PDSCNN-RRELM reached an impressive value of , surpassing the precision of achieved by the PDSCNN-PELM. In terms of recall, RRELM outperformed PDSCNNPELM, achieving an average recall of , which is approximately higher. Moreover, the novel PDSCNN-RRELM model achieved a remarkable accuracy of , surpassing the accuracy of the
Fig. 9. Confusion matrices for PDSCNN-RRELM with five folds.
Fold number Diseases Name Precision Recall F1-score Accuracy (%)
Fold 1 Glioma (0) 0.99 1.00 0.99
Meningioma (1) 0.99 0.98 0.98
No Tumor (2) 1.00 1.00 1.00
Pituitary (3) 0.99 0.99 0.99
Average 0.9925 0.9925 0.99 99.28
Fold 2 Glioma (0) 1.00 0.98 0.99
Meningioma (1) 0.98 0.99 0.98
No Tumor (2) 1.00 1.00 1.00
Pituitary (3) 0.99 0.99 0.99
Average 0.9925 0.99 0.99 99.14
Fold 3 Glioma (0) 0.99 0.99 0.99
Meningioma (1) 0.99 0.98 0.98
No Tumor (2) 1.00 0.99 1.00
Pituitary (3) 0.99 1.00 0.99
Average 0.9925 0.9925 0.99 99.04
Fold 4 Glioma (0) 1.00 0.99 0.99
Meningioma (1) 0.99 0.99 0.98
No Tumor (2) 1.00 1.00 1.00
Pituitary (3) 0.99 1.00 1.00
Average 1.00* 1.00 1.00 99.50
Fold 5 Glioma (0) 0.99 0.98 0.99
Meningioma (1) 0.97 0.99 0.98
No Tumor (2) 1.00 1.00 1.00
Pituitary (3) 1.00 1.00 1.00
Average 0.99 0.9925 0.9925 99.14
Table 2. Class-wise classification performances of PDSCNN-RRELM for five-fold CV. *Bold values indicate the best results.
Model name Precision average Recall F1-score Accuracy AUC
PDSCNN-PELM
PDSCNN-RRELM
Table 3. Comparison of the classification performances of the PDSCNN-PELM and PDSCNN-RRELM. *Bold values indicate the best results.
PDSCNN-PELM model by a margin of . The class discriminant capability was assessed through ROC analysis, where the PDSCNN-RRELM achieved the best AUC of , outperforming the AUC of , achieved by the PDSCNN-PELM as shown in Fig. 10. These results underscore the superior performance of the novel ELM with ridge regression in accurately classifying the three types of brain tumors from MRI images.
In summary, the introduction of ridge regression in the ELM framework led to significant enhancements in classification performance. The PDSCNN-RRELM demonstrated superior accuracy, precision, recall, and AUC values, indicating its efficacy in accurately classifying brain tumor types.

Performances comparison of PDSCNN-RRELM with SOTA models

The proposed PDSCNN-RRELM model was evaluated via a comprehensive comparison of its classification performance and model characteristics with those of state-of-the-art (SOTA) models, as shown in Table 4. Among the SOTA models, those of Khan et al. achieved an exceptional accuracy of . However, the proposed model surpassed this benchmark by achieving an even higher accuracy of , showing an improvement of . Furthermore, precision, a crucial metric in medical diagnosis, revealed the superiority of the proposed model. With a precision of , the PDSCNN-RRELM outperformed the model of Khan et al. by . Similarly, the proposed model exhibited remarkable performance in terms of recall, achieving a recall rate of , surpassing all other SOTA models. The discriminative capability of the proposed model was assessed through ROC analysis. Impressively, the PDSCNN-RRELM model achieved the best AUC of , highlighting its superior discriminative power in comparison to that of the SOTA models, which achieved a maximum AUC of . These compelling findings support the conclusion that the proposed PDSCNNRRELM framework outperforms the SOTA models in terms of classification performance. Notably, it achieved higher accuracy, precision, and recall while exhibiting exceptional discriminative capability, as evidenced by the outstanding AUC of .
Considering computational resources, a comparison was made between the lightweight PDSCNN-RRELM model and Shaikh et al.’s modification of DarkNet53. Shaikh et al.’s model employed 2.2 million parameters and 53 layers to classify brain tumors with an accuracy of . In contrast, the proposed PDSCNN-RRELM model outperformed it significantly. With only 0.53 million parameters (approximately five times fewer than the best SOTA model) and ten layers (approximately five times fewer than the best SOTA model), it achieved an outstanding accuracy of . In conclusion, the proposed lightweight PDSCNN-RRELM model not only demonstrated superior classification performance compared to that of the SOTA models but also showed a decrease in the number of parameters and layers. This achievement holds great potential to support medical practitioners in accurately diagnosing brain tumors, instilling confidence, and ultimately contributing to saving patients’ lives.
The PDSCNN-RRELM model also performs better than SOTA transformer-based architectures such as LCDEiT , FTVT-b32 , and RanMerFormer in several important ways. The findings demonstrate the model’s outstanding classification ability, effectively balancing true positive detection and false positive reduction. In addition to its accuracy, the PDSCNN-RRELM demonstrates remarkable efficiency, including 0.53 million parameters and a streamlined 10-layer architecture, in contrast to the more intricate transformer models, such as LCDEiT, which has 8 million parameters. Transformer models excel in capturing long-range relationships and managing sequential data, making them particularly adept at addressing complicated data patterns and activities necessitating contextual comprehension. Nonetheless, their complex and parameter-intensive architecture sometimes requires substantial computing resources and prolonged training durations, thus restricting their practicality for real-time or resource-limited applications. Consequently, while the PDSCNN-RRELM demonstrates superior efficiency and efficacy in certain domains, contexts that prioritize the interpretability of intricate connections over computational efficiency may favor transformer-assisted models.

Interpretability of PDSCNN-RRELM using SHAP

Explainable artificial intelligence (XAI) has emerged as a groundbreaking concept within the realm of deep learning. Its significance lies in its ability to unravel the inner workings of complex deep neural networks, shedding light on their decision-making processes. This is particularly crucial for deep learning models, which are known for their enigmatic and intricate nature. To address this challenge, a remarkable study harnessed the power of SHAP, an advanced technique that effectively removes the “black box” cloak enveloping deep learning models . By employing SHAP in conjunction with the PDSCNN-RRELM model, this research enabled medical professionals to comprehensively evaluate and elucidate the results, facilitating real-world application in the domain of brain tumor categorization.
The impact of SHAP is profound, as it not only ranks the importance of individual features within the model but also quantifies their contributions through meticulous calculations. In this study, the scores assigned to each pixel in a predicted image vividly portrayed the intricate functionalities of those pixels, thus enabling precise categorizations . The meticulously derived Shapley values, obtained by considering all possible combinations
Fig. 10. Class-wise ROCs of PDSCNN-RRELM for five folds.
of BT disease features, were combined to form pixelated representations. The remarkable findings revealed a fascinating pattern: red pixels significantly enhanced the likelihood of accurate tumor identification, while blue pixels indicated the potential for misclassification.
The visualization of the SHAP results, elegantly depicted in Fig. 11, bestowed upon medical professionals a treasure trove of explanation images for the distinct tumor classes: glioma, meningioma, no tumor, and pituitary tumors. An intriguing aspect was the near-invisibility of the relevant gray explanation backgrounds when juxtaposed with the input images on the left. In the first row of the image, the dominance of red pixels within
Reference Dataset size Target class Precision (%) Recall (%) F1-score (%) Accuracy (%) AUC (%) Para-meters (million) Layers Model
Gumaei et al. Train: 2145 Test: 919 3 94.233 RELM
Mzoughi et al. Train: 284 Test: 67 2 96.49 3D CNN
Khan et al. Train: 2840 Test: 424 3 99.13 99.13 HDL2BT
Ahmed et al. Train: 2968 Test: 394 Val: 32 4 96.34 98.22 97.98 14 Custom CNN
Nayak et al. Train: 2608 Test: 652 3 98.75 98.75 98.75 98.78 5.3 230 Variant of EfficientNet
Alanazi et al. Train: 1980 Test: 495 3 96.89 22 Transfer deep learning
Badza et al. Train: 2758 Test: 306 3 97.15 97.82 97.47 97.28 22 Custom CNN
Deepak et al. Train: 2450 Test: 614 3 97.30 97.60 97.00 97.10 99.70 6.6 22 Deep transfer learning
Shaik et al. Train: 2450 Test: 614 3 96.14 95.99 96.03 96.51 99.00 2.4 53 MANet
Ferdous et al. Train: 5156 Test: 1031 3 98.11 8 14 LCDEiT
Reddy et al. Train: 5712 Test: 1311 4 98.6 98.6 98.6 98.7 32 FTVT-b32
Wang et al. Train: 5800 Test: 1400 4 98.87 98.46 98.66 98.86 12 RanMer-Former
Proposed work Train:5619 Test:1404 4 99.35* 99.30 99.25 99.22 99.99 0.53 10 PDSCNN-RRELM
Table 4. Performance comparison of PDSCNN-RRELM with SOTA models. *Bold values indicate the best results.
Fig. 11. The sample MRI scan images and the corresponding SHAP explanation images for the brain tumors and healthy classes.
the SHAP explanation image effortlessly conveyed that the MRI image pertained to a glioma tumor, while the absence of blue pixels unequivocally signaled the exclusion of the other tumor types: meningioma, no tumor, and pituitary. Astoundingly, the second row revealed a contrasting pattern: an absence of red pixels in the SHAP explanation images for glioma, no tumor, and pituitary, accompanied by a profusion of red pixels in the SHAP explanation image for meningioma. This remarkable observation accurately indicated the classification of the image as belonging to the meningioma class. The third row continued to dazzle, showcasing a concentration
Received: 10 September 2024; Accepted: 7 January 2025
Published online: 10 January 2025

References

  1. Louis, D. N. et al. The 2016 World Health Organization classification of tumors of the central nervous system: A summary. Acta Neuropathol. 131, 803-820 (2016).
  2. Chahal, P. K., Pandey, S. & Goel, S. A survey on brain tumor detection techniques for MR images. Multimed. Tools Appl. 79, 21771-21814 (2020).
  3. Guan, Y. et al. A framework for efficient brain tumor classification using MRI images (2021).
  4. Komninos, J. et al. Tumors metastatic to the pituitary gland: Case report and literature review. J. Clin. Endocrinol. Metab. 89, 574-580 (2004).
  5. Ahamed, M. F. et al. A review on brain tumor segmentation based on deep learning methods with federated learning techniques. Comput. Med. Imaging Graph. 110, 102313 (2023).
  6. Faysal Ahamed, M., Robiul Islam, M., Hossain, T., Syfullah, K. & Sarkar, O. Classification and segmentation on multi-regional brain tumors using volumetric images of MRI with customized 3D U-Net framework. In Proceedings of International Conference on Information and Communication Technology for Development: ICICTD 2022 223-234 (Springer, 2023).
  7. Titu, M. M. T., Mary, M. M., Ahamed, M. F., Oishee, T. M. & Hasan, M. M. Utilizing customized 3D U-Net framework for the classification and segmentation of multi-regional brain tumors in volumetric MRI images. In 2024 3rd International Conference on Advancement in Electrical and Electronic Engineering (ICAEEE) 1-6 (IEEE, 2024).
  8. Ahamed, M. F. et al. Automated detection of colorectal polyp utilizing deep learning methods with explainable AI. IEEE Access (2024).
  9. Varuna Shree, N. & Kumar, T. N. R. Identification and classification of brain tumor MRI images with feature extraction using DWT and probabilistic neural network. Brain Inf. 5, 23-30 (2018).
  10. Nahiduzzaman, M., Islam, M. R. & Hassan, R. ChestX-Ray6: Prediction of multiple diseases including COVID-19 from chest X-ray images using convolutional neural network. Expert Syst. Appl. 211, 118576 (2023).
  11. Islam, M. R. & Nahiduzzaman, M. Complex features extraction with deep learning model for the detection of COVID19 from CT scan images using ensemble based machine learning approach. Expert Syst. Appl. 195, 116554 (2022).
  12. Nahiduzzaman, M. et al. Diabetic retinopathy identification using parallel convolutional neural network based feature extractor and ELM classifier. Expert Syst. Appl. 217, 119557 (2023).
  13. Nahiduzzaman, M. et al. Hybrid CNN-SVD based prominent feature extraction and selection for grading diabetic retinopathy using extreme learning machine algorithm. IEEE Access 9, 152261-152274 (2021).
  14. Nahiduzzaman, M. et al. A novel method for multivariant pneumonia classification based on hybrid CNN-PCA based feature extraction using extreme learning machine with CXR images. IEEE Access 9, 147512-147526 (2021).
  15. Hossain, M. M., Islam, M. R., Ahamed, M. F., Ahsan, M. & Haider J. A collaborative federated learning framework for lung and colon cancer classifications. Technologies 12, 151 (2024).
  16. Hossain, M. M., Ahamed, M. F., Islam, M. R. & Imam, M. D. R. Privacy preserving federated learning for lung cancer classification. In 2023 26th International Conference on Computer and Information Technology (ICCIT) 1-6 (IEEE, 2023).
  17. Ahamed, M. F., Nahiduzzaman, M., Ayari, M. A., Khandakar, A. & Islam, S. M. R. Malaria parasite classification from RBC smears using lightweight parallel depthwise separable CNN and ridge regression ELM by integrating SHAP techniques (2023).
  18. Sarkar, O. et al. Multi-scale CNN: An explainable AI-integrated unique deep learning framework for lung-affected disease classification. Technologies 11, 134 (2023).
  19. Ullah, F., Nadeem, M. & Abrar, M. Revolutionizing brain tumor segmentation in MRI with dynamic fusion of handcrafted features and global pathway-based deep learning. KSII Trans. Internet Inform. Syst. 18 (2024).
  20. Anwar, R. W., Abrar, M. & Ullah, F. Transfer learning in brain tumor classification: Challenges, opportunities, and future prospects. In 2023 14th International Conference on Information and Communication Technology Convergence (ICTC) 24-29 (IEEE, 2023).
  21. Akbar, M. et al. An effective deep learning approach for the classification of Bacteriosis in peach leave. Front. Plant Sci. 13. https:/ /doi.org/10.3389/fpls.2022.1064854 (2022).
  22. Nazar, U. et al. Review of automated computerized methods for brain tumor segmentation and classification. Curr. Med. Imaging 16, 823-834 (2020).
  23. Ahamed, M. F., Sarkar, O. & Matin, A. Instance segmentation of visible cloud images based on mask R-CNN applying transfer learning approach. In 2020 2nd International Conference on Advanced Information and Communication Technology (ICAICT) 257-262 (IEEE, 2020). https://doi.org/10.1109/ICAICT51780.2020.9333531.
  24. Musallam, A. S., Sherif, A. S. & Hussein, M. K. A new convolutional neural network architecture for automatic detection of brain tumors in magnetic resonance imaging images. IEEE Access 10, 2775-2782 (2022).
  25. Simonyan, K. & Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014).
  26. Nayak, D. R., Padhy, N., Mallick, P. K., Zymbler, M. & Kumar, S. Brain tumor classification using dense efficient-net. Axioms 11, 34 (2022).
  27. Alanazi, M. F. et al. Brain tumor/mass classification framework using magnetic-resonance-imaging-based isolated and developed transfer deep-learning model. Sensors 22, 372 (2022).
  28. Khan, A. H. et al. Intelligent model for brain tumor identification using deep learning. Appl. Computat. Intell. Soft Comput. 2022, 8104054 (2022).
  29. Irmak, E. Multi-classification of brain tumor MRI images using deep convolutional neural network with fully optimized framework. Iran. J. Sci. Technol. Trans. Electr. Eng. 45, 1015-1036 (2021).
  30. Badža, M. M. & Barjaktarović, M. Č. Classification of brain tumors from MRI images using a convolutional neural network. Appl. Sci. 10, 1999 (2020).
  31. Mzoughi, H. et al. Deep multi-scale 3D convolutional neural network (CNN) for MRI gliomas brain tumor classification. J. Digit. Imaging 33, 903-915 (2020).
  32. Gumaei, A., Hassan, M. M., Hassan, M. R., Alelaiwi, A. & Fortino, G. A hybrid feature extraction method with regularized extreme learning machine for brain tumor classification. IEEE Access 7, 36266-36273 (2019).
  33. Deepak, S. & Ameer, P. M. Brain tumor classification using deep CNN features via transfer learning. Comput. Biol. Med. 111, 103345 (2019).
  34. Shaik, N. S. & Cherukuri, T. K. Multi-level attention network: Application to brain tumor classification. Signal. Image Video Process. 16, 817-824 (2022).
  35. Ahuja, S., Panigrahi, B. K. & Gandhi, T. K. Enhanced performance of Dark-nets for brain tumor classification and segmentation using colormap-based superpixel techniques. Mach. Learn. Appl. 7, 100212 (2022).
  36. Brain Tumor MRI Dataset. https://www.kaggle.com/datasets/masoudnickparvar/brain-tumor-mri-dataset/data.
  37. Pisano, E. D. et al. Contrast limited adaptive histogram equalization image processing to improve the detection of simulated spiculations in dense mammograms. J. Digit. Imaging 11, 193-200 (1998).
  38. Ahamed, M. F., Salam, A., Nahiduzzaman, M., Abdullah-Al-Wadud, M. & Islam, S. M. R. streamlining plant disease diagnosis with convolutional neural networks and edge devices. Neural Comput. Appl. 36, 18445-18477 (2024).
  39. Ahamed, M. F. et al. Detection of various gastrointestinal tract diseases through a deep learning method with ensemble ELM and explainable AI. Expert Syst. Appl. 256, 124908 (2024).
  40. Ahamed, M. F. et al. Interpretable deep learning model for tuberculosis detection using X-ray images. In Surveillance, Prevention, and Control of Infectious Diseases: An AI Perspective (eds. Chowdhury, M. E. H. & Kiranyaz, S.) 169-192 (Springer, 2024).
  41. Huang, G. B., Zhu, Q. Y. & Siew, C. K. Extreme learning machine: Theory and applications. Neurocomputing 70, 489-501 (2006).
  42. Nahiduzzaman, M. et al. Parallel CNN-ELM: A multiclass classification of chest X-ray images to identify seventeen lung diseases including COVID-19. Expert Syst. Appl. 229, 120528 (2023).
  43. Nahiduzzaman, M., Nayeem, M. J., Ahmed, M. T. & Zaman, M. S. U. Prediction of heart disease using multi-layer perceptron neural network and support vector machine. In 2019 4th International Conference on Electrical Information and Communication Technology (EICT) 1-6 (IEEE, 2019).
  44. Kibria, H. B., Nahiduzzaman, M., Goni, M. O. F., Ahsan, M. & Haider, J. An ensemble approach for the prediction of diabetes mellitus using a soft voting classifier with an explainable AI. Sensors 22, 7268 (2022).
  45. Powers, D. M. W. Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation. arXiv preprint arXiv:2010.16061(2020).
  46. Swets, J. A. Measuring the accuracy of diagnostic systems. Science (1979) 240, 1285-1293 (1988).
  47. Ferdous, G. J., Sathi, K. A., Hossain, M. A., Hoque, M. M. & Dewan, M. A. A. LCDEiT: A linear complexity data-efficient image transformer for MRI brain tumor classification. IEEE Access 11, 20337-20350 (2023).
  48. Reddy, C. K. K. et al. A fine-tuned vision transformer based enhanced multi-class brain tumor classification using MRI scan imagery. Front. Oncol. 141-23 (2024).
  49. Wang, J., Lu, S. Y., Wang, S. H. & Zhang, Y. D. RanMerFormer: Randomized vision transformer with token merging for brain tumor classification. Neurocomputing 573, 127216 (2024).
  50. Lundberg, S. A unified approach to interpreting model predictions. arXiv Preprint arXiv:1705.07874 (2017).
  51. Bhandari, M., Shahi, T. B., Siku, B. & Neupane, A. Explanatory classification of CXR images into COVID-19, Pneumonia and Tuberculosis using deep learning and XAI. Comput. Biol. Med. 150, 106156 (2022).
  52. Ullah, F. et al. Evolutionary model for brain cancer-grading and classification. IEEE Access 11, 126182-126194 (2023).
  53. Ullah, F. et al. Enhancing brain tumor segmentation accuracy through scalable federated learning with advanced data privacy and security measures. Mathematics 11, 4189 (2023).
  54. Ullah, F. et al. Brain tumor segmentation from MRI images using handcrafted convolutional neural network. Diagnostics 13, 2650 (2023).
  55. Zhang, Y. et al. Deep learning in food category recognition. Inf. Fusion 98, 101859 (2023).
  56. Lu, S. Y., Nayak, D. R., Wang, S. H. & Zhang Y.-D. A cerebral microbleed diagnosis method via FeatureNet and ensembled randomized neural networks. Appl. Soft Comput. 109, 107567 (2021).
  57. Lu, S. Y., Zhu, Z., Tang, Y., Zhang, X. & Liu, X. CTBViT: A novel ViT for tuberculosis classification with efficient block and randomized classifier. Biomed. Signal. Process. Control 100, 106981 (2025).

Author contributions

All authors have contributed equally during the research work and preparing the manuscript.

Declarations

Competing interests

The authors declare no competing interests.

Additional information

Correspondence and requests for materials should be addressed to M.K.
Reprints and permissions information is available at www.nature.com/reprints.
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License, which permits any non-commercial use, sharing, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if you modified the licensed material. You do not have permission under this licence to share adapted material derived from this article or parts of it. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommo ns.org/licenses/by-nc-nd/4.0/.
© The Author(s) 2025, corrected publication 2025

  1. Department of Electrical and Computer Engineering, Rajshahi University of Engineering and Technology, Rajshahi 6204, Bangladesh. Department of Space Technology Engineering, Electrical Engineering Technical College, Middle Technical University, Baghdad, Iraq. Department of Computer Science, Cihan University Sulaimaniya, Sulaimaniya 46001, Kurdistan Region, Iraq. Department of Electrical Engineering, Qatar University, Doha 2713, Qatar. Department of Civil and Environmental Engineering, Qatar University, Doha 2713, Qatar. Department of Computer Science, University of York, Deramore Lane, York YO10 5GH, UK. Department of Engineering, Manchester Metropolitan University, Chester Street, Manchester M1 5GD, UK. Artificial Intelligence and Digital Health, School of Health and Rehabilitation Sciences, Faculty of Health and Behavioral Sciences, The University of Queensland, St Lucia, QLD 4072, Australia. Institute of Optoelectronics, Military University of Technology, Gen. S. Kaliskiego 2, Warsaw 00-908, Poland. email: marcin.kowalski@wat.edu.pl