نهج مبتكر لتحويل سوان يستخدم الشبكة العصبية متعددة الطبقات المتبقية لتشخيص أورام الدماغ في صور الرنين المغناطيسي A novel Swin transformer approach utilizing residual multi-layer perceptron for diagnosing brain tumors in MRI images

المجلة: International Journal of Machine Learning and Cybernetics، المجلد: 15، العدد: 9
DOI: https://doi.org/10.1007/s13042-024-02110-w
تاريخ النشر: 2024-03-05

نهج مبتكر لتحويل سوان يستخدم الشبكة العصبية متعددة الطبقات المتبقية لتشخيص أورام الدماغ في صور الرنين المغناطيسي

إسحاق باكال (د)

تاريخ الاستلام: 25 أكتوبر 2023 / تاريخ القبول: 24 يناير 2024 / تاريخ النشر على الإنترنت: 5 مارس 2024
© المؤلفون 2024

الملخص

تتطلب العواقب الخطيرة الناتجة عن أورام الدماغ تشخيصًا دقيقًا وفي الوقت المناسب. ومع ذلك، فإن العقبات مثل جودة التصوير غير المثلى، ومشاكل سلامة البيانات، وأنواع الأورام ومراحلها المتنوعة، والأخطاء المحتملة في التفسير تعيق تحقيق تشخيصات دقيقة وسريعة. يلعب التعرف السريع على أورام الدماغ دورًا محوريًا في ضمان سلامة المرضى. أنظمة التعلم العميق تحمل وعدًا في مساعدة أطباء الأشعة على إجراء التشخيصات بسرعة ودقة. في هذه الدراسة، نقدم نهجًا متقدمًا للتعلم العميق يعتمد على محول سوين. الطريقة المقترحة تقدم وحدة جديدة من الانتباه الذاتي متعدد الرؤوس مع نوافذ هجينة (HSW-MSA) جنبًا إلى جنب مع نموذج معاد قياسه. يهدف هذا التحسين إلى تحسين دقة التصنيف، وتقليل استخدام الذاكرة، وتبسيط تعقيد التدريب. تستبدل شبكة MLP المعتمدة على المتبقي (ResMLP) شبكة MLP التقليدية في محول سوين، مما يحسن الدقة وسرعة التدريب وكفاءة المعلمات. نقوم بتقييم نموذج Proposed-Swin على مجموعة بيانات الرنين المغناطيسي للدماغ المتاحة للجمهور مع أربع فئات، باستخدام بيانات الاختبار فقط. يتم تعزيز أداء النموذج من خلال تطبيق تقنيات التعلم الانتقالي وزيادة البيانات لتدريب فعال وقوي. يحقق نموذج Proposed-Swin دقة ملحوظة تبلغ , متجاوزًا الأبحاث السابقة ونماذج التعلم العميق. وهذا يبرز فعالية محول سوين مع تحسينات HSW-MSA وResMLP في تشخيص أورام الدماغ. تقدم هذه الطريقة نهجًا تشخيصيًا مبتكرًا باستخدام HSW-MSA وResMLP في محول سوين، مما يوفر دعمًا محتملاً لأطباء الأشعة في تشخيص أورام الدماغ في الوقت المناسب والدقيق، مما يحسن في النهاية نتائج المرضى ويقلل من المخاطر.

الكلمات الرئيسية تحليل أورام الدماغ تصنيف أورام الدماغ محول الرؤية محول سوين ResMLP

1 المقدمة

يصف مصطلح “ورم الدماغ” تطور خلايا شاذة داخل الدماغ أو بالقرب منه. عندما ينشأ الورم مباشرة في الدماغ، يتم تصنيفه كورم أولي، بينما يشير الورم الثانوي إلى خلايا سرطانية انتشرت من جزء آخر من الجسم وانتقلت إلى الدماغ. [1،2]. هناك نوعان من أورام الدماغ الأولية: الحميدة والخبيثة. الأورام الخبيثة سرطانية وأكثر تدميرًا بطبيعتها [3]. يمكن أن تختلف خصائص أورام الدماغ، مثل حجمها وموقعها داخل الدماغ، بشكل كبير وتسبب مجموعة واسعة من الأعراض [4، 5].
يعد الاكتشاف المبكر لأورام الدماغ أمرًا ضروريًا للعلاج الناجح والإدارة، حيث يمكن أن يصل نمو الورم غير المنضبط
إلى مستويات خطيرة تهدد الحياة، مما يجعل السيطرة والعلاج أكثر تحديًا [6]. لذلك، فإن تحديد التشخيص وتصنيف أورام الدماغ أمر حاسم لضمان نجاح المرضى. حقق الباحثون والعلماء تقدمًا هائلًا في إنشاء أدوات متطورة لتحديدها، نظرًا لزيادة حدوث أورام الدماغ وتأثيرها الكبير على الأشخاص [7]. يُعتبر التصوير بالرنين المغناطيسي (MRI) الطريقة القياسية الذهبية المعترف بها عادةً لتحديد الشذوذ في أنسجة الدماغ [8، 9]. يعد التصوير بالرنين المغناطيسي أداة مفيدة لمعرفة المزيد عن شكل وحجم وموقع الأورام بدقة [10]. على الرغم من أن الكشف المبكر والدقيق عن سرطانات الدماغ أمر ضروري، فإن تصنيف أورام الدماغ يدويًا يمكن أن يكون تحديًا ويستغرق وقتًا طويلاً ويعتمد بشكل أساسي على معرفة أطباء الأشعة [11،12].
في السنوات الأخيرة، ظهرت أساليب آلية تستخدم خوارزميات التعلم الآلي كأدوات قيمة لمساعدة الأطباء في تصنيف أورام الدماغ، بهدف تبسيط عملية التصنيف وتقليل الاعتماد على
أطباء الأشعة [6، 7، 13، 14]. في مجال تشخيص أورام الدماغ، بذل الباحثون جهودًا كبيرة لتقليل المراضة والوفيات المرتبطة بها [11]. تقليديًا، أثبت الكشف اليدوي عن أورام الدماغ من قبل أطباء الأشعة أنه عبء بسبب الصور العديدة المعنية. أصبحت أنظمة التشخيص المدعومة بالكمبيوتر (CADx) أدوات مفيدة للتغلب على هذه الصعوبة من خلال أتمتة وتبسيط الإجراء التشخيصي [15]. أظهرت أنظمة CADx المعتمدة على التعلم العميق معدلات نجاح ملحوظة في تحليل الصور الطبية، وتشخيص السرطان، بما في ذلك أورام الدماغ وأنواع السرطان الأخرى [16-21]. لا تساعد هذه الأنظمة فقط في اكتشاف الأورام ومراقبتها، ولكنها تساعد أيضًا الأطباء في اتخاذ قرارات بشأن خيارات العلاج المناسبة، مما يحسن في النهاية رعاية المرضى [22-24].
في تطبيقات CAD، تقدم خوارزميات التعلم العميق بديلاً أكثر دقة وكفاءة لتقنيات التعلم الآلي التقليدية، التي تعتمد في الغالب على الميزات التي تم إنشاؤها يدويًا [7]. تتطلب أساليب التعلم الآلي التقليدية هندسة الميزات من قبل خبراء المجال ويمكن أن تكون مستهلكة للوقت، خاصة مع مجموعات البيانات الكبيرة. أظهرت الشبكات العصبية التلافيفية (CNNs) نتائج رائعة في معالجة الصور الطبية، بما في ذلك تحديد أنواع مختلفة من أورام الدماغ [22،25-27]. تستخلص الشبكات العصبية التلافيفية تلقائيًا الخصائص ذات الصلة من الصور، مما يلغي الحاجة إلى هندسة الميزات يدويًا [28-30]. أثبتت الشبكات العصبية التلافيفية نجاحها في استخراج معلومات مفيدة من الصور الطبية، مما يؤدي إلى تصنيف دقيق وفعال دون الحاجة إلى ميزات تم إنشاؤها يدويًا [31].
علاوة على ذلك، أظهرت المحولات البصرية، وهي بنية مميزة عن الشبكات العصبية التلافيفية، نتائج مشجعة عبر مجالات مختلفة، بما في ذلك الأمراض المتعلقة بأورام الدماغ [32-34]. تستخدم المحولات البصرية آلية الانتباه لتسجيل الاعتماديات والعلاقات البعيدة بين قطع الصورة، مما يمكنها من نمذجة الأنماط البصرية المعقدة بشكل فعال. لقد أظهرت هذه البنية كفاءة استثنائية في التطبيقات المتعلقة بمعالجة اللغة الطبيعية، وتلقت مؤخرًا اهتمامًا في تطبيقات رؤية الكمبيوتر [35، 36]. بالنظر إلى تصنيف أورام الدماغ، أظهرت المحولات البصرية القدرة على تسجيل كل من الخصائص العالمية والمحلية للصورة، مما يسمح بتحليل أكثر شمولاً ودقة. إن قدرتها على الحصول على تمثيلات مهمة مباشرة من البيانات غير المعالجة تجعلها بديلاً جذابًا لتحليل الصور الطبية، مما يوفر تقدمًا محتملاً في تشخيص أورام الدماغ [12]. يحمل المزيد من الاستكشاف والتقييم لقدرات المحولات البصرية في هذا المجال وعدًا كبيرًا لتحسين دقة وفعالية أنظمة تصنيف أورام الدماغ.
لقد ساهمت تقنيات التعلم العميق بشكل كبير في مجال تشخيص أورام الدماغ، مع تقدم ملحوظ في اكتشاف الأورام وتصنيفها، وتخطيط العلاج
[37]. ومع ذلك، لا يزال هناك حاجة إلى تحسين مستمر من حيث الدقة والكفاءة والوصول في تشخيص وإدارة أورام الدماغ. تحمل الأبحاث والابتكارات المستمرة وعدًا بإحداث ثورة في هذا المجال من خلال تقديم تقنيات وأدوات أكثر فعالية لتشخيص أورام الدماغ، مما يؤدي في النهاية إلى تحسين النتائج للمرضى. لقد كانت فعالية طرق التعلم العميق في تشخيص أنواع مختلفة من السرطان دافعًا للباحثين في هذا المجال [38].
تركز العديد من الأوراق البحثية في الأدبيات العلمية على تشخيص أورام الدماغ. عند تحليل المراجعات والاستطلاعات، يتضح أن التعلم العميق قد أدى إلى عدة نتائج ملحوظة في مجال تشخيص أورام الدماغ [6، 22، 39]. تشير الدراسات إلى أن التعلم العميق قد تطور ليصبح طريقة رائدة لها آثار كبيرة ومفيدة على تشخيص أورام الدماغ. يعد التعلم العميق حليفًا حاسمًا في الصناعة الطبية حيث أن تعقيد أورام الدماغ يتطلب تشخيصًا دقيقًا وسريعًا. يمكن لهذه النماذج استخراج أنماط وميزات معقدة تشير إلى وجود الورم وخصائصه بشكل مستقل على مجموعات بيانات طبية كبيرة، مثل التصوير بالرنين المغناطيسي. توفر هذه القدرة تقسيمًا دقيقًا للورم من أجل تحديد أكثر دقة للورم وتخطيط علاج أكثر كفاءة. يسهل التعلم العميق أيضًا تصنيف أنواع الأورام والتمييز بين الأورام الحميدة والخبيثة، وكلاهما ضروري لاستراتيجيات العلاج الفردية. إن قدرة التعلم العميق على التعامل مع كميات هائلة من البيانات بسرعة ودقة مذهلة لديها القدرة على زيادة فعالية التشخيص، وتسريع قرارات العلاج، وفي النهاية تحسين نتائج المرضى. ومع ذلك، لضمان دمج هذه الأدوات الذكية بشكل سلس في الممارسة السريرية، من الضروري أن يعمل خبراء الذكاء الاصطناعي والمهنيون الطبيون معًا عن كثب من أجل غرس الثقة وقابلية التفسير، مما يضمن استخدام التعلم العميق كنظام دعم قرار قوي بدلاً من أن يكون بديلاً عن الخبرة الطبية.
يقدم تصنيف أورام الدماغ باستخدام طرق قائمة على التعلم العميق تحديات، بما في ذلك محدودية توفر البيانات المعلّمة، وتباين الملاحظات بين الأطباء في التشخيص، والتكيف الزائد، والحاجة إلى قابلية التفسير [40]. تتطلب ندرة البيانات المعلّمة جمع مجموعات بيانات متنوعة ومعلّمة بشكل جيد لتحسين أداء النموذج. يتطلب معالجة تباين الملاحظات بين الأطباء إنشاء توافق بين الخبراء. تساعد تقنيات مثل التنظيم، وزيادة البيانات، والتحقق المتبادل في التخفيف من التكيف الزائد. علاوة على ذلك، فإن تطوير طرق قابلة للتفسير، مثل خرائط الانتباه أو خرائط الأهمية، يساعد في فهم الأسباب وراء توقعات التعلم العميق، مما يعزز الثقة والقبول في المجتمع الطبي. من خلال معالجة هذه التحديات، يمكن أن تكون نماذج التعلم العميق أكثر موثوقية وفعالية في تصنيف أورام الدماغ، مما يؤدي إلى تحسين رعاية المرضى ودقة التشخيص.
تقدم هذه الدراسة نهجًا جديدًا لمعالجة التحديات في تشخيص أورام الدماغ، مع التأكيد على أهمية الكشف المبكر للعلاج الناجح. من خلال تقديم بنية Swin Transformer، تستفيد الدراسة من نجاحها في مهام الرؤية وتكيفها لاكتشاف أورام الدماغ، بهدف توفير تشخيصات سريعة ودقيقة بمساعدة أنظمة CAD القائمة على التعلم العميق.
  • قمنا بتطوير نموذج من خلال توسيع بنية Swin بناءً على نموذج Swin-Base لمجموعة من صور الرنين المغناطيسي للدماغ من 4 فئات. يوفر هذا النموذج الموسع دقة كشف محسّنة مع عدد أقل من المعلمات في نفس الوقت وهو أقل عمقًا من نماذج Swin السابقة.
  • يحسن النموذج المقترح Swin Transformer من خلال تقديم وحدة الانتباه الذاتي الهجينة ذات النوافذ المتداخلة (HSW-MSA)، مما يمكّن من معالجة أفضل لمناطق الرنين المغناطيسي للدماغ المتداخلة. يسمح هذا التحسين للنموذج بالتقاط التفاصيل الدقيقة والاعتماديات بعيدة المدى بشكل أكثر فعالية، مما يؤدي إلى تحسين الدقة في اكتشاف أورام الدماغ وتقليل النتائج السلبية الكاذبة.
  • علاوة على ذلك، تستبدل الورقة متعددة الطبقات (MLP) في Swin Transformer بـ MLP قائم على المتبقي (ResMLP). تؤدي هذه التغييرات المعمارية إلى دقة أعلى، وتدريب أسرع، وكفاءة محسّنة في المعلمات. تساهم قدرة ResMLP على استخراج وتمثيل الميزات بشكل أكثر كفاءة في الأداء الاستثنائي لنموذج Proposed-Swin على مجموعة بيانات الرنين المغناطيسي للدماغ.
  • تظهر التقييمات الشاملة دقة استثنائية قدرها التي حققها نموذج Proposed-Swin، متجاوزة الأبحاث الحالية ونماذج التعلم العميق. تسلط هذه الفعالية الملحوظة الضوء على إمكاناتها للتطبيق العملي في البيئات الواقعية لتشخيص أورام الدماغ بدقة.
  • بالإضافة إلى ذلك، أظهرنا فعالية نماذج المحولات البصرية الحالية والمحبوبة ونماذج CNN باستخدام مجموعات بيانات الرنين المغناطيسي المتاحة علنًا لتقديم مقارنة شاملة.
تم تحسين تصميم الدراسة لفهم أفضل. يتم تقديم تقييم شامل للأدبيات في القسم الثاني، ويتم تسليط الضوء على التقنية البسيطة للتحقق البسيط في الثالث. تغطي النتائج والمناقشات من التجربة في الجزء الرابع. أخيرًا، لمساعدة القارئ على فهم مساهمات الدراسة، يقدم الخاتمة ملخصًا موجزًا لها.
تم إحراز تقدم مثير للإعجاب من قبل خوارزميات التعلم العميق في تشخيص مجموعة متنوعة من الأورام بدقة، مما أدى إلى تحسينات كبيرة في مجال التصوير الطبي. أظهرت أساليب التعلم العميق نتائج مشجعة، خاصة عند استخدامها لتحليل وتشخيص صور الرنين المغناطيسي لأورام الدماغ. أظهرت هذه الأساليب مستويات عالية من الدقة في تحديد وتصنيف أورام الدماغ بدقة، مما قد يؤدي إلى تحسين رعاية المرضى واستراتيجيات العلاج. لقد أثار نجاح التعلم العميق في هذا المجال مزيدًا من التحقيق والدراسة بهدف تحسين قدرات هذه الخوارزميات وتعظيم إمكاناتها لاكتشاف سرطانات الدماغ. فيما يلي ملخص لعدة أبحاث تم إجراؤها ونشرها في الأدبيات حول اكتشاف أورام الدماغ.
اقترح كومار وآخرون نموذج شبكة عميقة يستخدم ResNet50 مع تقنيات التجميع من أجل التغلب على مخاوف تلاشي التدرج والتكيف الزائد. يتم تقييم فعالية النموذج باستخدام دراسات محاكاة على مجموعة بيانات الرنين المغناطيسي العامة مع ثلاثة أنواع مختلفة من الأورام [41]. قدم تالوكدر وآخرون [13] طريقة تعلم عميقة متطورة لتصنيف الأورام بدقة باستخدام التعلم الانتقالي. تتضمن الطريقة المقترحة معالجة مسبقة شاملة، وإعادة بناء أطر التعلم الانتقالي، وضبطها. تم استخدام وتقييم تقنيات التعلم الانتقالي المختلفة على 3064 صورة في مجموعة بيانات الرنين المغناطيسي لأورام الدماغ من Figshare. تتضمن الإطار المقترح من رحمن وآخرون [42] ثلاثة تجارب تصنف الأورام السحائية، والأورام الدبقية، وأورام الغدة النخامية باستخدام عدة هياكل CNN. يتم استخدام تقنيات التعلم الانتقالي على شرائح الرنين المغناطيسي من مجموعة بيانات أورام الدماغ التي تم تنزيلها من Figshare. يتم تحقيق زيادة في حجم مجموعة البيانات، وتقليل خطر التكيف الزائد، وتحسين التعميم من خلال زيادة البيانات. تم تحقيق أفضل دقة في التصنيف والكشف، تصل إلى ، بواسطة بنية VGG16 المعدلة.
تتطلب الطريقة المقترحة من شريف وآخرون [43] تحسين نموذج Densenet201 المعدل وتطبيق التعلم الانتقالي على البيانات غير المتوازنة. يتم استرداد ميزات النموذج المدرب من طبقة التجميع المتوسطة، التي تحتوي على معلومات مفيدة حول كل نوع من الأورام. ولكن من أجل تحسين أداء النموذج للتصنيف الدقيق، يتم دمج استراتيجيتين لاختيار الميزات. لتشخيص أورام الدماغ الدبقية كأورام منخفضة الدرجة أو عالية الدرجة باستخدام تسلسل الرنين المغناطيسي، قدم مزوغي وآخرون [44] بنية CNN متعددة المقاييس ثلاثية الأبعاد تلقائية وفعالة. تستخدم التصميم طبقة تلافيف ثلاثية الأبعاد مع مرشحات صغيرة لدمج المعلومات السياقية المفيدة بكفاءة مع تقليل الأوزان. النموذج التصنيفي المقترح من
أمين وآخرون [26] يحتوي على سبع طبقات، بما في ذلك طبقة SoftMax، وثلاث طبقات تلافيفية، وثلاث طبقات تنشيط ReLU. يتم تقسيم صورة الرنين المغناطيسي إلى عدة قطع، ويتم إعطاء قيمة البكسل المركزي لكل قطعة لشبكة CNN العميقة. يتم تمكين تقسيم الصورة بواسطة DNN، بناءً على هذه البكسلات المركزية، يتم تعيين التسميات.
اقترح أمين وآخرون [45] تقنية لإزالة الضوضاء وتعزيز الشرائح المدخلة باستخدام فلتر وينر مع عدة نطاقات موجية. تستخدم تقنية تجميع الحقول المحتملة (PF) لعزل مجموعات بكسل الورم المختلفة. بالإضافة إلى ذلك، تُستخدم صور الرنين المغناطيسي T2، والعتبة العالمية، وتقنيات الشكل الرياضي لتحديد موقع الورم. لغرض تصنيف وتشخيص أورام الدماغ باستخدام بيانات الرنين المغناطيسي، قدم تاندي وآخرون [46] خمسة مجموعات بيانات متعددة الفئات ذات صلة سريرية بأعداد مختلفة من الفئات. بالمقارنة مع ستة أساليب تصنيف تعلم آلي موجودة، تستخدم هذه الطريقة التعلم الانتقالي باستخدام شبكة عصبية تلافيفية (CNN). على مجموعات بيانات متعددة من صور الرنين المغناطيسي، تم استخدام نموذج CNN عميق تم تدريبه مسبقًا كمميز في شبكة خصومة (GAN). يساعد التدريب المسبق في استخراج ميزات قوية ويعلم الطبقات التلافيفية في الخوارزمية بنية صور الرنين المغناطيسي. ثم يتم إعادة تدريب النموذج العميق بالكامل كمصنف لتمييز بين فئات الورم بمجرد تغيير الطبقات المتصلة بالكامل [47].
لتصنيف سرطانات الدماغ في بيانات الرنين المغناطيسي، طور تابATABائي وآخرون [48] نموذجًا هجينًا يدمج شبكة CNN مع وحدة انتباه. من خلال أخذ المتغيرات المحلية والعالمية في الاعتبار، طوروا تقنية دمج متقاطعة لدمج الفروع، مما يعزز دقة التصنيف. يمكن تحديد الأنواع المختلفة من أورام الدماغ بدقة بواسطة هذه البنية الهجينة. قدم مهنتكش وآخرون [33] نموذج ResNet محسن باستخدام نهج تطوري متقدم. تعمل هذه الطريقة على تحسين بنية نموذج ResNet العميق وبارامتراته بشكل تلقائي دون الحاجة إلى متخصصين بشريين أو تصميم يدوي للبنية، مما يجعلها مناسبة لتصنيف أورام الدماغ. كما يقدم البحث طريقة تحسين محسنة تتضمن أفكارًا من استراتيجية التطور التفاضلي وعوامل متعددة السكان. تم تقديم تقنية تعلم عميق تعتمد على Dolphin-SCA من قبل كومار وآخرون [49]، حيث تعتبر معالجة صور الرنين المغناطيسي الخام هي الخطوة الأولى في الإجراء، والتي يتم تقسيمها بعد ذلك باستخدام خوارزمية محسنة. ثم يتم تنفيذ استخراج الميزات باستخدام ميزات إحصائية وميزات LDP للطاقة.
تم اقتراح نهج آلي للتفريق بين أورام الدماغ الخبيثة وغير السرطانية بواسطة أمين وآخرون [50]. تستخدم التقنية مجموعة متنوعة من الأساليب لتقسيم الآفات المحتملة قبل اختيار السمات المستندة إلى الشكل والملمس والشدة لكل آفة. ثم، لمقارنة دقة النموذج المقترح، يتم تطبيق
مصنف SVM. اقترح سواتي وآخرون [51] نموذج CNN عميق تم تدريبه مسبقًا، ويتم استخدام نهج ضبط دقيق كتلة بكتلة يعتمد على التعلم الانتقالي. يتم استخدام مجموعة بيانات مرجعية للرنين المغناطيسي لتقييم فعالية الاستراتيجية. نتيجة لتجنب الميزات اليدوية، وعدم الحاجة إلى معالجة مسبقة، وتحقيق دقة متوسطة قدرها ، فإن الطريقة أكثر عمومية بشكل ملحوظ. تم تقديم طريقة تعتمد على CNN لتصنيف أورام الدماغ متعددة الدرجات بواسطة سجاد وآخرون [52]. أولاً، يتم تقسيم مناطق الورم من صور الرنين المغناطيسي باستخدام أساليب التعلم العميق. ثانيًا، يتم استخدام كمية كبيرة من تعزيز البيانات لتدريب النظام بشكل فعال، مما يعالج مشكلة نقص البيانات في تصنيف أورام الدماغ متعددة الدرجات من الرنين المغناطيسي. أخيرًا، يتم استخدام البيانات المضافة لتحسين نموذج CNN المدرب مسبقًا لتصنيف دقيق لدرجة ورم الدماغ. طور ديباك وأمير [23] مشكلة تصنيف من 3 فئات تضمهم. يستخدم نظام التصنيف المقترح التعلم الانتقالي باستخدام GoogLeNet. يتم تصنيف الميزات المجمعة بعد ذلك باستخدام نماذج مصنفات متكاملة ومختبرة.
لتحسين دقة وفعالية التشخيصات المستندة إلى بيانات الرنين المغناطيسي، من الواضح من ملخصات الأوراق البحثية أن هناك اهتمامًا متزايدًا في استكشاف الشبكات العصبية العميقة لدراسات أورام الدماغ. تم معالجة التحديات مثل تلاشي التدرج، والتكيف الزائد، والبيانات غير المتوازنة، وتباين البيانات بفعالية باستخدام استراتيجيات متنوعة. يعد تعديل النماذج المعروفة مثل ResNet وVGG16 وDensenet201 لتصنيف أورام الدماغ من خلال التعلم الانتقالي يحقق باستمرار دقة عالية. تم تحقيق زيادة في أحجام مجموعات البيانات، وتحسين التعميم، والتخفيف من مخاوف التكيف الزائد من خلال تطبيق تقنيات تعزيز البيانات. بالإضافة إلى ذلك، تركز بعض الدراسات على هياكل CNN ثلاثية الأبعاد لاستخراج كل من المعلومات السياقية المحلية والعالمية من بيانات الرنين المغناطيسي الحجمية، مما يؤدي إلى تصنيف أكثر دقة لدرجة الورم. تم تحسين جودة الصورة واستخراج الميزات من خلال استخدام تقنيات المعالجة المسبقة مثل إزالة الضوضاء وزيادة التباين. تم دمج طرق اختيار الميزات المختلفة، بما في ذلك تحويلات الموجات، والأنماط الثنائية المحلية، والميزات الإحصائية، لتعزيز فعالية نماذج التعلم العميق.
بشكل عام، تؤكد الأبحاث الموضحة في هذه المنشورات على التحسين المستمر في تصنيف أورام الدماغ، مع التركيز على أساليب التعلم العميق وتحسين هياكل النماذج. تحمل هذه الأساليب المبتكرة وعدًا كبيرًا لتحسين حساسية ودقة تشخيص أورام الدماغ، مما يعود بالنفع في النهاية على المرضى والمهنيين الطبيين. لتحديد قابلية تطبيق هذه الأساليب المقترحة وقابليتها للتعميم، قد تكون هناك حاجة إلى مزيد من الأبحاث السريرية والتحقق.

3 المواد والأساليب

في هذه الدراسة، نقدم نموذج تعلم عميق متقدم لتشخيص أورام الدماغ. تتكون مجموعة البيانات المستخدمة للتدريب والتقييم من مجموعة واسعة من مسحات الرنين المغناطيسي للدماغ، وهي مجموعة بيانات شاملة تضم ثلاث مجموعات بيانات متاحة للجمهور تم جمعها بعناية من مختلف المعاهد الطبية. يستخدم نظام التعلم العميق لدينا بنية محول رؤية متقدمة، والتي تميزت في المهام التي تتطلب فهم الصورة. تكشف الطريقة المقترحة بفعالية وتقوم بتصنيف أورام الدماغ بدقة عالية وحساسية من خلال دمج قوة محول الرؤية مع استراتيجيات تعزيز البيانات المتقدمة والتعلم الانتقالي. لضمان القابلية للتكرار وتشجيع المزيد من البحث في الأمراض المتعلقة بالسرطان الأخرى، يتم وصف طرق التنفيذ والتدريب بالكامل.

3.1 مجموعة البيانات

نظرًا لقدرتها على التعلم والتعميم على بيانات ضخمة، تزداد شعبية نماذج التعلم العميق. ومع ذلك، فإن حجم وجودة مجموعة بيانات التدريب تؤثر بشكل كبير على فعالية هذه النماذج التي تتطلب الكثير من البيانات. تعتبر مجموعة البيانات حاسمة في التعلم العميق لأنها توفر الأمثلة اللازمة للنماذج للتعرف على الأنماط والتعميم بفعالية. يمكن للنموذج استخراج ميزات ذات صلة
وإجراء توقعات دقيقة على البيانات غير المرصودة مع مجموعة بيانات كبيرة وتمثيلية. إن ضمان جودة البيانات العالية أمر ضروري لمعالجة التحيزات، وتقليل مشاكل التكيف الزائد أو الناقص، وتحسين الأداء عبر مجموعات فرعية مختلفة. من أجل التصنيف الذاتي لصور الرنين المغناطيسي منخفضة الدرجة، توجد عدة مجموعات بيانات متاحة للجمهور، بما في ذلك Figshare [53] وSARTAJ [54] وBr35H [55]، والتي تُعرف بأنها مجموعات بيانات صغيرة الحجم. ومع ذلك، في هذه الدراسة، استخدمنا مجموعة بيانات الرنين المغناطيسي للدماغ المتاحة للجمهور والتي تم مشاركتها على Kaggle [56]، والتي تجمع وتدمج هذه المجموعات الثلاث لإظهار القدرات الحقيقية لنماذج التعلم العميق في هذه المهمة. يتم توضيح صور عينة من هذه المجموعة التي تصور كل من حالات الورم والحالات الصحية في الشكل 1.
تم تقسيم مجموعة بيانات تصوير الرنين المغناطيسي للدماغ المستخدمة في هذه الدراسة إلى أربع فئات رئيسية من الأورام: بدون ورم، غليوما، منينجيوما، وورم الغدة النخامية. تشمل الأورام الخبيثة في الدماغ الغليومات، التي تميل إلى التطور بشكل عدواني. من ناحية أخرى، يعتبر ورم المنينجيوما ورمًا حميدًا ينمو في السحايا المحيطة بالدماغ ويمكن أن يظل غير مكتشف لفترة طويلة دون أن يظهر أي أعراض واضحة. أما أورام الغدة النخامية فهي نوع محدد من الأورام التي تتطور في الغدة النخامية ويمكن أن تسبب اضطرابات هرمونية. تعتبر فئة “بدون ورم”، التي تمثل الظروف الصحية للدماغ، نقطة مرجعية هامة أيضًا لمجموعات التحكم. باستخدام هذه المجموعة الواسعة والمتنوعة من البيانات، قمنا بتقييم قدرة نموذج التعلم العميق على تصنيف كل نوع من الأورام بشكل صحيح واستكشاف إمكانيته كأداة موثوقة لتشخيص أورام الدماغ.
الشكل 1 تصوير بصري للعينات في مجموعة بيانات تصوير الرنين المغناطيسي للدماغ عبر فئات عدم وجود ورم، والورم الدبقي، والورم السحائي، والغدة النخامية

3.2 محول الرؤية

لقد كان للذكاء الاصطناعي تأثير كبير على التعلم العميق، لا سيما في تطبيقات رؤية الكمبيوتر مثل التعرف على الوجه، وتحليل الصور الطبية، والقيادة الذاتية. كانت الشبكات العصبية التلافيفية، التي تم تصميمها خصيصًا للتعامل مع المدخلات البصرية، أساسية في هذه الثورة. تسمح تقنيات التصفية التلافيفية والتجميع للشبكات العصبية التلافيفية بتقليل الأبعاد والتعرف على مجموعة متنوعة من خصائص الصور. ومع ذلك، فإن الشبكات العصبية التلافيفية ليست خالية من القيود، خاصة عندما يتعلق الأمر بفهم العلاقات داخل الصورة وجمع المعلومات العالمية. وقد أنشأ الباحثون محولات الرؤية كحل لهذه المشكلة. تستفيد محولات الرؤية من أساليب الانتباه الذاتي لالتقاط العلاقات بعيدة المدى في البيانات الخام، مما يسمح لها بتجاوز الشبكات العصبية التلافيفية في السيناريوهات البصرية.
على عكس الشبكات العصبية التلافيفية، تستخدم محولات الرؤية تضمينات موضعية والانتباه الذاتي بدلاً من الطبقات التلافيفية. إنها قادرة على تسجيل كل من المعلومات المحلية والعالمية في المشاهد البصرية بفضل هذه التقنية الخاصة، مما يجعلها مناسبة للمهام التي تتطلب فهماً شاملاً للصور. أظهرت الأبحاث الحديثة الأداء العالي الذي يمكن أن تحققه محولات الرؤية في مجموعة من الاستخدامات للمهام البصرية. إن إنشاء محولات الرؤية هو تطور رئيسي في مجالات رؤية الكمبيوتر والتعلم العميق. بينما تظل الشبكات العصبية التلافيفية هي الهيكل المفضل للعديد من استخدامات الذكاء الاصطناعي، تقدم محولات الرؤية استراتيجية إضافية فعالة للغاية في الحصول على البيانات العالمية والمحلية.

3.3 محول سوين

تم تطوير نموذج Swin Transformer بواسطة Microsoft Research في عام 2021، وهو نموذج ذكاء اصطناعي مثير للإعجاب مصمم لرؤية الكمبيوتر. يعتمد على نموذج Transformer ويقدم مفهومين رئيسيين – خرائط الميزات الهرمية واهتمام النوافذ المنقولة. تساعد هذه التطورات في التعامل بكفاءة مع بيانات الصور على نطاق واسع، مما يجعله أداة واعدة لمهام رؤية الكمبيوتر المعقدة. يستخدم Swin Transformer خرائط الميزات الهرمية لتمثيل مستويات مختلفة من الميزات في الصور بشكل فعال، مما يؤدي إلى فهم شامل للسياق وتحسين فهم البيانات المدخلة. يوسع آلية اهتمام النوافذ المنقولة مجال التفاعل لكل كتلة، مما يمكّن النموذج من التقاط الميزات ذات المقاييس المتغيرة بشكل أكثر فعالية.
يتضمن هيكل Swin Transformer المكون من أربع مراحل تقسيم الصورة المدخلة إلى طبقات من الباتشات، والتي تتم معالجتها من خلال كتل Transformer في العمود الفقري. يتم إرسال الباتشات الناتجة إلى كتلة الانتقال، مع الحفاظ على نفس عدد الباتشات. في المرحلة الثانية، تُستخدم طبقات دمج الباتشات لإنشاء نظام هرمي من خلال أخذ عينات فرعية وتقليل عدد الرموز. الجيران رقع
تُجمع الميزات للحصول على متجه ميزات بأبعاد 4C، والذي يتم تحويله باستخدام طبقات خطية مع الحفاظ على دقة . يتم تكرار عملية دمج التصحيحات وتحويل الميزات مرتين في المراحل اللاحقة، مما يؤدي إلى دقة إخراج تبلغ و ، على التوالي. بشكل عام، تتيح هذه البنية لـ Swin Transformer معالجة بيانات الصور بفعالية والتقاط المعلومات السياقية على مقاييس مختلفة، مما يسهم في أدائه المتفوق في مهام الرؤية المختلفة.
تتكون كتل محول سوان (STBs) الموضحة في الأشكال 2 و3 من وحدتين متتاليتين من الانتباه الذاتي متعدد الرؤوس (MSA): MSA المعتمد على النوافذ (W-MSA) وMSA المعتمد على النوافذ المنقولة (SW-MSA). قبل كل من هذه الوحدات MSA، يتم استخدام طبقة تطبيع الطبقات (LN). بعد ذلك، توجد شبكة عصبية متعددة الطبقات (MLP) ذات طبقتين مع عدم خطية GELU في المنتصف. كل وحدة لها ارتباط مع طبقة LN. في المعادلتين 1 و2، يتمتع MSA بتعقيد حسابي تربيعي بالنسبة لعدد الرموز. تعمل هذه التهيئة على تحسين أداء محول سوان بشكل كبير وتجعلها أكثر كفاءة مقارنة بالمحول القياسي.

حيث يظهر الجزء الأول علاقة تربيعية بالنسبة لرقم الباتش، يُشار إليها بـ بينما الجزء الثاني يظهر اعتمادًا خطيًا عندما تكون قيمة ثابت (عادة ما يتم تعيينه على 7 بشكل افتراضي). يصبح حساب الانتباه الذاتي العالمي مكلفًا بشكل مفرط لقيمة عالية من بينما الانتباه الذاتي القائم على النوافذ قابل للتوسع.
في وحدات STB المتتالية، يتم اعتماد نهج تقسيم النوافذ المنقولة للتبديل بين تكوينين. يستخدم هذا النهج نوافذ متداخلة لإدخال اتصالات عبر النوافذ بينما يحسب النوافذ غير المتداخلة بكفاءة. في الوحدة الأولى، يتم استخدام استراتيجية تقسيم النوافذ العادية، و خريطة المميزات مقسمة إلى نوافذ بحجم . ثم، يوفر الوحدة الثانية تكوين النافذة من خلال نقل النوافذ بواسطة البكسلات من النوافذ المقسمة سابقًا. يتم حساب كتل المحول في المعادلة 3
،
،
،
.
أين و تمثل ميزات الإخراج للكتلة من الوحدة و الوحدة، على التوالي. و SW-MSA تشير إلى متعددة الرؤوس المعتمدة على النوافذ
الشكل 2 الهيكل العام لعمارة المحول المقترح – سوان لتشخيص أورام الدماغ
الشكل 3 الهيكل العام لكتل محول سوان الافتراضية وكتل محول سوان المقترحة
الانتباه الذاتي مع تكوينات تقسيم النوافذ القياسية والمزاحة، على التوالي.
يتبنى محول سوين بنية متخصصة لتعزيز الكفاءة الحسابية مقارنةً بالتقليدية.
نماذج المحولات. تحقق ذلك من خلال استخدام عملية التحويل الدوري بين كتل الرموز المنقولة (STBs). تقسم هذه العملية بكسل خريطة الميزات إلى كتل إقليمية وتقوم بتحويل كل كتلة بشكل دوري إلى الكتلة السابقة.
نتيجة لذلك، يمكن لكل كتلة العمل مع أقنعة مطبقة على قسم من خريطة الميزات. تتيح هذه الطريقة لمحول سوين معالجة كتل أصغر من البيانات بدلاً من خريطة الميزات بأكملها دفعة واحدة، مما يؤدي إلى استخراج ميزات أكثر كفاءة ومنع الأعباء الحسابية في النوافذ المنزلقة.
يستخدم محول سوين آلية الانتباه الذاتي التي تتضمن انحيازًا موضعيًا نسبيًا لالتقاط العلاقات بين المواقع. تتضمن وظيفة الانتباه رسم استعلامات ( )، المفاتيح ( )، والقيم ( ) لإخراج المتجهات. لكل استعلام في في المصفوفة، يتم حساب أوزان الانتباه لأزواج المفتاح-القيمة المقابلة. يتم الحصول على مصفوفة الناتج الناتجة من خلال هذه العملية الحسابية، والتي يتم صياغتها في المعادلة 4.
أين الاستعلام مفتاح وقيمة المصفوفات بحجم ، حيث تمثل d بعد متجهات الاستعلام/المفتاح، و هو عدد الرقع في نافذة. في محول سوان، يتم تعريف المواقع النسبية على طول كل محور ضمن النطاق يتم تمثيل التحيز النسبي المكاني كمصفوفة إزاحة وعناصر المصفوفة يتم الحصول عليها من .
النموذج الأساسي لمحول سوين يُشار إليه باسم سوين-ب. يتمتع سوين-ب بحجم نموذج وتعقيد حسابي Comparable لنموذج ViT-B/DeiT-B. وبالمثل، تم تصميم نماذج سوين-تي وسوين-إس لتكون لها تعقيدات حسابية Comparable لنموذج ResNet-50 (DeiT-S) وResNet-101، على التوالي. يمكن أن تختلف أبعاد نماذج محول سوين اعتمادًا على عوامل مختلفة، بما في ذلك حجم القناة لخريطة الميزات الأولية. حجم الطبقة لكتلة سوان ترانسفورمر، حجم النافذة، وعامل التوسع لطبقة MLP.

3.4 النموذج المقترح

النهج المقترح يهدف إلى تطوير نموذج تصنيف يعتمد على Swin Transformer لصور الرنين المغناطيسي للدماغ. يسعى لتحقيق دقة تصنيف عالية ومعالجة التحديات المتعلقة بالتمييز بين أنواع الآفات المتشابهة وتحديد الأنواع الشائعة بدقة. يقدم النهج المقترح تحسينات مبتكرة على نموذج Swin Transformer لتشخيص أورام الدماغ. يتكون النهج المقترح من أربعة عناصر أساسية لتصنيف أورام الدماغ باستخدام بنية Swin Transformer: توسيع النموذج لتصنيف 4 فئات من أورام الدماغ، دمج وحدة MLP المتبقية، دمج النوافذ المتغيرة الهجينة في آلية الانتباه الذاتي، واستخدام التعلم الانتقالي مع زيادة البيانات. مثل غيره من الهياكل العميقة للتعلم، فإن Swin Transformer
يحتاج إلى تعديل تصميمه ومعاييره لاستيعاب مجموعة متنوعة من أحمال العمل وأحجام مجموعات البيانات. يمكن أن تساعد متغيرات مثل حجم النموذج، وعمق المرحلة، وأبعاد التضمين في تحقيق ذلك. على سبيل المثال، توفر التغييرات الأكبر من Swin Transformer، مثل Swin-Base وSwin-Large، المصممة لمجموعات بيانات مثل ImageNet التي تحتوي على 1000 فئة، سعة محسّنة مناسبة للتعامل مع المهام الأكثر صعوبة ومجموعات البيانات الأكبر. من ناحية أخرى، تنتج نماذج Swin-Small وSwin-Tiny نتائج أكثر فائدة في السيناريوهات التي تحتوي على فئات أقل مع استخدام موارد أقل للمهام الأبسط. يتم توضيح التصميم العام لنموذج Proposed-Swin Transformer لاكتشاف أورام الدماغ في الشكل 2.
في هذا العمل، تم تكوين نموذج Swin-Base مع “أبعاد التضمين=128″، “العمق=(2،2،18،2)”، و”عدد الرؤوس ” تم تغييره إلى “أبعاد التضمين=96″، “العمق=(2، 2، 4، 2)”، و”عدد الرؤوس مما يؤدي إلى نموذج أكثر قابلية للتكيف من حيث الحساب وسرعة التقارب والتكلفة. ومن الجدير بالذكر أن العمق المتزايد في الخطوة الثالثة من التكوين الأولي يتماشى مع النهج الهرمي لمحول سوين ويحاول التقاط المعلومات المعقدة والعالية المستوى. النموذج المقترح (النموذج المقاس)، مع مكوناته المدمجة، يعمل بشكل أكثر فعالية من النماذج الأخرى في سياق تصنيف أورام الدماغ.
من خلال إدخال الاتصالات المتبقية في وحدات MLP، يستفيد النموذج من انتقالات أكثر سلاسة بين الطبقات وتحسين تدفق التدرجات، مما يسهل تدريب نماذج أعمق وتحقيق نتائج متفوقة. علاوة على ذلك، فإن دمج النوافذ المتغيرة الهجينة في وحدات الانتباه الذاتي يمكّن النموذج من معالجة الصور بمقاييس ومواقع مختلفة، مما يؤدي إلى استخراج ميزات شاملة وتمثيلات أكثر قوة. من خلال دمج هذه الأساليب التعليمية، يظهر الأسلوب المقترح وعدًا في إنشاء نموذج تصنيف أكثر شمولاً وقوة لأمراض أورام الدماغ، مما يؤدي في النهاية إلى نتائج أكثر دقة وموثوقية في تشخيص وعلاج أورام الدماغ.

3.4.1 وحدة الانتباه الذاتي الهجين المتعدد

تتكون نماذج Swin من طبقتين مختلفتين من الانتباه الذاتي متعدد الرؤوس، W-MSA و SW-MSA. في النموذج المقترح، تم تقديم كتل محول Swin الهجينة، التي تستخدم نهج النافذة المتغيرة الهجينة. تقسم هذه التقنية الجديدة الصورة المدخلة إلى قطع أصغر وتطبق آليات الانتباه على كل قطعة، مما يلتقط العلاقات بين الميزات في قطع مختلفة ويحافظ على السياق العام. من خلال النظر في العلاقات بين أجزاء مختلفة من الصورة المدخلة، يمكن للشبكة الحفاظ على منظور أوسع. يتضمن نموذج Swin-Tiny، الذي تم تطويره باستخدام كتل المحول الهجينة، وحدة انتباه ذاتي هجينة تجمع بين النوافذ المتغيرة التقليدية.
مع أشكال مستطيلة ممدودة في الاتجاهات الأفقية والعمودية. على عكس كتل المحولات التقليدية، التي تستخدم آليات الانتباه الذاتي المتصلة بالكامل، يسمح هذا الوحدة الهجينة للنموذج بالتقاط المعلومات بشكل مرن من نوافذ بأحجام مختلفة، مما يعالج الاعتماديات بعيدة المدى مع الحفاظ على المعلومات المحلية والتفصيلية. تعزز القدرة على التعامل مع الصور بمقاييس واتجاهات مختلفة من قابلية تطبيق النموذج وتقلل من مشكلات التعميم، مما قد يؤدي إلى تحسين الأداء في مهام تحليل الصور الصعبة مثل اكتشاف أورام الدماغ وصور طبية أخرى. توضح الشكل 3 كتلة المحول النقي Swin جنبًا إلى جنب مع كتل المحولات الهجينة المستخدمة في النموذج المقترح.
تتكون كتل المحول الهجين في الشكل 3 من وحدتين للاهتمام الذاتي. بينما تظل الطبقة الأولى من هذه البنية كما هي في الطبقة الأصلية لمحول سوين، يتم الحصول على طبقة أكثر كفاءة من خلال إضافة الطبقة الهجينة، HSW-MSA، إلى الطبقة الثانوية، طبقة SW-MSA. تجمع طبقة HSW-MSA بين ثلاث عمليات نافذة منزلقة مختلفة لتعزيز تبادل المعلومات البصرية على مقاييس متنوعة. في الجزء الأول، يتم تطبيق وحدة SW-MSA لالتقاط الأنماط المحلية. في الجزء الثاني، يتم تقسيم الصورة المدخلة إلى نوافذ شريطية أفقية ورأسية، مما يمكّن من إنشاء اتصالات بعيدة المدى وسياق أوسع. تعزز هذه الطريقة رؤوس HSW-MSA المتعددة، مما يسهل تبادل المعلومات البصرية الشامل. إنها مفيدة بشكل خاص لتحسين الأداء في تطبيقات معالجة الصور. يتم حساب كتل المحول الهجين من خلال التطبيق المتسلسل لهاتين الوحدتين للاهتمام الذاتي كما هو موضح في المعادلة 5.
، ، ،
،
أين و تمثل ميزات الإخراج للكتلة من وحدة (S) HSW-MSA ووحدة Res-MLP، على التوالي. تشير W-MSA و HSW-MSA إلى الانتباه الذاتي متعدد الرؤوس القائم على النوافذ مع تكوينات تقسيم النوافذ الهجينة المتغيرة، على التوالي.

3.4.2 وحدة الشبكة العصبية المتعددة الطبقات المتبقية (Res-MLP)

تعتبر الشبكات العصبية متعددة الطبقات (MLPs) مكونات أساسية في بنية المحول القياسية [62]. عادةً ما يتضمن المحول كتلتين رئيسيتين: آلية الانتباه الذاتي وكتلة MLP. بينما تلتقط آلية الانتباه الذاتي العلاقات بين الرموز المختلفة (أو الأجزاء في محولات الصور)، تعالج كتلة MLP المعلومات بشكل فردي لكل رمز. في بنية Swin Transformer، الموضحة في الشكل 4، تشبه MLPs تلك الموجودة في هياكل المحولات الأخرى. ومع ذلك، بدلاً من استخدام MLP عادي، قدمنا وحدة MLP متبقية، مستوحاة من بنية ResNet [63] وبنية ResMLP [62]، التي اكتسبت شعبية مؤخرًا. الهيكل المقترح Res-MLP، وهو مكون حاسم في إطار عمل Proposed-Swin Transformer، موضح في الشكل 4.
الشكل 4 هيكل وحدة Res-MLP المقترحة مع وحدة MLP الافتراضية في نموذج محول Swin
يستفيد محول سوين من الاتصالات المتبقية داخل كتل MLP لمعالجة مشكلة تلاشي التدرج، مما يسمح بتدريب مستقر وفعال للهياكل العميقة. تعزز القدرة على تخطي الطبقات غير المفيدة من خلال الاتصالات المتبقية قدرة النموذج على تعلم تمثيلات معقدة والتعامل بفعالية مع المهام الصعبة. علاوة على ذلك، فإن تصميم Res-MLP لا يحسن فقط من القدرة التعبيرية ولكنه يعزز أيضًا من قدرات التعميم. إن قدرة محول سوين على التقاط العلاقات غير الخطية بين الميزات تجعله أكثر تكيفًا مع مجموعات البيانات المتنوعة والمعقدة. توفر الاتصالات المتبقية مرونة للتغيرات في اختيارات المعلمات الفائقة وتكوينات الهيكل، مما يسهل عملية تطوير النموذج ويدعم التجارب الأسرع. أظهرت النتائج التجريبية أنه مع هذه التحسينات، يتقارب محول سوين بشكل أسرع على بيانات أورام الدماغ ويحقق دقة أعلى. كما هو موضح في الشكل 4، من خلال إضافة طبقات متبقية إلى هيكل MLP، تم تحقيق تدريب أكثر فعالية وقدرات تعميم أقوى.

4 النتائج والمناقشات

4.1 تصميم التجربة

تم استخدام جهاز لينكس يعمل بنظام تشغيل أوبونتو 22.04 لهذه الدراسة. تم تطوير وتقييم نماذج الشبكات العصبية العميقة على جهاز كمبيوتر قوي للغاية. كان هذا الكمبيوتر مزودًا بمعالج Intel Core i5 من الجيل الثالث عشر مع بطاقة رسومات NVIDIA RTX 3090 بسعة 24 جيجابايت من ذاكرة GDDR6X، بالإضافة إلى 32 جيجابايت من ذاكرة DDR5 RAM. تم استخدام أحدث إطار عمل PyTorch المستقر مع دعم NVIDIA CUDA للتجارب. في نفس بيئة الحوسبة، تم تدريب كل نموذج واختباره، مما ضمن التناسق من خلال استخدام نفس المعلمات طوال الوقت.

4.2 معالجة البيانات وتعلم النقل

بالنسبة لخوارزميات التعلم العميق، يجب إنتاج الصور الطبية على أساس مناسب. غالبًا ما يتم تقسيم مجموعات البيانات في الأدبيات إلى مجموعات التحقق المتبادل، والتدريب-التحقق، أو مجموعات التدريب-الاختبار. ومع ذلك، فإن القليل من الدراسات تقيم فعليًا الأداء الحقيقي لخوارزميات التعلم العميق باستخدام تقسيم البيانات المناسب لمجموعات التدريب والتحقق والاختبار. لاستخدام أفضل تقنية لفصل البيانات لتقييم أداء نماذج التعلم العميق، قمنا بتقسيم مجموعة البيانات في دراستنا إلى ثلاث مجموعات فرعية منفصلة: التدريب، والتحقق، والاختبار. لتقييم فعالية النموذج وتقليل فرصة الإفراط في التكيف، فإن هذا التقسيم مطلوب.
استخدمنا مجموعة بيانات من كاجل كانت متاحة في مجموعات تدريب واختبار منفصلة وكانت مفتوحة للجمهور [56]. لضمان مقارنة عادلة لنموذجنا المقترح
مع الآخرين، استخدمنا من بيانات التدريب لعملية التدريب الفعلية واحتفظ بالباقي لأغراض التحقق. تم ترك مجموعة بيانات الاختبار دون تغيير من أجل مقارنة عادلة. تعرض الجدول 1 توزيع البيانات لكل فئة في مجموعة بيانات كاجل.
الجدول 1 يلخص توزيع مجموعة بيانات التصوير بالرنين المغناطيسي، مصنفا العينات إلى فئات ورم الغليوما، ورم السحايا، ورم الغدة النخامية، وفئة بدون ورم. تم تقسيم مجموعة البيانات إلى ثلاث مجموعات: التدريب، والتحقق، والاختبار. تتكون مجموعة البيانات من 7023 عينة إجمالا، حيث تحتوي فئة بدون ورم على أكبر عدد من العينات (2000) وفئة ورم الغليوما على أقل عدد (1621). تعتبر هذه المجموعة ضرورية لتدريب وتقييم نماذج التصنيف.
في هذه الدراسة، قمنا بتحسين قوة وعمومية نماذجنا باستخدام تقنيات زيادة البيانات [52]. تضمنت زيادة البيانات تطبيق تحولات مختلفة على الصور الأصلية، مما أدى إلى إنشاء أمثلة اصطناعية جديدة وتقليل خطر الإفراط في التكيف. قمنا بشكل خاص بتطبيق القص، والانعكاس، والدوران، والنسخ واللصق، والقص، والتغيير في الحجم أثناء تدريب النموذج، مما أدى إلى توسيع مجموعة البيانات وتعزيز قدرتها على التعميم على عينات غير مرئية. كانت هذه الزيادة تهدف إلى تحسين دقة وموثوقية نماذجنا في تحديد أورام الدماغ، مما يساهم في فحص وتشخيص أكثر كفاءة. كما تم استخدام الأوزان المدربة مسبقًا لمجموعة بيانات ImageNet في التعلم الانتقالي بواسطة [64-66]، مستفيدين من المعرفة والتمثيلات التي تعلمها النموذج من ملايين الصور المتنوعة. أدى ضبط النموذج المدرب مسبقًا باستخدام مجموعة بيانات تصوير الدماغ بالرنين المغناطيسي الخاصة بنا إلى تحسين أدائه، مما وفر وقت التدريب، وسرعة التقارب، والموارد الحاسوبية.

4.3 مقاييس الأداء

تعتبر مقاييس الأداء ذات أهمية قصوى عند تقييم فعالية وعمومية خوارزميات التعلم العميق. إنها تعمل كأدوات أساسية في هذا المجال، مما يمكّن من تقييم النماذج خلال التدريب وعلى مجموعات بيانات التحقق والاختبار. من خلال استخدام هذه المقاييس، يمكن تحديد مشكلات الإفراط في التكيف، وقياس تأثيرات تعديلات المعلمات، والحصول على فهم شامل للأداء العام للنموذج. الدقة، والدقة الإيجابية، والاسترجاع هي من بين مقاييس الأداء المستخدمة على نطاق واسع في التعلم العميق، كما هو موضح في الجدول 2.
الجدول 1 توزيع مجموعة بيانات تصوير الرنين المغناطيسي للدماغ حسب الفئة
اسم الفصل قطار التحقق اختبار إجمالي
ورم الدبقيات ١٠٥٧ 264 ٣٠٠ 1,621
ورم السحايا 1072 267 306 1,645
ورم الغدة النخامية 1166 291 ٣٠٠ 1,757
لا ورم 1276 ٣١٩ ٤٠٥ ٢٬٠٠٠
إجمالي 4571 1141 1,311 ٧٠٢٣
تشير الإيجابية الكاذبة (FP) إلى التقديرات الإيجابية غير الدقيقة، بينما تشير السلبية الكاذبة (FN) إلى التنبؤات السلبية غير الدقيقة، وتشير السلبية الحقيقية (TN) إلى التنبؤات السلبية الدقيقة. تشير الإيجابية الحقيقية (TP) إلى التنبؤات الإيجابية الدقيقة. يتم تقييم فعالية نماذج التصنيف الثنائي باستخدام هذه المقاييس. تحسب الدقة النسبة المئوية للتنبؤات الإيجابية الدقيقة إلى جميع التنبؤات الإيجابية، بينما تقيم الدقة نسبة التنبؤات الصحيحة إلى إجمالي التنبؤات. من ناحية أخرى، يقيس الاسترجاع نسبة الحالات الإيجابية التي تم التنبؤ بها بشكل صحيح إلى جميع الأمثلة الإيجابية الفعلية. من خلال تحديد المتوسط التوافقي لها، يحقق معدل F1 توازنًا بين الدقة والاسترجاع، مما يضمن تقييمًا شاملاً لأداء النموذج. كل مقياس يتبع الصيغة الرياضية التالية.

4.4 إجراء التدريب

يمكن تحسين أداء نماذج التعلم العميق من خلال استخدام مجموعة متنوعة من الطرق والإعدادات أثناء تدريبها. تعتبر زيادة البيانات والتعلم الانتقالي تقنيتين فعالتين. علاوة على ذلك، تلعب عدة معلمات فرعية دورًا كبيرًا في تشكيل أداء النموذج. تشمل هذه المعلمات حجم الإدخال، نوع المحسن، حجم الدفعة، معدل التعلم، وتكرار الزيادة. يمكن أن يؤثر ضبط معدل التعلم على فعالية النموذج، بينما يعمل تآكل الوزن كإجراء وقائي ضد الإفراط في التكيف من خلال فرض عقوبات على الأوزان الكبيرة داخل دالة الخسارة. يؤدي ضبط فترات الإحماء وزيادة معدل التعلم تدريجيًا إلى زيادة معدل التعلم خلال الفترات الأولية لتجنب التباعد أثناء التدريب.
في بحثنا، اعتمدنا نهجًا متعدد الجوانب لضمان إمكانية إعادة الإنتاج وتعزيز الأداء لكل من النموذج المقترح ونماذج التعلم العميق الأخرى. شملت التقنيات المنفذة جوانب حاسمة مثل ضبط المعلمات الفائقة، ومعالجة البيانات، والتعلم الانتقالي، وزيادة البيانات. تم ضبط المعلمات الفائقة الأساسية، بما في ذلك حجم الإدخال، ومعدلات التعلم، والزخم، وتآكل الوزن، واختيار المحسن، بشكل متسق عبر جميع النماذج، باستخدام القيم الافتراضية لتأسيس قاعدة موحدة لتدريب النموذج. كان الهدف من تطبيق هذه المعلمات بدقة هو تعزيز الموثوقية وقابلية المقارنة في نتائجنا التجريبية. بالإضافة إلى ذلك،
الجدول 2 مقاييس الأداء
مقياس صيغة
دقة
دقة
استدعاء
درجة F1
تم ضبط المعلمات الفائقة المتعلقة بالبيانات مثل المقياس، النسبة، احتمال الخلط، وغيرها بعناية، مما أدخل تنوعًا وحساسية لمجموعات البيانات المتنوعة، وبالتالي عزز المتانة العامة لنماذجنا.
في سياق مختلف، شمل نهجنا تخصيص قيم محددة للمعلمات الفائقة لكل نموذج لضمان ظروف تدريب مثالية. على سبيل المثال، تم تحديد حجم الإدخال، الذي يحدد أبعاد صور التدريب، عند (أو بالنسبة لنماذج معينة مثل SwinV2). تم تعيين معدل التعلم، وهو معلمة محورية تؤثر على وتيرة تعلم النموذج، عند 0.00001. تم تكوين معلمات أساسية مثل معدل التعلم الابتدائي (lr_base)، وانخفاض دورة معدل التعلم (lr_cycle_decay)، ومتوسط الحركة الأسية (EMA) لانخفاض الأوزان (model_ema_decay) بدقة. تم تعيين lr_base بشكل خاص عند 0.1 كنقطة انطلاق فعالة لمعدلات التعلم. تم ضبط lr_cycle_decay، الذي يشير إلى العامل الذي ينخفض به معدل التعلم بعد كل دورة تدريب، عند 0.5 لتحقيق توازن في التقارب والاستقرار. تم اختيار model_ema_decay، الذي يحكم سرعة تحديث الأوزان باستخدام طريقة EMA، عند 0.9998 لتعديل تدريجي ومتسق.
تم تضمين اعتبارات عملية مثل الزخم (0.9) في مُحسّن الانحدار العشوائي (SGD)، وتآكل الوزن (2.0e-05) للسيطرة على الإفراط في التكيف، وحقب التسخين (5) لزيادة معدل التعلم بشكل تدريجي في بداية التدريب، ومعدل التعلم أثناء التسخين (1.0e-05). تم اختيار هذه القيم للمعلمات الفائقة بعناية لتحقيق توازن دقيق بين كفاءة تدريب النموذج، والاستقرار، والصلابة. لعبت مجموعة هذه التكوينات الدقيقة للمعلمات الفائقة دورًا محوريًا في تحقيق أداء نموذجي مثالي مع الحفاظ على الاتساق عبر التجارب. بالإضافة إلى ذلك، تم ضبط معلمات فائقة محددة تتعلق بالبيانات، مثل المقياس، والنسبة، واحتمالية Mixup، وغيرها، لضمان حساسية النموذج لخصائص البيانات المختلفة.
في نماذج التعلم العميق، تؤثر مشكلات الإفراط في التكيف وعدم التكيف سلبًا على قدرة النموذج على التعميم ويمكن أن تؤدي إلى تحيزات غير صحيحة. يحدث الإفراط في التكيف عندما يتكيف النموذج بشكل مفرط مع بيانات التدريب ويفشل في التعميم على بيانات الاختبار، بينما ينشأ عدم التكيف عندما يتكيف النموذج بشكل غير كافٍ مع بيانات التدريب، مما يؤدي إلى أداء ضعيف على بيانات الاختبار. لمعالجة كلا المشكلتين بشكل جماعي، قمنا بتقسيم مجموعة البيانات الخاصة بنا إلى ثلاثة أجزاء: التدريب، والتحقق، والاختبار. قمنا بتقييم أداء تعميم النموذج فقط على بيانات الاختبار. تم مراقبة عملية التدريب لمدة 50 دورة، وإذا لم يحدث تحسن كبير خلال هذه الفترة، تم إيقاف التدريب. تسهم هذه الطريقة في منع الإفراط في التكيف وتجنب التدريب غير الضروري للنموذج. بالإضافة إلى ذلك، نظرًا للحدود المحدودة لبيانات التصوير بالرنين المغناطيسي، حاولنا تعزيز أداء النموذج باستخدام تقنيات التعلم الانتقالي وزيادة البيانات. أثبتت هذه الاستراتيجيات أنها مفيدة في تحقيق تعميم أفضل مع مجموعة بيانات محدودة.
علاوة على ذلك، لمواجهة هذه القضايا، تم تطبيق تقنيات التنظيم مثل إسقاط الوحدات وتنظيم الأوزان على جميع النماذج خلال تدريب كل من النماذج الأساسية ونموذج Proposed-Swin. يقلل إسقاط الوحدات من الإفراط في التكيف عن طريق تعطيل الخلايا العصبية بشكل عشوائي أثناء التدريب، بينما يساعد تنظيم الأوزان في منع الأوزان الكبيرة بشكل مفرط. تم تعيين معلمات افتراضية لجميع النماذج لتحقيق توازن بين تعقيد النموذج وحجم مجموعة البيانات. من ناحية أخرى، يعتبر نقص التكيف عادةً مشكلة تُلاحظ في مجموعات البيانات الكبيرة، لكن هذا ليس هو الحال مع مجموعة بيانات التصوير بالرنين المغناطيسي الخاصة بنا. لمعالجة هذه المشكلة، تم الاستفادة من تعقيد بنية نموذج Proposed-Swin، وHSW-MSA، وتحسينات ResMLP. تعزز هذه المكونات قدرة النموذج على التقاط الأنماط المعقدة في بيانات التصوير بالرنين المغناطيسي، مما يحسن دقة التشخيص.

4.5 النتائج

تُعرض النتائج التجريبية للطريقة المقترحة في هذا الجزء مع نتائج عدة نماذج CNN شائعة وأحدث نماذج المحولات البصرية المستخدمة على نطاق واسع والتي يمكن العثور عليها في الأدبيات. تم إجراء التقييمات التجريبية لكل نموذج حصريًا على بيانات غير مرئية، وتحديدًا بيانات الاختبار التي تم تخصيصها مسبقًا. يُعتبر اختبار النماذج على بيانات غير مرئية الخيار الأمثل لأنه يُظهر قدرات التعلم العميق على التعميم وقابليتها للتطبيق في السيناريوهات الواقعية. تقدم الجدول 3 النتائج التجريبية على مجموعة بيانات تصوير الدماغ بالرنين المغناطيسي لنموذج Proposed-Swin مقارنةً بأحدث نماذج CNN والنماذج المعتمدة على المحولات البصرية.
بالنظر إلى الجدول 3، يكشف تحليل مقارن للنتائج التجريبية على مجموعة بيانات تصوير الرنين المغناطيسي للدماغ أن النماذج تظهر أداءً استثنائيًا في تصنيف صور الرنين المغناطيسي للدماغ بدقة. جميع النماذج تظهر دقة تشخيصية تتجاوز وعندما يتم استبعاد نموذج ResNet 50، يصبح من الواضح أن جميع النماذج الأخرى تحقق دقة تشخيصية تفوق بكثير بالنظر إلى الجدول 3، يبرز نموذج Proposed-Swin من خلال تحقيق أعلى أداء، حيث يصل إلى الدقة ودرجة F1، مما يظهر تفوقًا كبيرًا على النماذج الأخرى.
نموذج Proposed-Swin يعزز أدائه في مهام تصنيف أورام الدماغ من خلال دمج هياكل HSW-MSA و ResMLP في معماريته. يوفر HSW-MSA هيكلًا يحسن آليات الانتباه ويفهم بشكل أفضل العلاقات البعيدة بين الميزات. وهذا يسمح للنموذج بالتكيف بشكل أفضل مع تعقيد الكائنات وتعلم ميزات أكثر عمومية. بالإضافة إلى ذلك، فإن هيكل ResMLP، عند استخدامه بدلاً من هياكل MLP التقليدية، يركز بشكل فعال على كل من الميزات الكبيرة والصغيرة في صور الرنين المغناطيسي، مما يساعد النموذج على تعلم ميزات أكثر شمولاً. تلعب هاتان الهيكلتان دورًا حاسمًا في تمكين نموذج ProposedSwin من تحقيق دقة عالية، ودقة، واسترجاع، و
الجدول 3 النتائج التجريبية على مجموعة بيانات تصوير الرنين المغناطيسي للدماغ
نموذج دقة دقة استدعاء درجة F1
VGG16 [67] 0.9924 0.9921 0.9917 0.9917
ResNet50 [63] 0.9893 0.9887 0.9886 0.9886
EfficientNetv2-متوسط [68] 0.9924 0.9919 0.9917 0.9917
MobileNetv3-صغير [69] 0.9939 0.9936 0.9934 0.9935
MobileViT-صغير [70] 0.9947 0.9942 0.9942 0.9942
MobileViTv2-150 [71] 0.9954 0.9953 0.9950 0.9952
ماكس فيت-بيس [72] 0.9931 0.9926 0.9927 0.9927
ديت-بيس [73] 0.9947 0.9943 0.9942 0.9942
DeiT3-Base [74] 0.9924 0.9919 0.9919 0.9919
في تي-بيس-باتش32 [57] 0.9939 0.9934 0.9934 0.9934
بي تي-بيس [75] 0.9954 0.9951 0.9950 0.9950
كونفيت-بيس [76] 0.9931 0.9928 0.9925 0.9926
توأم-سفط-قاعدة [77] 0.9924 0.9918 0.9924 0.9921
بي تي-بيس [78] 0.9947 0.9943 0.9942 0.9942
سوين-تايني [60] 0.9931 0.9927 0.9925 0.9926
سوينف2-ويندوز16-صغير [61] 0.9939 0.9935 0.9933 0.9934
GcViT-Base [79] 0.9947 0.9944 0.9942 0.9942
سوين المقترح 0.9992 0.9992 0.9992 0.9992
قيم F1-score. نتيجة لذلك، يتفوق النموذج في مهام تصنيف أورام الدماغ، مقدماً حلاً أكثر فعالية مقارنة بالهياكل الأخرى.
من بين النماذج الأخرى، تأتي نماذج BeiT-Base و MobileViTv2-150 بعد Proposed-Swin من حيث أعلى أداء. يحقق نموذج BeiT-Base دقة تبلغ 0.9954 ودرجة F1 تبلغ 0.9950، بينما يظهر نموذج MobileViTv2-150 أداءً عاليًا مماثلًا بدقة تبلغ 0.9954 ودرجة F1 تبلغ 0.9952. من ناحية أخرى، تشمل النماذج ذات الأداء الأدنى ResNet50 و VGG16، مع قيم الدقة ودرجة F1 كما يلي: ResNet50 (الدقة: 0.9893، درجة F1: 0.9886) و VGG16 (الدقة: 0.9924، درجة F1: 0.9917). تؤكد هذه التقييمات على الأداء المتميز لـ Proposed-Swin، وحلها الأكثر فعالية مقارنة بالنماذج الأخرى.
تحليل المقارنة يبرز أيضًا أهمية النظر في الدقة والاسترجاع ودرجة F1 جنبًا إلى جنب مع الدقة لتقييم أداء النموذج بشكل شامل. أظهرت نماذج مثل “MobileNetv3-Small” و”MobileViT-Small” قيم دقة واسترجاع ملحوظة، مما يدل على كفاءتها في التعرف بشكل صحيح على العينات الإيجابية مع تقليل الإيجابيات الكاذبة والسلبيات الكاذبة. مثل هذه الدرجات العالية من F1، إلى جانب الدقة التنافسية، تشير إلى نماذج قوية ذات أداء متوازن. بالإضافة إلى ذلك، من الضروري مراعاة الكفاءة الحاسوبية لكل نموذج، خاصة عند نشر التطبيقات في البيئات الواقعية. نماذج مثل Proposed-Swin بأدائها الاستثنائي وكفاءتها الحاسوبية، تحمل وعدًا لـ
التنفيذ العملي في أنظمة التصوير الطبي والتشخيص. من بين النماذج التي تم تقييمها، يبرز نموذج Proposed-Swin بنتائج استثنائية، حيث حقق مقياسًا ممتازًا قدره 0.9992. وهذا يدل على أن نموذج Proposed-Swin فعال للغاية في تصنيف صور الرنين المغناطيسي للدماغ بدقة، مما يجعله مرشحًا واعدًا للتطبيقات السريرية في العالم الحقيقي.
عند مقارنة نموذج Proposed-Swin مع النماذج الأخرى، يمكننا أن نلاحظ أنه يتفوق على معظمها في جميع المقاييس. على سبيل المثال، حققت النماذج المستخدمة على نطاق واسع مثل VGG16 و ResNet50 دقة تبلغ 0.9924 و 0.9893 على التوالي، وهي أقل قليلاً من نموذج Proposed-Swin. وبالمثل، أظهرت نماذج أخرى متطورة، مثل EfficientNetv2-Medium و MobileNetv3-Small و DeiT3-Base، أداءً تنافسياً لكنها لا تزال أقل أداءً من نموذج Proposed-Swin من حيث جميع المقاييس.
علاوة على ذلك، فإن النتائج الممتازة لنموذج Proposed-Swin تتجاوز حتى النماذج الأكثر تعقيدًا مثل ViT-Base-Patch32 وPiT-Base وGcViT-Base، مما يشير إلى أن تصميم النموذج وهندسته مناسبين تمامًا لمهمة تصنيف صور الرنين المغناطيسي للدماغ. من المهم الإشارة إلى أن الأداء الاستثنائي لنموذج Proposed-Swin يأتي مع ميزة إضافية تتمثل في كونه فعالًا من حيث الحوسبة وخفيف الوزن. هذه الخاصية تجعلها قابلة للتطبيق بشكل كبير في البيئات ذات الموارد المحدودة، مثل التطبيقات المحمولة أو الأجهزة الطرفية، دون التضحية بدقة التنبؤ. يتم عرض مصفوفة الالتباس لعدد من نماذج المحولات المعتمدة على Swin بالإضافة إلى عدد من نماذج التعلم العميق المتطورة الأخرى مع Proposed-Swin في الشكل 5.
بالنظر إلى الشكل 5، أظهرت جميع النماذج دقة عالية في تشخيص أورام الدماغ. عرضت نماذج Proposed-Swin وSwinTiny وDeiT3-Base وGcViT-Base نتائج متسقة ومثيرة للإعجاب، مع حد أدنى من الأخطاء في التصنيف. كما أدت نماذج ResNet50 وConViT-Base أداءً جيدًا، على الرغم من أن معدلات الأخطاء في التصنيف كانت أعلى قليلاً. أظهرت نماذج MobileViT-Small وBeiT-Base أداءً قويًا ولكنها أظهرت بعض الأخطاء أكثر مقارنة بالنماذج ذات الأداء الأعلى. كان أداء نموذج Proposed-Swin في تصنيف صور أورام الدماغ إلى أربع فئات متميزًا، حيث كانت جميع التوقعات تقريبًا دقيقة. تم ملاحظة خطأ واحد فقط في التصنيف، حيث تم توقع عينة من فئة الغدة النخامية بشكل خاطئ على أنها ورم سحائي.
عند الملاحظة، تظهر فئة عدم وجود ورم كأكثر الفئات التي تم تشخيصها بنجاح عبر جميع النماذج، حيث تمتلك الأورام السحائية قيم FP أعلى وقيم FN متغيرة بين النماذج. بينما يظهر ResNet50 أقل أداء محدد للفئة، فإن النموذج المقترح يظهر باستمرار أعلى أداء عبر جميع الفئات. توفر الشكل 6 مقارنة مفصلة لجميع النماذج بناءً على مقياس الدقة في رسم بياني خطي واحد. كما هو موضح في الشكل 6، فإن النموذج الأكثر نجاحًا هو النموذج المقترح.
(المقترح-Swin)، يليه MobileViTv2-150، BeiTBase، MobileViT-Small، DeiT-Base، حيث أن ResNet50 هو أقل نموذج أداءً. ومن الجدير بالذكر أن النموذج الحالي، DeiT3، يظهر أداءً أقل مقارنة بسلفه، نموذج DeiT. وهذا يبرز التباين في الأداء الذي يمكن أن يظهره كل نموذج على مجموعات البيانات الطبية.

4.6 كفاءة نموذج سوين المقترح وبدائل محول سوين

في هذا القسم، نبدأ بمقارنة شاملة بين النموذج المقترح وهندسة Swin Transformer، وكلاهما يحمل أهمية كبيرة في مجال التعلم العميق. تشمل تحليلاتنا مجموعة واسعة من متغيرات النموذج، بدءًا من النماذج المدمجة Tiny وSmall إلى النماذج الأكبر حجمًا Base وLarge. علاوة على ذلك، نتعمق في استكشاف SwinV2 Transformer، وهو إصدار متطور من Swin Transformer يقدم أحجام نوافذ متغيرة، مما يتيح فرصًا جديدة للتعديل والتحسين. لضمان تقييم دقيق، نستخدم بيانات الاختبار من مجموعة بيانات تصوير الدماغ بالرنين المغناطيسي. تعرض الجدول 4 مقارنة مفصلة بين هذه النماذج.
تحليل الجدول 4 يكشف أن جميع نماذج المحولات المعتمدة على Swin تحقق معدل دقة يزيد عن في تشخيص صور الرنين المغناطيسي للدماغ بشكل صحيح. من الجدير بالذكر أن نموذج Proposed-Swin يتفوق على النماذج الصغيرة الحالية من حيث الدقة ومقاييس أخرى، بينما يظهر سرعة تقارب وعدد معلمات مماثلة. يحقق نموذج Proposed-Swin دقة أكبر بكثير تبلغ 0.9992 مقارنة بنموذج Swin-Tiny، الذي يحقق دقة تبلغ 0.9931، مما يظهر ميزة كبيرة.
يؤدي نموذج Proposed-Swin أداءً أفضل حتى عند مقارنته بنموذج Swin-Small. دقة نموذج Swin-Small هي 0.9939، بينما دقة نموذج Proposed-Swin هي 0.9992. وبالمثل، لا يزال نموذج Proposed-Swin يتفوق عند مقارنته بنموذج Swin-Base. دقة نموذج Swin-Base هي 0.9954، بينما دقة نموذج Proposed-Swin هي 0.9992. بالإضافة إلى ذلك، لا يزال نموذج Proposed-Swin يتفوق على نموذج Swin-Large. دقة نموذج Swin-Large هي 0.9947، بينما دقة نموذج Proposed-Swin هي 0.9992. كما أن نموذج Proposed-Swin يظهر بانتظام دقة محسنة وأداءً متفوقًا عبر مجموعة متنوعة من المعايير عند مقارنته بالنماذج الحالية المعتمدة على Swinv2. بالنسبة للأجهزة ذات المتطلبات الحاسوبية والذاكرة الأقل، فإنه خيار متفوق لأنه يمكن أن يحقق أداءً أكبر مع إعدادات أقل. يوفر الشكل 7 مقارنة مفصلة بين نماذج Swinv1 وSwinv2 في رسم بياني خطي واحد استنادًا إلى مقياس الدقة. كما هو موضح في الشكل 7، فإن النموذج الأكثر نجاحًا هو النموذج المقترح (Proposed-Swin)، يليه نماذج Swinv2-Window8-Tiny وSwinv2-Window8-Small وSwin-Base، بينما
الشكل 5 مقارنة مصفوفات الالتباس: نموذج سوان المقترح مقابل بعض نماذج التعلم العميق
نموذج سوين ذو الأداء الأدنى هو نموذج سوين-تايني بدقة 699.31. بشكل عام، تظهر نماذج سوين دقة عالية في تشخيص أورام الدماغ، تتراوح من 99.31 إلى .
عند تقييم التعقيد، يركز نموذج Proposed-Swin على كتلة HSW-MSA ونموذج Swin-Base المقاس. يحتوي نموذج Swin-Base على 88 مليون معلمة، بينما النسخة المقاسة، التي تحتوي على 24 مليون معلمة، أخف حتى من نموذج Swin-Tiny (29 مليون). تزيد طبقة HSW-MSA، التي تؤثر بشكل رئيسي على المعلمات، من معلمات النموذج بـ عند استبدال كتلة SW-MSA. ومع ذلك، فإن التدرج العام ووحدة ResMLP تجعل النموذج أخف وزنًا من Swin-Tiny وأقل تعقيدًا في عدد الطبقات. تبرز طبقة HSWMSA من خلال دمج ثلاثة أنواع بسلاسة.
نافذة متغيرة. إنها تخصص بشكل استراتيجي الاهتمام بالنوافذ التقليدية المنقولة ويوزع المتبقي إلى نوافذ ذات خطوط أفقية ورأسية. يسمح هذا التقسيم المتعمد للنموذج بالتقاط العلاقات المحلية والعالمية، بالإضافة إلى الاعتماد على الاتجاهات في كلا المحورين الأفقي والرأسي. يعزز ذلك تمثيل الميزات، مما يظهر تحسين الأداء في معالجة الصور الطبية، لا سيما في استكشاف ميزات أورام الدماغ وتحقيق دقة تشخيص أفضل.

4.7 المقارنة مع الأساليب المتطورة

تقدم التطورات السريعة في تقنيات رؤية الكمبيوتر والتصوير الطبي فرصًا جديدة وهامة
الشكل 6 تحليل مقارن للدقة عبر جميع نماذج التعلم العميق المستخدمة في التجارب
الجدول 4 النتائج التجريبية للنماذج المعتمدة على Swin
نموذج دقة دقة استدعاء درجة F1
سوين-تايني 0.9931 0.9927 0.9925 0.9926
سوين-سمول 0.9939 0.9935 0.9933 0.9934
سوين-بيس 0.9954 0.9951 0.9950 0.9950
سوين-لارج 0.9947 0.9944 0.9942 0.9942
سوينف2-ويندوز8-صغير 0.9962 0.9961 0.9959 0.9960
سوينف2-ويندوز16-صغير 0.9939 0.9935 0.9933 0.9934
سوينف2-ويندوز8-صغير 0.9954 0.9952 0.995 0.9951
سوينف2-نافذة16-صغير 0.9947 0.9942 0.9942 0.9942
سوينف2-ويندوز8-أساسي 0.9947 0.9944 0.9942 0.9942
سوينف2-ويندوز16-أساسي 0.9947 0.9943 0.9942 0.9942
سوينف2-نافذة12-كبير 0.9954 0.9953 0.995 0.9952
سوين المقترح 0.9992 0.9992 0.9992 0.9992
للتصنيف الفعال لصور الرنين المغناطيسي للدماغ. في هذا السياق، لتقييم أداء النموذج المقترح، أجرينا مقارنة شاملة مع الأساليب المتطورة الحالية. على وجه التحديد، ركزنا على بعض الأساليب التي تظهر نجاحًا متفوقًا في تشخيص أورام الدماغ، كما هو موضح في الجدول 5، مما يبرز الأداء المتفوق لنموذجنا المقترح مقارنةً بأساليب أخرى متطورة.
يوفر الجدول 5 مقارنة شاملة للنماذج المتطورة في مجال صور الرنين المغناطيسي للدماغ
التصنيف، مع التركيز بشكل خاص على المهمة الحيوية لتشخيص أورام الدماغ. وسط مجموعة من المنهجيات المقدمة من دراسات مختلفة، يبرز نموذج Proposed-Swin (ViT) كقمة الأداء في اكتشاف الشذوذات الدماغية. إن تقارب تقنيات الرؤية الحاسوبية المتقدمة والتصوير الطبي واضح بشكل لافت في الدقة الاستثنائية لنموذج Proposed-Swin (ViT) على مجموعة بيانات كاجل، حيث وصلت إلى نسبة مثيرة للإعجاب . لا يبرز هذا الإنجاز فقط إمكانيات بنية Swin-Based (ViT) في رفع دقة تحديد أورام الدماغ، بل يضعها أيضًا كمتصدرة في هذا المجال.
بينما نتنقل عبر المشهد المعقد لتصنيف الرنين المغناطيسي للدماغ، تكشف مجموعة النماذج المتنوعة في الجدول 5 عن رؤى دقيقة. تظهر الأساليب المعتمدة على الشبكات العصبية التلافيفية، كما هو موضح من قبل Talukder وآخرون، 2023 [13] وTabatabaei وآخرون، 2023 [48] على مجموعة بيانات Figshare بدقة و ، على التوالي، فعالية ملحوظة. على مجموعة بيانات كاجل، جنبًا إلى جنب مع Proposed-Swin (ViT)، تظهر نماذج أخرى معتمدة على الشبكات العصبية التلافيفية مثل رحمن وإسلام [82]، موئزين أوغلو وآخرون [83]، وعلي وآخرون [84] أيضًا معدلات دقة عالية. ومع ذلك، من الضروري تسليط الضوء على أن Proposed-Swin (ViT) لا يتجاوز فقط هذه النماذج المعتمدة على الشبكات العصبية التلافيفية، بل يتفوق كنقطة مرجعية للأداء المتفوق في تصنيف أورام الدماغ. بالإضافة إلى ذلك، تسلط التحليل المقارن الضوء على التنوع في أداء النماذج وتدل على تطور المنهجيات في تعزيز دقة التشخيصات المعتمدة على الرنين المغناطيسي للدماغ.
الشكل 7 التحليل المقارن للدقة عبر نموذج محول Swin

4.8 القيود والاتجاهات المستقبلية

تقدم هذه الدراسة نهج تعلم عميق متقدم يعتمد على محول Swin، ولكنها تأتي مع بعض القيود. من بين هذه القيود، الأكثر أهمية هو تقييم أداء نموذج Proposed-Swin على مجموعة بيانات الرنين المغناطيسي للدماغ المكونة من مجموعة من مجموعات البيانات القليلة بسبب ندرة مجموعات البيانات المتاحة للجمهور. بالإضافة إلى ذلك، تنبع القيود من الحجم النسبي الصغير لمجموعة البيانات لنماذج التعلم العميق. يعد تقييم قابلية تعميم النموذج عبر مجموعات بيانات مختلفة، وخصائص التصوير، وسكان المرضى، وأنواع الأورام أمرًا صعبًا. بشكل أساسي، هناك حاجة إلى مزيد من البحث لاستكشاف فعالية النموذج في مجموعات بيانات وإعدادات سريرية مختلفة.
القيود الثانية هي نقص الدراسات السريرية الشاملة التي تتحقق من القابلية السريرية الحقيقية لنجاح النموذج. يحتاج أداء النموذج إلى التحقق من خلال دراسات تشمل مؤسسات الرعاية الصحية المختلفة، مع الأخذ في الاعتبار التباين السريري، وعوامل محددة للمرضى، ووجود أنواع نادرة من الأورام. علاوة على ذلك، هناك قيود تتعلق بميول نماذج التعلم العميق لعدم وجود قابلية للتفسير. فهم عملية اتخاذ القرار للنموذج أمر حاسم لكسب ثقة المتخصصين في الرعاية الصحية.
من بين الاتجاهات المستقبلية لهذه الدراسة، الأول والأهم هو التحقق متعدد المراكز على مجموعات بيانات مختلفة
المأخوذة من مؤسسات الرعاية الصحية المختلفة لتعزيز أداء نموذج Swin وقابلية تعميمه. يعد هذا التحقق متعدد المراكز أمرًا حيويًا لتقييم أداء النموذج عبر بروتوكولات التصوير المختلفة وخصائص المرضى. بالإضافة إلى ذلك، تهدف الدراسات المخطط لها إلى إظهار أداء النموذج على صور طبية مختلفة. تحسين نموذج Swin للتطبيقات في الوقت الحقيقي هو أيضًا اتجاه مستقبلي مهم. يعد تحسين بنية النموذج واستراتيجيات الاستدلال الفعالة أمرًا أساسيًا لتوفير دعم تشخيصي في الوقت المناسب وفي الموقع للأطباء.

5 الخاتمة

تقدم هذه الدراسة طريقة تعلم عميق رائدة باستخدام محول Swin لتشخيص دقيق لأورام الدماغ. من خلال معالجة التحديات مثل التصوير غير المثالي وأنواع الأورام المتنوعة، قمنا بإدراج HSW-MSA وResMLP. حقق نموذج Proposed-Swin دقة استثنائية على مجموعة بيانات الرنين المغناطيسي للدماغ، متجاوزًا النماذج السابقة. يثبت محول Swin، المعزز بـ HSW-MSA وResMLP، فعاليته في تحسين الدقة والكفاءة. عزز التعلم الانتقالي وزيادة البيانات من قوة النموذج. لم يؤد استبدال ResMLP بـ MLP التقليدي إلى تحسين الدقة فحسب، بل أيضًا إلى تحسين سرعة التدريب وكفاءة المعلمات.
الجدول 5 النموذج المقترح مقابل الأساليب المتطورة (تتكون مجموعة بيانات كاجل من figshare، مجموعة بيانات SARTAJ، Br 35 H)
المؤلف والسنة مجموعة البيانات الطريقة نسبة الدقة %
Talukder وآخرون، 2023 [13] Figshare معتمد على CNN 99.68
Tabatabaei وآخرون، 2023 [48] Figshare CNN + انتباه 99.30
ديباك وأمير، 2023 [80] Figshare CNN+SVM 95.60
زلفقار وآخرون، 2023 [32] Figshare معتمد على CNN 98.86
غسمي وآخرون، 2020 [47] Figshare CNN+GAN 95.60
مهنتكش وآخرون، 2023 [33] Figshare معتمد على CNN 98.69
سواتي وآخرون، 2019 [51] Figshare معتمد على CNN 94.82
سجاد وآخرون، 2019 [52] Figshare معتمد على CNN 90.67
رحمن وآخرون، 2020 [42] Figshare معتمد على CNN 98.69
كومار وآخرون، 2021 [41] Figshare معتمد على CNN 97.48
مزوقي وآخرون، 2020 [44] BraTS معتمد على CNN 96.49
شريف وآخرون، 2022 [43] BraTS معتمد على CNN 98.80
أوزكاراكا وآخرون، 2023 [81] كاجل معتمد على CNN 96.00
رحمن وإسلام، 2023 [82] كاجل معتمد على CNN 98.12
موئزين أوغلو وآخرون، 2023 [83] كاجل معتمد على CNN 98.10
علي وآخرون، 2023 [84] كاجل معتمد على CNN 95.70
Proposed-Swin كاجل معتمد على Swin (ViT) 99.92
تكمن أهمية نتائجنا في الدعم المحتمل الذي يمكن أن تقدمه طريقتنا للأطباء في إجراء تشخيصات دقيقة وفي الوقت المناسب، مما يؤدي في النهاية إلى تحسين نتائج المرضى وتقليل المخاطر المرتبطة بأورام الدماغ. يمثل النهج التشخيصي المبتكر الذي تم تقديمه في هذه الدراسة، والذي يتضمن HSW-MSA وResMLP في محول Swin، مساهمة قيمة في مجال التصوير الطبي وتطبيقات التعلم العميق. بينما نتقدم، سيكون من الضروري إجراء مزيد من التحقق على مجموعات بيانات متنوعة وإعدادات سريرية حقيقية لتأسيس قابلية تعميم وموثوقية نموذج Proposed-Swin. ومع ذلك، تضع دراستنا أساسًا للبحوث والتطورات المستقبلية في الاستفادة من تقنيات التعلم العميق لتعزيز القدرات التشخيصية في التصوير العصبي، بهدف تحسين رعاية المرضى ونتائجهم في مجال تشخيص أورام الدماغ.
مساهمات المؤلفين إيشاك باكال مسؤول وحده عن جميع جوانب هذا العمل، بما في ذلك التصور، وتصميم المنهجية، وجمع البيانات، والتحليل، وإنشاء الوسائل البصرية. كتب النص بالكامل، وراجع وحرر بدقة من أجل الوضوح، ومنح الموافقة النهائية على نشره.
التمويل تم توفير تمويل الوصول المفتوح من قبل مجلس البحث العلمي والتكنولوجي في تركيا (TÜBİTAK). يصرح المؤلفون بعدم تلقي أي دعم مالي لهذه المخطوطة.
توفر البيانات يمكن الوصول إلى مجموعة بيانات الرنين المغناطيسي في كاجل “https://www. kaggle.com/datasets/masoudnickparvar/brain-tumor-mri-dataset“.

الإعلانات

تعارض المصالح لم يتم الإعلان عن أي مصالح متنافسة.
الموافقة الأخلاقية لم تكن هناك حاجة للحصول على موافقة أخلاقية لهذا العمل لأنه لم يتضمن أشخاصًا بشريين، أو حيوانات، أو بيانات حساسة تتطلب مراجعة أخلاقية.
الموافقة على المشاركة لم تكن هناك حاجة للحصول على موافقة رسمية للمشاركة في هذا العمل لأنه لم يتضمن تفاعلات مع أشخاص بشريين أو جمع معلومات شخصية حساسة.
الموافقة على النشر لم تستخدم هذه الدراسة بيانات فردية لأشخاص.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسب 4.0 الدولية، التي تسمح بالاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج بأي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح ما إذا كانت هناك تغييرات قد تم إجراؤها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمواد. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فسيتعين عليك الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارة http://creativecommons.org/licenses/by/4.0/.

References

  1. Bondy ML, Scheurer ME, Malmer B et al (2008) Brain tumor epidemiology: consensus from the Brain Tumor Epidemiology Consortium. Cancer 113:1953-1968
  2. Herholz K, Langen KJ, Schiepers C, Mountz JM (2012) Brain tumors. Semin Nucl Med 42:356-370. https://doi.org/10.1053/j. semnuclmed.2012.06.001
  3. Ostrom QT, Barnholtz-Sloan JS (2011) Current state of our knowledge on brain tumor epidemiology. Curr Neurol Neurosci Rep 11:329-335. https://doi.org/10.1007/s11910-011-0189-8
  4. Miller KD, Ostrom QT, Kruchko C et al (2021) Brain and other central nervous system tumor statistics, 2021. CA Cancer J Clin 71:381-406. https://doi.org/10.3322/caac. 21693
  5. Charles NA, Holland EC, Gilbertson R et al (2011) The brain tumor microenvironment. Glia 59:1169-1180. https://doi.org/10. 1002/glia. 21136
  6. Liu Z, Tong L, Chen L et al (2023) Deep learning based brain tumor segmentation: a survey. Complex Intell Syst 9:1001-1026. https://doi.org/10.1007/s40747-022-00815-5
  7. Jyothi P, Singh AR (2023) Deep learning models and traditional automated techniques for brain tumor segmentation in MRI: a review. Artif Intell Rev 56:2923-2969. https://doi.org/10.1007/ s10462-022-10245-x
  8. Solanki S, Singh UP, Chouhan SS, Jain S (2023) Brain tumor detection and classification using intelligence techniques: an overview. IEEE Access 11:12870-12886
  9. Villanueva-Meyer JE, Mabray MC, Cha S (2017) Current clinical brain tumor imaging. Clin Neurosurg 81:397-415. https://doi.org/ 10.1093/neuros/nyx103
  10. Ellingson BM, Wen PY, Van Den Bent MJ, Cloughesy TF (2014) Pros and cons of current brain tumor imaging. Neuro Oncol 16:vii2-vii11. https://doi.org/10.1093/neuonc/nou224
  11. Xie Y, Zaccagna F, Rundo L et al (2022) Convolutional neural network techniques for brain tumor classification (from 2015 to 2022): review, challenges, and future perspectives. Diagnostics 12:1850
  12. Ali S, Li J, Pei Y et al (2022) A comprehensive survey on brain tumor diagnosis using deep learning and emerging hybrid techniques with multi-modal MR image. Arch Comput Methods Eng 29:4871-4896
  13. Talukder MA, Islam MM, Uddin MA et al (2023) An efficient deep learning model to categorize brain tumor using reconstruction and fine-tuning. Expert Syst Appl. https://doi.org/10.1016/j. eswa.2023.120534
  14. Rajeev SK, Pallikonda Rajasekaran M, Vishnuvarthanan G, Arunprasath T (2022) A biologically-inspired hybrid deep learning approach for brain tumor classification from magnetic resonance imaging using improved gabor wavelet transform and Elmann-BiLSTM network. Biomed Signal Process Control. https://doi.org/10.1016/j.bspc.2022.103949
  15. Pacal I, Kılıcarslan S (2023) Deep learning-based approaches for robust classification of cervical cancer. Neural Comput Appl. https://doi.org/10.1007/s00521-023-08757-w
  16. Coşkun D, Karaboğa D, Baştürk A et al (2023) A comparative study of YOLO models and a transformer-based YOLOv5 model for mass detection in mammograms. Turk J Electr Eng Comput Sci 31:1294-1313. https://doi.org/10.55730/13000632.4048
  17. Wang W, Pei Y, Wang SH et al (2023) PSTCNN: explainable COVID-19 diagnosis using PSO-guided self-tuning CNN. Biocell 47:373-384. https://doi.org/10.32604/biocell.2023.025905
  18. Pacal I, Karaboga D (2021) A robust real-time deep learning based automatic polyp detection system. Comput Biol Med. https://doi. org/10.1016/j.compbiomed.2021.104519
  19. Zhang Y-D, Govindaraj VV, Tang C et al (2019) High performance multiple sclerosis classification by data augmentation and AlexNet transfer learning model. J Med Imaging Health Inform 9:2012-2021. https://doi.org/10.1166/JMIHI.2019.2692
  20. Wang W, Zhang X, Wang SH, Zhang YD (2022) COVID-19 diagnosis by WE-SAJ. Syst Sci Control Eng 10:325-335. https://doi. org/10.1080/21642583.2022.2045645
  21. Pacal I (2022) Deep learning approaches for classification of breast cancer in ultrasound (US) images. J Inst Sci Technol. https://doi.org/10.21597/jist. 1183679
  22. Amin J, Sharif M, Haldorai A et al (2022) Brain tumor detection and classification using machine learning: a comprehensive survey. Complex Intell Syst 8:3161-3183. https://doi.org/10.1007/ s40747-021-00563-y
  23. Deepak S, Ameer PM (2019) Brain tumor classification using deep CNN features via transfer learning. Comput Biol Med. https://doi.org/10.1016/j.compbiomed.2019.103345
  24. Wang SH, Govindaraj VV, Górriz JM et al (2021) Covid-19 classification by FGCNet with deep feature fusion from graph convolutional network and convolutional neural network. Inform Fusion 67:208-229. https://doi.org/10.1016/j.inffus.2020.10.004
  25. Chahal PK, Pandey S, Goel S (2020) A survey on brain tumor detection techniques for MR images. Multimed Tools Appl 79:21771-21814. https://doi.org/10.1007/s11042-020-08898-3
  26. Amin J, Sharif M, Yasmin M, Fernandes SL (2018) Big data analysis for brain tumor detection: deep convolutional neural networks. Futur Gener Comput Syst 87:290-297. https://doi.org/10. 1016/j.future.2018.04.065
  27. Esmaeili M, Vettukattil R, Banitalebi H et al (2021) Explainable artificial intelligence for human-machine interaction in brain tumor localization. J Pers Med. https://doi.org/10.3390/jpm11 111213
  28. Zhang Y, Deng L, Zhu H et al (2023) Deep learning in food category recognition. Inform Fusion. https://doi.org/10.1016/j.inffus. 2023.101859
  29. Karaman A, Karaboga D, Pacal I et al (2022) Hyper-parameter optimization of deep learning architectures using artificial bee colony (ABC) algorithm for high performance real-time automatic colorectal cancer (CRC) polyp detection. Appl Intell. https://doi. org/10.1007/s10489-022-04299-1
  30. Pacal I, Karaman A, Karaboga D et al (2022) An efficient realtime colonic polyp detection with YOLO algorithms trained by using negative samples and large datasets. Comput Biol Med. https://doi.org/10.1016/J.COMPBIOMED.2021.105031
  31. Pacal I, Alaftekin M (2023) Türk İşaret Dilinin Sınıflandırılması için Derin Öğrenme Yaklaşımları. Iğdır Üniversitesi Fen Bilimleri Enstitüsü Dergisi 13:760-777. https://doi.org/10.21597/jist. 12234 57
  32. Zulfiqar F, Ijaz Bajwa U, Mehmood Y (2023) Multi-class classification of brain tumor types from MR images using EfficientNets. Biomed Signal Process Control. https://doi.org/10.1016/j.bspc. 2023.104777
  33. Mehnatkesh H, Jalali SMJ, Khosravi A, Nahavandi S (2023) An intelligent driven deep residual learning framework for brain tumor classification using MRI images. Expert Syst Appl. https:// doi.org/10.1016/j.eswa.2022.119087
  34. Shamshad F, Khan S, Zamir SW et al (2023) Transformers in medical imaging: a survey. Med Image Anal 88:102802
  35. Akinyelu AA, Zaccagna F, Grist JT et al (2022) Brain tumor diagnosis using machine learning, convolutional neural networks, capsule neural networks and vision transformers, applied to MRI: a survey. J Imaging 8:205
  36. Celard P, Iglesias EL, Sorribes-Fdez JM et al (2023) A survey on deep learning applied to medical images: from simple artificial neural networks to generative models. Neural Comput Appl 35:2291-2323
  37. Tummala S, Kadry S, Bukhari SAC, Rauf HT (2022) Classification of brain tumor from magnetic resonance imaging using vision transformers ensembling. Curr Oncol 29:7498-7511. https://doi. org/10.3390/curroncol29100590
  38. Karaman A, Pacal I, Basturk A et al (2023) Robust real-time polyp detection system design based on YOLO algorithms by optimizing activation functions and hyper-parameters with artificial bee colony (ABC). Expert Syst Appl. https://doi.org/10.1016/j.eswa. 2023.119741
  39. Nazir M, Shakil S, Khurshid K (2021) Role of deep learning in brain tumor detection and classification (2015 to 2020): a review. Comput Med Imaging Graph. https://doi.org/10.1016/j.compm edimag.2021.101940
  40. Jiang Y, Zhang Y, Lin X et al (2022) SwinBTS: a method for 3D multimodal brain tumor segmentation using Swin transformer. Brain Sci. https://doi.org/10.3390/brainsci12060797
  41. Kumar RL, Kakarla J, Isunuri BV, Singh M (2021) Multi-class brain tumor classification using residual network and global average pooling. Multimed Tools Appl 80:13429-13438. https://doi. org/10.1007/s11042-020-10335-4
  42. Rehman A, Naz S, Razzak MI et al (2020) A deep learning-based framework for automatic brain tumors classification using transfer learning. Circuits Syst Signal Process 39:757-775. https://doi.org/ 10.1007/s00034-019-01246-3
  43. Sharif MI, Khan MA, Alhussein M et al (2022) A decision support system for multimodal brain tumor classification using deep learning. Complex Intell Syst 8:3007-3020. https://doi.org/10. 1007/s40747-021-00321-0
  44. Mzoughi H, Njeh I, Wali A et al (2020) Deep multi-scale 3D convolutional neural network (CNN) for MRI gliomas brain tumor classification. J Digit Imaging 33:903-915. https://doi.org/10. 1007/s10278-020-00347-9
  45. Amin J, Sharif M, Raza M et al (2019) Brain tumor detection using statistical and machine learning method. Comput Methods Programs Biomed 177:69-79. https://doi.org/10.1016/j.cmpb. 2019.05.015
  46. Tandel GS, Balestrieri A, Jujaray T et al (2020) Multiclass magnetic resonance imaging brain tumor classification using artificial intelligence paradigm. Comput Biol Med. https://doi.org/10. 1016/j.compbiomed.2020.103804
  47. Ghassemi N, Shoeibi A, Rouhani M (2020) Deep neural network with generative adversarial networks pre-training for brain tumor classification based on MR images. Biomed Signal Process Control. https://doi.org/10.1016/j.bspc.2019.101678
  48. Tabatabaei S, Rezaee K, Zhu M (2023) Attention transformer mechanism and fusion-based deep learning architecture for MRI brain tumor classification system. Biomed Signal Process Control. https://doi.org/10.1016/j.bspc.2023.105119
  49. Kumar S, Mankame DP (2020) Optimization driven deep convolution neural network for brain tumor classification. Biocybern Biomed Eng 40:1190-1204. https://doi.org/10.1016/j.bbe.2020.05.009
  50. Amin J, Sharif M, Yasmin M, Fernandes SL (2020) A distinctive approach in brain tumor detection and classification using MRI. Pattern Recognit Lett 139:118-127. https://doi.org/10.1016/j. patrec.2017.10.036
  51. Swati ZNK, Zhao Q, Kabir M et al (2019) Brain tumor classification for MR images using transfer learning and fine-tuning. Comput Med Imaging Graph 75:34-46. https://doi.org/10.1016/j. compmedimag.2019.05.001
  52. Sajjad M, Khan S, Muhammad K et al (2019) Multi-grade brain tumor classification using deep CNN with extensive data augmentation. J Comput Sci 30:174-182. https://doi.org/10.1016/j.jocs.2018.12.003
  53. Brain tumor dataset. https://figshare.com/articles/dataset/brain_ tumor_dataset/1512427. Accessed 30 Jul 2023
  54. Brain Tumor Classification (MRI) I Kaggle. https://www.kag-gle.com/datasets/sartajbhuvaji/brain-tumor-classification-mri. Accessed 30 Jul 2023
  55. Br35H :: Brain Tumor Detection 2020 | Kaggle. https://www.kag-gle.com/datasets/ahmedhamada0/brain-tumor-detection?select= no. Accessed 30 Jul 2023
  56. Brain Tumor MRI Dataset I Kaggle. https://www.kaggle.com/ datasets/masoudnickparvar/brain-tumor-mri-dataset?select=Train ing. Accessed 30 Jul 2023
  57. Dosovitskiy A, Beyer L, Kolesnikov A et al (2020) An image is Worth words: transformers for image recognition at scale. In: ICLR 2021-9th International Conference on Learning Representations
  58. Pacal I (2024) Enhancing crop productivity and sustainability through disease identification in maize leaves: exploiting a large dataset with an advanced vision transformer model. Expert Syst Appl. https://doi.org/10.1016/j.eswa.2023.122099
  59. Khan S, Naseer M, Hayat M et al (2021) Transformers in vision: a survey. ACM Comput Surv. https://doi.org/10.1145/3505244
  60. Liu Z, Lin Y, Cao Y, et al (2021) Swin transformer: hierarchical vision transformer using shifted windows
  61. Liu Z, Hu H, Lin Y, et al (2021) Swin transformer V2: scaling up capacity and resolution
  62. Touvron H, Bojanowski P, Caron M, et al (2021) ResMLP: feedforward networks for image classification with data-efficient training
  63. He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2016Decem, pp 770-778. https://doi.org/10.1109/CVPR.2016.90
  64. Russakovsky O, Deng J, Su H et al (2015) ImageNet large scale visual recognition challenge. Int J Comput Vis 115:211-252. https://doi.org/10.1007/s11263-015-0816-y
  65. Krizhevsky A, Sutskever I, Hinton GE (2017) ImageNet classification with deep convolutional neural networks. Commun ACM 60:84-90. https://doi.org/10.1145/3065386
  66. Krizhevsky A, Sutskever I, Hinton GE (2012) ImageNet classification with deep convolutional neural networks. In: Pereira F, Burges CJ, Bottou L, Weinberger KQ (eds) Advances in neural information processing systems. Curran Associates Inc
  67. Simonyan K, Zisserman A (2015) Very deep convolutional networks for large-scale image recognition. In: 3rd International Conference on Learning Representations, ICLR 2015-Conference Track Proceedings, pp 1-14
  68. Tan M, Le Q V (2021) EfficientNetV2: smaller models and faster training
  69. Howard A, Sandler M, Chen B, et al (2019) Searching for mobileNetV3. In: Proceedings of the IEEE International Conference on Computer Vision. Institute of Electrical and Electronics Engineers Inc., pp 1314-1324
  70. Mehta S, Rastegari M (2021) MobileViT: light-weight, generalpurpose, and mobile-friendly vision transformer. 3
  71. Mehta S, Rastegari M (2022) Separable self-attention for mobile vision transformers
  72. Tu Z, Talebi H, Zhang H, et al (2022) MaxViT: multi-axis vision transformer. Lecture Notes in computer science (including subseries lecture notes in artificial intelligence and lecture notes in bioinformatics) 13684 LNCS, pp 459-479. https://doi.org/10. 1007/978-3-031-20053-3_27
  73. Touvron H, Cord M, Douze M, et al (2020) Training data-efficient image transformers & distillation through attention, pp 1-22
  74. Touvron H, Cord M, Ai M DeiT III : Revenge of the ViT. 1-27
  75. Bao H, Dong L, Piao S, Wei F (2021) BEiT: BERT pre-training of image transformers
  76. d’Ascoli S, Touvron H, Leavitt M, et al (2021) ConViT: improving vision transformers with soft convolutional inductive biases. https://doi.org/10.1088/1742-5468/ac9830
  77. Chu X, Tian Z, Wang Y et al (2021) Twins: revisiting the design of spatial attention in vision transformers. Adv Neural Inf Process Syst 12:9355-9366
  78. Heo B, Yun S, Han D, et al (2021) Rethinking spatial dimensions of vision transformers
  79. Hatamizadeh A, Yin H, Heinrich G, et al (2022) Global context vision transformers
  80. Deepak S, Ameer PM (2023) Brain tumor categorization from imbalanced MRI dataset using weighted loss and deep feature fusion. Neurocomputing 520:94-102. https://doi.org/10.1016/j. neucom.2022.11.039
  81. Ozkaraca O, Bağrıaçık Oİ, Gürüler H et al (2023) Multiple brain tumor classification with dense CNN architecture using brain MRI images. Life. https://doi.org/10.3390/life13020349
  82. Rahman T, Islam MS (2023) MRI brain tumor detection and classification using parallel deep convolutional neural networks. Meas Sens. https://doi.org/10.1016/j.measen.2023.100694
  83. Muezzinoglu T, Baygin N, Tuncer I et al (2023) PatchResNet: Multiple patch division-based deep feature fusion framework for brain tumor classification using MRI images. J Digit Imaging 36:973-987. https://doi.org/10.1007/s10278-023-00789-x
  84. Ali MU, Hussain SJ, Zafar A et al (2023) WBM-DLNets: wrapperbased metaheuristic deep learning networks feature optimization for enhancing brain tumor detection. Bioengineering. https://doi. org/10.3390/bioengineering10040475
Publisher’s Note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

  1. Ishak Pacal
    ishak.pacal@igdir.edu.tr
    1 Department of Computer Engineering, Faculty of Engineering, Igdir University, 76000 Igdir, Turkey

Journal: International Journal of Machine Learning and Cybernetics, Volume: 15, Issue: 9
DOI: https://doi.org/10.1007/s13042-024-02110-w
Publication Date: 2024-03-05

A novel Swin transformer approach utilizing residual multi-layer perceptron for diagnosing brain tumors in MRI images

Ishak Pacal (D)

Received: 25 October 2023 / Accepted: 24 January 2024 / Published online: 5 March 2024
© The Author(s) 2024

Abstract

Serious consequences due to brain tumors necessitate a timely and accurate diagnosis. However, obstacles such as suboptimal imaging quality, issues with data integrity, varying tumor types and stages, and potential errors in interpretation hinder the achievement of precise and prompt diagnoses. The rapid identification of brain tumors plays a pivotal role in ensuring patient safety. Deep learning-based systems hold promise in aiding radiologists to make diagnoses swiftly and accurately. In this study, we present an advanced deep learning approach based on the Swin Transformer. The proposed method introduces a novel Hybrid Shifted Windows Multi-Head Self-Attention module (HSW-MSA) along with a rescaled model. This enhancement aims to improve classification accuracy, reduce memory usage, and simplify training complexity. The Residual-based MLP (ResMLP) replaces the traditional MLP in the Swin Transformer, thereby improving accuracy, training speed, and parameter efficiency. We evaluate the Proposed-Swin model on a publicly available brain MRI dataset with four classes, using only test data. Model performance is enhanced through the application of transfer learning and data augmentation techniques for efficient and robust training. The Proposed-Swin model achieves a remarkable accuracy of , surpassing previous research and deep learning models. This underscores the effectiveness of the Swin Transformer with HSW-MSA and ResMLP improvements in brain tumor diagnosis. This method introduces an innovative diagnostic approach using HSW-MSA and ResMLP in the Swin Transformer, offering potential support to radiologists in timely and accurate brain tumor diagnosis, ultimately improving patient outcomes and reducing risks.

Keywords Brain tumor analysis Brain tumor classification Vision transformer Swin transformer ResMLP

1 Introduction

The term “brain tumor” describes the development of aberrant cells inside the brain or near it. When the tumor originates directly in the brain, it is classified as a primary tumor, whereas a secondary tumor refers to cancer cells that have spread from another part of the body and migrated to the brain. [1,2]. There are two types of primary brain tumors: benign and malignant. Malignant tumors are cancerous and more destructive in nature [3]. Brain tumors’ characteristics, such as their size and location inside the brain, can differ greatly and cause a vast range of symptoms [4, 5].
Early brain tumor discovery is essential for successful treatment and management, as uncontrolled tumor growth
can reach severe and life-threatening levels, making control and treatment more challenging [6]. Therefore, determining the diagnosis and categorization of brain tumors is crucial to ensuring the patients’ success. Researchers and scientists have made tremendous progress in creating cutting-edge tools for their identification, considering the rising occurrence of brain tumors and their major impact on persons [7]. For identifying abnormalities in brain tissues, magnetic resonance imaging (MRI) is commonly recognized as the gold standard imaging method [8, 9]. MRI is a useful tool for learning more about the shape, size, and exact location of tumors [10]. Although early and accurate detection of brain cancers is essential, manually classifying brain tumor can be challenging and time-consuming and mainly relies on the radiologists’ knowledge [11,12].
In recent years, automated approaches utilizing machine learning algorithms have emerged as valuable tools to assist physicians in brain tumor classification, aiming to streamline the classification process and reduce dependence on
radiologists [6, 7, 13, 14]. In the field of brain tumor diagnosis, researchers have made significant efforts to reduce the associated morbidity and mortality [11]. Traditionally, the manual detection of brain tumors by radiologists has proven to be burdensome because of the numerous images involved. Computer-aided diagnosis systems (CADx) have become useful tools for overcoming this difficulty by automating and streamlining the diagnostic procedure [15]. Deep learning based CADx systems have exhibited remarkable success rates in medical image analysis, cancer diagnosis, including brain tumors and other cancer types [16-21]. These systems not only aid in tumor detection and monitoring but also assist physicians in deciding on things with knowledge suitable treatment options, ultimately improving patient care [22-24].
In CAD applications, deep learning algorithms offer a more accurate and efficient substitute for conventional machine learning techniques, which mostly depend on manually generated features [7]. Classical machine learning approaches necessitate feature engineering by domain experts and can be time-consuming, especially with large datasets. CNNs have shown outstanding outcomes in the processing of medical images, including identifying different kinds of brain tumors [22,25-27]. CNNs automatically glean pertinent characteristics from images, doing away with the necessity for feature engineering by hand [28-30]. CNNs have shown to be successful at extracting useful information from medical images, resulting in precise and effective categorization without the need for manually created features [31].
Furthermore, vision transformers, a distinct architecture from CNNs, have shown encouraging outcomes across various domains, including brain tumor-related diseased [32-34]. Vision transformers make use of the attention mechanism to record distant dependencies and relationships between image patches, enabling them to effectively model complex visual patterns. This architecture has demonstrated outstanding efficiency in applications involving natural language processing, and recently received interest in computer vision applications [35, 36]. Considering brain tumors classification, vision transformers have exhibited the ability to record both global and local image characteristics, allowing for more comprehensive and accurate analysis. Their capacity to acquire significant representations directly from unprocessed data makes them a compelling alternative for medical image analysis, offering potential advancements for diagnosing of brain tumor [12]. Further exploration and evaluation of vision transformers’ capabilities in this domain hold significant promise for enhancing brain tumor categorization systems’ precision and effectiveness.
Deep learning techniques have significantly contributed to the field of brain tumor diagnosis, with notable advancements in tumor detection, classification, and treatment
planning [37]. However, there is still a need for continuous improvement in terms of accuracy, efficiency, and accessibility in brain tumor diagnosis and management. Ongoing research and innovations hold the promise of revolutionizing this field by offering more effective techniques and tools for diagnosing of brain tumors, ultimately leading to enhanced outcomes for patients. The effectiveness of deep learning methods in diagnosing various types of cancer has served as a driving force for researchers in this area [38].
Numerous research papers in the scientific literature focus on brain tumor diagnosis. Upon analyzing reviews and surveys, it becomes evident that deep learning has head to several noteworthy findings in the field of brain tumor diagnosis [6, 22, 39]. The studies state that deep learning has developed into a ground-breaking method with significant and beneficial implications for brain tumor diagnosis. Deep learning is a crucial ally in the medical industry since brain tumors’ complexity necessitates accurate and prompt diagnosis. These models may autonomously extract complex patterns and features suggestive of tumor existence and characteristics on large datasets of medical data, such as MRI. For more exact tumor delineation and more efficient treatment planning, this capability offers accurate tumor segmentation. Deep learning additionally makes it easier to classify tumor kinds and differentiate between benign and malignant tumors, both of which are essential for individualized therapeutic strategies. Deep learning’s capacity to handle enormous volumes of data with astounding speed and accuracy has the potential to increase diagnostic effectiveness, hasten treatment decisions, and ultimately improve patient outcomes. However, to ensure that these AI tools are seamlessly incorporated into clinical practice, it is necessary for AI experts and medical professionals to work closely together in order to instill confidence and interpretability, ensuring that deep learning is used as a potent decision support system rather than in place of medical expertise.
Classifying brain tumors using deep learning-based methods presents challenges, including limited labeled data availability, inter-observer variability in diagnosis, overfitting, and the need for interpretability [40]. The scarcity of labeled data necessitates the collection of diverse and well-annotated datasets to improve model performance. Addressing interobserver variability requires establishing consensus among experts. Techniques like regularization, data augmentation, and cross-validation help mitigate overfitting. Furthermore, developing interpretable methods, such as attention maps or saliency maps, aids in understanding the reasoning behind deep learning predictions, promoting trust and acceptance in the medical community. By addressing these challenges, deep learning models can be more reliable and effective in brain tumor classification, resulting in better patient care and diagnostic accuracy.
This study presents a novel approach to address challenges in brain tumor diagnosis, emphasizing the significance of early detection for successful treatment. By introducing the Swin Transformer architecture, the study leverages its success in vision tasks and adapts it for brain tumor detection, aiming to provide rapid and accurate diagnoses with the aid of deep learning-based CAD systems.
  • We developed a model by scaling the Swin architecture based on the Swin-Base model for a set of 4-class brain MRI images. This scaled model provides improved detection accuracy with fewer parameters at the same time and is shallower than previous Swin models.
  • The proposed model improves the Swin Transformer by introducing the novel Hybrid Shifted Windows Self Attention (HSW-MSA) module, enabling better processing of overlapping brain MRI regions. This enhancement allows the model to capture fine details and long-range dependencies more effectively, leading to improved accuracy in detecting brain tumors and potentially reducing false negatives.
  • Furthermore, the paper replaces the Multi-Layer Perceptron (MLP) in the Swin Transformer with a Residualbased MLP (ResMLP). This architectural change results in higher accuracy, faster training, and improved parameter efficiency. The ResMLP’s ability to extract and represent features more efficiently contributes to the exceptional performance of the Proposed-Swin model on the brain MRI dataset.
  • The extensive evaluation demonstrates an outstanding accuracy of achieved by the Proposed-Swin model, surpassing existing research and deep learning models. This remarkable effectiveness highlights its potential for practical application in real-world settings for accurate brain tumor diagnosis.
  • Additionally, we demonstrated the effectiveness of current, well-liked vision transformer models and CNN models using openly accessible MRI datasets to provide a thorough comparison.
The study’s design has been enhanced for improved comprehension. A thorough assessment of the literature is presented in the second section, and the straightforward technique for simple validation is highlighted in the third. Results and discussions from the experiment are covered in the fourth part. Lastly, to help the reader understand the study’s contributions, the conclusion offers a succinct summary of them.
Impressive progress has been made by deep learning algorithms in accurately diagnosing a variety of malignancies, which has led to substantial improvements the discipline of medical imaging. Deep learning approaches have shown encouraging results, particularly when used to analyze and diagnose MRI pictures of brain tumors. These approaches have illustrated great levels of precision in accurately identifying and categorizing brain tumors, which may lead to advancements in patient care and treatment strategy. Deep learning’s success in this area has sparked additional investigation and study with the goal of improving these algorithms’ capabilities and maximizing their potential in order to detect brain cancers. The following is a summary of several research that have been done and published in the literature on brain tumor detection.
Kumar et al. proposed a deep network model that uses ResNet50 with pooling techniques in order to overcome gradient vanishing and overfitting concerns. The effectiveness of the model is assessed using simulated studies on a public MRI dataset with three different tumor types [41]. Talukder et al. [13] presented a cutting-edge deep learning method for correctly classifying tumors utilizing transfer learning. The suggested approach entails thorough pre-processing, reconstruction of transfer learning frameworks, and tweaking. On the 3064 pictures in the Figshare MRI brain tumor dataset, various transfer learning techniques were used and assessed. The suggested framework by Rehman et al. [42] includes three experiments that classify meningioma, glioma, and pituitary brain cancers using several CNN architectures. On MRI slices from the brain tumor dataset downloaded from Figshare, transfer learning approaches are used. Increasing dataset size, lowering overfitting risk, and improving generalization are all achieved by data augmentation. The best classification and detection accuracy, up to , was attained by the finetuned VGG16 architecture.
The approach suggested by Sharif et al. [43] calls for optimizing the fine-tnued Densenet201 model and applying transfer learning on imbalanced data. The average pool layer, which contains useful information about each type of tumor, is where the features of the trained model are retrieved from. But in order to improve the performance of the model for precise classification, two feature selection strategies are incorporated. To diagnose glioma brain tumors as low-grade or high-grade utilizing the MRI sequence, Mzoughi et al. [44]. presented an automatic and effective deep multi-scale 3D CNN architecture. To efficiently combine useful contextual information while reducing weights, the design uses a 3D convolutional layer with small filters. The suggested classification model by
Amin et al. [26]. has seven layers, including a SoftMax layer, three convolutional layers, and three ReLU activation layers. The MRI image is segmented into a few patches, and the deep CNN is given the central pixel value of each patch. The segmentation of the image is made possible by the DNN, based on these center pixels, labels are assigned.
Amin et al. [45] suggested a technique for de-noising and enhancing input slices using a Weiner filter with multiple wavelet bands. It uses Potential Field (PF) clustering to isolate different tumor pixel subsets. Additionally, T2 MRI images, global thresholding and mathematical morphological techniques are used to identify the tumor site. For the purpose of grading and diagnosing brain tumors using MRI data, Tandel et al. [46] provided five clinically relevant multiclass datasets with various numbers of classes. In comparison to six existing machine learning classification approaches makes use of transfer learning using a CNN. On multiple datasets of MR images, a deep CNN model that was initially pre-trained as a discriminator in a GAN. The pretraining aids in the extraction of robust features and teaches the convolutional layers of the algorithm the structure of MR images. The entire deep model is then retrained as a classifier to differentiate between tumor classes once the fully connected layers are changed [47].
To categorize brain cancers in MRI data, Tabatabaei et al. [48] developed a hybrid model that integrates CNN with attention module. By taking into account both local and global variables, they developed a cross-fusion technique to merge the branches, boosting classification accuracy. The many types of brain tumors can be accurately identified by this hybrid architecture. An optimized ResNet model with a cutting-edge evolutionary approach was introduced by Mehnatkesh et al. [33]. This method automatically improves the deep ResNet model’s architecture and hyperparameters without the need for human specialists or manual architecture design, making it appropriate for classifying brain tumors. The research also introduces an improved optimization method that incorporates ideas from differential evolution strategy and multi-population operators. Deep CNN, a Dolphin-SCA based deep learning technique for enhanced accuracy and efficient classification, was introduced by Kumar et al. [49] pre-processing the raw MRI images is the first step in the procedure, which is then segmented using an improved algorithm. Then, feature extraction is carried out using statistical and power LDP features.
An automated approach for differentiating between malignant and non-cancerous brain MRIs was proposed by Amin et al. [50] The technique uses a variety of techniques to divide up potential lesions before choosing shape, texture, and intensity-based attributes for each lesion. Then, in order to compare the proposed model’s precision, a
SVM classifier is applied. Swati et al. [51] proposed a deep CNN model that has already been trained is used, and a block-by-block fine-tuning approach based on transfer learning is suggested. A benchmark dataset MRI is utilized to evaluate the strategy’s efficacy. As a result of avoiding handcrafted features, requiring no preprocessing, and achieving an average accuracy of , the method is notably more general. A CNN-based method for classifying multi-grade brain tumors was introduced by Sajjad et al. [52] First, tumor areas from MR images are segmented using deep learning approaches. Second, a significant amount of data augmentation is used to effectively train the system, addressing the issue of a shortage of data in the categorization of multi-grade brain tumors from MRI. Finally, supplemented data is used to improve a pre-trained CNN model for precise brain tumor grade classification. Deepak and Ameer [23] developed a 3-class classification issue incorporating them. The proposed classification system uses transfer learning utilizing GoogLeNet. The collected features are subsequently classified using integrated, tested classifier models.
To enhance the accuracy and efficacy of MRI datadriven diagnoses, it is evident from the summaries of research papers that there is a growing interest in exploring deep neural networks for brain tumor-related studies. Challenges such as vanishing gradient, overfitting, imbalanced data, and data heterogeneity have been effectively addressed using various strategies. Modifying well-known models like ResNet, VGG16, and Densenet201 for brain tumor classification through transfer learning consistently yields high accuracy. Increasing dataset sizes, improving generalization, and mitigating overfitting concerns have been achieved through the application of data augmentation techniques. Additionally, some studies focus on 3D CNN architectures to extract both local and global contextual information from volumetric MRI data, leading to more precise tumor grade classification. Image quality and feature extraction have been enhanced by employing preprocessing techniques like denoising and contrast augmentation. Various feature selection methods, including wavelet transforms, local binary patterns, and statistical features, have been integrated to boost the effectiveness of deep learning models.
Overall, the research outlined in these publications underscores the continual improvement in brain tumor categorization, emphasizing deep learning approaches and optimizing model architectures. These innovative methods hold significant promise for enhancing the sensitivity and accuracy of brain tumor diagnoses, ultimately benefiting patients and medical professionals. To ascertain the applicability and generalizability of these proposed approaches, further clinical research and validation may be necessary.

3 Material and methods

In this study, we introduce a cutting-edge deep learning model to diagnose brain tumors. A broad collection of brain MRI scans, a comprehensive dataset comprising three publicly available datasets, that have been painstakingly collected from various medical institutes make up the dataset used for training and evaluation. Our deep learning system makes use of cutting-edge vision transformer architecture, which has distinguished itself in tasks requiring picture understanding. The proposed method effectively detects and categorizes brain cancers with high sensitivity and specificity by fusing the strength of the vision transformer with sophisticated data augmentation and transfer learning strategies. To assure reproducibility and encourage additional study for other cancer-related diseases, complete implementation and training methods are described.

3.1 Dataset

Due to their capability to learn and generalize on vast data, deep learning models are becoming more and more popular. However, the size and quality of the training dataset strongly influence the effectiveness of these data-hungry models. The dataset is crucial in deep learning as it provides the necessary examples for the models to recognize and generalize patterns effectively. The model can extract pertinent features
and make precise predictions on unobserved data with a sizable and representative dataset. Ensuring high-quality data is essential to address biases, reduce overfitting or underfitting issues, and improve performance across different subsets. For the autonomous classification of low-grade brain MRI images, several publicly available datasets exist, including Figshare [53], SARTAJ [54], and Br35H [55], which are known to be small-scale datasets. However, in this study, we utilized a publicly accessible brain MRI dataset shared on Kaggle [56], which combines and incorporates these three datasets to reveal the true capabilities of deep learning models on this task. Sample images from this dataset depicting both tumor and healthy cases are illustrated in Fig. 1.
The brain MRI dataset utilized for this study has been divided into four major tumor classes: no-tumor, glioma, meningioma, and pituitary. Malignant brain tumors include gliomas, which have an aggressive development tendency. On the other hand, meningioma tumor is a benign tumor that grows in the meninges of the brain and can go undetected for a long time without exhibiting any clear symptoms. Pituitary tumors are a specific kind of tumor that develop in the pituitary gland and can cause hormonal abnormalities. The Notumor class, which represents healthy brain circumstances, is also a crucial point of reference for control groups. Utilizing this extensive and varied dataset, we evaluated the deep learning model’s capacity to correctly categorize each tumor type and investigated its potential as a trustworthy tool for brain tumor diagnosis.
Fig. 1 Visual depiction of samples in the brain MRI dataset across no-tumor, glioma, meningioma, and pituitary classes

3.2 Vision transformer

Artificial intelligence has had a big impact on deep learning, particularly in computer vision applications like face recognition, medical picture analysis, and autonomous driving. CNNs, which are specifically engineered to handle visual input, have been instrumental in this revolution. Convolutional filtering and pooling techniques allow CNNs to reduce dimensionality and recognize a variety of picture attributes. CNNs are not without limitations either, particularly when it comes to understanding relations within an image and gathering global information. Researchers have created vision transformers as a solution to this [57, 58]. Vision transformers leverage self-attention approaches to capture long-range relationships in raw data, allowing them to outperform CNNs for visual scenarios.
Unlike CNNs, vision transformers use positional embeddings and self-attention instead of convolutional layers. They are able to record both local and global information in visual sceneries because to this special technique, which makes them suitable for tasks requiring a thorough knowledge of images. Recent research has demonstrated the high performance that vision transformers may accomplish in a range of uses for visual tasks. A key development in the disciplines of computer vision and deep learning is the creation of vision transformers [59]. While CNNs remain the architecture of choice for many artificial intelligence usages, vision transformers offer an additional tactic that is highly effective in obtaining global as well as local data.

3.3 Swin transformer

The Swin Transformer, developed by Microsoft Research in 2021, is an impressive AI model designed for computer vision [60, 61]. It builds upon the Transformer model and introduces two key concepts-hierarchical feature maps and shifted window attention. These advancements help efficiently handle large-scale image data, making it a promising tool for complex computer vision tasks. The Swin Transformer utilizes hierarchical feature maps to effectively represent different levels of features in images, leading to a comprehensive understanding of context and improved comprehension of input data. The shifted window attention mechanism expands the interaction field of each block, enabling the model to capture variable-scale features more effectively.
The Swin Transformer’s four-stage architecture involves dividing the input image into patch layers, which are processed through Transformer blocks in the backbone. The resulting patches are sent to the transition block, maintaining the same number of patches. In the second stage, patch merging layers are used to create a hierarchical system by subsampling and reducing the number of tokens. Neighboring patches’
features are combined to obtain a 4C-dimensional feature vector, which is transformed using linear layers while preserving a resolution of . This patch merging and feature transformation process is repeated twice in subsequent stages, resulting in output resolutions of and , respectively. Overall, this architecture enables the Swin Transformer to effectively process image data and capture contextual information at different scales, contributing to its superior performance in various vision tasks.
The Swin Transformer Blocks (STBs) provided in Figs. 2 and 3 consist of two consecutive multi-head self-attention (MSA) modules: window-based MSA (W-MSA) and shifted window-based MSA (SW-MSA). Before each of these MSA modules, a Layer Norm (LN) layer is used. Next, there is a two-layer MLP (multilayer perceptron) with GELU non-linearity in between. Each module has a link with the LN layer. In Eqs. 1 and 2, MSA has a quadratic computational complexity with respect to the number of tokens. This configuration significantly improves the performance of the Swin Transformer and makes it more efficient compared to the standard Transformer.

Where the first part exhibits a quadratic relationship with respect to the patch number, denoted as , whereas the second part demonstrates a linear dependency when the value of is constant (typically set to 7 by default). Computing global self-attention becomes prohibitively expensive for a high value of , whereas window-based self-attention is scalable.
In the consecutive STBs, a shifted window partitioning approach is adopted to switch between two configurations. This approach utilizes overlapping windows to introduce cross-window connections while efficiently calculating nonoverlapping windows. In the first module, a regular window partitioning strategy is used, and an feature map is divided into windows of size . Then, the second module provides a window configuration by shifting the windows by pixels from the previously partitioned windows. The Transformer blocks are computed in Eq. 3
,
,
,
.
where and represent the output features for block from the module and the module, respectively. and SW-MSA refer to window-based multi-head
Fig. 2 The general structure of the Proposed-Swin transformer architecture for brain tumor diagnosis
Fig. 3 The overall structure of default Swin Transformer blocks and Proposed-Swin Transformer blocks
self-attention with standard and shifted window partitioning configurations, respectively.
The Swin Transformer adopts a specialized architecture to enhance computational efficiency compared to traditional
Transformer models. It achieves this by using a cyclic shifting operation between shifted token blocks (STBs). This operation divides the feature map pixels into regional blocks and cyclically shifts each block to the previous one.
As a result, each block can operate with masks applied to a section of the feature map. This approach allows the Swin Transformer to process smaller blocks of data instead of the entire feature map at once, leading to more efficient feature extraction and preventing computational overhead in sliding windows.
The Swin Transformer utilizes a self-attention mechanism that incorporates relative positional bias to capture relationships between positions. The attention function involves mapping queries ( ), keys ( ), and values ( ) to output vectors. For each query in the matrix, attention weights are calculated for corresponding key-value pairs. The resulting output matrix is obtained through this computation process, which is formulates in Eq. 4
Where the query , key , and value matrices are of size , where d represents the dimension of the query/key vectors, and is the number of patches in a window. In Swin Transformer, relative positions are defined along each axis within the range . The relative positional bias is parameterized as an offset matrix , and the elements of matrix are obtained from .
The fundamental model of Swin Transformer is referred to as Swin-B. Swin-B has a comparable model size and computational complexity to ViT-B/DeiT-B. Similarly, the Swin-T and Swin-S models are designed to have computational complexities comparable to ResNet-50 (DeiT-S) and ResNet-101, respectively. The dimensions of Swin Transformer models can vary depending on various factors, including the channel size of the initial feature map , the layer size of the Swin Transformer block, the window size, and the expansion factor of the MLP layer.

3.4 Proposed model

The proposed approach aims to develop a classification model based on the Swin Transformer for brain MRI images. It seeks to achieve high classification accuracy and address challenges related to distinguishing between similar lesion types and accurately identifying common ones. The proposed approach presents innovative enhancements to the Swin Transformer model for brain tumor diagnosis. Four essential elements make up the proposed approach for classifying brain tumors using the Swin Transformer architecture: scaling the model for 4-class classification of brain tumors, incorporating the Residual MLP module, incorporating hybrid shifted windows into the self-attention mechanism, and using transfer learning with data augmentation. Like other deep learning architectures, the Swin Transformer
needs to have its design and parameters scaled in order to accommodate a variety of workloads and dataset sizes. Variables like model size, stage depth, and embedding dimensions can all help achieve this. For example, larger variations of the Swin Transformer, such Swin-Base, and Swin-Large, which are made for datasets like ImageNet with 1000 classes, offer improved capacity suitable for handling more difficult tasks and bigger datasets. Swin-Small, Swin-Tiny model, on the other hand, produce more useful outcomes in scenarios with fewer classes while using less resources for simpler tasks. The overall design of the Proposed-Swin Transformer model for detecting brain tumors is illustrated in Fig. 2.
In this work, the configuration of the Swin-Base model with “Embedding Dimension=128”, “depths=(2,2,18, 2)”, and “Number of Heads ” was changed to “Embedding Dimension=96”, “depths=(2, 2, 4, 2)”, and “Number of Heads “, leading to a more adaptable model in terms of computation, convergence speed, and cost. Notably, the increased depth in the third step of the initial configuration aligns with the Swin Transformer’s hierarchical approach and tries to capture complicated and high-level information. The proposed model (scaled model), with its integrated components, performs more effectively than other models in the context of classifying brain tumors.
By introducing residual connections into the MLP modules, the model benefits from smoother transitions between layers and improved gradient flow, facilitating the training of deeper models and achieving superior results. Moreover, the integration of hybrid shifted windows into the selfattention modules enables the model to process images at various scales and positions, leading to comprehensive feature extraction and more robust representations. By combining these learning approaches, the proposed method shows promise in creating a more comprehensive and powerful classification model for brain tumor diseases, ultimately leading to more accurate and reliable outcomes in brain tumor diagnosis and treatment.

3.4.1 Hybrid multi self-attention module

The Swin-based models consist of two different multi-head self-attention layers, W-MSA and SW-MSA. In the proposed model, Hybrid Swin Transformer blocks were introduced, employing a hybrid shifted window approach. This novel technique divides the input image into smaller patches and applies attention mechanisms to each patch, capturing relationships between features in different patches and preserving the overall context. By considering relationships among various parts of the input image, the network can maintain a broader perspective. The Swin-Tiny model, developed with hybrid transformer blocks, incorporates a hybrid selfattention module that combines traditional shifted windows
with elongated rectangular shapes in horizontal and vertical directions. Unlike conventional transformer blocks, which use fully connected self-attention mechanisms, this hybrid module allows the model to flexibly capture information from windows of various sizes, addressing long-range dependencies while preserving local and detailed information. The ability to handle images at different scales and orientations enhances the model’s applicability and reduces generalization issues, potentially leading to improved performance in challenging image analysis tasks such as brain tumor detection and other medical images. Figure 3 illustrates the pure Swin Transformer block alongside the hybrid transformer blocks used in the proposed model.
The Hybrid transformer blocks in Fig. 3 consist of two self-attention modules. While the first layer of this structure remains the same as the layer in the original Swin Transformer, a more efficient layer is obtained by adding the hybrid layer, Hybrid SW-MSA, to the secondary layer, the SW-MSA layer. The HSW-MSA layer combines three different sliding window processes to enhance visual information exchange at various scales. In the first part, a SW-MSA module is applied for local pattern capture. In the second part, the input image is divided into horizontal and vertical stripe windows, enabling longer-range connections and broader context. This approach enriches the HSW-MSA’s multiple heads, facilitating comprehensive visual information exchange. It is particularly useful for improving performance in visual processing applications. The computation of hybrid Transformer blocks involves the sequential application of these two self-attentions is formulated in the Eq. 5.
, , ,
,
where and represent the output features for block from the (S) HSW-MSA module and the Res-MLP module, respectively. W-MSA and HSW-MSA refer to window-based multihead self-attention with hybrid shifted window partitioning configurations, respectively.

3.4.2 Residual multilayer perceptron module (Res-MLP)

MLPs, short for multi-layer perceptron, are fundamental components in the standard transformer architecture [62]. Typically, a transformer includes two main building blocks: the self-attention mechanism and the MLP block. While the self-attention mechanism captures relationships between different tokens (or patches in image transformers), the MLP block processes information individually for each token. In the Swin Transformer architecture, depicted in Fig. 4, the MLPs are similar to those found in other transformer structures. However, instead of using a regular MLP, we introduced a Residual MLP module, inspired by the ResNet architecture [63] and ResMLP architecture [62], which has gained popularity recently. The proposed Res-MLP structure, a crucial component of the Proposed-Swin Transformer framework, is depicted in Fig. 4.
Fig. 4 Structure of the proposed Res-MLP module with the default MLP module in the Swin transformer model
The Swin Transformer leverages residual connections within the MLP blocks to address the vanishing gradient issue, allowing stable and efficient training of deep architectures. The ability to skip uninformative layers through residual connections enhances the model’s capacity to learn complex representations and handle challenging tasks effectively. Moreover, the Res-MLP design not only improves expressiveness but also enhances generalization capabilities. The Swin Transformer’s ability to capture non-linear relationships between features makes it more adaptable to diverse and complex datasets. The residual connections provide resilience to changes in hyperparameter selections and architectural configurations, facilitating the model development process and supporting faster experimentation. Experimental results have shown that with these enhancements, the Swin Transformer converges faster on brain tumor data and achieves higher accuracy. As seen in Fig. 4, by adding Residual layers to the MLP structure, more effective training and stronger generalization capabilities were achieved.

4 Results and discussions

4.1 Experimental design

A Linux machine running the Ubuntu 22.04 operating system was used for this study. On an impressively powerful high-performance computer, the deep neural network models were developed and evaluated. This PC featured a 13th generation Intel Core i5 with an NVIDIA RTX 3090 GPU with 24GB of GDDR6X memory, along with 32 GB of DDR5 RAM. The most recent stable PyTorch framework with NVIDIA CUDA support was used for the experiments. In the same computing environment, each model was trained and tested, which ensured consistency by using the same parameters throughout.

4.2 Data processing and transfer learning

For deep learning algorithms, medical images need to be produced on an appropriate foundation. Data sets are frequently split into cross-validation, train-validation, or traintest sets in the literature. However, few studies actually evaluate the real performance of deep learning algorithms using the appropriate data split of train, validation, and test sets. To use the best data separation technique for assessing the performance of deep learning models, we divided the data set in our study into three separate subsets: training, validation, and testing. To assess the model’s effectiveness and lower the chance of overfitting, this division is required.
We employed a Kaggle data set that was available in separate train and test sets and was open to the public [56]. To guarantee an equitable comparison of our proposed model
with others, we employed of the training data for the actual training process and reserved the remaining for validation purposes. The test data set was left untouched for fair comparison. Table 1 displays the data distribution for each class in the Kaggle dataset.
Table 1 summarizes the distribution of MRI dataset, categorizing samples into Glioma-tumor, Meningioma-tumor, Pituitary-tumor, and No-tumor classes. The dataset is split into three sets: Train, Validation, and Test. The dataset consists of 7023 samples in total, with the No-tumor class having the highest number of samples (2000) and the Gli-oma-tumor class having the fewest (1621). This dataset is essential for training and evaluating classification models.
In this study, we improved the robustness and generalization of our models using data augmentation techniques [52]. Data augmentation involved applying various transformations to the original images, creating new synthetic examples, and reducing overfitting risk. We specifically applied cropping, flipping, rotation, copy-paste, shear, and scaling during model training, effectively expanding the dataset and enhancing its ability to generalize to unseen samples. This augmentation aimed to enhance the accuracy and reliability of our models in identifying brain tumors, ultimately contributing to more efficient screening and diagnostics. The ImageNet dataset’s pre-trained weights were also used in transfer learning by [64-66], leveraging the model’s learned knowledge and representations from millions of diverse images. Fine-tuning the pre-trained model using our brain MRI dataset further improved its performance, saving training time, fast convergence, and computational resources.

4.3 Performance metrics

Performance metrics are of utmost importance when evaluating the effectiveness and generalizability of deep learning algorithms. They serve as essential tools in the field, enabling the assessment of models throughout training and on validation and test datasets. By utilizing these metrics, one can identify overfitting issues, gauge the effects of parameter adjustments, and gain a comprehensive understanding of the model’s overall performance. Accuracy, precision, and recall are among the widely used performance metrics in deep learning, as presented in Table 2.
Table 1 Class-wise distribution of the brain MRI dataset
Class name Train Validation Test Total
Glioma-tumor 1057 264 300 1,621
Meningioma-tumor 1072 267 306 1,645
Pituitary-tumor 1166 291 300 1,757
No-tumor 1276 319 405 2,000
Total 4571 1141 1,311 7,023
False positive (FP) denotes inaccurate positive estimations, false negative (FN) denotes inaccurate negative predictions, and true negative (TN) denotes accurate negative predictions. True positive (TP) denotes accurate positive predictions. The effectiveness of binary classification models is evaluated using these metrics. Precision calculates the percentage of accurate positive forecasts to all positive predictions, whereas accuracy evaluates the ratio of correct predictions to total predictions. On the other hand, recall quantifies the ratio of correctly predicted positive cases to all actual positive examples. By determining their harmonic mean, the F1 score strikes a compromise between precision and recall, ensuring a thorough assessment of model performance. Each metric adheres to the following mathematical formula.

4.4 Training procedure

The performance of deep learning models could be enhanced by using a variety of methods and settings while they are being trained. Data augmentation and transfer learning are two efficient techniques. Furthermore, several hyperparameters play a substantial effect in shaping a model’s performance. These parameters include input size, type of optimizer, size of batch, learning rate, and repetition of augmentation. Adjusting the learning rate has the potential to impact the model’s effectiveness, whereas weight decay serves as a preventive measure against overfitting by imposing penalties on substantial weights within the loss function. Adjusting warmup epochs and learning rate gradually increases the learning rate during initial epochs to avoid divergence during training.
In our research, we adopted a multifaceted approach to ensure the reproducibility and performance enhancement of both the proposed model and other deep learning models. The implemented techniques encompassed crucial aspects such as hyperparameter tuning, data preprocessing, transfer learning, and data augmentation. Fundamental hyperparameters, including input size, learning rates, momentum, weight decay, and optimizer selection, were consistently fine-tuned across all models, using default values to establish a standardized foundation for model training. This meticulous parameter application aimed to foster reliability and comparability in our experimental results. Additionally,
Table 2 Performance metrics
Metric Formula
Accuracy
Precision
Recall
F1-score
data-related hyperparameters such as scale, ratio, Mixup probability, and others were carefully adjusted, introducing variability and sensitivity to diverse datasets, thereby enhancing the overall robustness of our models.
In a different vein, our approach involved tailoring specific hyperparameter values for each model to ensure optimal training conditions. For example, the input size, determining the dimensions of training images, was set at (or for certain models like SwinV2). The learning rate, a pivotal parameter influencing the model’s learning pace, was initialized at 0.00001 . Essential parameters like initial learning rate (lr_base), learning rate cycle decay (lr_ cycle_decay), and exponential moving average (EMA) decay for weights (model_ema_decay) were meticulously configured. The lr_base was specifically set to 0.1 as an effective starting point for learning rates. The lr_cycle_decay, indicating the factor by which the learning rate decreases after each training cycle, was adjusted to 0.5 for a balanced convergence and stability. The model_ema_decay, governing the update speed of weights using the EMA method, was selected as 0.9998 for a gradual and consistent adjustment.
Practical considerations such as momentum ( 0.9 ) in the Stochastic Gradient Descent (SGD) optimizer, weight decay (2.0e-05) to control overfitting, warm-up epochs (5) for a gradual learning rate increase at the start of training, and warm-up learning rate (1.0e-05) were incorporated. These hyperparameter values were meticulously chosen to strike a delicate balance between model training efficiency, stability, and robustness. The amalgamation of these finely tuned hyperparameter configurations played a pivotal role in achieving optimal model performance while maintaining consistency across experiments. Additionally, specific data-related hyperparameters, such as scale, ratio, Mixup probability, and others, were fine-tuned to ensure model sensitivity to various data characteristics.
In deep learning models, the issues of overfitting and underfitting often adversely affect the model’s generalization capability and can lead to incorrect biases. Overfitting occurs when the model excessively fits the training data and fails to generalize to test data, while underfitting arises when the model inadequately fits the training data, resulting in poor performance on test data. To address both problems collectively, we divided our dataset into three parts: training, validation, and test. We evaluated the model’s generalization performance solely on the test data. The training process was monitored for 50 epochs, and if significant improvement did not occur during this period, the training was stopped. This approach contributes to preventing overfitting and avoiding unnecessary training of the model. Additionally, due to the limited scale of MRI data, we attempted to enhance the model’s performance using transfer learning and data augmentation techniques. These strategies proved helpful in achieving better generalization with a constrained dataset.
Furthermore, to tackle these issues, regularization techniques such as dropout and weight regularization were applied to all models during the training of both the baseline models and the Proposed-Swin model. Dropout reduces overfitting by randomly disabling neurons during training, while weight regularization helps prevent excessively large weights. Default hyperparameters were set for all models to achieve a balance between model complexity and dataset size. On the other hand, underfitting is typically a problem observed in large-scale datasets, but it is not the case with our MRI dataset. To address this issue, the complexity of the Proposed-Swin model’s architecture, HSW-MSA, and ResMLP improvements were leveraged. These components enhance the model’s ability to capture complex patterns in MRI data, thereby improving diagnostic accuracy.

4.5 Results

The experimental findings of the proposed approach are presented in this part together with those of several popular CNN models and the most recent and extensively used vision transformer models that can be found in the literature. The experimental evaluations for each model were conducted exclusively on unseen data, specifically the test data that had been previously set aside. Testing the models on unseen data is the optimal choice as it demonstrates deep learning’s generalization capabilities and their applicability in real-world scenarios. Table 3 presents the experimental results on the Brain MRI dataset for the Proposed-Swin model compared to cutting-edge CNNs and vision transformer-based models.
Considering Table 3, a comparative analysis of experimental results on the brain MRI dataset reveals that the models exhibit exceptional performance in accurately classifying brain MRI images. All models demonstrate diagnostic accuracy above , and when the ResNet 50 model is excluded, it becomes evident that all other models achieve diagnostic accuracy well above . Taking Table 3 into account, the Proposed-Swin model stands out by showcasing the highest performance, reaching accuracy and F1-score, demonstrating a significant superiority over other models.
The Proposed-Swin model enhances its performance in brain tumor classification tasks through the integration of HSW-MSA and ResMLP structures into its architecture. HSW-MSA provides a structure that improves attention mechanisms and better understands distance relationships between features. This allows the model to adapt better to the complexity of objects and learn more general features. Additionally, the ResMLP structure, when used instead of traditional convolutional MLP structures, effectively focuses on both large and small features in MRI images, helping the model learn more comprehensive features. These two structures play a critical role in enabling the ProposedSwin model to achieve high accuracy, precision, recall, and
Table 3 Experimental results on brain MRI dataset
Model Accuracy Precision Recall F1-score
VGG16 [67] 0.9924 0.9921 0.9917 0.9917
ResNet50 [63] 0.9893 0.9887 0.9886 0.9886
EfficientNetv2-Medium [68] 0.9924 0.9919 0.9917 0.9917
MobileNetv3-Small [69] 0.9939 0.9936 0.9934 0.9935
MobileViT-Small [70] 0.9947 0.9942 0.9942 0.9942
MobileViTv2-150 [71] 0.9954 0.9953 0.9950 0.9952
MaxViT-Base [72] 0.9931 0.9926 0.9927 0.9927
DeiT-Base [73] 0.9947 0.9943 0.9942 0.9942
DeiT3-Base [74] 0.9924 0.9919 0.9919 0.9919
ViT-Base-Patch32 [57] 0.9939 0.9934 0.9934 0.9934
BeiT-Base [75] 0.9954 0.9951 0.9950 0.9950
ConViT-Base [76] 0.9931 0.9928 0.9925 0.9926
Twins-Svt-Base [77] 0.9924 0.9918 0.9924 0.9921
PiT-Base [78] 0.9947 0.9943 0.9942 0.9942
Swin-Tiny [60] 0.9931 0.9927 0.9925 0.9926
Swinv2-Window16-Tiny [61] 0.9939 0.9935 0.9933 0.9934
GcViT-Base [79] 0.9947 0.9944 0.9942 0.9942
Proposed-Swin 0.9992 0.9992 0.9992 0.9992
F1-score values. As a result, the model excels in brain tumor classification tasks, offering a more effective solution compared to other architectures.
Among other models, following Proposed-Swin in terms of the highest performance are BeiT-Base and Mobi-leViTv2-150 models. BeiT-Base achieves an accuracy of 0.9954 and an F1-score of 0.9950, while MobileViTv2-150 similarly exhibits high performance with an accuracy of 0.9954 and an F1-score of 0.9952 . On the other hand, models with the lowest performance include ResNet50 and VGG16, with accuracy and F1-score values as follows: ResNet50 (Accuracy: 0.9893, F1-score: 0.9886) and VGG16 (Accuracy: 0.9924, F1-score: 0.9917). These evaluations underscore the outstanding performance of Proposed-Swin, and its more effective solution compared to other models.
The comparative analysis also highlights the significance of considering precision, recall, and F1-score alongside accuracy to evaluate model performance comprehensively. Models like “MobileNetv3-Small” and “MobileViT-Small” exhibited remarkable precision and recall values, indicating their proficiency in correctly identifying positive samples while minimizing false positives and negatives. Such high F1-scores, coupled with competitive accuracy, are indicative of robust models with balanced performance. Additionally, it is crucial to weigh the computational efficiency of each model, especially when deploying applications in real-world settings. Models like Proposed-Swin with their exceptional performance and computational efficiency, hold promise for
practical implementation in medical imaging and diagnostic systems. Among the models evaluated, the Proposed-Swin model stands out with exceptional results, achieving an outstanding metrics of 0.9992 . This demonstrates the ProposedSwin model is highly effective in accurately classifying brain MRI images, making it a promising candidate for real-world clinical applications.
Comparing the Proposed-Swin model with the other models, we can observe that it outperforms almost all of them in all metrics. For instance, the widely used VGG16 and ResNet50 models achieved an accuracy of 0.9924 and 0.9893 , respectively, which are slightly lower than the Pro-posed-Swin model. Similarly, other state-of-the-art models, such as EfficientNetv2-Medium, MobileNetv3-Small, and DeiT3-Base, demonstrated competitive performances but were still outperformed by the Proposed-Swin model in terms of all metrics.
Moreover, the Proposed-Swin model ‘s excellent results even surpass more complex models like ViT-Base-Patch32, PiT-Base, and GcViT-Base, which suggests that the model’s design and architecture are well-suited for the brain MRI classification task. It is important to point out that the Pro-posed-Swin model’s exceptional performance comes with the added advantage of being computationally efficient and lightweight. This characteristic makes it highly applicable in resource-constrained environments, such as mobile applications or edge devices, without sacrificing predictive accuracy. The confusion matrix for a few Swin-based transformer model as well as a few other cutting-edge deep learning models with Proposed-Swin is shown in Fig. 5.
Considering Fig. 5 all models demonstrated high accuracy to diagnose brain tumors. The Proposed-Swin, SwinTiny, DeiT3-Base, and GcViT-Base models showcased consistent and impressive results, with minimal misclassifications. The ResNet50 and ConViT-Base models also performed well, albeit with slightly higher misclassification rates. MobileViT-Small and BeiT-Base models exhibited strong performances but showed a few more errors compared to the top-performing models. The performance of the Proposed-Swin model in classifying brain tumor images into four categories was outstanding, with almost all predictions being accurate. Only one misclassification was observed, where a sample from the Pituitary class was mistakenly predicted as Meningioma.
Upon observation, the No-tumor class emerges as the most successfully diagnosed class across all models, with meningioma having higher FP values and varying FN values among the models. While ResNet50 exhibits the lowest class-specific performance, the Proposed Model consistently demonstrates the highest performance across all classes. Figure 6 provides a detailed comparison of all models based on the accuracy metric in a single line graph. As seen in Fig. 6, the most successful model is the Proposed Model
(Proposed-Swin), followed by MobileViTv2-150, BeiTBase, MobileViT-Small, DeiT-Base, with ResNet50 being the least performing model. Notably, the current model, DeiT3, shows lower performance compared to its predecessor, the DeiT model. This underscores the variability in performance that each model can exhibit on medical datasets.

4.6 Efficiency of the proposed-Swin model and Swin transformer variants

In this section, we embark on a comprehensive comparison between the Proposed Model and the Swin Transformer architecture, both of which hold significant importance in the field of deep learning. Our analysis encompasses an extensive range of model variants, ranging from the compact Tiny and Small models to the more substantial Base and Large models. Furthermore, we delve into the exploration of the SwinV2 Transformer, an evolved version of the Swin Transformer that introduces varying window sizes, presenting new opportunities for fine-tuning and optimization. To ensure a rigorous evaluation, we utilize the test data from the Brain MRI dataset. Table 4 showcases a detailed comparison of these models.
Table 4 analysis reveals that all Swin-based transformer models achieve an accuracy rate of over in correctly diagnosing brain MRI images. A noteworthy distinction is that the Proposed-Swin model beats existing tiny models in terms of accuracy and other metrics while showing comparable convergence speed and parameter count. The ProposedSwin model achieves a much greater accuracy of 0.9992 when compared to the Swin-Tiny model, which achieves an accuracy of 0.9931 , demonstrating a significant advantage.
The Proposed-Swin model performs better even when compared to the Swin-Small model. The accuracy of the Swin-Small model is 0.9939 , whereas that of the ProposedSwin model is 0.9992 . Similar to this, the Proposed-Swin model still triumphs when compared to the Swin-Base model. The accuracy of the Swin-Base model is 0.9954 , while that of the Proposed-Swin model is 0.9992 . Additionally, the Proposed-Swin model still has an edge over the Swin-Large model. The accuracy of the Swin-Large model is 0.9947, whereas that of the Proposed-Swin model is 0.9992 . The Proposed-Swin model additionally routinely exhibits improved accuracy and superior performance across a variety of parameters when compared to existing Swinv2-based models. For devices with lesser computational and memory requirements, it is a superior option because it can achieve greater performance with fewer settings. Figure 7 provides a detailed comparison of Swinv1 and Swinv2 models in a single line graph based on the accuracy metric. As seen in Fig. 7, the most successful model is the Proposed Model (Proposed-Swin), followed by the Swinv2-Window8-Tiny, Swinv2-Window8-Small, and Swin-Base models, while the
Fig. 5 Comparing confusion matrices: proposed-Swin model vs. some deep learning models
Swin model with the lowest performance is the Swin-Tiny model with an accuracy of 699.31. In general, Swin-based models exhibit high accuracy in diagnosing brain tumors, ranging from 99.31 to .
When assessing complexity, the Proposed-Swin model focuses on the HSW-MSA block and the scaled Swin-Base model. The Swin-Base model has 88 million parameters, while the scaled version, with 24 million parameters, is even lighter than the Swin-Tiny model ( 29 M ). The HSW-MSA layer, a key parameter influencer, increases model parameters by when replacing the SW-MSA block. However, overall scaling and ResMLP module make the model lighter than Swin-Tiny and less complex in layer count. The HSWMSA layer stands out by seamlessly combining three types
of shifted windows. It strategically allocates attention to traditional shifted windows and distributes the remaining to horizontal and vertical stripe windows. This intentional partitioning allows the model to capture local and global relationships, along with direction dependencies in both horizontal and vertical axes. This enhances feature representation, demonstrating improved performance in medical image processing, particularly in exploring brain tumor features and achieving better diagnostic accuracy.

4.7 Comparison with cutting-edge methods

The rapid advancements in computer vision techniques and medical imaging present new and significant opportunities
Fig. 6 Comparative analysis of accuracy across all deep learning models used in experiments
Table 4 Experimental results of the Swin-based models
Model Accuracy Precision Recall F1-score
Swin-Tiny 0.9931 0.9927 0.9925 0.9926
Swin-small 0.9939 0.9935 0.9933 0.9934
Swin-base 0.9954 0.9951 0.9950 0.9950
Swin-large 0.9947 0.9944 0.9942 0.9942
Swinv2-Window8-Tiny 0.9962 0.9961 0.9959 0.9960
Swinv2-Window16-Tiny 0.9939 0.9935 0.9933 0.9934
Swinv2-Window8-Small 0.9954 0.9952 0.995 0.9951
Swinv2-Window16-Small 0.9947 0.9942 0.9942 0.9942
Swinv2-Window8-Base 0.9947 0.9944 0.9942 0.9942
Swinv2-Window16-Base 0.9947 0.9943 0.9942 0.9942
Swinv2-Window12-Large 0.9954 0.9953 0.995 0.9952
Proposed-Swin 0.9992 0.9992 0.9992 0.9992
for the effective classification of brain MRI images. In this context, to assess the performance of our proposed model, we conducted a comprehensive comparison with current cutting-edge methods. Specifically, we focused on some methods that demonstrate superior success in the diagnosis of brain tumors, as highlighted in Table 5, showcasing the superior performance of our proposed model over other state-of-the-art methods.
Table 5 provides a comprehensive comparison of state-of-the-art models in the domain of brain MRI image
classification, particularly focusing on the vital task of diagnosing brain tumors. Amidst the array of methodologies presented by different studies, Proposed-Swin (ViT) stands out as a pinnacle of performance in detecting brain abnormalities. The convergence of advanced computer vision techniques and medical imaging is strikingly evident in the exceptional accuracy of Proposed-Swin (ViT) on Kaggle’s dataset, reaching an impressive . This achievement not only underscores the potential of the Swin-Based (ViT) architecture in elevating the precision of brain tumor identification but also positions it as a frontrunner in the field.
As we navigate through the intricate landscape of brain MRI classification, the diverse array of models in Table 5 reveals nuanced insights. CNN-based approaches, exemplified by Talukder et al., 2023 [13] and Tabatabaei et al., 2023 [48] on the Figshare dataset with accuracies of and , respectively, demonstrate noteworthy efficacy. On the Kaggle dataset, alongside Proposed-Swin (ViT), other CNN-based models such as Rahman and Islam [82], Muezzinoglu et al. [83], and Ali et al. [84] also exhibit high accuracy rates. However, it is essential to highlight that Proposed-Swin (ViT) not only surpasses these CNN-based models but excels as a benchmark for superior performance in brain tumor classification. Additionally, the comparative analysis underscores the diversity in model performances and signifies the evolving landscape of methodologies in advancing the accuracy of brain MRI-based diagnostics.
Fig. 7 Comparative analysis of accuracy across Swin transformer model

4.8 Limitations and future directions

This study introduces an advanced deep learning approach based on the Swin Transformer, but it comes with certain limitations. Among these limitations, the primary and most significant is the evaluation of the Proposed-Swin model’s performance on a brain MRI dataset composed of a combination of a few datasets due to the scarcity of publicly available datasets. Additionally, the limitation stems from the relatively small scale of the dataset for deep learning models. Assessing the model’s generalizability across different datasets, imaging characteristics, patient populations, and tumor types is challenging. Essentially, further research is needed to explore the effectiveness of the model in different datasets and clinical settings.
A second limitation is the lack of comprehensive clinical studies that validate the real-world clinical applicability of the model’s success. The model’s performance needs verification through studies involving various healthcare institutions, encompassing clinical variability, patient-specific factors, and the presence of rare tumor types. Furthermore, there is a limitation related to the tendency of deep learning models to lack interpretability. Understanding the decisionmaking process of the model is crucial for gaining trust from healthcare professionals.
Among the future directions of this study, the first and foremost is the multi-center validation on different datasets
obtained from various healthcare institutions to enhance the Swin Model’s performance and generalizability. This multi-center validation is crucial for evaluating the model’s performance across different imaging protocols and patient demographics. Additionally, planned studies aim to demonstrate the model’s performance on different medical images. Optimizing the Swin Model for real-time applications is also a significant future direction. Improving the model’s architecture and efficient inference strategies are essential for providing timely and on-site diagnostic support to radiologists.

5 Conclusion

This study introduces a groundbreaking deep learning method using the Swin Transformer for precise brain tumor diagnosis. Addressing challenges like suboptimal imaging and diverse tumor types, we incorporated the HSW-MSA and ResMLP. Our Proposed-Swin model achieved an outstanding accuracy on a brain MRI dataset, surpassing prior models. The Swin Transformer, enhanced by HSWMSA and ResMLP, proves effective in improving accuracy and efficiency. Transfer learning and data augmentation bolstered model robustness. Substituting ResMLP for the traditional MLP not only enhanced accuracy but also improved training speed and parameter efficiency.
Table 5 Proposed Model versus cutting-edge methods (Kaggle dataset consists of figshare, SARTAJ dataset, Br 35 H )
Author and year Dataset Method Accuracy %
Talukder et al., 2023 [13] Figshare CNN-based 99.68
Tabatabaei et al., 2023 [48] Figshare CNN + Attention 99.30
Deepak and Ameer, 2023 [80] Figshare CNN+SVM 95.60
Zulfiqar et al., 2023 [32] Figshare CNN-based 98.86
Ghassemi et al., 2020 [47] Figshare CNN+GAN 95.60
Mehnatkesh et al., 2023 [33] Figshare CNN-based 98.69
Swati et al., 2019 [51] Figshare CNN-based 94.82
Sajjad et al., 2019 [52] Figshare CNN-based 90.67
Rehman et al., 2020 [42] Figshare CNN-based 98.69
Kumar et al., 2021 [41] Figshare CNN-based 97.48
Mzoughi et al., 2020 [44] BraTS CNN-based 96.49
Sharif et al., 2022 [43] BraTS CNN-based 98.80
Ozkaraca et al., 2023 [81] Kaggle CNN-based 96.00
Rahman and Islam, 2023 [82] Kaggle CNN-based 98.12
Muezzinoglu et al., 2023 [83] Kaggle CNN-based 98.10
Ali et al., 2023 [84] Kaggle CNN-based 95.70
Proposed-Swin Kaggle Swin-based (ViT) 99.92
The significance of our findings lies in the potential support our method can provide to radiologists in making accurate and timely diagnoses, ultimately leading to improved patient outcomes and reduced risks associated with brain tumors. The innovative diagnostic approach introduced in this study, incorporating HSW-MSA and ResMLP in the Swin Transformer, represents a valuable contribution to the field of medical imaging and deep learning applications. As we move forward, further validation on diverse datasets and real-world clinical settings will be essential to establish the generalizability and reliability of the Proposed-Swin model. Nevertheless, our study lays a foundation for future research and developments in leveraging deep learning techniques for enhancing the diagnostic capabilities in neuroimaging, with the ultimate goal of improving patient care and outcomes in the realm of brain tumor diagnosis.
Author contributions Ishak Pacal is solely responsible for all aspects of this work, including conceptualization, methodology design, data collection, analysis, and the creation of visual aids. He authored the entirety of the manuscript, meticulously reviewed and edited it for clarity, and granted final approval for its publication.
Funding Open access funding provided by the Scientific and Technological Research Council of Türkiye (TÜBİTAK). The authors state no financial support was received for this manuscript.
Data availability MRI dataset can be accessed in Kaggle “https://www. kaggle.com/datasets/masoudnickparvar/brain-tumor-mri-dataset“.

Declarations

Conflict of interest No competing interests declared.
Ethical approval No ethics approval was required for this work as it did not involve human subjects, animals, or sensitive data that would necessitate ethical review.
Consent to participate No formal consent to participate was required for this work as it did not involve interactions with human subjects or the collection of sensitive personal information.
Consent to publish This study did not use individual person’s data.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by/4.0/.

References

  1. Bondy ML, Scheurer ME, Malmer B et al (2008) Brain tumor epidemiology: consensus from the Brain Tumor Epidemiology Consortium. Cancer 113:1953-1968
  2. Herholz K, Langen KJ, Schiepers C, Mountz JM (2012) Brain tumors. Semin Nucl Med 42:356-370. https://doi.org/10.1053/j. semnuclmed.2012.06.001
  3. Ostrom QT, Barnholtz-Sloan JS (2011) Current state of our knowledge on brain tumor epidemiology. Curr Neurol Neurosci Rep 11:329-335. https://doi.org/10.1007/s11910-011-0189-8
  4. Miller KD, Ostrom QT, Kruchko C et al (2021) Brain and other central nervous system tumor statistics, 2021. CA Cancer J Clin 71:381-406. https://doi.org/10.3322/caac. 21693
  5. Charles NA, Holland EC, Gilbertson R et al (2011) The brain tumor microenvironment. Glia 59:1169-1180. https://doi.org/10. 1002/glia. 21136
  6. Liu Z, Tong L, Chen L et al (2023) Deep learning based brain tumor segmentation: a survey. Complex Intell Syst 9:1001-1026. https://doi.org/10.1007/s40747-022-00815-5
  7. Jyothi P, Singh AR (2023) Deep learning models and traditional automated techniques for brain tumor segmentation in MRI: a review. Artif Intell Rev 56:2923-2969. https://doi.org/10.1007/ s10462-022-10245-x
  8. Solanki S, Singh UP, Chouhan SS, Jain S (2023) Brain tumor detection and classification using intelligence techniques: an overview. IEEE Access 11:12870-12886
  9. Villanueva-Meyer JE, Mabray MC, Cha S (2017) Current clinical brain tumor imaging. Clin Neurosurg 81:397-415. https://doi.org/ 10.1093/neuros/nyx103
  10. Ellingson BM, Wen PY, Van Den Bent MJ, Cloughesy TF (2014) Pros and cons of current brain tumor imaging. Neuro Oncol 16:vii2-vii11. https://doi.org/10.1093/neuonc/nou224
  11. Xie Y, Zaccagna F, Rundo L et al (2022) Convolutional neural network techniques for brain tumor classification (from 2015 to 2022): review, challenges, and future perspectives. Diagnostics 12:1850
  12. Ali S, Li J, Pei Y et al (2022) A comprehensive survey on brain tumor diagnosis using deep learning and emerging hybrid techniques with multi-modal MR image. Arch Comput Methods Eng 29:4871-4896
  13. Talukder MA, Islam MM, Uddin MA et al (2023) An efficient deep learning model to categorize brain tumor using reconstruction and fine-tuning. Expert Syst Appl. https://doi.org/10.1016/j. eswa.2023.120534
  14. Rajeev SK, Pallikonda Rajasekaran M, Vishnuvarthanan G, Arunprasath T (2022) A biologically-inspired hybrid deep learning approach for brain tumor classification from magnetic resonance imaging using improved gabor wavelet transform and Elmann-BiLSTM network. Biomed Signal Process Control. https://doi.org/10.1016/j.bspc.2022.103949
  15. Pacal I, Kılıcarslan S (2023) Deep learning-based approaches for robust classification of cervical cancer. Neural Comput Appl. https://doi.org/10.1007/s00521-023-08757-w
  16. Coşkun D, Karaboğa D, Baştürk A et al (2023) A comparative study of YOLO models and a transformer-based YOLOv5 model for mass detection in mammograms. Turk J Electr Eng Comput Sci 31:1294-1313. https://doi.org/10.55730/13000632.4048
  17. Wang W, Pei Y, Wang SH et al (2023) PSTCNN: explainable COVID-19 diagnosis using PSO-guided self-tuning CNN. Biocell 47:373-384. https://doi.org/10.32604/biocell.2023.025905
  18. Pacal I, Karaboga D (2021) A robust real-time deep learning based automatic polyp detection system. Comput Biol Med. https://doi. org/10.1016/j.compbiomed.2021.104519
  19. Zhang Y-D, Govindaraj VV, Tang C et al (2019) High performance multiple sclerosis classification by data augmentation and AlexNet transfer learning model. J Med Imaging Health Inform 9:2012-2021. https://doi.org/10.1166/JMIHI.2019.2692
  20. Wang W, Zhang X, Wang SH, Zhang YD (2022) COVID-19 diagnosis by WE-SAJ. Syst Sci Control Eng 10:325-335. https://doi. org/10.1080/21642583.2022.2045645
  21. Pacal I (2022) Deep learning approaches for classification of breast cancer in ultrasound (US) images. J Inst Sci Technol. https://doi.org/10.21597/jist. 1183679
  22. Amin J, Sharif M, Haldorai A et al (2022) Brain tumor detection and classification using machine learning: a comprehensive survey. Complex Intell Syst 8:3161-3183. https://doi.org/10.1007/ s40747-021-00563-y
  23. Deepak S, Ameer PM (2019) Brain tumor classification using deep CNN features via transfer learning. Comput Biol Med. https://doi.org/10.1016/j.compbiomed.2019.103345
  24. Wang SH, Govindaraj VV, Górriz JM et al (2021) Covid-19 classification by FGCNet with deep feature fusion from graph convolutional network and convolutional neural network. Inform Fusion 67:208-229. https://doi.org/10.1016/j.inffus.2020.10.004
  25. Chahal PK, Pandey S, Goel S (2020) A survey on brain tumor detection techniques for MR images. Multimed Tools Appl 79:21771-21814. https://doi.org/10.1007/s11042-020-08898-3
  26. Amin J, Sharif M, Yasmin M, Fernandes SL (2018) Big data analysis for brain tumor detection: deep convolutional neural networks. Futur Gener Comput Syst 87:290-297. https://doi.org/10. 1016/j.future.2018.04.065
  27. Esmaeili M, Vettukattil R, Banitalebi H et al (2021) Explainable artificial intelligence for human-machine interaction in brain tumor localization. J Pers Med. https://doi.org/10.3390/jpm11 111213
  28. Zhang Y, Deng L, Zhu H et al (2023) Deep learning in food category recognition. Inform Fusion. https://doi.org/10.1016/j.inffus. 2023.101859
  29. Karaman A, Karaboga D, Pacal I et al (2022) Hyper-parameter optimization of deep learning architectures using artificial bee colony (ABC) algorithm for high performance real-time automatic colorectal cancer (CRC) polyp detection. Appl Intell. https://doi. org/10.1007/s10489-022-04299-1
  30. Pacal I, Karaman A, Karaboga D et al (2022) An efficient realtime colonic polyp detection with YOLO algorithms trained by using negative samples and large datasets. Comput Biol Med. https://doi.org/10.1016/J.COMPBIOMED.2021.105031
  31. Pacal I, Alaftekin M (2023) Türk İşaret Dilinin Sınıflandırılması için Derin Öğrenme Yaklaşımları. Iğdır Üniversitesi Fen Bilimleri Enstitüsü Dergisi 13:760-777. https://doi.org/10.21597/jist. 12234 57
  32. Zulfiqar F, Ijaz Bajwa U, Mehmood Y (2023) Multi-class classification of brain tumor types from MR images using EfficientNets. Biomed Signal Process Control. https://doi.org/10.1016/j.bspc. 2023.104777
  33. Mehnatkesh H, Jalali SMJ, Khosravi A, Nahavandi S (2023) An intelligent driven deep residual learning framework for brain tumor classification using MRI images. Expert Syst Appl. https:// doi.org/10.1016/j.eswa.2022.119087
  34. Shamshad F, Khan S, Zamir SW et al (2023) Transformers in medical imaging: a survey. Med Image Anal 88:102802
  35. Akinyelu AA, Zaccagna F, Grist JT et al (2022) Brain tumor diagnosis using machine learning, convolutional neural networks, capsule neural networks and vision transformers, applied to MRI: a survey. J Imaging 8:205
  36. Celard P, Iglesias EL, Sorribes-Fdez JM et al (2023) A survey on deep learning applied to medical images: from simple artificial neural networks to generative models. Neural Comput Appl 35:2291-2323
  37. Tummala S, Kadry S, Bukhari SAC, Rauf HT (2022) Classification of brain tumor from magnetic resonance imaging using vision transformers ensembling. Curr Oncol 29:7498-7511. https://doi. org/10.3390/curroncol29100590
  38. Karaman A, Pacal I, Basturk A et al (2023) Robust real-time polyp detection system design based on YOLO algorithms by optimizing activation functions and hyper-parameters with artificial bee colony (ABC). Expert Syst Appl. https://doi.org/10.1016/j.eswa. 2023.119741
  39. Nazir M, Shakil S, Khurshid K (2021) Role of deep learning in brain tumor detection and classification (2015 to 2020): a review. Comput Med Imaging Graph. https://doi.org/10.1016/j.compm edimag.2021.101940
  40. Jiang Y, Zhang Y, Lin X et al (2022) SwinBTS: a method for 3D multimodal brain tumor segmentation using Swin transformer. Brain Sci. https://doi.org/10.3390/brainsci12060797
  41. Kumar RL, Kakarla J, Isunuri BV, Singh M (2021) Multi-class brain tumor classification using residual network and global average pooling. Multimed Tools Appl 80:13429-13438. https://doi. org/10.1007/s11042-020-10335-4
  42. Rehman A, Naz S, Razzak MI et al (2020) A deep learning-based framework for automatic brain tumors classification using transfer learning. Circuits Syst Signal Process 39:757-775. https://doi.org/ 10.1007/s00034-019-01246-3
  43. Sharif MI, Khan MA, Alhussein M et al (2022) A decision support system for multimodal brain tumor classification using deep learning. Complex Intell Syst 8:3007-3020. https://doi.org/10. 1007/s40747-021-00321-0
  44. Mzoughi H, Njeh I, Wali A et al (2020) Deep multi-scale 3D convolutional neural network (CNN) for MRI gliomas brain tumor classification. J Digit Imaging 33:903-915. https://doi.org/10. 1007/s10278-020-00347-9
  45. Amin J, Sharif M, Raza M et al (2019) Brain tumor detection using statistical and machine learning method. Comput Methods Programs Biomed 177:69-79. https://doi.org/10.1016/j.cmpb. 2019.05.015
  46. Tandel GS, Balestrieri A, Jujaray T et al (2020) Multiclass magnetic resonance imaging brain tumor classification using artificial intelligence paradigm. Comput Biol Med. https://doi.org/10. 1016/j.compbiomed.2020.103804
  47. Ghassemi N, Shoeibi A, Rouhani M (2020) Deep neural network with generative adversarial networks pre-training for brain tumor classification based on MR images. Biomed Signal Process Control. https://doi.org/10.1016/j.bspc.2019.101678
  48. Tabatabaei S, Rezaee K, Zhu M (2023) Attention transformer mechanism and fusion-based deep learning architecture for MRI brain tumor classification system. Biomed Signal Process Control. https://doi.org/10.1016/j.bspc.2023.105119
  49. Kumar S, Mankame DP (2020) Optimization driven deep convolution neural network for brain tumor classification. Biocybern Biomed Eng 40:1190-1204. https://doi.org/10.1016/j.bbe.2020.05.009
  50. Amin J, Sharif M, Yasmin M, Fernandes SL (2020) A distinctive approach in brain tumor detection and classification using MRI. Pattern Recognit Lett 139:118-127. https://doi.org/10.1016/j. patrec.2017.10.036
  51. Swati ZNK, Zhao Q, Kabir M et al (2019) Brain tumor classification for MR images using transfer learning and fine-tuning. Comput Med Imaging Graph 75:34-46. https://doi.org/10.1016/j. compmedimag.2019.05.001
  52. Sajjad M, Khan S, Muhammad K et al (2019) Multi-grade brain tumor classification using deep CNN with extensive data augmentation. J Comput Sci 30:174-182. https://doi.org/10.1016/j.jocs.2018.12.003
  53. Brain tumor dataset. https://figshare.com/articles/dataset/brain_ tumor_dataset/1512427. Accessed 30 Jul 2023
  54. Brain Tumor Classification (MRI) I Kaggle. https://www.kag-gle.com/datasets/sartajbhuvaji/brain-tumor-classification-mri. Accessed 30 Jul 2023
  55. Br35H :: Brain Tumor Detection 2020 | Kaggle. https://www.kag-gle.com/datasets/ahmedhamada0/brain-tumor-detection?select= no. Accessed 30 Jul 2023
  56. Brain Tumor MRI Dataset I Kaggle. https://www.kaggle.com/ datasets/masoudnickparvar/brain-tumor-mri-dataset?select=Train ing. Accessed 30 Jul 2023
  57. Dosovitskiy A, Beyer L, Kolesnikov A et al (2020) An image is Worth words: transformers for image recognition at scale. In: ICLR 2021-9th International Conference on Learning Representations
  58. Pacal I (2024) Enhancing crop productivity and sustainability through disease identification in maize leaves: exploiting a large dataset with an advanced vision transformer model. Expert Syst Appl. https://doi.org/10.1016/j.eswa.2023.122099
  59. Khan S, Naseer M, Hayat M et al (2021) Transformers in vision: a survey. ACM Comput Surv. https://doi.org/10.1145/3505244
  60. Liu Z, Lin Y, Cao Y, et al (2021) Swin transformer: hierarchical vision transformer using shifted windows
  61. Liu Z, Hu H, Lin Y, et al (2021) Swin transformer V2: scaling up capacity and resolution
  62. Touvron H, Bojanowski P, Caron M, et al (2021) ResMLP: feedforward networks for image classification with data-efficient training
  63. He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2016Decem, pp 770-778. https://doi.org/10.1109/CVPR.2016.90
  64. Russakovsky O, Deng J, Su H et al (2015) ImageNet large scale visual recognition challenge. Int J Comput Vis 115:211-252. https://doi.org/10.1007/s11263-015-0816-y
  65. Krizhevsky A, Sutskever I, Hinton GE (2017) ImageNet classification with deep convolutional neural networks. Commun ACM 60:84-90. https://doi.org/10.1145/3065386
  66. Krizhevsky A, Sutskever I, Hinton GE (2012) ImageNet classification with deep convolutional neural networks. In: Pereira F, Burges CJ, Bottou L, Weinberger KQ (eds) Advances in neural information processing systems. Curran Associates Inc
  67. Simonyan K, Zisserman A (2015) Very deep convolutional networks for large-scale image recognition. In: 3rd International Conference on Learning Representations, ICLR 2015-Conference Track Proceedings, pp 1-14
  68. Tan M, Le Q V (2021) EfficientNetV2: smaller models and faster training
  69. Howard A, Sandler M, Chen B, et al (2019) Searching for mobileNetV3. In: Proceedings of the IEEE International Conference on Computer Vision. Institute of Electrical and Electronics Engineers Inc., pp 1314-1324
  70. Mehta S, Rastegari M (2021) MobileViT: light-weight, generalpurpose, and mobile-friendly vision transformer. 3
  71. Mehta S, Rastegari M (2022) Separable self-attention for mobile vision transformers
  72. Tu Z, Talebi H, Zhang H, et al (2022) MaxViT: multi-axis vision transformer. Lecture Notes in computer science (including subseries lecture notes in artificial intelligence and lecture notes in bioinformatics) 13684 LNCS, pp 459-479. https://doi.org/10. 1007/978-3-031-20053-3_27
  73. Touvron H, Cord M, Douze M, et al (2020) Training data-efficient image transformers & distillation through attention, pp 1-22
  74. Touvron H, Cord M, Ai M DeiT III : Revenge of the ViT. 1-27
  75. Bao H, Dong L, Piao S, Wei F (2021) BEiT: BERT pre-training of image transformers
  76. d’Ascoli S, Touvron H, Leavitt M, et al (2021) ConViT: improving vision transformers with soft convolutional inductive biases. https://doi.org/10.1088/1742-5468/ac9830
  77. Chu X, Tian Z, Wang Y et al (2021) Twins: revisiting the design of spatial attention in vision transformers. Adv Neural Inf Process Syst 12:9355-9366
  78. Heo B, Yun S, Han D, et al (2021) Rethinking spatial dimensions of vision transformers
  79. Hatamizadeh A, Yin H, Heinrich G, et al (2022) Global context vision transformers
  80. Deepak S, Ameer PM (2023) Brain tumor categorization from imbalanced MRI dataset using weighted loss and deep feature fusion. Neurocomputing 520:94-102. https://doi.org/10.1016/j. neucom.2022.11.039
  81. Ozkaraca O, Bağrıaçık Oİ, Gürüler H et al (2023) Multiple brain tumor classification with dense CNN architecture using brain MRI images. Life. https://doi.org/10.3390/life13020349
  82. Rahman T, Islam MS (2023) MRI brain tumor detection and classification using parallel deep convolutional neural networks. Meas Sens. https://doi.org/10.1016/j.measen.2023.100694
  83. Muezzinoglu T, Baygin N, Tuncer I et al (2023) PatchResNet: Multiple patch division-based deep feature fusion framework for brain tumor classification using MRI images. J Digit Imaging 36:973-987. https://doi.org/10.1007/s10278-023-00789-x
  84. Ali MU, Hussain SJ, Zafar A et al (2023) WBM-DLNets: wrapperbased metaheuristic deep learning networks feature optimization for enhancing brain tumor detection. Bioengineering. https://doi. org/10.3390/bioengineering10040475
Publisher’s Note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

  1. Ishak Pacal
    ishak.pacal@igdir.edu.tr
    1 Department of Computer Engineering, Faculty of Engineering, Igdir University, 76000 Igdir, Turkey