نموذج قابل للتفسير قائم على التعلم العميق الجماعي لاكتشاف وتصنيف أورام الدماغ
Explainable ensemble deep learning-based model for brain tumor detection and classification

المجلة: Neural Computing and Applications، المجلد: 37، العدد: 3
DOI: https://doi.org/10.1007/s00521-024-10401-0
تاريخ النشر: 2024-11-20
المؤلف: Khalid M. Hosny وآخرون
الموضوع الرئيسي: كشف وتصنيف أورام الدماغ

نظرة عامة

تركز الأبحاث على الحاجة الملحة للتصنيف الدقيق والكشف عن أورام الدماغ، التي تعد من الأسباب الرئيسية للوفيات. لمعالجة قيود طرق التعلم العميق التقليدية، التي تتطلب غالبًا وقت تدريب طويل، يقترح المؤلفون نهجًا جماعيًا يستفيد من التعلم الانتقالي مع النماذج المدربة مسبقًا DenseNet121 و InceptionV3. تم تصميم هذا النموذج لتصنيف ثلاثة أنواع من أورام الدماغ: السحائية، والورم الدبقي، والغدة النخامية. تم إجراء تعديلات على الهياكل المدربة مسبقًا من خلال استبدال مصنفاتها بواحد جديد مصمم خصيصًا لهذه المهمة. حقق النموذج مقاييس أداء مثيرة للإعجاب، بما في ذلك دقة 99.02%، ودقة 98.75%، واسترجاع 98.98%، ودرجة F1 98.86%، تم التحقق منها على مجموعة بيانات متاحة للجمهور.

تؤكد الدراسة على أهمية تقنيات المعالجة المسبقة، مثل استخراج منطقة الاهتمام (ROI)، والقص، وإعادة الحجم، لتعزيز جودة الصورة. لمكافحة الإفراط في التكيف، دمج النموذج طبقات إسقاط وتنظيم L2، إلى جانب زيادة البيانات لتحسين القوة ومعالجة عدم توازن الفئات. شملت طرق التقييم تقسيم التدريب والاختبار والتحقق المتقاطع المنهجي، مما يضمن الموثوقية. قدم استخدام خرائط تنشيط الفئة المدعومة بالتدرج (Grad-CAM) قابلية التفسير، مما سمح بتحديد المناطق المهمة في صور الرنين المغناطيسي، مما زاد من الثقة بين المهنيين الطبيين. تهدف الأعمال المستقبلية إلى تطوير نهج هجين أكثر كفاءة يجمع بين تقنيات التعلم العميق والتعلم الآلي لتحسين استخدام الموارد وتعزيز استخراج الميزات.

مقدمة

تسلط مقدمة هذه الورقة البحثية الضوء على الطبيعة الحرجة لأورام الدماغ، التي تصنف إلى أنواع أولية وثانوية، مع كون الأورام الدبقية الأكثر انتشارًا بين البالغين. تؤكد الورقة على أهمية التشخيص الدقيق وتصنيف أورام الدماغ، والتي يمكن أن تكون تحديًا بسبب تنوعها في الحجم والشكل والموقع. يتم استخدام طرق التصوير المختلفة، وخاصة التصوير بالرنين المغناطيسي (MRI)، للتشخيص، مع تطبيق خوارزميات التعلم الآلي (ML) والتعلم العميق (DL) بشكل متزايد لتصنيف الأورام. بينما تتطلب طرق ML التقليدية استخراج الميزات يدويًا، يمكن لتقنيات DL، وخاصة الشبكات العصبية التلافيفية (CNNs)، تحديد الميزات ذات الصلة تلقائيًا، مما يعزز دقة التشخيص.

يناقش المؤلفون قيود النماذج الحالية، وخاصة نقص قابلية التفسير، وهو أمر حاسم في المجال الطبي. يقترحون نموذجًا جماعيًا يجمع بين الشبكات المدربة مسبقًا DenseNet121 و InceptionV3، مستفيدين من التعلم الانتقالي وخرائط تنشيط الفئة المدعومة بالتدرج (Grad-CAM) لتحسين قابلية التفسير. يهدف هذا النهج إلى تصنيف ثلاثة أنواع من أورام الدماغ—السحائية، والورم الدبقي، والغدة النخامية—مع تقديم رؤى حول عملية اتخاذ القرار للنموذج. يظهر الأسلوب المقترح أداءً متفوقًا مقارنة بالنماذج الحالية، محققًا دقة عالية على مجموعات البيانات المتاحة للجمهور ومعالجة الحاجة إلى الذكاء الاصطناعي القابل للتفسير في التشخيص الطبي. توضح الورقة هيكلها، مع تفاصيل الأقسام التالية حول نظرة عامة على مجموعة البيانات، والمنهجية، والنتائج، والمناقشة، والاستنتاج.

طرق

في هذا القسم، يقدم المؤلفون منهجية مقترحة تستفيد من الشبكات المدربة مسبقًا لتعزيز أداء نموذجهم. يوضحون المعلمات الفائقة المحددة المستخدمة في نهجهم، والتي تعتبر حاسمة لتحسين فعالية الشبكة. بالإضافة إلى ذلك، تؤكد المنهجية على أهمية القابلية للتفسير، مما يضمن أن قرارات النموذج يمكن تفسيرها وفهمها، مما يزيد من موثوقيتها وقابليتها للتطبيق في السيناريوهات العملية.

نتائج

في هذا القسم، يتم تقييم أداء طريقة التشخيص المدعومة بالكمبيوتر المقترحة باستخدام مقاييس مختلفة على مجموعة بيانات CE-MRI، التي تم تقسيمها إلى 70% للتدريب و30% للاختبار. تم تقييم أداء النموذج باستخدام مصفوفة الارتباك، مما سهل حساب مقاييس التصنيف الرئيسية مثل الدقة، والدقة، والاسترجاع، ودرجة F1. تم إجراء التجارب باستخدام مكتبة TensorFlow على وحدة معالجة الرسوميات (NVIDIA RTX 3050) مع 16 جيجابايت من الذاكرة العشوائية.

بالإضافة إلى ذلك، تم اختبار قابلية تفسير النموذج باستخدام Grad-CAM على عينات غير مرئية من مجموعة بيانات الاختبار. نجحت تقنية Grad-CAM في تسليط الضوء على المناطق المهمة في صور الرنين المغناطيسي عبر ثلاثة مستويات: المحور، والتاجي، والسهمي. تظهر النتائج، الموضحة في الأشكال 10 و 11، فعالية النموذج الجماعي القابل للتفسير الذي يجمع بين DenseNet121 و InceptionV3. الشكل 12 يوضح أيضًا مخرجات Grad-CAM لمختلف كتل DenseNet121، مع تنظيم الطبقات التلافيفية حسب ترتيب معالجتها، من الطبقات السابقة في أعلى اليسار إلى الطبقات اللاحقة في أسفل اليمين.

مناقشة

ت outlines قسم المناقشة في الورقة البحثية المنهجية والنتائج لنموذج جماعي لتصنيف أورام الدماغ باستخدام التعلم الانتقالي مع DenseNet121 و InceptionV3. تتكون مجموعة البيانات من 3064 صورة MRI معززة بالتباين بتقنية T1 من ثلاثة أنواع من الأورام: السحائية، والورم الدبقي، وأورام الغدة النخامية. خضعت الصور لعمليات معالجة مسبقة لاستخراج منطقة الاهتمام (ROI) وتم إعادة حجمها من أجل الكفاءة الحاسوبية. حقق النموذج الجماعي، الذي جمع توقعات الشبكتين المدربتين مسبقًا من خلال آلية تصويت ناعمة، مقاييس أداء مثيرة للإعجاب: دقة 99.02%، ودقة 98.75%، واسترجاع 98.98%، ودرجة F1 98.86%.

كما استخدمت الدراسة Grad-CAM من أجل قابلية تفسير النموذج، مما يسمح بتصور المناطق في صور الرنين المغناطيسي التي ساهمت أكثر في قرارات التصنيف. تعزز هذه الميزة موثوقية النموذج وتساعد في عملية التشخيص من خلال تقديم رؤى حول عملية اتخاذ القرار للشبكات العصبية. تفوق النموذج الجماعي على النماذج المدربة مسبقًا الفردية، مما يظهر دقة متفوقة عبر عدة تكرارات تقييم، بما في ذلك التحقق المتقاطع المنهجي 5-fold، حيث حافظ على دقة متوسطة تبلغ 98.11%. تشير النتائج إلى أن دمج النماذج يمكن أن يعالج بشكل فعال القيود في الدراسات السابقة، وأن مكون الذكاء الاصطناعي القابل للتفسير يعزز الثقة في توقعات النموذج، مما يجعله أداة قيمة للأطباء. تهدف الأعمال المستقبلية إلى تطوير نهج هجين يحسن استخدام الموارد ويعزز استخراج الميزات.

Journal: Neural Computing and Applications, Volume: 37, Issue: 3
DOI: https://doi.org/10.1007/s00521-024-10401-0
Publication Date: 2024-11-20
Author(s): Khalid M. Hosny et al.
Primary Topic: Brain Tumor Detection and Classification

Overview

The research focuses on the critical need for accurate classification and detection of brain tumors, which are a leading cause of mortality. To address the limitations of traditional deep learning methods, which often require extensive training time, the authors propose an ensemble approach leveraging transfer learning with pre-trained models DenseNet121 and InceptionV3. This model is designed to classify three types of brain tumors: meningioma, glioma, and pituitary. Modifications were made to the pre-trained architectures by replacing their classifiers with a new one tailored for the specific task. The model achieved impressive performance metrics, including 99.02% accuracy, 98.75% precision, 98.98% recall, and a 98.86% F1 score, validated on a publicly available dataset.

The study emphasizes the importance of preprocessing techniques, such as region of interest (ROI) extraction, cropping, and resizing, to enhance image quality. To combat overfitting, the model incorporated dropout layers and L2 regularization, alongside data augmentation to improve robustness and address class imbalance. Evaluation methods included train-test split and stratified k-fold cross-validation, ensuring reliability. The use of gradient-weighted class activation maps (Grad-CAM) provided interpretability, allowing for the identification of significant areas in MR images, thereby increasing trust among medical professionals. Future work aims to develop a more efficient hybrid approach combining deep learning and machine learning techniques to optimize resource use and enhance feature extraction.

Introduction

The introduction of this research paper highlights the critical nature of brain tumors, which are classified into primary and secondary types, with gliomas being the most prevalent among adults. The paper emphasizes the importance of accurate diagnosis and classification of brain tumors, which can be challenging due to their variability in size, shape, and location. Various imaging modalities, particularly magnetic resonance imaging (MRI), are utilized for diagnosis, with machine learning (ML) and deep learning (DL) algorithms increasingly applied for tumor classification. While traditional ML methods require manual feature extraction, DL techniques, especially convolutional neural networks (CNNs), can automatically identify relevant features, enhancing diagnostic accuracy.

The authors discuss the limitations of existing models, particularly their lack of interpretability, which is crucial in the medical field. They propose an ensemble model combining DenseNet121 and InceptionV3 pre-trained networks, utilizing transfer learning and gradient-weighted class activation maps (Grad-CAM) for enhanced interpretability. This approach aims to classify three types of brain tumors—meningioma, glioma, and pituitary—while providing insights into the decision-making process of the model. The proposed method demonstrates superior performance compared to existing models, achieving high accuracy on publicly available datasets and addressing the need for explainable AI in medical diagnostics. The paper outlines its structure, detailing subsequent sections on dataset overview, methodology, findings, discussion, and conclusion.

Methods

In this section, the authors present a proposed methodology that leverages pre-trained networks to enhance the performance of their model. They detail the specific hyperparameters utilized in their approach, which are critical for optimizing the network’s effectiveness. Additionally, the methodology emphasizes the importance of explainability, ensuring that the model’s decisions can be interpreted and understood, thereby increasing its reliability and applicability in practical scenarios.

Results

In this section, the performance of the proposed computer-aided diagnosis method is evaluated using various metrics on the CE-MRI dataset, which was divided into 70% for training and 30% for testing. The model’s performance was assessed using a confusion matrix, which facilitated the calculation of key classification metrics such as accuracy, precision, recall, and the F1 score. The experiments were conducted utilizing the TensorFlow library on a GPU (NVIDIA RTX 3050) with 16 GB of RAM.

Additionally, the explainability of the model was tested using Grad-CAM on unseen samples from the test dataset. The Grad-CAM technique successfully highlighted significant regions in MR images across three planes: axial, coronal, and sagittal. The results, illustrated in Figures 10 and 11, demonstrate the effectiveness of the explainable ensemble model combining DenseNet121 and InceptionV3. Figure 12 further details the Grad-CAM outputs for various blocks of DenseNet121, with convolutional layers organized by their order of processing, from earlier layers in the top left to later layers in the bottom right.

Discussion

The discussion section of the research paper outlines the methodology and findings of an ensemble model for brain tumor classification using transfer learning with DenseNet121 and InceptionV3. The dataset comprised 3064 T1-weighted contrast-enhanced MRI images from three tumor types: meningioma, glioma, and pituitary tumors. The images underwent preprocessing to extract the region of interest (ROI) and were resized for computational efficiency. The ensemble model, which combined the predictions of the two pre-trained networks through a soft voting mechanism, achieved impressive performance metrics: 99.02% accuracy, 98.75% precision, 98.98% recall, and 98.86% F1 score.

The study also employed Grad-CAM for model interpretability, allowing visualization of the areas of the MRI images that contributed most to the classification decisions. This feature enhances the model’s reliability and aids in the diagnostic process by providing insights into the decision-making of the neural networks. The ensemble model outperformed individual pre-trained models, demonstrating superior accuracy across multiple evaluation iterations, including stratified 5-fold cross-validation, where it maintained a mean accuracy of 98.11%. The findings suggest that combining models can effectively address limitations in previous studies, and the explainable AI component fosters greater trust in the model’s predictions, making it a valuable tool for clinicians. Future work aims to develop a hybrid approach that optimizes resource use and enhances feature extraction.