Mod-SE(2): إطار تعلم عميق هندسي لتصنيف الأورام الدماغية وتقسيمها في صور الرنين المغناطيسي
Mod-SE(2): a geometric deep learning framework for brain tumor classification and segmentation in MRI images

المجلة: Journal of Biomedical Science، المجلد: 33، العدد: 1
DOI: https://doi.org/10.1186/s12929-025-01213-y
PMID: https://pubmed.ncbi.nlm.nih.gov/41527065
تاريخ النشر: 2026-01-12
المؤلف: Clara Lavita Angelina وآخرون
الموضوع الرئيسي: كشف وتصنيف أورام الدماغ

نظرة عامة

تقدم هذه البحث إطار عمل جديد للتعلم العميق الهندسي، Modified Special Euclidean (Mod-SE(2))، يهدف إلى تحسين تصنيف وتقسيم أورام الدماغ في صور الرنين المغناطيسي. تعاني الشبكات العصبية التلافيفية التقليدية (CNNs) من صعوبة في التعامل مع الشكل غير المتجانس للأورام بسبب نقصها في الثبات الدوراني والترجماتي. يعالج Mod-SE(2) هذه القيود من خلال دمج الأولويات الهندسية وعمليات الالتفاف التي تحافظ على التناظر، مما يحسن الاتساق المكاني ويقلل الاعتماد على زيادة البيانات. تم تقييم الإطار بشكل صارم عبر ثلاثة مجموعات بيانات للرنين المغناطيسي واثنين من مجموعات بيانات التصوير الطبي الإضافية، مما يظهر أداءً متفوقًا مقارنة بالهياكل التقليدية مثل U-Net و VGG16 و ResNet.

تشير النتائج إلى أن Mod-Cls-SE(2) حقق دقة تصنيف متوسطة قدرها 0.914، متفوقًا بشكل كبير على ResNet101 و VGG16، بينما حقق Mod-Seg-SE(2) معامل ديس (dice coefficient) قدره 0.9503 و IoU قدره 0.9616 على مجموعة بيانات BraTS2020، متجاوزًا U-Net و NN U-Net. تصميم النموذج لا يعزز الدقة والموثوقية في اكتشاف الأورام فحسب، بل يقلل أيضًا من وقت الاستدلال، مما يجعله فعالًا للتطبيقات السريرية. تشير النتائج إلى أن Mod-SE(2) يقدم إمكانات تحويلية للطب الدقيق من خلال توفير مخرجات متسقة مكانيًا حاسمة للتخطيط الجراحي وتقييم العلاج، بينما يدعم اتساقه الهندسي التكامل مع تقنيات التصوير متعددة الأنماط، مما يعزز قابليته للتطبيق في الرعاية العصبية الشخصية.

مقدمة

تسلط مقدمة هذه الورقة البحثية الضوء على التعقيدات والتحديات المرتبطة بتشخيص وتصنيف أنواع مختلفة من أورام الدماغ، بما في ذلك التشوهات الشريانية الوريدية (AVMs) وأورام الغدة النخامية والورم السحائي والأورام الشوانية والآفات النقيلي. بينما يُعتبر التصوير بالرنين المغناطيسي (MRI) الأداة التشخيصية القياسية، يبقى التمييز بين أنواع الأورام صعبًا بسبب تداخل ميزات التصوير وتنوع الأورام الفردية. يؤكد المؤلفون على الحاجة إلى أدوات تشخيصية مبتكرة وآلية يمكن أن تعزز تحليل التصوير غير الجراحي، خاصة في السيناريوهات السريرية العاجلة حيث يكون علم الأمراض النسيجي التقليدي غير عملي.

لمعالجة هذه التحديات، تقدم الورقة Mod-SE(2)، وهو CNN معدل خاص إقليدي يدمج مبادئ التعلم العميق الهندسي (GDL) لتحسين كل من تصنيف وتقسيم أورام الدماغ. يأخذ هذا النموذج في الاعتبار كل من التحولات الدورانية والترجمية، مما يعزز الاتساق المكاني ويقلل الحاجة إلى زيادة البيانات بشكل كبير. يؤكد المؤلفون أن Mod-SE(2) لا يحسن فقط دقة التصنيف ودقة التقسيم، بل يقدم أيضًا كفاءة حسابية، مما يجعله أداة عملية لعمليات التشخيص العصبي في الوقت الحقيقي. تهدف الدراسة إلى تقديم رؤى قيمة سريريًا تساعد أطباء الأشعة في التشخيص وتخطيط العلاج، مما يعزز في النهاية استراتيجيات الجراحة ونتائج المرضى في مجال الأورام العصبية.

الطرق

توضح قسم المنهجية بناء هيكل Mod-SE(2) القائم على CNN، الذي يعزز SE(2)-CNN الأساسي من خلال تعديل استراتيجيات التجميع. على وجه التحديد، استبدل المؤلفون طبقات التجميع الأقصى بتجميع متوسط، حيث أظهرت التجارب الأولية أن التجميع الأقصى يقلل من التنشيطات الدقيقة الضرورية لتحديد الأورام الصغيرة أو المعقدة شكليًا. سمح هذا التعديل بالحفاظ على الإشارات الدقيقة، مما أدى إلى تمثيلات مكانية أكثر استقرارًا وزيادة المتانة في كل من مهام التصنيف والتقسيم.

يقدم الهيكل نوعين متخصصين: Mod-Cls-SE(2) للتصنيف و Mod-Seg-SE(2) للتقسيم. علاوة على ذلك، يحدد القسم مقاييس التقييم المستخدمة لقياس متانة هذه النماذج، خاصة استقرار أدائها تحت تحولات هندسية مختلفة. يهدف هذا الإطار المنهجي إلى تحسين اكتشاف وتقسيم الأورام من خلال الاستفادة من نقاط القوة في التجميع المتوسط في سياق هيكل Mod-SE(2).

النتائج

ركزت نتائج هذا البحث على تقييم مهام التقسيم والتصنيف عبر مجموعات بيانات التصوير الطبي المختلفة، بما في ذلك صور خلايا الدم وآفات الجلد وصور الرنين المغناطيسي للدماغ من مرضى الزهايمر. تم توحيد جميع الصور إلى تنسيق ثنائي الأبعاد وتم تطبيعها لضمان الاتساق في كثافة البكسل، مع معالجة التباينات الناتجة عن ظروف الاكتساب. استخدمت الدراسة عدة مقاييس أداء، بما في ذلك معامل ديس ($D = \frac{2 |A \cap B|}{|A| + |B|}$)، التقاطع على الاتحاد (IoU، $IoU = \frac{|A \cap B|}{|A \cup B|}$)، الدقة ($P_s = \frac{TP}{TP + FP}$)، والاسترجاع ($R_s = \frac{TP}{TP + FN}$).

تمت مقارنة تعديل Mod-SE(2) مع نماذج معروفة مثل VGG16 و VGG19 و ResNet50 و ResNet101 و HoverNet و Harmonic Net، بالإضافة إلى U-Net و No New U-Net (NN U-Net). أظهرت النتائج أن Mod-SE(2) استفاد من التماثل الدوراني والترجماتي لتعزيز الاتساق المكاني وتقليل الإيجابيات الكاذبة بشكل كبير، مما يدل على متانته وفعاليته في مهام التصوير الطبي المختلفة مقارنة بكل من نماذج التعلم العميق التقليدية والشبكات المتخصصة في التقسيم.

المناقشة

تتناول قسم المناقشة في الورقة البحثية هيكل وتدريب نموذج Mod-SE(2) المقترح، الذي تم تصميمه للحفاظ على سلامة تحويلات الميزات تحت التغييرات الدورانية والترجمية في مهام التصوير الطبي. تضمن الصياغة الرياضية أن التحولات المطبقة على الصورة المدخلة تنتج خرائط ميزات متسقة، مما يعزز متانة النموذج دون الحاجة إلى زيادة البيانات بشكل كبير. يتضمن الهيكل طبقات التدوير والترجمة وعمليات الالتفاف الجماعية، التي تكون فعالة بشكل خاص في استخراج الميزات المكانية من الصور الطبية، حيث يمكن أن تختلف الهياكل التشريحية بشكل كبير في الاتجاه. يتم تقسيم النموذج إلى تكوينين: Mod-Cls للتصنيف و Mod-Seg للتقسيم، كل منهما مُحسَّن لمهامه الخاصة.

تستخدم شبكة التصنيف، المقتبسة من إطار الالتفاف الجماعي SE(2)، التجميع المتوسط لتعزيز الاستقرار عند معالجة صور الرنين المغناطيسي عالية الدقة. تحول طبقة الرفع بيانات الصورة ثنائية الأبعاد إلى تمثيل عالي الأبعاد يلتقط كل من المعلومات المكانية والاتجاهية، مما يسمح بالتفريق الفعال بين الميزات. وبالمثل، تستخدم شبكة التقسيم هيكلًا مستوحى من U-Net، مع إعادة استخدام المشفر من نموذج التصنيف للاستفادة من تمثيلات الميزات القوية. تستخدم وحدة فك التشفير عمليات فك الالتفاف الجماعية للحفاظ على التماثل أثناء زيادة الحجم، مما يضمن مخرجات تقسيم دقيقة. يتم تقييم أداء النموذج عبر مجموعات بيانات مختلفة، مما يظهر دقة وموثوقية واسترجاع متفوق مقارنة بالشبكات العصبية التلافيفية التقليدية، مما يبرز فعاليته في التطبيقات السريرية لتصنيف وتقسيم الرنين المغناطيسي للدماغ.

Journal: Journal of Biomedical Science, Volume: 33, Issue: 1
DOI: https://doi.org/10.1186/s12929-025-01213-y
PMID: https://pubmed.ncbi.nlm.nih.gov/41527065
Publication Date: 2026-01-12
Author(s): Clara Lavita Angelina et al.
Primary Topic: Brain Tumor Detection and Classification

Overview

The research introduces a novel geometric deep learning framework, Modified Special Euclidean (Mod-SE(2)), aimed at enhancing the classification and segmentation of brain tumors in MRI scans. Traditional convolutional neural networks (CNNs) struggle with the heterogeneous morphology of tumors due to their lack of rotational and translational invariance. Mod-SE(2) addresses these limitations by integrating geometric priors and symmetry-preserving group convolutions, which improve spatial consistency and reduce dependence on data augmentation. The framework was rigorously evaluated across three MRI datasets and two additional medical imaging datasets, demonstrating superior performance compared to conventional architectures such as U-Net, VGG16, and ResNet.

Results indicate that Mod-Cls-SE(2) achieved an average classification accuracy of 0.914, significantly outperforming ResNet101 and VGG16, while Mod-Seg-SE(2) attained a dice coefficient of 0.9503 and an IoU of 0.9616 on the BraTS2020 dataset, surpassing U-Net and NN U-Net. The model’s design not only enhances accuracy and precision in tumor detection but also reduces inference time, making it efficient for clinical applications. The findings suggest that Mod-SE(2) offers transformative potential for precision medicine by providing spatially consistent outputs critical for surgical planning and treatment evaluation, while its geometric consistency supports integration with multimodal imaging techniques, thereby reinforcing its applicability in personalized neuro-oncological care.

Introduction

The introduction of this research paper highlights the complexities and challenges associated with diagnosing and classifying various types of brain tumors, including arteriovenous malformations (AVMs), pituitary tumors, meningiomas, schwannomas, and metastatic lesions. While Magnetic Resonance Imaging (MRI) is the standard diagnostic tool, distinguishing between tumor types remains difficult due to overlapping imaging features and individual tumor variability. The authors emphasize the need for innovative, automated diagnostic tools that can enhance non-invasive imaging analysis, particularly in urgent clinical scenarios where traditional histopathology is impractical.

To address these challenges, the paper introduces Mod-SE(2), a Modified Special Euclidean CNN that integrates geometric deep learning (GDL) principles to improve both classification and segmentation of brain tumors. This model accounts for both rotational and translational transformations, enhancing spatial consistency and reducing the need for extensive data augmentation. The authors assert that Mod-SE(2) not only improves classification accuracy and segmentation precision but also offers computational efficiency, making it a practical tool for real-time neurodiagnostic workflows. The study aims to provide clinically valuable insights that assist radiologists in diagnosis and treatment planning, ultimately enhancing surgical strategies and patient outcomes in neuro-oncology.

Methods

The methodology section details the construction of the CNN-based Modified Special Euclidean (Mod-SE(2)) architecture, which enhances the baseline SE(2)-CNN by modifying its pooling strategy. Specifically, the authors replaced max-pooling layers with average pooling, as preliminary experiments indicated that max pooling diminished fine-scale activations essential for identifying small or morphologically complex tumors. This adjustment allowed for the preservation of subtle signals, leading to more stable spatial representations and enhanced robustness in both classification and segmentation tasks.

The architecture introduces two specialized variants: Mod-Cls-SE(2) for classification and Mod-Seg-SE(2) for segmentation. Furthermore, the section delineates the evaluation metrics employed to gauge the robustness of these models, particularly their performance stability under various geometric transformations. This methodological framework aims to improve the detection and segmentation of tumors by leveraging the strengths of average pooling in the context of the Mod-SE(2) architecture.

Results

The results of this research focused on evaluating segmentation and classification tasks across various medical imaging datasets, including blood cell images, skin lesions, and brain MRI scans from Alzheimer’s patients. All images were standardized to a 2D format and normalized to ensure consistency in pixel intensity, addressing variations due to acquisition conditions. The study employed several performance metrics, including the Dice coefficient ($D = \frac{2 |A \cap B|}{|A| + |B|}$), Intersection over Union (IoU, $IoU = \frac{|A \cap B|}{|A \cup B|}$), precision ($P_s = \frac{TP}{TP + FP}$), and recall ($R_s = \frac{TP}{TP + FN}$).

The Mod-SE(2) modification was compared against established models such as VGG16, VGG19, ResNet50, ResNet101, HoverNet, Harmonic Net, as well as U-Net and No New U-Net (NN U-Net). The findings indicated that Mod-SE(2) leveraged roto-translation equivariance to enhance spatial consistency and significantly reduce false positives, thereby demonstrating its robustness and effectiveness in various medical imaging tasks compared to both traditional deep learning models and specialized segmentation networks.

Discussion

The discussion section of the research paper elaborates on the architecture and training of the proposed Mod-SE(2) model, which is designed to maintain the integrity of feature transformations under rotational and translational changes in medical imaging tasks. The mathematical formulation ensures that transformations applied to the input image yield consistent feature maps, enhancing the model’s robustness without the need for extensive data augmentation. The architecture incorporates roto-translation layers and group convolutions, which are particularly effective in extracting spatial features from medical images, where anatomical structures can vary significantly in orientation. The model is divided into two configurations: Mod-Cls for classification and Mod-Seg for segmentation, each optimized for their respective tasks.

The classification network, adapted from the SE(2) group convolutional framework, employs average pooling to enhance stability when processing high-resolution MRI scans. The lifting layer transforms 2D image data into a higher-dimensional representation that captures both spatial and orientation information, allowing for effective feature differentiation. Similarly, the segmentation network utilizes a U-Net-inspired structure, reusing the encoder from the classification model to leverage robust feature representations. The decoder employs group deconvolutions to maintain equivariance during upsampling, ensuring accurate segmentation outputs. The model’s performance is evaluated across various datasets, demonstrating superior accuracy, precision, and recall compared to traditional CNNs, underscoring its effectiveness in clinical applications for brain MRI classification and segmentation.