تقسيم أورام الثدي القابلة للتفسير باستخدام الانتباه بالاعتماد على مزيج من نماذج UNet وResNet وDenseNet وEfficientNet
Explainable attention based breast tumor segmentation using a combination of UNet, ResNet, DenseNet, and EfficientNet models

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-024-84504-y
PMID: https://pubmed.ncbi.nlm.nih.gov/39762417
تاريخ النشر: 2025-01-06
المؤلف: Shokofeh Anari وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في اكتشاف السرطان

نظرة عامة

تقدم هذه الدراسة نهج تعلم عميق لتجزئة أورام الثدي باستخدام مجموعة بيانات صور الموجات فوق الصوتية للثدي (BUSI)، معتمدة على بنية UNet المعدلة المعززة بآليات الانتباه مثل وحدة انتباه الكتلة التلافيفية (CBAM) والانتباه غير المحلي. من خلال دمج هياكل ترميز متقدمة مثل ResNet وDenseNet وEfficientNet، يحسن النموذج بشكل كبير من دقة التجزئة، كما يتضح من مقاييس التقييم المتفوقة مقارنة بالنماذج التي لا تحتوي على آليات انتباه. يكشف تحليل دوال الخسارة، وخاصة خسارة Dice وخسارة الانتروبيا المتقاطعة الثنائية (BCE)، أنه بينما تعمل خسارة Dice على تحسين التداخل بين الأقنعة المتوقعة والفعلية، تعزز خسارة BCE الاسترجاع، مما يحسن من اكتشاف الأورام. توضح تصورات Grad-CAM بشكل أكبر أن النماذج المعتمدة على الانتباه تبرز بفعالية المناطق ذات الصلة بالأورام، مما يعزز من قابلية التفسير.

تؤكد النتائج على أهمية دمج هياكل الترميز المتطورة وآليات الانتباه ودوال الخسارة المناسبة لتحقيق تجزئة موثوقة ودقيقة لأورام الثدي. تدعو الدراسة إلى أتمتة عمليات التجزئة لتقليل الاعتماد على التحديد اليدوي من قبل أطباء الأشعة، مما يقلل من الذاتية ويضمن نتائج متسقة عبر سياقات التصوير المختلفة. تشمل اتجاهات البحث المستقبلية استكشاف آليات الانتباه المتقدمة، ودوال الخسارة الهجينة، ودمج بيانات التصوير متعددة الأنماط لتعزيز أداء التجزئة بشكل أكبر. الهدف النهائي هو تسهيل التطبيق الفوري لهذه النماذج في البيئات السريرية، مما يحسن من دقة التشخيص ونتائج المرضى من خلال الكشف المبكر والأكثر موثوقية عن الأورام الخبيثة في الثدي.

الطرق

في هذه الدراسة، تم استخدام مجموعة بيانات صور الموجات فوق الصوتية للثدي (BUSI) لمهام تجزئة أورام الثدي. تتكون هذه المجموعة المتاحة للجمهور من مجموعة متنوعة من مسحات الموجات فوق الصوتية للثدي، كل منها مقترن بأقنعة الحقيقة الأرضية التي تحدد حدود الأورام ومصنفة إما على أنها حميدة أو خبيثة. يسهل هذا التصنيف المزدوج كل من التجزئة والتصنيف، مما يجعلها موردًا قيمًا لتطوير نماذج تهدف إلى اكتشاف الأورام وتوصيفها. تقدم التنوع الفطري في مجموعة البيانات، بما في ذلك الاختلافات في حجم الورم وشكله وملمسه وكثافته وضوضائه، تحديات فريدة لتدريب النموذج.

تم تقسيم مجموعة البيانات إلى ثلاث مجموعات فرعية متميزة: مجموعة تدريب تتكون من 624 صورة بحجم 224 × 224 بكسل وأقنعة التجزئة المقابلة لها، ومجموعة تحقق تحتوي على 78 صورة مقاسة وأقنعة لضبط المعلمات الفائقة واختيار النموذج، ومجموعة اختبار، تحتوي أيضًا على 78 صورة مقاسة وأقنعة، تستخدم فقط لتقييم أداء النموذج النهائي. تقلل هذه التقسيمات المنظمة من خطر الإفراط في التكيف وتضمن تقييمًا قويًا لقدرات تعميم النموذج. يعد التوزيع المتوازن عبر هذه المجموعات أمرًا حيويًا لتحقيق نتائج موثوقة في مهام تجزئة أورام الثدي، مما يعزز الثقة في قابلية تطبيق النموذج على صور الموجات فوق الصوتية في العالم الحقيقي.

النتائج

في هذا القسم، يتم تقديم نتائج تقييم نماذج تجزئة أورام الثدي، مع التركيز على تأثير هياكل الترميز المختلفة وآليات الانتباه ودوال الخسارة على أداء التجزئة. تم تقييم النماذج باستخدام عدة مقاييس رئيسية، بما في ذلك الدقة والاسترجاع ودرجة F1 والتقاطع على الاتحاد (IoU) ومعامل Dice، لقياس دقتها وموثوقيتها في مهام تجزئة الأورام.

بالإضافة إلى ذلك، تم استخدام تحليل منحنى خصائص التشغيل المستقبلية (ROC) وتصوير خرائط تنشيط الفئة المعتمدة على التدرج (Grad-CAM) لتعزيز فهم قدرات النماذج التمييزية وقابلية التفسير. توفر هذه التحليلات رؤى حول فعالية الأساليب المختلفة المستخدمة في عملية التجزئة، مما يبرز نقاط القوة والضعف في كل تكوين نموذج.

المناقشة

تناقش الورقة البحثية بنية نموذج متقدمة لتجزئة أورام الثدي، مبنية على إطار عمل UNet ومعززة بشبكات ترميز متنوعة وآليات انتباه. يستخدم النموذج ResNet-18 وDenseNet-121 وEfficientNet-B0 لاستخراج الميزات متعددة المقاييس، بينما يدمج وحدة انتباه الكتلة التلافيفية (CBAM) والانتباه غير المحلي في وحدة فك التشفير لتحسين دقة التجزئة من خلال التركيز على المعلومات المكانية والقنوية ذات الصلة. يتم استخدام الالتواءات القابلة للفصل عمقياً (DSC) لتقليل التعقيد الحسابي دون المساس بالأداء، ويتم تدريب النموذج باستخدام دوال خسارة الانتروبيا المتقاطعة الثنائية (BCE) وخسارة Dice لمعالجة عدم توازن الفئات وضمان تجزئة دقيقة.

تسلط الورقة الضوء على أهمية آليات الانتباه في تجزئة الصور الطبية، خاصة في تعزيز قدرة النموذج على تحديد حدود الأورام وسط صور الموجات فوق الصوتية المعقدة. يلتقط الانتباه غير المحلي الاعتماديات بعيدة المدى، بينما يقوم CBAM بتنقيح خرائط الميزات من خلال الانتباه القنوي والمكاني، مما يؤدي إلى تحسين نتائج التجزئة. تشير النتائج إلى أن النماذج التي تستخدم CBAM وخسارة BCE حققت أعلى درجة Dice تبلغ 0.6140، مما يوضح فعالية آليات الانتباه في التركيز على الميزات الحرجة. في المقابل، أدت النماذج ذات الطبقات المجمدة أداءً ضعيفًا، مما يبرز ضرورة الشبكات القابلة للتدريب للتكيف مع الخصائص الفريدة لصور أورام الثدي. بشكل عام، تؤكد النتائج على أهمية دمج الهياكل المتطورة ودوال الخسارة لتعزيز أداء التجزئة في مهام التصوير الطبي.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-024-84504-y
PMID: https://pubmed.ncbi.nlm.nih.gov/39762417
Publication Date: 2025-01-06
Author(s): Shokofeh Anari et al.
Primary Topic: AI in cancer detection

Overview

This study presents a deep learning approach for breast tumor segmentation utilizing the Breast Ultrasound Image (BUSI) dataset, employing a modified UNet architecture enhanced with attention mechanisms such as the Convolutional Block Attention Module (CBAM) and Non-Local Attention. By integrating advanced encoder architectures like ResNet, DenseNet, and EfficientNet, the model significantly improves segmentation accuracy, as evidenced by superior evaluation metrics compared to models without attention mechanisms. The analysis of loss functions, specifically Dice Loss and Binary Cross-Entropy (BCE) Loss, reveals that while Dice Loss optimizes the overlap between predicted and actual segmentation masks, BCE Loss enhances recall, thereby improving tumor detection. Grad-CAM visualizations further illustrate that attention-based models effectively highlight relevant tumor areas, enhancing interpretability.

The findings underscore the importance of combining sophisticated encoder architectures, attention mechanisms, and appropriate loss functions to achieve reliable and accurate breast tumor segmentation. The study advocates for the automation of segmentation processes to reduce reliance on manual delineation by radiologists, thereby minimizing subjectivity and ensuring consistent outcomes across various imaging contexts. Future research directions include exploring advanced attention mechanisms, hybrid loss functions, and the integration of multi-modal imaging data to further enhance segmentation performance. The ultimate goal is to facilitate the real-time application of these models in clinical settings, improving diagnostic accuracy and patient outcomes through earlier and more reliable detection of breast malignancies.

Methods

In this study, the Breast Ultrasound Image (BUSI) dataset was utilized for breast tumor segmentation tasks. This publicly available dataset comprises a variety of breast ultrasound scans, each paired with ground truth masks that delineate tumor boundaries and labeled as either benign or malignant. This dual labeling facilitates both segmentation and classification, making it a valuable resource for developing models aimed at tumor detection and characterization. The inherent diversity of the dataset, including variations in tumor size, shape, texture, intensity, and noise, presents unique challenges for model training.

The dataset was divided into three distinct subsets: a training set consisting of 624 resized images (224 × 224 pixels) and their corresponding segmentation masks, a validation set with 78 scaled images and masks for hyperparameter tuning and model selection, and a test set, also containing 78 scaled images and masks, used solely for evaluating the final model’s performance. This structured division minimizes the risk of overfitting and ensures a robust assessment of the model’s generalization capabilities. A well-balanced distribution across these sets is crucial for achieving reliable outcomes in breast tumor segmentation tasks, thereby enhancing confidence in the model’s applicability to real-world ultrasound images.

Results

In this section, the evaluation results of breast tumor segmentation models are presented, focusing on the impact of different encoder architectures, attention mechanisms, and loss functions on segmentation performance. The models were assessed using several key metrics, including Precision, Recall, F1 Score, Intersection over Union (IoU), and Dice Coefficient, to measure their accuracy and robustness in tumor segmentation tasks.

Additionally, Receiver Operating Characteristic (ROC) curve analysis and Gradient-weighted Class Activation Mapping (Grad-CAM) visualizations were employed to enhance the understanding of the models’ discriminatory capabilities and interpretability. These analyses provide insights into the effectiveness of the various approaches used in the segmentation process, highlighting the strengths and weaknesses of each model configuration.

Discussion

The research paper discusses an advanced model architecture for breast tumor segmentation, built upon the UNet framework and enhanced with various encoder networks and attention mechanisms. The model utilizes ResNet-18, DenseNet-121, and EfficientNet-B0 for multi-scale feature extraction, while incorporating Convolutional Block Attention Module (CBAM) and Non-Local Attention in the decoder to improve segmentation accuracy by focusing on relevant spatial and channel-wise information. Depthwise Separable Convolutions (DSC) are employed to reduce computational complexity without compromising performance, and the model is trained using Binary Cross-Entropy (BCE) and Dice Loss functions to address class imbalance and ensure precise segmentation.

The paper highlights the significance of attention mechanisms in medical image segmentation, particularly in enhancing the model’s ability to identify tumor boundaries amidst complex ultrasound images. Non-Local Attention captures long-range dependencies, while CBAM refines feature maps through channel and spatial attention, leading to improved segmentation outcomes. The results indicate that models employing CBAM and BCE Loss achieved the highest Dice score of 0.6140, demonstrating the effectiveness of attention mechanisms in focusing on critical features. In contrast, models with frozen layers performed poorly, underscoring the necessity of trainable networks for adapting to the unique characteristics of breast tumor images. Overall, the findings emphasize the importance of integrating sophisticated architectures and loss functions to enhance segmentation performance in medical imaging tasks.