الكشف المبكر عن مراحل تقدم مرض الزهايمر باستخدام مزيج من نماذج CNN ونماذج مشفر المحولات
Early detection of Alzheimer’s disease progression stages using hybrid of CNN and transformer encoder models

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-01072-5
PMID: https://pubmed.ncbi.nlm.nih.gov/40368958
تاريخ النشر: 2025-05-14
المؤلف: Hassan Almalki وآخرون
الموضوع الرئيسي: كشف وتصنيف أورام الدماغ

نظرة عامة

تقدم ورقة البحث منهجية جديدة لتشخيص مرض الزهايمر (AD) باستخدام نموذج هجين يدمج الشبكات العصبية التلافيفية (CNNs) ومحولات الرؤية (ViT). تسلط الدراسة الضوء على قيود التشخيص اليدوي، الذي غالبًا ما يكون عرضة للأخطاء البشرية، وتؤكد على إمكانيات تقنيات التصوير بالرنين المغناطيسي المعززة بالذكاء الاصطناعي لتحسين دقة التشخيص. على وجه التحديد، استخدم المؤلفون نماذج ResNet101 و GoogLeNet لاستخراج الميزات المحلية، بينما تم استخدام نموذج ViT لالتقاط العلاقات العالمية بين قطع الصور. تم معالجة صور الرنين المغناطيسي من مجموعة بيانات دراسات التصوير المفتوحة (OASIS) باستخدام مرشحات الوسيط التكيفي ومرشحات لابلاس لتحسين جودة الصورة قبل تحليلها بواسطة المنهجية المقترحة.

تشير النتائج إلى أن نموذج ResNet101-ViT الهجين حقق مقاييس أداء مثيرة للإعجاب، بما في ذلك دقة 98.7%، و AUC 95.05%، و دقة 96.45%، و حساسية 99.68%، وخصوصية 97.78%، متفوقًا على نموذج GoogLeNet-ViT. وهذا يدل على فعالية النهج المقترح في تحسين تشخيص مرض الزهايمر مع تقليل التكاليف الحاسوبية. يقترح المؤلفون أن الأبحاث المستقبلية يمكن أن توسع هذه المنهجية لتشمل حالات عصبية أخرى، مثل التصلب المتعدد ومرض باركنسون، مستفيدين من البنية القوية لنموذجهم لتعزيز القدرات التشخيصية عبر مجموعات بيانات التصوير الطبي المختلفة.

الطرق

في هذه الدراسة، تم تطوير نماذج هجينة تجمع بين ResNet101-ViT و GoogLeNet-ViT لتحليل صور الرنين المغناطيسي من مجموعة بيانات OASIS لاكتشاف مراحل مرض الزهايمر (AD). كان الهدف الرئيسي هو تحقيق دقة تشخيص عالية مع الحفاظ على الكفاءة الحاسوبية. تم تعديل ResNet101 لتقليل عبء حساباته من خلال تقليل عدد الكتل وأحجام المرشحات، مع الاستمرار في استخراج ميزات عالية المستوى من صور الرنين المغناطيسي بشكل فعال. ثم تمت معالجة الميزات المستخرجة من خلال نموذج محسن لمحولات الرؤية (ViT)، الذي تم تعديله عن طريق تقليل كتل ترميز المحول من 12 إلى 6 وزيادة عدد رؤوس الانتباه متعدد الرؤوس (MHA). عزز هذا التعديل قدرة النموذج على التقاط الاعتماديات العالمية والتركيز على التفاصيل الحرجة، لا سيما في الأنسجة الرخوة والمادة البيضاء.

تم استخدام نموذج GoogLeNet من حيث تكلفته الحاسوبية المنخفضة، حيث تم استخدام جميع الطبقات التلافيفية وجمع خرائط الميزات النهائية باستخدام التجميع المتوسط قبل تمريرها إلى نموذج ViT المحسن. كانت هذه المنهجية تهدف إلى تحقيق توازن بين الدقة والكفاءة، مستفيدة من نقاط القوة في كل من بنى CNN والمحولات لتحسين نتائج التصنيف في سياق اكتشاف مرض الزهايمر. يعكس تصميم الدراسة نهجًا استراتيجيًا لتحسين نماذج التعلم العميق لتطبيقات التصوير الطبي، لا سيما في المجال التحدي لتشخيص الأمراض التنكسية العصبية.

النتائج

تظهر نتائج هذه الدراسة فعالية منهجية هجينة جديدة تجمع بين الشبكات العصبية التلافيفية المحسنة (CNN) ومحولات الرؤية (ViT) لتحليل صور الرنين المغناطيسي من مجموعة بيانات OASIS للتنبؤ بمراحل مرض الزهايمر (AD). تم تقييم أداء النماذج المقترحة باستخدام مقاييس مستمدة من مصفوفة الارتباك، بما في ذلك الدقة، ومنطقة تحت المنحنى (AUC)، والدقة، والحساسية، والخصوصية. تفوق نموذج ResNet101 المدرب مسبقًا على GoogLeNet، محققًا دقة 86.5% و AUC 76.6%، بينما أظهر أيضًا دقة وحساسية أعلى. حقق نموذج ViT المحسن دقة 94.1% و AUC 87.98%، مما يدل على قدرته على التمييز بفعالية بين مراحل مرض الزهايمر.

أظهرت النماذج الهجينة، ResNet101-ViT و GoogLeNet-ViT، أداءً تصنيفيًا متفوقًا، حيث حقق ResNet101-ViT دقة 98.7% و AUC 95.05%. قللت النماذج الهجينة بشكل فعال من الإيجابيات الكاذبة والسلبية الكاذبة، حيث أظهر ResNet101-ViT حساسية 99.68% وخصوصية 97.78%. كشفت مصفوفات الارتباك أن كلا النموذجين الهجينين تفوقا في تصنيف صور الرنين المغناطيسي عبر مراحل مرض الزهايمر المختلفة، حيث أظهر ResNet101-ViT دقة عالية بشكل خاص في تحديد حالات الخرف الخفيف والخفيف جدًا. تؤكد هذه النتائج على إمكانيات نماذج CNN-ViT الهجينة في تعزيز الكشف المبكر عن مرض الزهايمر من خلال تقنيات تحليل الصور المتقدمة.

المناقشة

تسلط قسم المناقشة في ورقة البحث الضوء على التقدم في تشخيص مرض الزهايمر (AD) باستخدام نماذج هجينة تجمع بين الشبكات العصبية التلافيفية (CNNs) ومحولات الرؤية (ViTs). أظهرت دراسات مختلفة فعالية هذه الأساليب الهجينة، مع نماذج بارزة تحقق مقاييس أداء عالية مثل درجات F1، والدقة، والحساسية. على سبيل المثال، حققت تقنية خان الهجينة FME-Residual-HSCMT درجة F1 تبلغ 94.88%، بينما أظهرت نماذج أخرى مثل ViT-ALZ و VGG-TSwinformer أيضًا تحسينات كبيرة في دقة التصنيف مقارنة بالطرق التقليدية. على الرغم من هذه التقدمات، لا تزال التحديات مثل الكفاءة الحاسوبية وخطر الإفراط في التكيف قائمة، مما يشير إلى الحاجة إلى مزيد من التحسين.

تحدد الورقة فجوة في الأدبيات بشأن التكامل الكامل لنماذج CNN و ViT، والتي تهدف المؤلفون إلى معالجتها من خلال منهجيتهم المقترحة. من خلال الاستفادة من نقاط القوة في كلا الهيكلين—CNNs لاستخراج الميزات التفصيلية و ViTs لالتقاط الاعتماديات بعيدة المدى—يقترح المؤلفون نموذجًا هجينًا يعزز دقة التصنيف لمرض الزهايمر. تستخدم الدراسة مجموعة بيانات OASIS، التي تتضمن مجموعة متنوعة من مسحات الرنين المغناطيسي عبر مراحل مختلفة من الخرف، للتحقق من النهج المقترح. تم موازنة مجموعة البيانات بعناية وزيادتها لتخفيف التحيزات، مما يضمن تدريب النموذج وتقييمه بشكل قوي. بشكل عام، تعد المنهجية الهجينة المقترحة بتحسين دقة وموثوقية تصنيف مرض الزهايمر، مما يمهد الطريق لأدوات تشخيصية أكثر فعالية في البيئات السريرية.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-01072-5
PMID: https://pubmed.ncbi.nlm.nih.gov/40368958
Publication Date: 2025-05-14
Author(s): Hassan Almalki et al.
Primary Topic: Brain Tumor Detection and Classification

Overview

The research paper presents a novel methodology for the diagnosis of Alzheimer’s disease (AD) using a hybrid model that integrates Convolutional Neural Networks (CNNs) and Vision Transformers (ViT). The study highlights the limitations of manual diagnosis, which is often subject to human error, and emphasizes the potential of MRI techniques enhanced by artificial intelligence to improve diagnostic accuracy. Specifically, the authors employed ResNet101 and GoogLeNet models for local feature extraction, while the ViT model was utilized to capture global relationships between image patches. The MRI images from the Open Access Imaging Studies Series (OASIS) dataset were pre-processed using adaptive median and Laplacian filters to enhance image quality before being analyzed by the proposed methodology.

The results indicate that the hybrid ResNet101-ViT model achieved impressive performance metrics, including 98.7% accuracy, 95.05% AUC, 96.45% precision, 99.68% sensitivity, and 97.78% specificity, outperforming the GoogLeNet-ViT model. This demonstrates the effectiveness of the proposed approach in improving AD diagnosis while also reducing computational costs. The authors suggest that future research could extend this methodology to other neurological conditions, such as Multiple Sclerosis and Parkinson’s Disease, leveraging the robust architecture of their model to enhance diagnostic capabilities across various medical imaging datasets.

Methods

In this study, hybrid models combining ResNet101-ViT and GoogLeNet-ViT were developed to analyze MRI images from the OASIS dataset for Alzheimer’s disease (AD) stage detection. The primary objective was to achieve high diagnostic accuracy while maintaining computational efficiency. ResNet101 was modified to reduce its computational burden by decreasing the number of blocks and filter sizes, while still effectively extracting high-level features from the MRI images. The extracted features were then processed through an optimized Vision Transformer (ViT) model, which was adjusted by reducing the transformer encoder blocks from 12 to 6 and increasing the number of multi-head attention (MHA) heads. This adjustment enhanced the model’s ability to capture global dependencies and focus on critical details, particularly in soft tissues and white matter.

The GoogLeNet model was utilized for its low computational cost, employing all convolutional layers and pooling the final feature maps using average pooling before passing them to the improved ViT model. This methodology aimed to balance accuracy and efficiency, leveraging the strengths of both CNN and transformer architectures to improve classification outcomes in the context of AD detection. The study’s design reflects a strategic approach to optimizing deep learning models for medical imaging applications, particularly in the challenging domain of neurodegenerative disease diagnosis.

Results

The results of this study demonstrate the effectiveness of a novel hybrid methodology combining improved Convolutional Neural Networks (CNN) and Vision Transformers (ViT) for analyzing MRI images from the OASIS dataset to predict Alzheimer’s Disease (AD) stages. The performance of the proposed models was evaluated using metrics derived from the confusion matrix, including accuracy, Area Under the Curve (AUC), precision, sensitivity, and specificity. The pre-trained ResNet101 model outperformed GoogLeNet, achieving an accuracy of 86.5% and an AUC of 76.6%, while also demonstrating higher precision and sensitivity. The optimized ViT model achieved an accuracy of 94.1% and an AUC of 87.98%, indicating its capability to effectively distinguish between AD stages.

The hybrid models, ResNet101-ViT and GoogLeNet-ViT, exhibited superior classification performance, with ResNet101-ViT achieving an accuracy of 98.7% and an AUC of 95.05%. The hybrid models effectively reduced false positives and negatives, with ResNet101-ViT showing a sensitivity of 99.68% and specificity of 97.78%. The confusion matrices revealed that both hybrid models excelled in classifying MRI images across various AD stages, with ResNet101-ViT demonstrating particularly high accuracy in identifying Mild and Very Mild dementia cases. These findings underscore the potential of hybrid CNN-ViT models in enhancing early AD detection through advanced image analysis techniques.

Discussion

The discussion section of the research paper highlights the advancements in Alzheimer’s disease (AD) diagnosis using hybrid models that combine Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). Various studies have demonstrated the efficacy of these hybrid approaches, with notable models achieving high performance metrics such as F1 scores, accuracy, and sensitivity. For instance, Khan’s hybrid FME-Residual-HSCMT technique achieved a 94.88% F1 score, while other models like the ViT-ALZ and VGG-TSwinformer also showcased significant improvements in classification accuracy over traditional methods. Despite these advancements, challenges such as computational efficiency and the risk of overfitting remain prevalent, indicating a need for further optimization.

The paper identifies a gap in the literature regarding the full integration of CNN and ViT models, which the authors aim to address through their proposed methodology. By leveraging the strengths of both architectures—CNNs for detailed feature extraction and ViTs for capturing long-range dependencies—the authors propose a hybrid model that enhances classification accuracy for AD. The study utilizes the OASIS dataset, which comprises a diverse range of MRI scans across different stages of dementia, to validate the proposed approach. The dataset was carefully balanced and augmented to mitigate biases, ensuring robust model training and evaluation. Overall, the proposed hybrid methodology promises to improve the accuracy and reliability of AD classification, paving the way for more effective diagnostic tools in clinical settings.