MSLesSeg: خط الأساس ومعايير مجموعة بيانات جديدة لتقسيم آفات التصلب المتعدد
MSLesSeg: baseline and benchmarking of a new Multiple Sclerosis Lesion Segmentation dataset

المجلة: Scientific Data، المجلد: 12، العدد: 1
DOI: https://doi.org/10.1038/s41597-025-05250-y
PMID: https://pubmed.ncbi.nlm.nih.gov/40450079
تاريخ النشر: 2025-05-31
المؤلف: Francesco Guarnera وآخرون
الموضوع الرئيسي: كشف وتصنيف أورام الدماغ

نظرة عامة

تقدم هذه الورقة MSLesSeg، مجموعة بيانات جديدة متاحة للجمهور من تصوير الرنين المغناطيسي تهدف إلى تعزيز البحث في تقسيم آفات التصلب المتعدد (MS). تتضمن مجموعة البيانات 115 مسحًا من 75 مريضًا، مع تسلسلات T1 وT2 وFLAIR، بالإضافة إلى بيانات سريرية إضافية مأخوذة من مصادر متنوعة. يتم توفير تسميات تقسيم آفات عالية الجودة من خلال تعليقات تم التحقق منها من قبل خبراء، مما يضع معيارًا موثوقًا للدراسات المستقبلية.

علاوة على ذلك، تم إجراء مقارنة بين أحدث حلول تقسيم الصور المعتمدة على الذكاء الاصطناعي وتقسيمات تم إنشاؤها بواسطة خبراء باستخدام جزء من مجموعة البيانات التي تم مشاركتها مع علماء بارزين. تم أيضًا تطوير نموذج تقسيم آفات معتمد على الذكاء الاصطناعي وتم التحقق منه بدقة مقابل الأساليب الحالية الرائدة. تمثل التحليل الشامل لمساهمات الباحثين والنتائج الأساسية المقدمة في هذه الدراسة تقدمًا كبيرًا في مجال أبحاث تقسيم آفات MS الآلي.

مقدمة

تتناول مقدمة هذه الورقة البحثية التصلب المتعدد (MS)، وهو اضطراب التهابي مزمن يتميز بإزالة الميالين في الجهاز العصبي المركزي، مما يؤدي إلى تغييرات عصبية مرضية كبيرة مثل الالتهاب وفقدان المحاور. يعد تصوير الرنين المغناطيسي (MRI) أداة حاسمة لاكتشاف آفات MS عبر مناطق مختلفة من الدماغ والحبل الشوكي، حيث يعتبر تحديد أنواع الآفات—حول البطين، القشري/الجوار القشري، جذع الدماغ/المخيخ، والحبل الشوكي—أساسيًا للتشخيص الدقيق ومراقبة تقدم المرض. إن التعليق اليدوي على هذه الآفات يتطلب جهدًا كبيرًا ويكون عرضة لتحيز المشغل، مما يبرز الحاجة إلى حلول تحليل MRI الآلي لتعزيز دقة التشخيص وإمكانية الوصول في البيئات السريرية.

لقد سهلت التقدمات الأخيرة في التعلم الآلي (ML) والذكاء الاصطناعي (AI) تطوير خوارزميات متطورة لتقسيم الآفات، ومع ذلك، فإن نقص مجموعات البيانات العامة الكبيرة وعالية الجودة لتقسيم آفات MS لا يزال يمثل عائقًا كبيرًا. تهدف هذه الدراسة إلى معالجة هذه الفجوة من خلال تقديم MSLesSeg، مجموعة بيانات جديدة كبيرة متاحة للجمهور مصنفة خصيصًا لتقسيم آفات MS. تشمل الأهداف تقديم تحليل شامل لأساليب التقسيم، ومقارنة تعليقات الخبراء البشريين مع الأساليب الآلية، وتأسيس طريقة تقسيم أساسية تم التحقق منها مقابل التقنيات الرائدة. في النهاية، يسعى هذا العمل إلى إنشاء مجموعة بيانات معيارية ستمكن الباحثين من تقييم الخوارزميات في سيناريوهات واقعية، مما يقلل من الاعتماد على الحلول الخاصة بالسياق.

الطرق

توضح قسم الطرق الإجراءات المستخدمة لبناء مجموعة بيانات MSLesSeg وعمليات القياس المستخدمة. يبدأ ذلك مع قسم جمع البيانات، الذي يوضح مجموعة المرضى، ونقاط زمنية الاستحواذ، وتقسيم البيانات إلى مجموعات تدريب واختبار، جنبًا إلى جنب مع المعلومات السريرية ذات الصلة. يحدد قسم الاستحواذ بروتوكولات التصوير وإعدادات جهاز الرنين المغناطيسي للحفاظ على التناسق عبر مجموعة البيانات.

في مرحلة المعالجة المسبقة، يصف المؤلفون توحيد وتحضير الصور للتحليل، بما في ذلك تقنيات التسجيل المتزامن لضمان التوافق عبر تسلسلات مختلفة. يوضح قسم التسمية عملية تعليق الآفات التي أجراها أطباء الأشعة الخبراء، جنبًا إلى جنب مع إجراء تحقق لضمان موثوقية تسميات التقسيم. لتقييم الأداء، تم وضع مقاييس تقييم لت quantifying دقة التقسيم وموثوقيته لكل من النموذج الأساسي والتحليلات المقارنة. أخيرًا، تفحص تحليل الإجماع الاتفاق بين تقسيمات المشاركين في التحدي والتسميات البشرية، مما يوفر رؤى حول اتساق التحديد.

المناقشة

تتكون مجموعة بيانات MSLesSeg من مسحات MRI من 75 مريضًا تتراوح أعمارهم بين 18 و59 عامًا، بمتوسط عمر 37 عامًا، وتتضمن ما مجموعه 115 سلسلة تم جمعها في نقاط زمنية مختلفة. تم تقسيم مجموعة البيانات إلى مجموعة تدريب تضم 53 مريضًا (50 منهم يعانون من التصلب المتعدد الانتكاسي المتكرر و3 يعانون من التصلب المتعدد الثانوي المتقدم) ومجموعة اختبار تضم 22 مريضًا (21 منهم يعانون من التصلب المتعدد الانتكاسي المتكرر و1 يعاني من التصلب المتعدد الأولي المتقدم). تم الحصول على مسحات MRI باستخدام أجهزة وبروتوكولات مختلفة، مما أدى إلى تباين في جودة الصورة وخصائصها. تم تنفيذ خطوات معالجة مسبقة شاملة، بما في ذلك إخفاء الهوية، والتحويل إلى تنسيق NIFTI، والتسجيل المتزامن مع نموذج MNI152، واستخراج الدماغ، لتوحيد مجموعة البيانات للتحليلات اللاحقة.

تم إجراء تعليق يدوي على الآفات الفائقة الشدة على صور FLAIR لإنشاء أقنعة الحقيقة الأرضية، مع بروتوكول صارم يتضمن مقيمًا مبتدئًا وخبراء اثنين لضمان الاتساق والدقة. تم تقييم أداء التقسيم باستخدام مقاييس متعددة، بما في ذلك معامل تشابه دايس (DSC)، ومعدل الإيجابيات الحقيقية (TPR)، واختلاف الحجم المطلق (AVD)، من بين أمور أخرى. تم إجراء تحليل إجماع لمقارنة تقسيمات الذكاء الاصطناعي مع التعليقات البشرية، مما يكشف عن رؤى حول دقة الأساليب المختلفة. مجموعة البيانات متاحة للجمهور وتهدف إلى تسهيل تطوير خوارزميات معتمدة على الذكاء الاصطناعي لتقسيم آفات MS بشكل آلي، مما يساهم في التقدم في كل من الممارسة السريرية والبحث.

Journal: Scientific Data, Volume: 12, Issue: 1
DOI: https://doi.org/10.1038/s41597-025-05250-y
PMID: https://pubmed.ncbi.nlm.nih.gov/40450079
Publication Date: 2025-05-31
Author(s): Francesco Guarnera et al.
Primary Topic: Brain Tumor Detection and Classification

Overview

This paper introduces MSLesSeg, a novel publicly available MRI dataset aimed at enhancing research in Multiple Sclerosis (MS) lesion segmentation. The dataset includes 115 scans from 75 patients, featuring T1, T2, and FLAIR sequences, along with additional clinical data sourced from various origins. High-quality lesion segmentation labels are provided through expert-validated annotations, establishing a reliable benchmark for future studies.

Furthermore, a comparison was conducted between the latest AI-based image segmentation solutions and expert-generated segmentations using a portion of the dataset shared with leading scientists. An AI-based lesion segmentation model was also developed and rigorously validated against current state-of-the-art methods. The comprehensive analysis of researcher contributions and the baseline results presented in this study represent a significant advancement in the field of automated MS lesion segmentation research.

Introduction

The introduction of this research paper addresses Multiple Sclerosis (MS), a chronic inflammatory disorder characterized by demyelination in the central nervous system, leading to significant neuropathological changes such as inflammation and axonal loss. Magnetic Resonance Imaging (MRI) is a critical tool for detecting MS lesions across various brain regions and the spinal cord, with the identification of lesion types—periventricular, cortical/juxtacortical, brainstem/cerebellar, and spinal cord—being essential for accurate diagnosis and monitoring disease progression. The manual annotation of these lesions is labor-intensive and prone to operator bias, highlighting the need for automated MRI analysis solutions to enhance diagnostic accuracy and accessibility in clinical settings.

Recent advancements in Machine Learning (ML) and Artificial Intelligence (AI) have facilitated the development of sophisticated algorithms for lesion segmentation, yet the lack of large, high-quality public datasets for MS lesion segmentation remains a significant barrier. This study aims to address this gap by introducing MSLesSeg, a new large-scale publicly available MRI dataset specifically labeled for MS lesion segmentation. The objectives include providing a comprehensive analysis of segmentation methods, comparing human expert annotations with automated approaches, and establishing a baseline segmentation method validated against state-of-the-art techniques. Ultimately, this work seeks to create a benchmark dataset that will enable researchers to evaluate algorithms in realistic scenarios, thereby reducing dependence on context-specific solutions.

Methods

The Methods section outlines the procedures used to construct the MSLesSeg dataset and the benchmarking processes employed. It begins with the Data Collection sub-section, which details the patient cohort, acquisition timepoints, and the division of data into training and test sets, alongside relevant clinical information. The Acquisition sub-section specifies the imaging protocols and MRI scanner settings to maintain consistency across the dataset.

In the Preprocessing phase, the authors describe the standardization and preparation of images for analysis, including co-registration techniques to ensure compatibility across different sequences. The Labelling sub-section elaborates on the lesion annotation process performed by expert radiologists, along with a validation procedure to ensure the reliability of segmentation labels. For performance assessment, Evaluation Metrics are established to quantify segmentation accuracy and reliability for both the baseline model and comparative analyses. Lastly, the Consensus Analysis examines the agreement between challenge participant segmentations and human labels, providing insights into the delineation consistency.

Discussion

The MSLesSeg dataset comprises MRI scans from 75 patients aged 18 to 59, with a mean age of 37 years, and includes a total of 115 series collected at various timepoints. The dataset is divided into a training set of 53 patients (50 with Relapsing Remitting Multiple Sclerosis and 3 with Secondary Progressive Multiple Sclerosis) and a test set of 22 patients (21 with Relapsing Remitting Multiple Sclerosis and 1 with Primary Progressive Multiple Sclerosis). MRI scans were acquired using different scanners and protocols, resulting in variability in image quality and characteristics. Comprehensive preprocessing steps, including anonymization, conversion to NIFTI format, co-registration to the MNI152 template, and brain extraction, were performed to standardize the dataset for subsequent analyses.

Manual annotation of hyperintense lesions on FLAIR images was conducted to create ground-truth masks, with a rigorous protocol involving a junior rater and two senior experts to ensure consistency and accuracy. The segmentation performance was evaluated using multiple metrics, including the Dice Similarity Coefficient (DSC), True Positive Rate (TPR), and Absolute Volume Difference (AVD), among others. A consensus analysis was performed to compare AI-generated segmentations with human annotations, revealing insights into the accuracy of different methods. The dataset is publicly available and aims to facilitate the development of AI-based algorithms for automated segmentation of MS lesions, contributing to advancements in both clinical practice and research.