الشبكات العصبية التلافيفية للتشخيص الدقيق في الوقت الحقيقي لخلل التنسج الظهاري الفموي وسرطان الخلايا الحرشفية الفموية باستخدام مجهر تداخل ضوئي عالي الدقة
Convolutional neural networks for accurate real-time diagnosis of oral epithelial dysplasia and oral squamous cell carcinoma using high-resolution in vivo confocal microscopy

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-86400-5
PMID: https://pubmed.ncbi.nlm.nih.gov/39833362
تاريخ النشر: 2025-01-20
المؤلف: Rishi Sanjay Ramani وآخرون
الموضوع الرئيسي: أمراض الفم وعلاجها

نظرة عامة

تبحث هذه الدراسة في إمكانيات المجهر الرقمي والتعلم العميق للكشف السريع عن سرطان الفم، الذي يعتمد تقليديًا على علم الأمراض النسيجي للخزعة. باستخدام مجهر ليزر تداخل ضوئي، تم تصوير 59 مريضًا يعانون من شذوذات في الغشاء المخاطي الفموي في الجسم الحي باستخدام عوامل تباين الأكرينفلافين والفلوريسئين. استخدمت الدراسة ثلاثة نماذج من الشبكات العصبية التلافيفية (CNN) المدربة مسبقًا في إطار عمل PyTorch: نموذج تصفية الجودة ونموذجان لتصنيف التشخيص لعوامل التباين المعنية. حقق نموذج تصفية الجودة دقة بلغت 89.5%، بينما أظهر نموذج الأكرينفلافين أداءً عاليًا للآفات الليكنويدية (AUC = 0.94) والخلل النمائي منخفض الدرجة (AUC = 0.91)، ولكنه أظهر دقة أقل للخلل النمائي غير الموجود (AUC = 0.44) والخلل النمائي عالي الدرجة/سرطان الخلايا الحرشفية الفموية (OSCC) (AUC = 0.28). من ناحية أخرى، أظهر نموذج الفلوريسئين تصنيفًا قويًا عبر جميع الفئات التشخيصية (نطاق AUC = 0.90-0.96)، مع أوقات معالجة سريعة تقل عن 0.1 ثانية لكل صورة.

تشير النتائج إلى أن الشبكات العصبية التلافيفية المت tandem يمكن أن تسهل تصنيف تشخيصي دقيق وسريع في الوقت الحقيقي للأمراض الفموية المخاطية عالية المخاطر، مما قد يقلل من الحاجة إلى خزعات المشرط من خلال تحديد الآفات الخلوية بشكل فعال. تؤكد الدراسة على أهمية تحسين المعلمات الفائقة في نماذج التعلم العميق لتعزيز الأداء، بهدف تحسين الكشف المبكر ونتائج المرضى في سرطان الفم، الذي يتم تشخيصه غالبًا في مراحل متقدمة مع معدل بقاء منخفض لمدة 5 سنوات.

الطرق

تحدد الدراسة بروتوكولًا شاملاً لتطوير وتدريب واختبار الشبكات العصبية التلافيفية (CNN)، مع التركيز على دمج تحسين المعلمات الفائقة والتحقق المتقاطع k-fold لتعزيز الأداء التنبؤي. تم تصميم هذا الإطار المنهجي لضمان تقييم موثوق وموثوقية نماذج CNN.

علاوة على ذلك، تلتزم الدراسة بمعايير الإبلاغ المعتمدة، وبشكل خاص قائمة التحقق STARD لدقة التشخيص وقائمة التحقق WHO-ITU لأبحاث الذكاء الاصطناعي في طب الأسنان. يبرز هذا التوافق الالتزام بالشفافية والدقة في عملية البحث، مما يسهل إعادة إنتاج النتائج وتطبيقها في البيئات السريرية.

النتائج

في هذه الدراسة، تم تطوير وتقييم ما مجموعه 270 نموذجًا من الشبكات العصبية التلافيفية (CNN) على مدار حوالي 30 ساعة من التدريب والاختبار، مع التركيز على ثلاث مهام: مصفف الميكروغرافي الجيد (QMR)، وشبكة CNN التشخيصية للأكرينفلافين (APMAC)، وشبكة CNN التشخيصية للفلوريسئين (FPMAC). حقق نموذج QMR أداءً مثاليًا مع تكوين معلمات فائقة من 15 دورة ومعدل تعلم قدره 0.01، مما أدى إلى دقة متوسطة بلغت 88.1% عبر خمسة طيات تحقق متقاطع. أظهر أفضل نموذج فردي لـ QMR دقة بلغت 89.5%، وحساسية 0.81، ونوعية 0.95، ودقة 0.91، ودرجة F1 بلغت 0.86، حيث تمت معالجة كل صورة في 0.03 ثانية.

تم استخدام نموذج QMR لتصفية مجموعة بيانات من 9,168 صورة حية خام، مما أسفر عن 1,983 صورة ذات جودة تشخيصية. تم تصنيف هذه الصور لاحقًا بناءً على عامل التباين المستخدم، مما أدى إلى تطوير نماذج APMAC وFPMAC، التي صنفت الصور إلى فئات مثل “لا خلل نمائي”، “ليكنويد”، “منخفض المخاطر”، و”مرتفع المخاطر”. أظهرت التحليلات أن أعلى درجات F1 كانت مرتبطة بالصور من اللثة والفرجة (0.90)، بينما أظهرت الحنك الصلب أدنى درجة (0.71). احتفظ نموذج QMR بنسبة 25.06% من صور الأكرينفلافين و16.80% من صور الفلوريسئين، مع كون اللسان هو الموقع الذي سجل أعلى معدلات الاحتفاظ لكلا عامل التباين.

المناقشة

تسلط قسم المناقشة في الدراسة الضوء على تطوير نماذج الشبكات العصبية التلافيفية (CNN) لتصنيف الآفات المخاطية الفموية في الوقت الحقيقي باستخدام صور المجهر الضوئي التداخلي في الجسم الحي. تؤكد الدراسة على الحصول على الموافقة الأخلاقية والموافقة المستنيرة من المشاركين، موضحة عملية التصوير والفئات التشخيصية التي تم وضعها للآفات، والتي تشمل “لا خلل نمائي”، “ليكنويد”، “منخفض المخاطر”، و”مرتفع المخاطر”. تم تحسين نماذج CNN، وبشكل خاص نموذج تخصيص الميكروغرافي المرضي للفلوريسئين (FPMAC) ونموذج تخصيص الميكروغرافي المرضي للأكرينفلافين (APMAC)، من خلال ضبط المعلمات الفائقة والتحقق المتقاطع، محققة معدلات دقة عالية تصل إلى 94% للخلل النمائي الظهاري الفموي (OED) وسرطان الخلايا الحرشفية الفموية (OSCC).

تشير النتائج إلى أنه بينما أظهر نموذج FPMAC أداءً متفوقًا عبر جميع الفئات التشخيصية، تفوق نموذج APMAC في تحديد الآفات الليكنويدية ومنخفضة المخاطر ولكنه واجه صعوبة في التمييز بين الآفات غير الخلوية والآفات عالية المخاطر. تؤكد الدراسة على إمكانيات تقنيات التصوير غير الغازية لتعزيز القدرات التشخيصية بما يتجاوز علم الأمراض التقليدي، الذي غالبًا ما يتضمن إجراءات غازية يمكن أن تسبب عدم الراحة للمرضى. تم أيضًا مناقشة التحديات مثل عدم توازن الفئات، وجودة الصور المكتسبة، وتأثير عوامل التباين المختلفة على دقة التشخيص. يقترح المؤلفون أن تركز الأبحاث المستقبلية على تقنيات زيادة البيانات واستكشاف طرق تحسين بديلة لتحسين قابلية تعميم النموذج وأدائه عبر مجموعات سكانية متنوعة.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-86400-5
PMID: https://pubmed.ncbi.nlm.nih.gov/39833362
Publication Date: 2025-01-20
Author(s): Rishi Sanjay Ramani et al.
Primary Topic: Oral Health Pathology and Treatment

Overview

This research investigates the potential of digital microscopy and deep learning for the rapid detection of oral cancer, traditionally reliant on biopsy histopathology. Utilizing a confocal laser endomicroscope, 59 patients with oral mucosal abnormalities were imaged in vivo with acriflavine and fluorescein contrast agents. The study employed three pre-trained Inception-V3 convolutional neural network (CNN) models developed in the PyTorch framework: a quality filtering model and two diagnostic triage models for the respective contrast agents. The quality filtering model achieved an accuracy of 89.5%, while the acriflavine model demonstrated high performance for lichenoid lesions (AUC = 0.94) and low-grade dysplasia (AUC = 0.91), but lower accuracy for no dysplasia (AUC = 0.44) and high-grade dysplasia/oral squamous cell carcinoma (OSCC) (AUC = 0.28). Conversely, the fluorescein model exhibited robust classification across all diagnostic categories (AUC range = 0.90-0.96), with rapid processing times of less than 0.1 seconds per image.

The findings suggest that tandem CNNs can facilitate accurate and swift real-time diagnostic triage for high-risk oral mucosal diseases, potentially reducing the need for scalpel biopsies by effectively identifying dysplastic lesions. The study emphasizes the importance of optimizing hyperparameters in deep learning models to enhance performance, ultimately aiming to improve early detection and patient outcomes in oral cancer, which is often diagnosed at advanced stages with a low 5-year survival rate.

Methods

The study outlines a comprehensive protocol for the development, training, and testing of Convolutional Neural Networks (CNNs), emphasizing the integration of hyperparameter optimization and k-fold cross-validation to enhance predictive performance. This methodological framework is designed to ensure robust evaluation and reliability of the CNN models.

Furthermore, the study adheres to established reporting standards, specifically the STARD checklist for diagnostic accuracy and the WHO-ITU checklist for artificial intelligence research in dentistry. This alignment underscores the commitment to transparency and rigor in the research process, facilitating the reproducibility and applicability of the findings in clinical settings.

Results

In this study, a total of 270 convolutional neural network (CNN) variants were developed and evaluated over approximately 30 hours of training and testing, focusing on three tasks: quality micrograph refiner (QMR), Acriflavine diagnostic CNN (APMAC), and Fluorescein diagnostic CNN (FPMAC). The QMR CNN achieved optimal performance with a hyperparameter configuration of 15 epochs and a learning rate of 0.01, resulting in an average accuracy of 88.1% across five cross-validation folds. The best individual QMR model demonstrated an accuracy of 89.5%, sensitivity of 0.81, specificity of 0.95, precision of 0.91, and an F1 score of 0.86, processing each image in 0.03 seconds.

The QMR model was utilized to filter a dataset of 9,168 raw in vivo images, yielding 1,983 diagnostic quality images. These were subsequently categorized based on the contrast agent used, leading to the development of the APMAC and FPMAC models, which classified images into categories such as ‘no dysplasia’, ‘lichenoid’, ‘low-risk’, and ‘high-risk’. The analysis revealed that the highest F1 scores were associated with images from the gingiva and vestibule (0.90), while the hard palate exhibited the lowest score (0.71). The QMR model retained 25.06% of acriflavine images and 16.80% of fluorescein images, with the tongue being the site with the highest retention rates for both contrast agents.

Discussion

The discussion section of the study highlights the development of convolutional neural network (CNN) models for the real-time classification of oral mucosal lesions using in vivo confocal microscopy images. The study emphasizes the ethical approval and informed consent obtained from participants, detailing the imaging process and the diagnostic categories established for lesions, which include ‘No dysplasia’, ‘Lichenoid’, ‘Low-risk’, and ‘High-risk’. The CNN models, specifically the Fluorescein Pathologic Micrograph Allocation CNN (FPMAC) and Acriflavine Pathologic Micrograph Allocation CNN (APMAC), were optimized through hyperparameter tuning and cross-validation, achieving high accuracy rates of up to 94% for oral epithelial dysplasia (OED) and oral squamous cell carcinoma (OSCC).

The findings indicate that while the FPMAC model demonstrated superior performance across all diagnostic categories, the APMAC model excelled in identifying lichenoid and low-risk lesions but struggled to differentiate between non-dysplastic and high-risk lesions. The study underscores the potential of non-invasive imaging technologies to enhance diagnostic capabilities beyond traditional histopathology, which often involves invasive procedures that can cause patient discomfort. Challenges such as class imbalance, the quality of acquired images, and the influence of different contrast agents on diagnostic accuracy were also discussed. The authors suggest that future research should focus on data augmentation techniques and the exploration of alternative optimization methods to improve model generalizability and performance across diverse populations.