DOI: https://doi.org/10.1186/s12903-024-04120-0
PMID: https://pubmed.ncbi.nlm.nih.gov/38494481
تاريخ النشر: 2024-03-18
المؤلف: Javier Pérez de Frutos وآخرون
الموضوع الرئيسي: الأشعة السينية السنية والتصوير
نظرة عامة
تناقش هذه القسم تطبيق التعلم العميق في تشخيص تسوس الأسنان من خلال تحليل صور البايتوينغ. يتضمن التشخيص التقليدي الفحص اليدوي والاستكشاف، مما قد يكون مستهلكًا للوقت وذاتيًا. استخدمت الدراسة مجموعة بيانات تضم 13,887 صورة بايتوينغ من دراسة صحة الفم HUNT4، تم وضع علامات عليها بواسطة ستة خبراء أسنان، لتدريب ثلاثة هياكل للكشف عن الكائنات: RetinaNet (ResNet50)، YOLOv5 (حجم M)، و EfficientDet (أحجام D0 و D1). تم استخدام مجموعة بيانات توافقية تضم 197 صورة للتقييم، مع استخدام نظام التحقق المتقاطع بخمسة طيات لتقييم أداء النموذج.
تشير النتائج إلى أن نماذج التعلم العميق تفوقت بشكل كبير على أطباء الأسنان من حيث الدقة المتوسطة، ودرجة F1، ومعدلات السلبية الكاذبة. ومن الجدير بالذكر أن نموذج YOLOv5 حقق دقة متوسطة قدرها 0.647 ودرجة F1 متوسطة قدرها 0.548، مقارنةً بأفضل درجات الأطباء التي كانت 0.299 و0.495، على التوالي. على الرغم من التحديات التي تطرحها العيوب في صور البايتوينغ، تشير النتائج إلى أن كاشفات الكائنات المدعومة بالذكاء الاصطناعي يمكن أن تعزز من اكتشاف الآفات التسوسية، مما قد يجعلها أداة مساعدة فعالة في البيئات السريرية. تم التخطيط لدراسات مستقبلية للتحقق من الفائدة السريرية لهذه النماذج.
مقدمة
تسلط المقدمة الضوء على العبء العالمي الكبير للأمراض الفموية، حيث يتأثر 3.5 مليار فرد و2 مليار يعانون من تسوس الأسنان غير المعالج، خاصة في الأسنان الدائمة. يعد تشخيص تسوس الأسنان، وخاصة التسوس القريب، تحديًا بسبب قيود تقنيات التصوير التقليدية مثل البايتوينغ (BW) والأشعة السينية البانورامية (OPG)، والتي قد تستغرق وقتًا طويلاً وتتطلب تحليلًا من خبراء. تشير المقدمة إلى اهتمام متزايد في تطبيق الذكاء الاصطناعي (AI)، وبشكل خاص الشبكات العصبية التلافيفية (CNN) للتعلم العميق (DL)، لتعزيز اكتشاف وتحليل تسوس الأسنان منذ عام 2008. ومع ذلك، لا يزال هذا المجال غير مستكشف مقارنةً بمناطق سريرية أخرى، ويرجع ذلك أساسًا إلى قيود توفر البيانات والتعليقات الموثوقة.
تستعرض هذه القسم دراسات متنوعة استخدمت تقنيات التعلم الآلي (ML) لاكتشاف التسوس، مع التركيز على أحجام مجموعات البيانات المحدودة في معظم الأبحاث، حيث استخدم العديد منها أقل من 300 صورة. تشمل الأعمال البارزة Devito وآخرون (باستخدام شبكة عصبية متعددة الطبقات مع 160 صورة موضوعة علامات عليها)، وSrivastava وآخرون (تدريب كاشف تسوس مع 3,000 صورة)، وPark وآخرون (تطبيق مجموعة من U-Net وFast R-CNN على 2,348 صورة RGB). تؤكد المقدمة على أهمية كشف الكائنات في هذا السياق، والذي يتضمن تحديد وتصنيف الآفات التسوسية، وتبرز إمكانية مجموعات البيانات الأكبر، مثل تلك المستخدمة من قبل Cantu وآخرون مع 3,686 صورة BW، لتقدم مجال اكتشاف تسوس الأسنان من خلال الذكاء الاصطناعي.
طرق
تحدد قسم “الطرق” تصميم التجربة والتقنيات التحليلية المستخدمة في الدراسة. توضح معايير اختيار المشاركين، والتدخلات المحددة المقدمة، ومدة الدراسة. تشمل المنهجية كل من الأساليب النوعية والكمية، مما يضمن تحليلًا شاملاً للبيانات المجمعة. يتم تحديد الأدوات والبرامج الإحصائية المستخدمة لتحليل البيانات، بالإضافة إلى عتبات الأهمية المحددة لتفسير النتائج.
بالإضافة إلى ذلك، يصف القسم البروتوكولات لجمع البيانات، بما في ذلك أي أدوات أو استبيانات تم استخدامها لقياس النتائج. كما يتناول الباحثون الاعتبارات الأخلاقية، مثل الموافقة المستنيرة وتدابير السرية، لضمان الامتثال للإرشادات ذات الصلة. بشكل عام، تم تصميم الطرق المستخدمة لتحقيق نتائج قوية وموثوقة تسهم في أهداف الدراسة.
نتائج
تشير نتائج التقييم من مجموعة الاختبار التوافقية، التي تم تقييمها من خلال التحقق المتقاطع بخمسة طيات، إلى أن نموذج YOLOv5 تفوق على النماذج الأخرى من حيث الدقة المتوسطة (AP) ودرجات F1. على وجه التحديد، حقق YOLOv5 أعلى درجات AP عبر جميع الفئات وأفضل درجات F1 لاثنين من ثلاثة فئات، إلى جانب أدنى معدلات سلبية كاذبة (FNR) عبر جميع الفئات. تم حساب مقاييس الأداء باستخدام مقاييس PASCAL VOC مع عتبة تقاطع على اتحاد (IoU) قدرها 0.3، والتي تم تحديدها كمعادلة مناسبة بين الدقة والاسترجاع لاكتشاف التسوس المحتمل.
تم تقييم الأهمية الإحصائية من خلال فترات الثقة لمقاييس الأداء، كما هو موضح في الجدول 7. أظهرت النتائج أن YOLOv5 تفوق بشكل كبير على جميع المعلقين ونماذج RetinaNet و EfficientDet D0 من حيث AP. بينما كانت درجات F1 الخاصة بـ YOLOv5 أعلى بشكل كبير من تلك الخاصة بنموذج RetinaNet وأربعة من ستة معلقين، لم تكن الفروق مع نماذج EfficientDet ذات دلالة إحصائية. أظهرت نماذج EfficientDet درجات F1 متوسطة قابلة للمقارنة أو أفضل من المعلقين، بينما كانت أداء نموذج RetinaNet أقل بشكل ملحوظ. من حيث FNR، أظهر YOLOv5 أداءً أفضل بشكل كبير من أربعة معلقين، بينما كان أداء نموذج RetinaNet أيضًا أفضل من ثلاثة معلقين. على العكس، كانت درجات FNR لنماذج EfficientDet مشابهة أو أسوأ من تلك الخاصة بالمعلقين. تتوفر النتائج التفصيلية لكل فئة في الجدول 2 من المواد الإضافية.
مناقشة
في هذه الدراسة، تم تقييم ثلاث هياكل متقدمة للتعلم العميق—RetinaNet و YOLOv5 و EfficientDet—لفعاليتها في اكتشاف التسوس القريب في صور الأشعة السينية للبايتوينغ (BW). استخدمت البحث مجموعة بيانات كبيرة تضم 13,882 صورة BW موضوعة علامات عليها، متجاوزةً مجموعات البيانات السابقة من حيث الحجم، وهدفت إلى تحديد ما إذا كانت نماذج الذكاء الاصطناعي يمكن أن تتطابق أو تتجاوز أداء أطباء الأسنان. تم تدريب النماذج لتحديد وتصنيف تسوس المينا، وتسوس العاج، والآفات الثانوية، مع مقاييس الأداء بما في ذلك الدقة المتوسطة (AP)، ودرجة F1، ومعدل السلبية الكاذبة (FNR) مقارنةً بالمعلقين البشريين باستخدام مجموعة اختبار توافقية.
كشفت النتائج أن جميع نماذج الذكاء الاصطناعي أدت بشكل مشابه أو أفضل من المعلقين البشريين، حيث حقق YOLOv5 أعلى الدرجات عبر جميع المقاييس. ومن الجدير بالذكر أن EfficientDet أظهر أداءً متفوقًا على الرغم من وجود عدد أقل من المعلمات مقارنةً بـ RetinaNet، مما يشير إلى أن كفاءة النموذج لا تتوافق دائمًا مع الأداء. كما قدمت الدراسة طريقة جديدة لدمج التعليقات من عدة أطباء، مما يعزز موثوقية الحقيقة الأساسية المستخدمة للتدريب. تشير النتائج إلى أن هذه النماذج للتعلم العميق يمكن أن تكون أدوات مساعدة فعالة في البيئات السريرية، مما قد يحسن من سرعة ودقة اكتشاف التسوس. ستركز الأعمال المستقبلية على التحقق السريري والمزيد من تحسين النماذج للاستخدام العملي.
DOI: https://doi.org/10.1186/s12903-024-04120-0
PMID: https://pubmed.ncbi.nlm.nih.gov/38494481
Publication Date: 2024-03-18
Author(s): Javier Pérez de Frutos et al.
Primary Topic: Dental Radiography and Imaging
Overview
This section discusses the application of deep learning in the diagnosis of dental caries through the analysis of bitewing images. Traditional diagnosis involves manual inspection and probing, which can be time-consuming and subjective. The study utilized a dataset of 13,887 bitewing images from the HUNT4 Oral Health Study, annotated by six dental experts, to train three object detection architectures: RetinaNet (ResNet50), YOLOv5 (M size), and EfficientDet (D0 and D1 sizes). A consensus dataset of 197 images was used for evaluation, employing a five-fold cross-validation scheme to assess model performance.
The results indicate that the deep learning models significantly outperformed dental clinicians in terms of average precision, F1-score, and false negative rates. Notably, the YOLOv5 model achieved a mean average precision of 0.647 and a mean F1-score of 0.548, compared to the best clinician scores of 0.299 and 0.495, respectively. Despite the challenges posed by artifacts in bitewing images, the findings suggest that AI-powered object detectors can enhance the detection of carious lesions, potentially serving as an effective assistive tool in clinical settings. Future studies are planned to validate the clinical utility of these models.
Introduction
The introduction highlights the significant global burden of oral diseases, with 3.5 billion individuals affected and 2 billion suffering from untreated dental caries, particularly in permanent teeth. The diagnosis of dental caries, especially proximal caries, is challenging due to the limitations of traditional imaging techniques such as bitewing (BW) and panoramic radiography (OPG), which can be time-consuming and require expert analysis. The introduction notes a growing interest in applying artificial intelligence (AI), specifically deep learning (DL) convolutional neural networks (CNN), to enhance the detection and analysis of dental caries since 2008. However, the field remains underexplored compared to other clinical areas, primarily due to constraints in data availability and reliable annotations.
The section reviews various studies that have employed machine learning (ML) techniques for caries detection, emphasizing the limited dataset sizes in most research, with many utilizing fewer than 300 images. Notable works include Devito et al. (using a multi-layer perceptron with 160 annotated images), Srivastava et al. (training a caries detector with 3,000 images), and Park et al. (applying an ensemble of U-Net and Fast R-CNN on 2,348 RGB images). The introduction underscores the importance of object detection in this context, which involves localizing and classifying carious lesions, and highlights the potential of larger datasets, such as the one used by Cantu et al. with 3,686 BW images, to advance the field of dental caries detection through AI.
Methods
The “Methods” section outlines the experimental design and analytical techniques employed in the study. It details the selection criteria for participants, the specific interventions administered, and the duration of the study. The methodology includes both qualitative and quantitative approaches, ensuring a comprehensive analysis of the data collected. Statistical tools and software used for data analysis are specified, along with the significance thresholds established for interpreting results.
Additionally, the section describes the protocols for data collection, including any instruments or questionnaires utilized to measure outcomes. The researchers also address ethical considerations, such as informed consent and confidentiality measures, ensuring compliance with relevant guidelines. Overall, the methods employed are designed to yield robust and reliable findings that contribute to the study’s objectives.
Results
The evaluation results from the consensus test set, assessed through five-fold cross-validation, indicate that the YOLOv5 model outperformed other models in terms of average precision (AP) and F1-scores. Specifically, YOLOv5 achieved the highest AP scores across all classes and the best F1-scores for two out of three classes, alongside the lowest false negative rates (FNR) across all classes. The performance metrics were computed using PASCAL VOC metrics with an Intersection over Union (IoU) threshold of 0.3, which was determined to be a suitable balance between precision and recall for detecting potential caries.
Statistical significance was evaluated through confidence intervals for the performance metrics, as detailed in Table 7. The results demonstrated that YOLOv5 significantly outperformed all annotators and the RetinaNet and EfficientDet D0 models in terms of AP. While YOLOv5’s F1-scores were significantly higher than those of the RetinaNet model and four out of six annotators, the differences with the EfficientDet models were not statistically significant. The EfficientDet models exhibited mean F1-scores comparable to or better than the annotators, whereas the RetinaNet model’s performance was notably lower. In terms of FNR, YOLOv5 showed significantly better performance than four annotators, while the RetinaNet model also performed better than three annotators. Conversely, the EfficientDet models had FNR scores that were similar to or worse than those of the annotators. Detailed results per class are available in Table 2 of the Additional Materials.
Discussion
In this study, three advanced deep learning architectures—RetinaNet, YOLOv5, and EfficientDet—were evaluated for their effectiveness in detecting proximal caries in bitewing (BW) X-ray images. The research utilized a substantial dataset of 13,882 annotated BW images, surpassing previous datasets in size, and aimed to determine whether AI models could match or exceed the performance of dental clinicians. The models were trained to identify and classify enamel caries, dentine caries, and secondary lesions, with performance metrics including average precision (AP), F1-score, and false negative rate (FNR) compared against human annotators using a consensus test set.
The findings revealed that all AI models performed comparably to or better than human annotators, with YOLOv5 achieving the highest scores across all metrics. Notably, EfficientDet demonstrated superior performance despite having fewer parameters than RetinaNet, indicating that model efficiency does not always correlate with performance. The study also introduced a novel method for merging annotations from multiple clinicians, enhancing the reliability of the ground truth used for training. The results suggest that these deep learning models could serve as effective assistive tools in clinical settings, potentially improving the speed and accuracy of caries detection. Future work will focus on clinical validation and further optimization of the models for practical use.
