DOI: https://doi.org/10.1038/s41598-024-63422-z
PMID: https://pubmed.ncbi.nlm.nih.gov/38824187
تاريخ النشر: 2024-06-01
المؤلف: Jae‐Hong Lee وآخرون
الموضوع الرئيسي: الأشعة السينية السنية والتصوير
نظرة عامة
تدرس هذه الدراسة فعالية نموذج الذكاء الاصطناعي (AI)، وتحديدًا خوارزمية ResNet-50 المدربة مسبقًا والمعدلة، في تحديد أنواع مختلفة من أنظمة زراعة الأسنان (DIS) من الأشعة السينية السنية ذات الجودة المنخفضة والمشوهة. باستخدام مجموعة بيانات متعددة المراكز تضم 156,965 صورة بانورامية وصورة قريبة من الذروة للتدريب والتحقق، تم اختبار النموذج على 530 صورة صعبة تظهر مشاكل مثل عدم المحاذاة العمودية، والإفراط في التعرض للإشعاع، وقطع الذروة، ووجود أجسام غريبة. حقق نموذج الذكاء الاصطناعي مقاييس أداء مثيرة للإعجاب، بدقة 95.05%، ودقة 95.91%، واسترجاع 92.49%، ودرجة F1 تبلغ 94.17%. بالمقابل، صنف خمسة أطباء لثة نفس الصور بدقة إجمالية متوسطة بلغت فقط 37.2 ± 29.0%.
تؤكد النتائج على إمكانية الذكاء الاصطناعي في تعزيز دقة تحديد DIS في ظروف الأشعة السينية الصعبة، متجاوزة بشكل كبير أداء المتخصصين في طب الأسنان. ومع ذلك، تعترف الدراسة بالقيود بسبب ظروفها المحددة، مما يشير إلى أن المزيد من البحث ضروري لتوسيع مجموعة البيانات، وضمان تمثيل متنوع لأنواع DIS، وإشراك مقيمين متعددين، وتقييم أداء الذكاء الاصطناعي عبر مجموعة أوسع من السيناريوهات السريرية. سيكون ذلك حاسمًا لتحسين موثوقية وقابلية تعميم تطبيقات الذكاء الاصطناعي في الممارسة السريرية.
الطرق
يستعرض قسم “المواد والطرق” التصميم التجريبي والإجراءات المستخدمة في الدراسة. يوضح المواد المحددة المستخدمة، بما في ذلك أي مواد كيميائية، ومعدات، وعينات بيولوجية، بالإضافة إلى البروتوكولات المتبعة لضمان قابلية تكرار النتائج وموثوقيتها. قد يصف القسم أيضًا الطرق الإحصائية المطبقة لتحليل البيانات، بما في ذلك أي برامج مستخدمة ومعايير اختبار الدلالة.
بالإضافة إلى ذلك، قد تتضمن المنهجية معلومات حول تحديد حجم العينة، وعمليات العشوائية، والضوابط المطبقة للتخفيف من التحيز. من خلال تقديم نظرة شاملة على الطرق، يهدف هذا القسم إلى تمكين الباحثين الآخرين من تكرار الدراسة والتحقق من نتائجها.
النتائج
أظهر تقييم خوارزمية ResNet-50 على مجموعة بيانات اختبار تضم 586 صورة شعاعية مشوهة مقاييس أداء مثيرة للإعجاب: دقة 95.1%، دقة 95.9%، استرجاع 92.5%، ودرجة F1 تبلغ 94.2%. تضمنت مجموعة البيانات فئات مختلفة من الصور، حيث كانت 63.4% غير عمودية على محور تركيب الزرع، و26.0% تظهر الإفراط في التعرض للإشعاع، و8.4% تظهر ذروة تركيب الزرع، و2.4% تحتوي على أجسام غريبة. كانت معدلات فشل التصنيف لهذه الفئات 3.2%، 2.6%، 0.0%، و7.4%، على التوالي، مع عدم وجود اختلافات ذات دلالة إحصائية ملحوظة بينها.
عند تحليل دقة التصنيف عبر تسعة أنواع مختلفة من أنظمة زراعة الأسنان (DIS)، حقق نظام MkIII TiUnite أعلى دقة بنسبة 100% عبر جميع المقاييس، بينما سجل نظام Straumann SP أدنى دقة بنسبة 75% (دقة: 100%، استرجاع: 75%، درجة F1: 85.7%)، مع ملاحظات لاختلافات ذات دلالة (p < 0.05). بالمقارنة، صنف خمسة أطباء لثة نفس الأنواع التسعة من DIS، محققين دقة إجمالية متوسطة بلغت فقط 37.2 ± 29.0%. من الجدير بالذكر أن أطباء الأسنان أدوا بشكل أفضل في الحالات التي شهدت إفراطًا في التعرض للإشعاع (37.2 ± 29.0%) لكن واجهوا صعوبة كبيرة في الحالات التي تم قطع ذروة تركيب الزرع فيها (22.2 ± 21.1%).
المناقشة
في هذه الدراسة، قام المؤلفون بتقييم دقة نموذج التعلم العميق القائم على الذكاء الاصطناعي في تحديد أنظمة زراعة الأسنان (DIS) من الأشعة السينية ذات الجودة المنخفضة والمشوهة، مقارنة بأدائه مع خبراء البشر. حقق نموذج الذكاء الاصطناعي دقة تصنيف ملحوظة بلغت 95.05% عبر تسعة أنواع من DIS، متجاوزًا بشكل كبير أطباء اللثة، الذين أظهروا دقة متوسطة بلغت فقط 37.2%. يُعزى هذا التباين إلى مهمة التصنيف المركزة ومجموعة البيانات التدريبية الواسعة، التي تضمنت 156,965 صورة شعاعية. تبرز الدراسة إمكانية الذكاء الاصطناعي في التفوق في معالجة البيانات الغامضة والحفاظ على الاتساق، خاصة في السيناريوهات السريرية التي تتضمن ظروف تصوير صعبة.
على الرغم من هذه النتائج الواعدة، تعترف الدراسة بالقيود، بما في ذلك مجموعة بيانات اختبار صغيرة نسبيًا وتوزيع غير متساوٍ لأنواع DIS، مما قد يؤثر على قابلية تعميم النتائج. اختلف أداء الذكاء الاصطناعي حسب نوع DIS، حيث لوحظت أدنى دقة في الحالات التي تتضمن أجسامًا غريبة، مما يشير إلى تحديات في تصنيف الصور ذات التشوهات غير المتوقعة. يؤكد المؤلفون على الحاجة إلى بيانات تدريب متنوعة وتحسين مستمر للخوارزمية لتعزيز أداء الذكاء الاصطناعي. يدعون إلى إجراء أبحاث مستقبلية تشمل مجموعات بيانات أكبر وأكثر تنوعًا، بالإضافة إلى دمج الذكاء الاصطناعي مع الخبرة البشرية لتحسين دقة التشخيص واتخاذ القرارات السريرية.
DOI: https://doi.org/10.1038/s41598-024-63422-z
PMID: https://pubmed.ncbi.nlm.nih.gov/38824187
Publication Date: 2024-06-01
Author(s): Jae‐Hong Lee et al.
Primary Topic: Dental Radiography and Imaging
Overview
This study investigates the efficacy of an artificial intelligence (AI) model, specifically a fine-tuned pre-trained ResNet-50 algorithm, in identifying various types of dental implant systems (DISs) from low-quality and distorted dental radiographs. Utilizing a substantial multi-center dataset comprising 156,965 panoramic and periapical images for training and validation, the model was tested on 530 challenging images exhibiting issues such as non-perpendicular alignment, radiation overexposure, apex truncation, and foreign body presence. The AI model achieved impressive performance metrics, with an accuracy of 95.05%, precision of 95.91%, recall of 92.49%, and an F1 score of 94.17%. In contrast, five periodontists classified the same images with a mean overall accuracy of only 37.2 ± 29.0%.
The findings underscore the potential of AI to enhance the accuracy of DIS identification in difficult radiographic conditions, significantly surpassing the performance of dental professionals. However, the study acknowledges limitations due to its specific conditions, suggesting that further research is necessary to broaden the dataset, ensure diverse representation of DIS types, involve multiple raters, and evaluate the AI’s performance across a wider array of clinical scenarios. This would be crucial for improving the reliability and generalizability of AI applications in clinical practice.
Methods
The “Materials and Methods” section outlines the experimental design and procedures employed in the study. It details the specific materials used, including any reagents, equipment, and biological samples, as well as the protocols followed to ensure reproducibility and reliability of results. The section may also describe the statistical methods applied for data analysis, including any software utilized and the criteria for significance testing.
Additionally, the methodology may include information on sample size determination, randomization processes, and controls implemented to mitigate bias. By providing a comprehensive overview of the methods, this section aims to enable other researchers to replicate the study and validate its findings.
Results
The evaluation of the ResNet-50 algorithm on a test dataset comprising 586 distorted radiographic images demonstrated impressive performance metrics: accuracy of 95.1%, precision of 95.9%, recall of 92.5%, and an F1 score of 94.2%. The dataset included various categories of images, with 63.4% not perpendicular to the implant fixture axis, 26.0% exhibiting radiation overexposure, 8.4% showing the apex of the implant fixture, and 2.4% containing foreign bodies. The classification failure rates for these categories were 3.2%, 2.6%, 0.0%, and 7.4%, respectively, with no statistically significant differences observed among them.
When analyzing the classification accuracy across nine different dental implant systems (DISs), the MkIII TiUnite system achieved the highest accuracy at 100% across all metrics, while the Straumann SP system recorded the lowest accuracy at 75% (precision: 100%, recall: 75%, F1 score: 85.7%), with significant differences noted (p < 0.05). In comparison, five periodontists classified the same nine DIS types, achieving a mean overall accuracy of only 37.2 ± 29.0%. Notably, the dentists performed better on cases with radiation overexposure (37.2 ± 29.0%) but struggled significantly with cases where the apex of the implant fixture was cut off (22.2 ± 21.1%).
Discussion
In this study, the authors evaluated the accuracy of an AI-based deep learning model in identifying dental implant systems (DIS) from low-quality and distorted radiographs, comparing its performance to that of human experts. The AI model achieved a remarkable classification accuracy of 95.05% across nine types of DIS, significantly outperforming periodontists, who demonstrated a mean accuracy of only 37.2%. This discrepancy is attributed to the focused classification task and the extensive training dataset, which included 156,965 radiographs. The study highlights AI’s potential to excel in processing ambiguous data and maintaining consistency, particularly in clinical scenarios involving challenging imaging conditions.
Despite these promising results, the study acknowledges limitations, including a relatively small test dataset and an uneven distribution of DIS types, which may affect the generalizability of the findings. The AI’s performance varied by DIS type, with the lowest accuracy observed in cases involving foreign bodies, indicating challenges in classifying images with unexpected distortions. The authors emphasize the need for diverse training data and ongoing algorithm refinement to enhance AI performance. They advocate for future research to include larger and more varied datasets, as well as the integration of AI with human expertise to improve diagnostic accuracy and clinical decision-making.
