DOI: https://doi.org/10.1038/s41597-025-05398-7
PMID: https://pubmed.ncbi.nlm.nih.gov/40634413
تاريخ النشر: 2025-07-09
المؤلف: Chengkai Wang وآخرون
الموضوع الرئيسي: الأشعة السينية السنية والتصوير
نظرة عامة
في سياق تقدم الرعاية الصحية الذكية في طب الأسنان، تتناول هذه الورقة الحاجة الملحة لمجموعات بيانات متعددة الوسائط، والتي تعتبر ضرورية لتطوير التطبيقات المدفوعة بالذكاء الاصطناعي في علاج الأسنان. يقدم المؤلفون مجموعة بيانات الأسنان متعددة الوسائط (MMDental)، وهي الأولى والأكبر من نوعها، وتتكون من بيانات من 660 مريضًا تشمل صور الأشعة المقطعية ثلاثية الأبعاد (CBCT) جنبًا إلى جنب مع سجلات طبية مفصلة من الخبراء، بما في ذلك التشخيصات الأولية ووثائق المتابعة. تم إجراء جميع فحوصات CBCT تحت إشراف مهني، وتم مراجعة سجلات المرضى بدقة من قبل أطباء كبار، مما يضمن موثوقية وشمولية مجموعة البيانات.
تقدم الورقة أيضًا تحليلًا شاملاً لمجموعة البيانات، حيث تفحص التركيبة السكانية للمرضى، وانتشار حالات الأسنان المختلفة، وتوزيع الأمراض عبر الفئات العمرية المختلفة. تسلط هذه الدراسة الضوء على التأثير الاجتماعي الكبير لصحة الأسنان، مشيرة إلى أن أكثر من 3.5 مليار فرد يعانون من أمراض فموية، مما يمكن أن يؤدي إلى مضاعفات صحية خطيرة وزيادة في تكاليف الرعاية الصحية. يجادل المؤلفون بأن الطرق التشخيصية التقليدية، التي تعتمد على الفحوصات البصرية والأشعة السينية ثنائية الأبعاد، غالبًا ما تفتقر إلى الدقة اللازمة للعلاج الفعال، مما يبرز إمكانيات الذكاء الاصطناعي لتعزيز دقة التشخيص وفعالية العلاج في طب الأسنان.
الطرق
يستخدم مشروع MMDental سير عمل منهجي من أربع مراحل لبناء مجموعة البيانات، كما هو موضح في الشكل 1. تتضمن المرحلة الأولية، جمع البيانات، الحصول على صور الأشعة المقطعية ثلاثية الأبعاد (CBCT) والسجلات الطبية المرتبطة من مجموعة متنوعة من المرضى في مستشفى هانغتشو لطب الأسنان. تؤكد هذه المرحلة على بروتوكولات تجنيد المرضى الصارمة، والحصول على الموافقة المستنيرة، والالتزام بممارسات إدارة البيانات الأخلاقية وفقًا للمعايير الدولية.
بعد جمع البيانات، تركز المرحلة الثانية، معالجة البيانات، على تحويل البيانات الخام إلى تنسيقات موحدة مناسبة للتحليل. تتضمن هذه العملية محاذاة البيانات من مصادر متعددة، وإجراء تقييمات لمراقبة الجودة، وإجراء مراجعات من قبل الخبراء لضمان دقة واكتمال مجموعة البيانات. المرحلة الثالثة، تنظيف الخصوصية وإعادة التسمية، تنفذ تقنيات إخفاء صارمة لحماية سرية المرضى من خلال إزالة المعلومات القابلة للتعريف الشخصي من خلال إعادة تسمية الملفات وإعادة ترميز البيانات بمعرفات فريدة. المرحلة النهائية، تنظيم البيانات، تجمع البيانات المجهولة والمعالجة في تنسيق منظم لسهولة الوصول والنشر، مما يؤدي إلى تحميل مجموعة البيانات متعددة الوسائط الشاملة إلى مستودع متاح للجمهور. يتم تفصيل كل مرحلة من هذه المنهجية بشكل أكبر في الأقسام الفرعية اللاحقة.
المناقشة
تتكون مجموعة بيانات MMDental، المستمدة من مستشفى هانغتشو لطب الأسنان، من 161,200 شريحة من الأشعة المقطعية ثلاثية الأبعاد (CBCT) و2,125 سجل طبي من الخبراء من 660 مريضًا تتراوح أعمارهم بين 5 إلى 86 عامًا. تم تصميم مجموعة البيانات لتمثيل مجموعة متنوعة من حالات الأسنان والتركيبات السكانية، حيث قدم 403 مرضى كل من صور CBCT والسجلات الطبية المفصلة. كانت الاعتبارات الأخلاقية ذات أهمية قصوى، حيث تم الحصول على الموافقة المستنيرة من جميع المشاركين، بما في ذلك الأوصياء على القاصرين، مما يضمن الالتزام بإعلان هلسنكي وموافقة لجنة الأخلاقيات الطبية في جامعة ليشوي.
تُحافظ على سلامة مجموعة البيانات من خلال بروتوكولات صارمة لجمع البيانات ومعالجتها. يتم الحصول على صور CBCT باستخدام جهازين متقدمين، مع معلمات مسح مصممة خصيصًا لتقليل التعرض للإشعاع مع ضمان جودة الصورة العالية. يتم التحقق من السجلات الطبية بدقة من قبل فريق من الممرضات وخبراء الأسنان، مما يضمن الدقة والاتساق مع بيانات التصوير. تتضمن مجموعة البيانات معلومات شاملة عن المرضى، مثل التركيبة السكانية، والتاريخ السريري، والتشخيصات، وخطط العلاج، منظمة لسهولة التحليل. تؤكد التقييمات الإحصائية على تمثيل مجموعة البيانات، مع توزيع متوازن للجنس ونطاق واسع من الأعمار، مما يعزز قابليتها للتطبيق في الأبحاث المدفوعة بالذكاء الاصطناعي في تشخيص الأسنان. يتماشى انتشار حالات الأسنان داخل مجموعة البيانات مع الدراسات الوبائية العالمية، مما يبرز أهميتها السريرية وإمكاناتها في تعزيز تطوير نماذج الذكاء الاصطناعي في طب الأسنان.
القيود
تقدم مجموعة بيانات MMDental، على الرغم من كونها موردًا قيمًا لتعزيز أبحاث الذكاء الاصطناعي متعددة الوسائط في طب الأسنان، عدة قيود قد تؤثر على قابليتها للتطبيق. باعتبارها مجموعة بيانات من مركز واحد مستمدة من مستشفى هانغتشو لطب الأسنان، فإن قابليتها للتعميم على السكان الأوسع محدودة. على الرغم من أن مجموعة البيانات تم بناؤها بمعايير شاملة تهدف إلى التقاط مجموعة متنوعة من المرضى، إلا أن الخصائص السكانية والسريرية للمشاركين قد لا تمثل بشكل كافٍ التباين العالمي في حالات الأسنان وطرق العلاج.
بالإضافة إلى ذلك، يحد الطابع الرجعي لجمع البيانات من القدرة على تحديد عدد فحوصات الأشعة المقطعية ثلاثية الأبعاد (CBCT) التي تم استبعادها بسبب تدابير مراقبة الجودة بدقة. لتعزيز قوة وقابلية تطبيق الأبحاث المستقبلية، يُوصى بأن تتضمن الدراسات اللاحقة بيانات من مراكز متعددة ونطاق أوسع من المواقع الجغرافية، مما يعالج القيود الحالية ويحسن تمثيل مجموعة البيانات.
DOI: https://doi.org/10.1038/s41597-025-05398-7
PMID: https://pubmed.ncbi.nlm.nih.gov/40634413
Publication Date: 2025-07-09
Author(s): Chengkai Wang et al.
Primary Topic: Dental Radiography and Imaging
Overview
In the context of advancing dental intelligent healthcare, this paper addresses the critical need for multimodal datasets, which are essential for the development of AI-driven applications in dental treatment. The authors introduce the MultiModal Dental (MMDental) dataset, the first and largest of its kind, comprising data from 660 patients that includes 3D Cone-beam Computed Tomography (CBCT) images alongside detailed expert medical records, including initial diagnoses and follow-up documentation. All CBCT scans were performed under professional supervision, and patient records were meticulously reviewed by senior doctors, ensuring the dataset’s reliability and comprehensiveness.
The paper also presents a thorough analysis of the dataset, examining patient demographics, the prevalence of various dental conditions, and disease distribution across different age groups. This research highlights the significant societal impact of dental health, noting that over 3.5 billion individuals suffer from oral diseases, which can lead to severe health complications and increased healthcare costs. The authors argue that traditional diagnostic methods, reliant on visual examinations and 2D X-rays, often lack the precision needed for effective treatment, thereby underscoring the potential of AI to enhance diagnostic accuracy and treatment efficacy in dentistry.
Methods
The MMDental project employs a systematic four-stage workflow for dataset construction, as illustrated in Figure 1. The initial stage, Data Collection, involves the acquisition of Cone Beam Computed Tomography (CBCT) images and associated medical records from a varied patient demographic at Hangzhou Dental Hospital. This stage emphasizes rigorous patient recruitment protocols, informed consent acquisition, and adherence to ethical data management practices in line with international standards.
Following data collection, the second stage, Data Preprocessing, focuses on transforming the raw data into standardized formats suitable for analysis. This process includes aligning data from multiple sources, conducting quality control assessments, and performing expert reviews to ensure the accuracy and completeness of the dataset. The third stage, Privacy Cleaning and Renaming, implements stringent anonymization techniques to protect patient confidentiality by removing personally identifiable information through file renaming and data re-encoding with unique identifiers. The final stage, Data Organization, consolidates the anonymized and processed data into a structured format for easy access and dissemination, culminating in the upload of the comprehensive multimodal dataset to a publicly accessible repository. Each stage of this methodology is further detailed in subsequent subsections.
Discussion
The MMDental dataset, sourced from Hangzhou Dental Hospital, comprises 161,200 3D Cone-Beam Computed Tomography (CBCT) slices and 2,125 expert medical records from 660 patients aged 5 to 86 years. The dataset is designed to represent a diverse range of dental conditions and demographics, with 403 patients providing both CBCT images and detailed medical records. Ethical considerations were paramount, with informed consent obtained from all participants, including guardians for minors, ensuring adherence to the Helsinki Declaration and approval from the Medical Ethics Committee of Lishui University.
The dataset’s integrity is maintained through rigorous data collection and processing protocols. CBCT images are acquired using two advanced machines, with tailored scanning parameters to minimize radiation exposure while ensuring high image quality. Medical records are meticulously validated by a team of nurses and dental experts, ensuring accuracy and consistency with the imaging data. The dataset includes comprehensive patient information, such as demographics, clinical histories, diagnoses, and treatment plans, structured for ease of analysis. Statistical assessments confirm the dataset’s representativeness, with a balanced sex distribution and a wide age range, enhancing its applicability for AI-driven research in dental diagnostics. The prevalence of dental conditions within the dataset aligns with global epidemiological studies, underscoring its clinical relevance and potential for advancing AI model development in dentistry.
Limitations
The MMDental dataset, while a valuable resource for advancing multimodal dental AI research, presents several limitations that may affect its applicability. As a single-center dataset derived from Hangzhou Dental Hospital, its generalizability to broader populations is constrained. Although the dataset was constructed with comprehensive inclusion criteria aimed at capturing a diverse patient cohort, the demographic and clinical characteristics of the participants may not adequately represent the global variability in dental conditions and treatment methodologies.
Additionally, the retrospective nature of the data collection limits the ability to accurately quantify the number of Cone Beam Computed Tomography (CBCT) scans that were excluded due to quality control measures. To enhance the robustness and applicability of future research, it is recommended that subsequent studies incorporate data from multiple centers and a wider range of geographic locations, thereby addressing the current limitations and improving the dataset’s representativeness.
