DOI: https://doi.org/10.1186/s12909-025-06849-w
PMID: https://pubmed.ncbi.nlm.nih.gov/40016760
تاريخ النشر: 2025-02-27
المؤلف: Ravza Eraslan وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في الرعاية الصحية والتعليم
نظرة عامة
هدفت هذه الدراسة إلى تقييم أداء خمسة من روبوتات الدردشة المعتمدة على الذكاء الاصطناعي المستخدمة على نطاق واسع في الإجابة على أسئلة التعويضات السنية من امتحان الإقامة في تخصص طب الأسنان (DSRE). تم تصنيف ما مجموعه 126 سؤالًا إلى سبعة مواضيع فرعية، وتم تقييم روبوتات الدردشة—ChatGPT-3.5 وGemini Advanced وClaude Pro وMicrosoft Copilot وPerplexity—على مدار أسبوع. تم إجراء تحليلات إحصائية، بما في ذلك اختبار كاي-تربيع واختبارات z، لمقارنة معدلات الدقة لروبوتات الدردشة، مع تحديد عتبة دلالة عند 0.05.
أشارت النتائج إلى أن Microsoft Copilot حقق أعلى معدل دقة بنسبة 73%، متفوقًا بشكل كبير على Perplexity، الذي سجل دقة قدرها 54.8%. ومن الجدير بالذكر أنه على الرغم من عدم ملاحظة اختلافات كبيرة في الدقة عبر المواضيع الفرعية المختلفة، فإن أسئلة زراعة الأسنان حققت أعلى دقة (75%)، بينما كانت أسئلة الأطقم الجزئية القابلة للإزالة هي الأدنى (50.8%). تشير النتائج إلى أنه بينما تظهر نماذج الذكاء الاصطناعي وعدًا كأدوات دعم تعليمية، إلا أنها تعاني حاليًا من قيود في الموثوقية عبر جميع مجالات التعويضات السنية. تؤكد الدراسة على أهمية اختيار نماذج الذكاء الاصطناعي المناسبة للتكامل الفعال في التعليم السني، مع إمكانية تحسين النتائج مع تقدم تكنولوجيا الذكاء الاصطناعي.
مقدمة
تناقش مقدمة هذه الورقة البحثية الاهتمام المتزايد في تطبيق روبوتات الدردشة المعتمدة على الذكاء الاصطناعي (AI)، وخاصة نماذج اللغة الكبيرة (LLMs)، في التعليم الطبي وطب الأسنان. تُعرف نماذج LLMs، مثل ChatGPT وGemini Advanced وClaude Pro وCopilot وPerplexity، بقدراتها المتقدمة في معالجة اللغة الطبيعية، مما يمكنها من تقديم استجابات قائمة على الأدلة وتسهيل التعلم من خلال أدوات تعليمية تفاعلية. تمتلك هذه النماذج القدرة على تعزيز الموارد التعليمية التقليدية وتحسين اتخاذ القرارات السريرية، خاصة في سياق التحضير للامتحانات والوصول إلى المعلومات.
تقيم الدراسة بشكل خاص أداء هذه النماذج الخمسة في الإجابة على أسئلة الاختيار من متعدد من امتحان الإقامة في تخصص طب الأسنان (DSRE) في تركيا، مع التركيز على مجال التعويضات السنية. هذه البحث ملحوظ لأنه يمثل أول تحليل مقارن لهذه النماذج فيما يتعلق بـ DSRE، بهدف تقييم دقتها وموثوقيتها. تختبر الدراسة فرضيتين صفريتين: واحدة تتعلق بالدقة العامة للاستجابات بين نماذج الذكاء الاصطناعي المختلفة، وأخرى تتعلق بالدقة عبر مواضيع فرعية مختلفة ضمن التعويضات السنية. من المتوقع أن توفر النتائج رؤى حول دمج الذكاء الاصطناعي في العمليات التعليمية وأنظمة دعم اتخاذ القرار السريري، مع تسليط الضوء على الفوائد المحتملة والتحديات المرتبطة باستخدامها في التعليم السني.
الطرق
في هذه الدراسة، قام المؤلفون بتحليل أداء خمسة من روبوتات الدردشة المعتمدة على الذكاء الاصطناعي في الإجابة على أسئلة الاختيار من متعدد (MCQs) المتعلقة بالتعويضات السنية، المستمدة من امتحانات DSRE التركية المتاحة عبر الإنترنت. تم تصنيف ما مجموعه 126 سؤالًا إلى سبعة مواضيع فرعية—تشريح الأسنان، علوم المواد، الأطقم الثابتة، الأطقم الجزئية القابلة للإزالة، الأطقم الكاملة، الإطباق/المفصل الفكي الصدغي (TMJ)، وزراعة الأسنان—تمت ترجمتها إلى الإنجليزية وعرضها على روبوتات الدردشة. كان لكل سؤال خمسة خيارات للإجابة، وتم تقييم الاستجابات من حيث صحتها، مما سمح بحساب الدقة كنسبة الإجابات الصحيحة بالنسبة لعدد الأسئلة الإجمالي.
شمل التحليل تجميع الأسئلة بناءً على عدد نماذج الذكاء الاصطناعي التي قدمت إجابات غير صحيحة، مما أدى إلى نظام تصنيف من المستوى 0 (جميع النماذج صحيحة) إلى المستوى 5 (جميع النماذج غير صحيحة). تم استخدام تحليلات إحصائية، بما في ذلك اختبارات كاي-تربيع لاختبار بيرسون واختبار فيشر الدقيق، لفحص العلاقة بين الاستجابات وأنواع الذكاء الاصطناعي، مع استخدام اختبارات z لمقارنات الأعمدة. تم إجراء جميع التقييمات الإحصائية باستخدام SPSS 20 عند مستوى دلالة 0.05. لم تتطلب الدراسة موافقة أخلاقية، حيث لم تشمل موضوعات بشرية أو حيوانية.
النتائج
في تقييم دقة روبوتات الدردشة المعتمدة على الذكاء الاصطناعي في الإجابة على الأسئلة، كشفت تحليل كاي-تربيع عن اختلافات كبيرة بين النماذج. حقق Copilot أعلى معدل دقة بنسبة 73%، حيث أجاب بشكل صحيح على 92 من أصل 126 سؤالًا، تلاه ChatGPT بنسبة 61.1% (77/126) وGemini بنسبة 63.5% (80/126). كان لدى Claude وPerplexity معدلات دقة أقل بنسبة 57.9% (73/126) و54.8% (69/126) على التوالي. ومن الجدير بالذكر أن أداء Copilot كان أفضل بشكل كبير من أداء Perplexity (P = 0.035). ومع ذلك، لم تكن هناك اختلافات ذات دلالة إحصائية في معدلات الدقة عبر المواضيع الفرعية بين روبوتات الدردشة المعتمدة على الذكاء الاصطناعي.
كما أشار التحليل إلى وجود علاقة كبيرة بين المواضيع الفرعية ودقة الإجابات. على وجه التحديد، كانت نسبة الإجابات الصحيحة للأطقم الجزئية القابلة للإزالة أقل من الأطقم الثابتة، وعلوم المواد، والإطباق/TMJ، وزراعة الأسنان (P = 0.013). وعلى العكس، كانت الدقة في زراعة الأسنان أعلى بشكل كبير من الأطقم الكاملة والأطقم الجزئية القابلة للإزالة (P = 0.013). بالإضافة إلى ذلك، كانت نسبة التشابه في الإجابات غير الصحيحة عبر نماذج الذكاء الاصطناعي مرتفعة بشكل ملحوظ، حيث حصلت 67.7% من الأسئلة على استجابة غير صحيحة واحدة على الأقل من الذكاء الاصطناعي، وتمت الإجابة عن 8.7% من الأسئلة بشكل غير صحيح من قبل جميع النماذج في نفس الوقت.
المناقشة
في هذه الدراسة، تم تقييم أداء خمسة نماذج من الذكاء الاصطناعي في الإجابة على أسئلة تتعلق بالتعويضات السنية، مما كشف عن اختلافات كبيرة في الدقة. حقق Copilot أعلى معدل للإجابات الصحيحة بنسبة 73%، بينما كان لدى Perplexity أدنى معدل بنسبة 54.8%، مما يشير إلى قاعدة بياناته المحدودة في هذا التخصص. على الرغم من دقة Perplexity المنخفضة، إلا أنه تم الإشارة إلى موثوقيته وجودته في تقييمات أخرى. تتماشى النتائج مع الأبحاث السابقة التي تشير إلى أن النماذج المتقدمة مثل Chat-GPT-4.0 تتفوق على كل من نماذج الذكاء الاصطناعي والمقيمين في طب الأسنان في تقييمات مختلفة، مما يشير إلى أن الذكاء الاصطناعي يمكن أن يعزز دقة التشخيص ونتائج التعليم في طب الأسنان.
ومع ذلك، سلطت الدراسة الضوء أيضًا على التحديات، خاصة في المجالات المتخصصة مثل الأطقم الجزئية القابلة للإزالة، حيث واجهت جميع النماذج صعوبة، محققة فقط 50.8% دقة. تؤكد النتائج على الحاجة إلى تحسين جودة قاعدة البيانات وتدريب النماذج لتعزيز فعالية الذكاء الاصطناعي في المواضيع المعقدة. تشمل قيود الدراسة مجموعة بيانات صغيرة واستخدام إصدارات قياسية لبعض النماذج، مما قد يكون أثر على مقارنات الأداء. يجب أن تركز الأبحاث المستقبلية على مجموعات بيانات أكبر والإصدارات المتقدمة من نماذج الذكاء الاصطناعي لتقييم قدراتها بشكل أفضل في تعليم التعويضات السنية.
DOI: https://doi.org/10.1186/s12909-025-06849-w
PMID: https://pubmed.ncbi.nlm.nih.gov/40016760
Publication Date: 2025-02-27
Author(s): Ravza Eraslan et al.
Primary Topic: Artificial Intelligence in Healthcare and Education
Overview
This study aimed to assess the performance of five widely used AI chatbots in answering prosthodontics questions from the Dentistry Specialization Residency Examination (DSRE). A total of 126 questions were categorized into seven subtopics, and the chatbots—ChatGPT-3.5, Gemini Advanced, Claude Pro, Microsoft Copilot, and Perplexity—were evaluated over a week. Statistical analyses, including chi-square and z-tests, were conducted to compare the accuracy rates of the chatbots, with a significance threshold set at 0.05.
The results indicated that Microsoft Copilot achieved the highest accuracy rate of 73%, significantly outperforming Perplexity, which recorded an accuracy of 54.8%. Notably, while no significant differences in accuracy were observed across the various subtopics, dental implantology questions yielded the highest accuracy (75%), and removable partial dentures questions had the lowest (50.8%). The findings suggest that while AI models show promise as educational support tools, they currently exhibit limitations in reliability across all areas of prosthodontics. The study underscores the importance of selecting appropriate AI models for effective integration into dental education, with the potential for improved outcomes as AI technology advances.
Introduction
The introduction of this research paper discusses the growing interest in the application of artificial intelligence (AI) chatbots, particularly large language models (LLMs), in medical and dental education. LLMs, such as ChatGPT, Gemini Advanced, Claude Pro, Copilot, and Perplexity, are recognized for their advanced natural language processing capabilities, which enable them to provide evidence-based responses and facilitate learning through interactive educational tools. These models have the potential to enhance traditional learning resources and improve clinical decision-making, particularly in the context of exam preparation and access to information.
The study specifically evaluates the performance of these five AI models in answering multiple-choice questions from the Dentistry Specialization Residency Examination (DSRE) in Turkey, focusing on the field of prosthodontics. This research is notable as it represents the first comparative analysis of these models in relation to the DSRE, aiming to assess their accuracy and reliability. The study tests two null hypotheses: one regarding the overall accuracy of responses among the different AI models, and another concerning the accuracy across various subtopics within prosthodontics. The findings are expected to provide insights into the integration of AI in educational processes and clinical decision-support systems, highlighting both the potential benefits and challenges associated with their use in dental education.
Methods
In this study, the authors analyzed the performance of five AI chatbots in answering multiple-choice questions (MCQs) related to prosthodontics, sourced from the Turkish DSRE exams available online. A total of 126 questions, categorized into seven subtopics—dental morphology, materials science, fixed dentures, removable partial dentures, complete dentures, occlusion/temporomandibular joint (TMJ), and dental implantology—were translated into English and presented to the chatbots. Each question had five answer options, and the responses were evaluated for correctness, allowing the calculation of accuracy as the percentage of correct answers relative to the total number of questions.
The analysis involved grouping questions based on the number of AI models that provided incorrect answers, leading to a classification system from Level 0 (all models correct) to Level 5 (all models incorrect). Statistical analyses, including Pearson Chi-Square tests and Fisher’s Exact Test, were employed to examine the relationship between responses and AI types, with z-tests used for column comparisons. All statistical evaluations were conducted using SPSS 20 at a significance level of 0.05. The study did not require ethical approval, as it did not involve human or animal subjects.
Results
In the evaluation of AI chatbots’ accuracy in answering questions, a chi-square analysis revealed significant differences among the models. Copilot achieved the highest accuracy rate of 73%, correctly answering 92 out of 126 questions, followed by ChatGPT at 61.1% (77/126) and Gemini at 63.5% (80/126). Claude and Perplexity had lower accuracy rates of 57.9% (73/126) and 54.8% (69/126), respectively. Notably, Copilot’s performance was significantly better than that of Perplexity (P = 0.035). However, there were no statistically significant differences in accuracy rates across subtopics among the AI chatbots.
The analysis also indicated a significant relationship between subtopics and the accuracy of answers. Specifically, the rate of correct answers for removable partial dentures was lower than for fixed dentures, materials science, occlusion/TMJ, and dental implantology (P = 0.013). Conversely, the accuracy for dental implantology was significantly higher than for complete and removable partial dentures (P = 0.013). Additionally, the similarity of incorrect answers across AI models was notably high, with 67.7% of questions receiving at least one incorrect response from the AIs, and 8.7% of questions were answered incorrectly by all models simultaneously.
Discussion
In this study, the performance of five AI models in answering prosthodontics-related questions was evaluated, revealing significant differences in accuracy. Copilot achieved the highest correct answer rate at 73%, while Perplexity had the lowest at 54.8%, indicating its limited database in this specialty. Despite Perplexity’s lower accuracy, it was noted for its reliability and quality in other evaluations. The findings align with previous research indicating that advanced models like Chat-GPT-4.0 outperform both AI models and dental residents in various assessments, suggesting that AI can enhance diagnostic accuracy and educational outcomes in dentistry.
However, the study also highlighted challenges, particularly in specialized areas such as removable partial dentures, where all models struggled, achieving only 50.8% accuracy. The results underscore the need for improved database quality and model training to enhance AI’s effectiveness in complex topics. Limitations of the study include a small dataset and the use of standard versions for some models, which may have affected performance comparisons. Future research should focus on larger datasets and the advanced versions of AI models to better assess their capabilities in prosthodontics education.
