DOI: https://doi.org/10.1186/s12911-024-02780-0
PMID: https://pubmed.ncbi.nlm.nih.gov/39614307
تاريخ النشر: 2024-11-29
المؤلف: Ali Raza وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في الرعاية الصحية
نظرة عامة
تقدم هذه الدراسة نهجًا مبتكرًا يعتمد على الذكاء الاصطناعي للتشخيص المبكر لاضطرابات الغدة الدرقية، باستخدام مجموعة بيانات تحتوي على 3,772 ملاحظة مرضية. تستخدم الدراسة تقنية زيادة العينة للأقليات الاصطناعية للبيانات المستمرة الاسمية (SMOTE-NC) بالتزامن مع آلة تعزيز التدرج الخفيف المعدلة (LGBM) لمعالجة قضايا عدم توازن الفئات بفعالية، محققة دقة تشخيص ملحوظة تبلغ 0.96، متجاوزة الأساليب المتقدمة الحالية. بالإضافة إلى ذلك، تتضمن الدراسة تقنيات متقدمة في التعلم الآلي والتعلم العميق للتحليل المقارن، جنبًا إلى جنب مع تحسين المعلمات الفائقة لتعزيز الأداء التشخيصي. يسهل استخدام تفسيرات شابلي الإضافية (SHAP) الشفافية في عملية اتخاذ القرار للنموذج، مما يحسن من قابلية الفهم للأطباء.
مع النظر إلى المستقبل، يهدف النموذج المقترح إلى أن يكون أداة دعم قرار في البيئات السريرية، مع تطلعات للتكامل في أنظمة السجلات الصحية الإلكترونية (EHR) لتوفير رؤى تشخيصية أولية. ستركز الأعمال المستقبلية على تجارب التحقق السريرية في العالم الحقيقي لتقييم فعالية النموذج بالتعاون مع المتخصصين في الرعاية الصحية، بالإضافة إلى تحسين تكامله في سير العمل السريري. لتعزيز قوة النموذج وقدرته على التعميم، ستأخذ الأبحاث المستقبلية في الاعتبار توسيع مجموعة البيانات ودمج مؤشرات حيوية إضافية. علاوة على ذلك، سيمكن تطوير واجهة مستخدم رسومية المتخصصين الطبيين من إدخال معلومات المرضى لتشخيص حالات الغدة الدرقية في الوقت الفعلي، مما يحسن من الكفاءة السريرية ورعاية المرضى.
مقدمة
تناقش مقدمة الورقة اضطرابات الغدة الدرقية، التي تشمل حالات مثل قصور الغدة الدرقية وفرط نشاط الغدة الدرقية التي تعطل الوظيفة الطبيعية للغدة الدرقية، مما يؤثر على الأيض وإنتاج الطاقة والصحة العامة. يمكن أن تؤدي هذه الاضطرابات إلى أعراض ومضاعفات متنوعة، حيث يعتبر سرطان الغدة الدرقية مساهمًا كبيرًا في معدلات الوفيات المرتبطة بحالات الغدة الدرقية. تبرز الورقة أهمية التشخيص الدقيق والعلاج، مشيرة إلى أنه على الرغم من أن التقدم في تقنيات التشخيص قد حسّن النتائج، إلا أن التحديات لا تزال قائمة، لا سيما مع بعض الأنواع الفرعية العدوانية من السرطان.
يقترح المؤلفون نهجًا مبتكرًا في التعلم الآلي، يسمى SNL (SMOTE-NC-LGBM)، لتعزيز تشخيص اضطرابات الغدة الدرقية من خلال معالجة عدم توازن الفئات في مجموعات البيانات. باستخدام مجموعة بيانات تحتوي على 3,772 ملاحظة مع 30 ميزة، تستخدم الدراسة طريقة SMOTE-NC لتوليد عينات اصطناعية، مما يوازن مجموعة البيانات للتدريب. يدمج نهج SNL هذه الطريقة مع تقنية LightGBM (LGBM) المعدلة، مما يظهر أداءً متفوقًا مقارنة بالأساليب الحالية. بالإضافة إلى ذلك، تتضمن الدراسة آلية ذكاء اصطناعي قابلة للتفسير (XAI) باستخدام مخططات SHAP لتحسين قابلية فهم توقعات النموذج. تمهد المقدمة الطريق لاستكشاف مفصل للمنهجية والنتائج والآثار المترتبة على هذه الأبحاث في الأقسام التالية.
طرق البحث
تنطوي منهجية البحث المقترحة على نهج منهجي لتشخيص أمراض الغدة الدرقية باستخدام مجموعة بيانات مفتوحة الوصول تحتوي على 3,772 ملاحظة و30 ميزة. في البداية، تم تحليل مجموعة البيانات بحثًا عن عدم التوازن، مما أدى إلى تقسيم حيث تم تخصيص 90% للتدريب و10% للاختبار. لمعالجة عدم التوازن، خضعت بيانات التدريب لمعالجة باستخدام SMOTE-NC، مما أسفر عن مجموعة بيانات متوازنة. ثم تم تدريب نماذج مختلفة من التعلم الآلي والتعلم العميق مع ضبط المعلمات الفائقة، وتم تقييم أدائها على بيانات الاختبار غير المرئية. تم اختيار النموذج الذي أظهر أعلى دقة في تشخيص حالات الغدة الدرقية، وتم استخدام آلية ذكاء اصطناعي قابلة للتفسير (XAI) لتوضيح عملية اتخاذ القرار للنموذج.
أظهرت تطبيقات طرق الذكاء الاصطناعي في هذا السياق وعدًا كبيرًا في تعزيز دقة تشخيص أمراض الغدة الدرقية، والتي يمكن أن تكون معقدة غالبًا بسبب تباين الأعراض. أنظمة الذكاء الاصطناعي قادرة على تحديد أنماط معقدة وروابط قد لا تكون واضحة بسهولة للأطباء، مما يسهل الكشف المبكر والدقيق عن حالات مثل قصور الغدة الدرقية، وفرط نشاط الغدة الدرقية، وعقيدات الغدة الدرقية. تم إجراء التجارب باستخدام Python 3.0 في بيئة تدعم GPU، باستخدام مكتبات مثل Scikit-learn وKeras وTensorFlow. تضمنت مقاييس الأداء للتقييم درجة F1، والاسترجاع، والدقة، والدقة، مما يضمن تقييمًا شاملاً لفعالية النماذج.
النتائج
في هذا القسم، تقدم الدراسة نتائج حول تطبيق طرق الذكاء الاصطناعي لتشخيص اضطرابات الغدة الدرقية. تتكون مجموعة البيانات من سجلات طبية تفصل الخصائص الديموغرافية للمرضى، والأعراض، ونتائج المختبر. كشفت تقييمات الأداء أن النماذج الخطية، مثل الانحدار اللوجستي (LR) وآلة الدعم الخطية (LSVM)، أدت بشكل ضعيف بسبب عدم قابلية فصل مجموعة البيانات بشكل غير خطي. على العكس من ذلك، أظهرت النماذج المعتمدة على الأشجار مثل الغابة العشوائية (RF) وLightGBM (LGBM) أداءً متفوقًا، حيث حققت LGBM أعلى دقة تبلغ 0.96.
استكشفت التحليلات أيضًا نهج التعلم العميق، وتحديدًا وحدات الذاكرة المتكررة المغلقة (GRU) وشبكات الذاكرة طويلة الأمد (LSTM). عانت كلا النموذجين في البداية من خسائر عالية ودقة منخفضة بسبب تهيئة الأوزان العشوائية، لكنهما تحسنا بشكل كبير على مدى 20 حقبة، محققين درجات دقة تتجاوز 0.90. ومع ذلك، تفوقت LSTM على GRU بدقة تبلغ 0.93 ودقة تبلغ 0.94 على بيانات الاختبار غير المرئية. أشار تحليل مصفوفة الالتباس إلى أن LGBM كان لديه أدنى معدل تصنيف خاطئ، مما يثبت فعاليته في تشخيص الغدة الدرقية. بالإضافة إلى ذلك، سلطت نتائج الذكاء الاصطناعي القابل للتفسير (XAI) الضوء على الميزات الرئيسية التي تؤثر على توقعات النموذج، بما في ذلك T3 وTT4 وTSH وFTI، والتي تتماشى مع الممارسات السريرية وتعزز من قابلية فهم النموذج.
مناقشة
تسلط قسم المناقشة في ورقة البحث الضوء على الأهمية المتزايدة لتقنيات التعلم الآلي في تشخيص أمراض الغدة الدرقية، مع التأكيد على الإمكانية لتحسين الدقة من خلال دمج الميزات الإشعاعية من صور الموجات فوق الصوتية. يكشف استعراض الأدبيات الشامل عن دراسات متنوعة تستخدم خوارزميات التعلم الآلي، مثل الغابة العشوائية (RF)، وآلة الدعم (SVM)، والشبكات العصبية التلافيفية (CNN)، لتصنيف عقيدات الغدة الدرقية والتنبؤ بحالات مثل قصور الغدة الدرقية وفرط نشاط الغدة الدرقية. من الجدير بالذكر أن مصنف RF أظهر أداءً متفوقًا، محققًا منطقة تحت المنحنى (AUC) تبلغ 1 في التدريب و0.94 في الاختبار، بينما أظهرت الشبكات العصبية التلافيفية أيضًا نتائج واعدة بدقة تتراوح بين 89% إلى 95.73% في دراسات مختلفة.
تناقش هذه القسم أيضًا التحديات التي واجهت الأبحاث السابقة، لا سيما فيما يتعلق بعدم توازن الفئات في مجموعات البيانات. يقترح المؤلفون استخدام تقنية زيادة العينة للأقليات الاصطناعية للبيانات الاسمية والمستمرة (SMOTE-NC) لمعالجة هذه المشكلة، والتي أظهرت أنها تحسن أداء المصنف بشكل كبير. يهدف النموذج المقترح، الذي يتضمن ضبط المعلمات الفائقة وطرق الذكاء الاصطناعي القابلة للتفسير مثل SHAP من أجل القابلية للفهم، إلى أن يكون أداة دعم قرار قوية لمقدمي الرعاية الصحية. بشكل عام، تؤكد النتائج على ضرورة استمرار التقدم في تطبيقات التعلم الآلي لتعزيز دقة التشخيص والتكامل السريري لإدارة أمراض الغدة الدرقية.
القيود
تقدم الدراسة نتائج مهمة بشأن تشخيص أمراض الغدة الدرقية؛ ومع ذلك، يجب مراعاة عدة قيود. أولاً، قد لا تعكس مجموعة البيانات، التي تم جمعها في عام 1987، الاتجاهات المعاصرة في أمراض الغدة الدرقية أو التقدم في المعرفة الطبية، مما قد يحد من صلة النموذج بالممارسة السريرية الحالية. علاوة على ذلك، فإن نقص المعلومات الديموغرافية التفصيلية، مثل العرق والحالة الاجتماعية والاقتصادية، يحد من قدرة النموذج على التعميم على السكان المتنوعين، مما قد يؤثر على تقديم المرض والانتكاس.
بالإضافة إلى ذلك، قد تعيق الاعتماد على الملاحظات الثابتة دون بيانات زمنية قدرة النموذج على التقاط ديناميات أمراض الغدة الدرقية بمرور الوقت، وهو أمر حاسم للتشخيص الفعال والإدارة. يثير غياب التحقق الخارجي باستخدام مجموعات بيانات مستقلة مخاوف بشأن قوة النموذج وقابليته للتكيف مع الإفراط في التخصيص. أخيرًا، بينما تعزز التفسيرات المعتمدة على SHAP من القابلية للفهم، قد تعقد تعقيدها التطبيق السريري، حيث قد يجد الأطباء صعوبة في تقييم مساهمات الميزات الفردية بكفاءة. يجب أن تهدف الأبحاث المستقبلية إلى معالجة هذه القيود من خلال دمج مجموعات بيانات أكثر حداثة وتنوعًا، واستخدام بيانات طولية، وتطوير أدوات تفسير سهلة الاستخدام لتعزيز القابلية السريرية للنموذج وتأثيره على رعاية المرضى.
DOI: https://doi.org/10.1186/s12911-024-02780-0
PMID: https://pubmed.ncbi.nlm.nih.gov/39614307
Publication Date: 2024-11-29
Author(s): Ali Raza et al.
Primary Topic: Artificial Intelligence in Healthcare
Overview
This research presents an innovative artificial intelligence-based approach for the early diagnosis of thyroid disorders, utilizing a dataset of 3,772 patient observations. The study employs the synthetic minority oversampling technique for nominal continuous data (SMOTE-NC) in conjunction with a fine-tuned light gradient boosting machine (LGBM) to effectively address class imbalance issues, achieving a notable diagnostic accuracy of 0.96, surpassing existing state-of-the-art methods. Additionally, the research incorporates advanced machine learning and deep learning techniques for comparative analysis, alongside hyperparameter optimization to further enhance diagnostic performance. The use of Shapley Additive Explanations (SHAP) facilitates transparency in the model’s decision-making process, thereby improving interpretability for clinicians.
Looking ahead, the proposed model aims to serve as a decision-support tool in clinical settings, with aspirations for integration into electronic health record (EHR) systems to provide preliminary diagnostic insights. Future work will focus on real-world clinical validation trials to assess the model’s effectiveness in collaboration with healthcare professionals, as well as refining its integration into clinical workflows. To enhance the model’s robustness and generalizability, future research will consider expanding the dataset and incorporating additional biomarkers. Furthermore, the development of a graphical user interface will enable medical specialists to input patient information for real-time thyroid condition diagnoses, thereby improving clinical efficiency and patient care.
Introduction
The introduction of the paper discusses thyroid disorders, which encompass conditions like hypothyroidism and hyperthyroidism that disrupt the normal functioning of the thyroid gland, affecting metabolism, energy production, and overall health. These disorders can lead to various symptoms and complications, with thyroid cancer being a significant contributor to mortality rates associated with thyroid conditions. The paper highlights the importance of accurate diagnosis and treatment, noting that while advancements in diagnostic techniques have improved outcomes, challenges remain, particularly with certain aggressive cancer subtypes.
The authors propose an innovative machine learning approach, termed SNL (SMOTE-NC-LGBM), to enhance the diagnosis of thyroid disorders by addressing class imbalance in datasets. Utilizing a dataset of 3,772 observations with 30 features, the study employs the SMOTE-NC method to generate synthetic samples, thereby balancing the dataset for training. The SNL approach integrates this method with a fine-tuned LightGBM (LGBM) technique, demonstrating superior performance compared to existing methods. Additionally, the study incorporates an explainable artificial intelligence (XAI) mechanism using SHAP charts to improve the interpretability of the model’s predictions. The introduction sets the stage for a detailed exploration of the methodology, results, and implications of this research in subsequent sections.
Methods
The proposed research methodology involves a systematic approach to diagnosing thyroid diseases using an open-access dataset containing 3,772 observations and 30 features. Initially, the dataset was analyzed for imbalance, leading to a split where 90% was allocated for training and 10% for testing. To address the imbalance, the training data underwent processing with SMOTE-NC, resulting in a balanced dataset. Various machine learning and deep learning models were then trained with hyperparameter tuning, and their performance was assessed on the unseen test data. The model demonstrating the highest accuracy in diagnosing thyroid conditions was selected, and an Explainable AI (XAI) mechanism was employed to elucidate the model’s decision-making process.
The application of artificial intelligence methods in this context has shown significant promise for enhancing the accuracy of thyroid disease diagnoses, which can often be complicated due to the variability of symptoms. AI systems are capable of identifying intricate patterns and associations that may not be readily apparent to clinicians, thereby facilitating early and precise detection of conditions such as hypothyroidism, hyperthyroidism, and thyroid nodules. The experiments were conducted using Python 3.0 in a GPU-enabled environment, utilizing libraries such as Scikit-learn, Keras, and TensorFlow. Performance metrics for evaluation included F1 score, recall, precision, and accuracy, ensuring a comprehensive assessment of the models’ effectiveness.
Results
In this section, the study presents findings on the application of AI methods for diagnosing thyroid disorders. The dataset comprised medical records detailing patient demographics, symptoms, and laboratory results. Performance evaluations revealed that linear models, such as Logistic Regression (LR) and Linear Support Vector Machine (LSVM), performed poorly due to the dataset’s non-linear separability. Conversely, tree-based models like Random Forest (RF) and LightGBM (LGBM) demonstrated superior performance, with LGBM achieving the highest accuracy of 0.96.
The analysis further explored deep learning approaches, specifically Gated Recurrent Unit (GRU) and Long Short-Term Memory (LSTM) networks. Both models initially struggled with high loss and low accuracy due to random weight initialization but improved significantly over 20 epochs, achieving accuracy scores above 0.90. However, LSTM outperformed GRU with an accuracy of 0.93 and precision of 0.94 on unseen test data. The confusion matrix analysis indicated that LGBM had the lowest misclassification rate, validating its effectiveness in thyroid diagnosis. Additionally, Explainable AI (XAI) results highlighted key features influencing model predictions, including T3, TT4, TSH, and FTI, which align with clinical practices and enhance the model’s interpretability.
Discussion
The discussion section of the research paper highlights the increasing relevance of machine learning techniques in the diagnosis of thyroid diseases, emphasizing the potential for enhanced accuracy through the integration of radiomic features from ultrasound images. A comprehensive literature review reveals various studies employing machine learning algorithms, such as Random Forest (RF), Support Vector Machine (SVM), and Convolutional Neural Networks (CNN), to classify thyroid nodules and predict conditions like hypothyroidism and hyperthyroidism. Notably, the RF classifier demonstrated superior performance, achieving an Area Under the Curve (AUC) of 1 in training and 0.94 in testing, while CNNs also showed promising results with accuracies around 89% to 95.73% in different studies.
The section further discusses the challenges faced in previous research, particularly regarding class imbalance in datasets. The authors propose the use of the Synthetic Minority Over-sampling Technique for Nominal and Continuous (SMOTE-NC) to address this issue, which has shown to improve classifier performance significantly. The proposed model, which incorporates hyperparameter tuning and Explainable AI methods like SHAP for interpretability, aims to serve as a robust decision support tool for healthcare providers. Overall, the findings underscore the necessity for continued advancements in machine learning applications to enhance diagnostic accuracy and clinical integration for thyroid disease management.
Limitations
The study presents significant findings regarding the diagnosis of thyroid disease; however, several limitations must be considered. Firstly, the dataset, collected in 1987, may not accurately reflect contemporary trends in thyroid disease or advancements in medical knowledge, potentially limiting the model’s relevance to current clinical practice. Furthermore, the lack of detailed demographic information, such as ethnicity and socioeconomic status, restricts the model’s generalizability to diverse populations, which could influence disease presentation and progression.
Additionally, the reliance on static observations without temporal data may hinder the model’s ability to capture the dynamics of thyroid disease over time, which is crucial for effective diagnosis and management. The absence of external validation using independent datasets raises concerns about the model’s robustness and its susceptibility to overfitting. Lastly, while SHAP-based explanations enhance interpretability, their complexity may complicate clinical application, as physicians might find it challenging to assess individual feature contributions efficiently. Future research should aim to address these limitations by incorporating more current and diverse datasets, utilizing longitudinal data, and developing user-friendly interpretability tools to enhance the model’s clinical applicability and impact on patient care.
