DOI: https://doi.org/10.1038/s41598-024-82420-9
PMID: https://pubmed.ncbi.nlm.nih.gov/39762262
تاريخ النشر: 2025-01-06
المؤلف: Mahmoud Y. Shams وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في الرعاية الصحية
نظرة عامة
تتناول ورقة البحث تطبيق تقنيات التعلم الآلي (ML) لتحسين التشخيص المبكر لمرض السكري، وهو حالة مزمنة مرتبطة بمضاعفات صحية خطيرة مثل السكتة الدماغية وفشل القلب. باستخدام مجموعة بيانات السكري الهندي PIMA (PIDD)، التي تتكون من 768 حالة و9 ميزات، تؤكد الدراسة على أهمية خطوات المعالجة المسبقة، بما في ذلك تعويض المتوسط وتطبيع البيانات، قبل تدريب نماذج ML المختلفة. تشمل النماذج التي تم تقييمها غابة عشوائية (RF)، والانحدار اللوجستي (LR)، وأقرب جار (KNN)، ونايف بايز (NB)، وتعزيز تدرج الهيستوغرام (HGB)، ووحدة التكرار المغلقة (GRU).
تم اقتراح نموذج جديد، وهو إزالة الميزات التكرارية-GRU (RFE-GRU)، لتعزيز اختيار الميزات ومعالجة القضايا المتعلقة بتلاشي التدرج والتضخم. تحدد مكونة RFE المتنبئين الأكثر أهمية للمتغير المستهدف، بينما تدير GRU بشكل فعال تعقيدات البيانات. تم التحقق من أداء نموذج RFE-GRU باستخدام عدة مقاييس، محققًا قيم الدقة، والاسترجاع، ودرجة F1، والدقة، والمساحة تحت المنحنى (AUC) بنسبة 90.50%، 90.70%، 90.50%، 90.70%، و0.9278، على التوالي. تشير التحليلات المقارنة إلى أن نموذج RFE-GRU يتفوق على نماذج التصنيف الأخرى، مما يبرز إمكانيته في تحسين تشخيص السكري.
النتائج
في هذا القسم، يتم تقديم نتائج تجربة التعلم الآلي التي تهدف إلى تصنيف السكري. تم إجراء التجربة باستخدام بايثون 3.8 ضمن بيئة دفتر ملاحظات Jupyter، مستفيدًا من معالج Intel Core i5 و16 جيجابايت من الذاكرة العشوائية. استخدمت الدراسة نموذج وحدة التكرار المغلقة (GRU)، الذي تم تحسينه بمجموعة ميزات تم اختيارها من خلال إزالة الميزات التكرارية (RFE)، حيث تم تحديد الجلوكوز، وضغط الدم، والأنسولين، ومؤشر كتلة الجسم (BMI) كميزات رئيسية. تم تكوين نموذج GRU مع 64 وحدة مخفية، وحجم دفعة 32، ومعدل تعلم 0.01، وتم تدريبه على مدى 200 فترة باستخدام مُحسِّن آدم ودالة تفعيل سيغمويد.
لتقييم أداء نموذج RFE-GRU، تم إجراء مقارنات مع خمسة مصنفات أخرى: الانحدار اللوجستي (LR)، والغابة العشوائية (RF)، وتعزيز التدرج القائم على الهيستوغرام (HGB)، وأقرب الجيران (KNN)، ونايف بايز (NB). شملت مقاييس الأداء التي تم تقييمها الدقة، والدقة، والاسترجاع، ودرجة F1، والمساحة تحت المنحنى (AUC). تفوق نموذج GRU على المصنفات الأخرى، محققًا دقة بنسبة 87.65%، ودرجة F1 بنسبة 87.61%، واسترجاع بنسبة 87.62%، ودقة بنسبة 87.98%، وAUC بنسبة 0.8974. تم تقديم تكوينات المعلمات الفائقة لكل نموذج، مما يبرز أهمية الضبط المناسب لتحقيق الأداء الأمثل في مهام التعلم الآلي.
المناقشة
في هذا القسم، تناقش الورقة المنهجيات المستخدمة في تصنيف السكري باستخدام خوارزميات التعلم الآلي (ML)، مع التركيز على تطوير نموذج هجين يجمع بين إزالة الميزات التكرارية (RFE) ووحدة التكرار المغلقة (GRU). يتم مقارنة نموذج GRU، الذي تم تكوينه مع 64 وحدة مخفية، ومعدل تعلم 0.01، ومحسّن للاعتماد الزمني، مع عدة مصنفات بما في ذلك الانحدار اللوجستي (LR)، والغابة العشوائية (RF)، وأقرب الجيران (KNN)، ونايف بايز (NB). يتم تقييم أداء هذه النماذج باستخدام مقاييس مثل الدقة، والدقة، والاسترجاع، ودرجة F1، والمساحة تحت المنحنى (AUC)، مما يبرز أهمية ضبط المعلمات الفائقة لتعظيم القوة التنبؤية.
تتم مناقشة تقنيات معالجة البيانات المسبقة، بما في ذلك تعويض المتوسط للتعامل مع القيم المفقودة وتطبيع البيانات لتوسيع النطاق. تم اختيار تعويض المتوسط لفعاليته الحسابية وموثوقيته في الحفاظ على توزيع مجموعة البيانات، بينما تم تطبيق التطبيع لضمان مساهمة موحدة من كل ميزة. يُلاحظ أن طريقة RFE تتميز بقدرتها على إزالة الميزات الأقل أهمية بشكل تكراري، مما يعزز قابلية تفسير النموذج وأدائه. يتم تسليط الضوء على بنية GRU لفعاليتها في التقاط العلاقات المعقدة بين الميزات، حتى في غياب بيانات زمنية صريحة. بشكل عام، يُظهر نموذج RFE-GRU المقترح دقة تصنيف محسّنة من خلال التركيز على الميزات الأكثر صلة، مما يقلل من الإفراط في التخصيص ويعزز قدرات التعميم.
القيود
يظهر نموذج RFE-GRU المقترح أداءً قويًا في تصنيف السكري باستخدام مجموعة بيانات PIDD؛ ومع ذلك، يجب الاعتراف بعدة قيود. إحدى القضايا الهامة هي عدم التوازن بين الفئات الطبيعية وغير الطبيعية داخل مجموعة البيانات، مما قد يؤدي إلى تحيز النموذج، أو الإفراط في التخصيص، أو نقص التخصيص، خاصةً بالنظر إلى حساسية نماذج التعلم العميق مثل GRU لمثل هذه القضايا. إن غياب التحقق المتقاطع في هذه الدراسة يعقد أيضًا تقييم قدرة تعميم النموذج، مما يشير إلى أن الأبحاث المستقبلية يجب أن تتضمن استراتيجيات مثل التحقق المتقاطع k-fold لتقييم الأداء بشكل أفضل وتخفيف آثار عدم التوازن في الفئات.
بالإضافة إلى ذلك، قد تعيق الحجم النسبي الصغير لمجموعة بيانات PIDD، التي تتكون من 768 حالة فقط، قدرة النموذج على تعلم أنماط مستقرة وقابلة للتعميم. لمعالجة هذه القيود، يمكن أن تعزز تقنيات مثل إعادة أخذ العينات، وتوليد بيانات اصطناعية، أو وزن الفئات من قوة النموذج. بينما تؤكد الدراسة على أهمية معالجة البيانات المسبقة—لا سيما في إدارة القيم المفقودة والتوسيع—هناك حاجة إلى مزيد من التركيز على هذه الخطوات لضمان نتائج متسقة عبر مجموعات بيانات مختلفة. أخيرًا، يعد التحقق الخارجي على مجموعات بيانات متنوعة أمرًا حيويًا لفهم قدرات تعميم نموذج GRU، ويجب أن تتضمن التقييمات المستقبلية مقاييس إضافية مثل ROC وAUC لتوفير تقييم أكثر شمولاً لأداء النموذج في التطبيقات الواقعية.
DOI: https://doi.org/10.1038/s41598-024-82420-9
PMID: https://pubmed.ncbi.nlm.nih.gov/39762262
Publication Date: 2025-01-06
Author(s): Mahmoud Y. Shams et al.
Primary Topic: Artificial Intelligence in Healthcare
Overview
The research paper discusses the application of machine learning (ML) techniques to improve the early diagnosis of diabetes, a chronic condition associated with severe health complications such as stroke and heart failure. Utilizing the PIMA Indian Diabetes dataset (PIDD), which comprises 768 instances and 9 features, the study emphasizes the importance of preprocessing steps, including mean imputation and data normalization, before training various ML models. The models evaluated include Random Forest (RF), Logistic Regression (LR), K-Nearest Neighbor (KNN), Naïve Bayes (NB), Histogram Gradient Boost (HGB), and Gated Recurrent Unit (GRU).
A novel model, Recursive Feature Elimination-GRU (RFE-GRU), is proposed to enhance feature selection and address issues related to gradient vanishing and inflation. The RFE component identifies the most significant predictors for the target variable, while the GRU effectively manages the complexities of the data. The performance of the RFE-GRU model was validated using several metrics, achieving precision, recall, F1-score, accuracy, and Area Under the Curve (AUC) values of 90.50%, 90.70%, 90.50%, 90.70%, and 0.9278, respectively. Comparative analyses indicate that the RFE-GRU model outperforms other classification models, underscoring its potential for improving diabetes diagnosis.
Results
In this section, the results of a machine learning experiment aimed at diabetes classification are presented. The experiment was conducted using Python 3.8 within a Jupyter Notebook environment, leveraging an Intel Core i5 processor and 16 GB of RAM. The study utilized a Gated Recurrent Unit (GRU) model, which was optimized with a feature set selected through Recursive Feature Elimination (RFE), identifying Glucose, BloodPressure, Insulin, and BMI as the key features. The GRU model was configured with 64 hidden units, a batch size of 32, a learning rate of 0.01, and was trained over 200 epochs using the Adam optimizer and a sigmoid activation function.
To evaluate the performance of the RFE-GRU model, comparisons were made against five other classifiers: Logistic Regression (LR), Random Forest (RF), Histogram-based Gradient Boosting (HGB), K-Nearest Neighbors (KNN), and Naive Bayes (NB). The performance metrics assessed included accuracy, precision, recall, F1 score, and Area Under the Curve (AUC). The GRU model outperformed the other classifiers, achieving an accuracy of 87.65%, an F1 score of 87.61%, a recall of 87.62%, a precision of 87.98%, and an AUC of 0.8974. Detailed hyperparameter configurations for each model are provided, emphasizing the importance of proper tuning for optimal performance in machine learning tasks.
Discussion
In this section, the paper discusses the methodologies employed for diabetes classification using machine learning (ML) algorithms, emphasizing the development of a hybrid model that combines Recursive Feature Elimination (RFE) with a Gated Recurrent Unit (GRU). The GRU model, configured with 64 hidden units, a learning rate of 0.01, and optimized for temporal dependencies, is compared against several classifiers including Logistic Regression (LR), Random Forest (RF), K-Nearest Neighbors (KNN), and Naïve Bayes (NB). The performance of these models is evaluated using metrics such as accuracy, precision, recall, F1 score, and area under the curve (AUC), highlighting the importance of hyperparameter tuning for maximizing predictive power.
Data preprocessing techniques, including mean imputation for handling missing values and min-max normalization for data scaling, are also discussed. Mean imputation was chosen for its computational efficiency and reliability in preserving the dataset’s distribution, while normalization was applied to ensure uniform contribution from each feature. The RFE method is noted for its ability to iteratively eliminate less significant features, thereby enhancing model interpretability and performance. The GRU’s architecture is highlighted for its effectiveness in capturing complex relationships among features, even in the absence of explicit temporal data. Overall, the proposed RFE-GRU model demonstrates improved classification accuracy by focusing on the most relevant features, thereby reducing overfitting and enhancing generalization capabilities.
Limitations
The proposed RFE-GRU model exhibits strong performance in diabetes classification using the PIDD dataset; however, several limitations must be acknowledged. A significant concern is the class imbalance between normal and abnormal instances within the dataset, which may lead to model bias, overfitting, or underfitting, particularly given the sensitivity of deep learning models like GRU to such issues. The absence of cross-validation in this study further complicates the assessment of the model’s generalization ability, suggesting that future research should incorporate strategies such as k-fold cross-validation to better evaluate performance and mitigate the effects of class imbalance.
Additionally, the relatively small size of the PIDD dataset, comprising only 768 instances, may hinder the model’s ability to learn stable and generalizable patterns. To address this limitation, techniques such as resampling, synthetic data generation, or class weighting could enhance model robustness. While the study emphasizes the importance of data preprocessing—particularly in managing missing values and scaling—there is a need for greater focus on these steps to ensure consistent results across various datasets. Lastly, external validation on diverse datasets is crucial for understanding the GRU model’s generalization capabilities, and future evaluations should incorporate additional metrics like ROC and AUC to provide a more comprehensive assessment of model performance in real-world applications.
