تحسين أداء نموذج التعلم الآلي في توقع الأمراض مع توليد بيانات اصطناعية An enhancement of machine learning model performance in disease prediction with synthetic data generation

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-15019-3
PMID: https://pubmed.ncbi.nlm.nih.gov/41022884
تاريخ النشر: 2025-09-29
المؤلف: M. K. Jayanthi Kannan وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في الرعاية الصحية

نظرة عامة

تتناول هذه الدراسة التحديات الكبيرة التي تطرحها مجموعات البيانات غير المتوازنة في تعلم الآلة، والتي تؤدي غالبًا إلى تدريب نماذج متحيزة تفضل الفئات الغالبة وتعميم ضعيف للفئات الأقل. للتخفيف من هذه المشكلات، نفذت الدراسة تقنيات متقدمة لتوليد البيانات الاصطناعية، بما في ذلك تقنية زيادة العينة للأقليات الاصطناعية (SMOTE) وأخذ العينات الاصطناعية التكيفية (ADASYN)، جنبًا إلى جنب مع الشبكات التنافسية التوليدية الشرطية العميقة (Deep-CTGANs) المدمجة مع ResNet لزيادة البيانات. تم تقييم فعالية هذه الأساليب باستخدام TabNet، وهو نموذج مصمم خصيصًا للبيانات الجدولية، والذي أظهر أداءً متفوقًا في مهام التصنيف عبر مجموعات بيانات غير متوازنة متنوعة، بما في ذلك COVID-19، والكلى، وحمى الضنك، محققًا دقة اختبار تبلغ 99.2%، 99.4%، و99.5%، على التوالي.

تم التحقق من موثوقية الإطار من خلال نهج التدريب على الاصطناعي، والاختبار على الحقيقي (TSTR)، مما كشف عن توافق قوي بين توزيعات البيانات الحقيقية والاصطناعية. تفوق TabNet باستمرار على النماذج التقليدية مثل Random Forest وXGBoost وKNN، خاصة في درجات F1. بالإضافة إلى ذلك، قدم استخدام SHapley Additive exPlanations (SHAP) رؤى قيمة حول أهمية الميزات، مما يعزز من قابلية تفسير النموذج. تشير النتائج إلى أن الإطار المقترح لا يحسن فقط دقة النموذج وقوته، بل يقدم أيضًا فهمًا شفافًا لقرارات النموذج. تشمل اتجاهات البحث المستقبلية توسيع الإطار ليشمل مجموعات بيانات سريرية متنوعة ودمج تدفقات البيانات في الوقت الحقيقي للحفاظ على صلة النموذج في البيئات السريرية الديناميكية.

مقدمة

تسلط المقدمة الضوء على التقدمات الأخيرة في توليد البيانات الاصطناعية المخصصة للرعاية الصحية، مع التأكيد على أهمية الخصوصية وقابلية التفسير والتحديات التي تطرحها أحجام العينات الصغيرة. أظهرت نماذج بارزة مثل CTAB-GAN+ وSynthCity فعاليتها في إنتاج بيانات اصطناعية تحافظ على الخصوصية، بينما تتضمن نماذج أخرى مثل NextConvGeN وTabPFGen أولويات هيكلية وآليات انتباه لتعزيز تمثيل الدلالات السريرية. على الرغم من هذه التقدمات، فإن العديد من الأطر الحالية، بما في ذلك تلك التي قدمها ليو وآخرون ورشيدي وآخرون، إما تتجاهل عدم توازن الفئات أو تفتقر إلى تحسينات محددة في المجال، مما يحد من قابليتها للتطبيق في الإعدادات السريرية.

علاوة على ذلك، استكشفت دراسات متنوعة نماذج هجينة وتقنيات اختيار الميزات، مثل تلك التي اقترحها الشوي وآخرون وإلرشيدي وآخرون، لكنها غالبًا ما تفشل في معالجة عدم توازن الفئات أو دمج توليد البيانات الاصطناعية، وهو أمر حاسم لمجموعات البيانات البيولوجية غير المتوازنة. تختتم المقدمة بتحديد فجوة كبيرة في الأدبيات بشأن دمج أخذ العينات الواعي للفئة مع طرق توليد البيانات الاصطناعية المتقدمة. تهدف هذه الدراسة إلى سد هذه الفجوات من خلال اقتراح إطار هجيني وقابل للتفسير يستخدم Deep-CTGAN وResNet وTabNet لمعالجة عدم توازن الفئات بفعالية، وتعزيز دقة الاصطناعية، وتحسين قابلية التفسير السريرية عبر مجموعات بيانات الرعاية الصحية المتنوعة.

طرق

تتناول منهجية هذه الدراسة عدم توازن الفئات في مجموعات البيانات وتهدف إلى تحسين أداء النموذج من خلال تقنيات توليد البيانات الاصطناعية المتقدمة وزيادة البيانات. على وجه التحديد، تم استخدام طرق مثل SMOTE (تقنية زيادة العينة للأقليات الاصطناعية) وADASYN (أخذ العينات الاصطناعية التكيفية) لتوليد عينات إضافية للفئات الأقل، مما يحسن من قدرات تعلم النموذج في المناطق الممثلة تمثيلًا ناقصًا. علاوة على ذلك، تم دمج Deep-CTGANs (الشبكات التنافسية التوليدية الشرطية) مع ResNet لإنتاج بيانات اصطناعية متنوعة وواقعية مع الحفاظ على اعتمادات البيانات، مما يعزز من التعميم. سهلت الاتصالات المتبقية في ResNet قدرة النموذج على التقاط الأنماط المعقدة، مما ساهم في قوته. تم دمج هذا النهج الهجين مع TabNet، الذي يستخدم الانتباه التسلسلي لاختيار الميزات، مما يؤدي إلى نتائج تصنيف أكثر دقة وقابلية للتفسير.

فيما يتعلق بمعالجة البيانات، تم معالجة القيم المفقودة من خلال تعويض المتوسط للأعمدة العددية وتعويض الوضع للأعمدة الفئوية، مما يضمن بقاء مجموعة البيانات كاملة والحفاظ على سلامة البيانات لتحليلات موثوقة. تضمنت إعدادات التجربة محطة عمل مزودة ببطاقة رسومات NVIDIA RTX 3090، وذاكرة RAM سعة 64 جيجابايت، ومعالج AMD Ryzen 9 5950X، وتم تنفيذ العمل في Python 3.10 باستخدام مكتبات PyTorch 2.0 وSHAP 0.41. تطلب النموذج الهجين المقترح حوالي 42 دقيقة للتدريب على مدى 50 دورة، بينما أكملت طرق إعادة أخذ العينات التقليدية مثل SMOTE المدمجة مع TabNet التدريب في أقل من 10 دقائق.

نقاش

تسلط قسم النقاش في ورقة البحث الضوء على التقدمات في معالجة عدم توازن الفئات في مجموعات البيانات الصحية من خلال تقنيات توليد البيانات الاصطناعية المختلفة. كانت الطرق التقليدية مثل SMOTE وADASYN أساسية، حيث تولد عينات من الفئة الأقل الاصطناعية لموازنة مجموعات البيانات. ومع ذلك، غالبًا ما تكافح هذه الطرق مع البيانات عالية الأبعاد والتفاعلات المعقدة بين الميزات. أدت إدخال الشبكات التنافسية التوليدية (GANs)، وخاصة GANs الشرطية (CTGAN) وتوسعاتها مثل Deep-CTGAN، إلى تحسين كبير في توليد البيانات الاصطناعية من خلال نمذجة الميزات المختلطة بفعالية والتوزيعات المشتركة. ظهرت الأطر الهجينة التي تدمج تقنيات إعادة أخذ العينات التقليدية مع نماذج التعلم العميق لتعزيز تعلم الميزات والتوليد المحدد للفئة، خاصة في مجموعات البيانات غير المتوازنة.

تؤكد الورقة على فعالية تقنيات توليد البيانات الاصطناعية المتقدمة، مثل Deep-CTGAN المدمجة مع ResNet، في تحسين أداء النموذج عبر مجموعات بيانات الرعاية الصحية المختلفة، بما في ذلك تلك المتعلقة بـ COVID-19، وأمراض الكلى، وحمى الضنك. تشير النتائج إلى أن هذه الأساليب الهجينة لا تعزز فقط كمية البيانات الاصطناعية ولكن أيضًا تحسين الجودة، مما يؤدي إلى أداء تصنيفي أفضل كما تقيسه مقاييس مثل منطقة تحت منحنى ROC (AUC) ودرجة F1. تكشف التحليلات أنه بينما يمكن أن تعزز الزيادة بالبيانات الاصطناعية من قوة النموذج، فإن الاستبدال الكامل بمجموعات البيانات الاصطناعية يمكن أن يؤدي أيضًا إلى أداء تنافسي، مما يبرز إمكانيات هذه الأساليب في التطبيقات الواقعية حيث تكون ندرة البيانات مصدر قلق.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-15019-3
PMID: https://pubmed.ncbi.nlm.nih.gov/41022884
Publication Date: 2025-09-29
Author(s): M. K. Jayanthi Kannan et al.
Primary Topic: Artificial Intelligence in Healthcare

Overview

This research addresses the significant challenges posed by imbalanced datasets in machine learning, which often lead to biased model training favoring majority classes and poor generalization for minority classes. To mitigate these issues, the study implemented advanced synthetic data generation techniques, including Synthetic Minority Oversampling Technique (SMOTE) and Adaptive Synthetic Sampling (ADASYN), alongside Deep Conditional Tabular Generative Adversarial Networks (Deep-CTGANs) integrated with ResNet for data augmentation. The effectiveness of these methods was evaluated using TabNet, a model specifically designed for tabular data, which demonstrated superior performance in classification tasks across various imbalanced datasets, including COVID-19, Kidney, and Dengue, achieving testing accuracies of 99.2%, 99.4%, and 99.5%, respectively.

The framework’s reliability was further validated through a Train on Synthetic, Test on Real (TSTR) approach, revealing strong alignment between real and synthetic data distributions. TabNet consistently outperformed traditional models such as Random Forest, XGBoost, and KNN, particularly in F1-scores. Additionally, the use of SHapley Additive exPlanations (SHAP) provided valuable insights into feature importance, enhancing model interpretability. The findings suggest that the proposed framework not only improves model accuracy and robustness but also offers a transparent understanding of model decisions. Future research directions include scaling the framework to diverse clinical datasets and integrating real-time data streams to maintain model relevance in dynamic clinical environments.

Introduction

The introduction highlights recent advancements in synthetic data generation tailored for healthcare, emphasizing the importance of privacy, interpretability, and the challenges posed by small sample sizes. Notable models such as CTAB-GAN+ and SynthCity have shown effectiveness in producing privacy-preserving synthetic data, while others like NextConvGeN and TabPFGen incorporate structural priors and attention mechanisms to enhance the representation of clinical semantics. Despite these advancements, many existing frameworks, including those by Liu et al. and Rashidi et al., either overlook class imbalance or lack domain-specific enhancements, limiting their applicability in clinical settings.

Furthermore, various studies have explored hybrid models and feature selection techniques, such as those proposed by Elshewey et al. and El-Rashidy et al., but often fail to address class imbalance or incorporate synthetic data generation, which is crucial for imbalanced biomedical datasets. The introduction concludes by identifying a significant gap in the literature regarding the integration of class-aware sampling with advanced synthetic data generation methods. This study aims to bridge these gaps by proposing a hybrid, interpretable framework that utilizes Deep-CTGAN, ResNet, and TabNet to effectively tackle class imbalance, enhance synthetic fidelity, and improve clinical interpretability across diverse healthcare datasets.

Methods

The methodology of this research addresses class imbalance in datasets and aims to enhance model performance through advanced synthetic data generation and augmentation techniques. Specifically, methods such as SMOTE (Synthetic Minority Over-sampling Technique) and ADASYN (Adaptive Synthetic Sampling) were utilized to generate additional samples for minority classes, improving the model’s learning capabilities in underrepresented areas. Furthermore, Deep-CTGANs (Conditional Generative Adversarial Networks) were integrated with ResNet to produce diverse and realistic synthetic data while preserving data dependencies, thereby enhancing generalization. The residual connections in ResNet facilitated the model’s ability to capture complex patterns, contributing to its robustness. This hybrid approach was combined with TabNet, which employs sequential attention for feature selection, resulting in more accurate and interpretable classification outcomes.

In terms of data handling, missing values were addressed through mean imputation for numerical columns and mode imputation for categorical columns, ensuring the dataset remained complete and maintaining data integrity for reliable analyses. The experimental setup involved a workstation with an NVIDIA RTX 3090 GPU, 64 GB RAM, and an AMD Ryzen 9 5950X processor, with the implementation carried out in Python 3.10 using PyTorch 2.0 and SHAP 0.41 libraries. The proposed hybrid model required approximately 42 minutes for training over 50 epochs, while classical resampling methods like SMOTE combined with TabNet completed training in under 10 minutes.

Discussion

The discussion section of the research paper highlights advancements in addressing class imbalance in healthcare datasets through various synthetic data generation techniques. Traditional methods like SMOTE and ADASYN have been foundational, generating synthetic minority class samples to balance datasets. However, these methods often struggle with high-dimensional data and complex feature interactions. The introduction of Generative Adversarial Networks (GANs), particularly Conditional GANs (CTGAN) and their extensions like Deep-CTGAN, has significantly improved the generation of synthetic data by effectively modeling mixed-type features and joint distributions. Hybrid frameworks that integrate classical resampling techniques with deep learning models have emerged to enhance feature learning and class-specific generation, particularly in imbalanced datasets.

The paper emphasizes the effectiveness of advanced synthetic data generation techniques, such as Deep-CTGAN combined with ResNet, in improving model performance across various healthcare datasets, including those related to COVID-19, kidney disease, and dengue. The results indicate that these hybrid approaches not only enhance the quantity of synthetic data but also improve the quality, leading to better classification performance as measured by metrics like the Area Under the ROC Curve (AUC) and F1-score. The analysis reveals that while augmentation with synthetic data can enhance model robustness, complete replacement with synthetic datasets can also yield competitive performance, underscoring the potential of these methods in real-world applications where data scarcity is a concern.