تقدير أحجام مجموعات البيانات الدنيا لتوقعات التعلم الآلي في التدخلات الصحية النفسية الرقمية
Estimation of minimal data sets sizes for machine learning predictions in digital mental health interventions

المجلة: npj Digital Medicine، المجلد: 7، العدد: 1
DOI: https://doi.org/10.1038/s41746-024-01360-w
PMID: https://pubmed.ncbi.nlm.nih.gov/39695276
تاريخ النشر: 2024-12-18
المؤلف: Kirsten Zantvoort وآخرون
الموضوع الرئيسي: التدخلات الرقمية في الصحة النفسية

نظرة عامة

تبحث الدراسة في تأثير حجم مجموعة البيانات على الأداء التنبؤي لنماذج الذكاء الاصطناعي في سياق التدخلات الرقمية للصحة النفسية. من خلال تحليل بيانات من 3,654 مستخدمًا، تقيم الدراسة توقعات التسرب عبر أحجام مجموعات بيانات مختلفة (N = 100-3654)، ومجموعات الميزات (F = 2-129)، والخوارزميات التي تتراوح من نايف بايز إلى الشبكات العصبية. تشير النتائج إلى أن مجموعات البيانات الصغيرة (N ≤ 300) تميل إلى المبالغة في تقدير الدقة التنبؤية، مع وجود علاقة سلبية بين أداء التنبؤ داخل العينة وحجم مجموعة البيانات عند استخدام مجموعات ميزات غير مفيدة.

تسلط الدراسة الضوء على أنه بينما قد تتعرض النماذج المتطورة للتكيف الزائد على مجموعات البيانات الصغيرة، فإنها تحقق أداءً مثاليًا في اختبارات الاحتفاظ مع مجموعات بيانات أكبر. على وجه التحديد، يساعد حجم مجموعة بيانات قدره N = 500 في تقليل التكيف الزائد، لكن لا يتم الوصول إلى التقارب في الأداء حتى الأحجام بين N = 750 و1500. بناءً على هذه النتائج، يوصي المؤلفون بأحجام مجموعات بيانات دنيا تتراوح بين N = 500-1000 للبحوث المستقبلية، مما يوفر مرجعًا تجريبيًا حاسمًا للباحثين المشاركين في دراسات الذكاء الاصطناعي المتعلقة بالتدخلات الرقمية للصحة النفسية.

مقدمة

هدفت دراسة نشر everyBody (ISRCTN13716228) إلى تقييم البرامج القائمة على الأدلة للوقاية وتعزيز الصحة لاضطرابات الأكل (ED) بين النساء البالغات في ألمانيا. أجريت الدراسة من نوفمبر 2016 إلى مايو 2019، وشملت 3,654 مشاركًا تم تجنيدهم من السكان العامين وقدموا موافقة مستنيرة للمشاركة بشكل مجهول. باستخدام تصميم تدخل غير عشوائي، تم تخصيص المشاركين إلى خمسة أذرع تدخل مختلفة: أساسي (N = 452)، أصلي (N = 397)، زائد (N = 1,386)، AN (N = 80)، ولياقة (N = 1,339). كل تدخل يتكون من 4 إلى 12 جلسة أسبوعية عبر الإنترنت تستند إلى مبادئ العلاج السلوكي المعرفي، مع التركيز على التعليم النفسي، وتعزيز صورة الجسم، والتغذية المتوازنة، وتقليل الأعراض، مدعومة بمذكرات عبر الإنترنت ومناقشات جماعية معتدلة.

كشفت تحليل التغيرات قبل وبعد في المخاوف المتعلقة بالوزن عن انخفاضات كبيرة عبر أربعة من الأذرع الخمسة للتدخل، مع أحجام تأثير تتراوح من $d = -0.45$ إلى $d = -0.94$. عرفت الدراسة التسرب بأنه إكمال أقل من أربع جلسات، مما أدى إلى معدلات تسرب بلغت 56% للأساسي، و64% للأصلي، و70% للزائد، و61% لـ AN، و58% لللياقة. تم اختيار هذا التعريف للتسرب لارتباطه القوي بنتائج التدخل، مما يسمح بتحديد المشاركين الأكثر عرضة للانفصال مع ضمان الوقت الكافي للتدخل. تمت الموافقة على الدراسة أخلاقيًا وتم تسجيلها مسبقًا، مع توفر منهجية مفصلة في المواد التكميلية.

طرق

يستعرض قسم “الطرق” في ورقة البحث التصميم التجريبي والتقنيات التحليلية المستخدمة للتحقيق في سؤال البحث. استخدمت الدراسة نهجًا كميًا، مع دمج التحليلات الإحصائية لتقييم البيانات المجمعة من عينة سكانية. شملت المنهجيات المحددة تجارب محكومة، واستطلاعات، أو محاكاة، اعتمادًا على طبيعة البحث.

شمل جمع البيانات أدوات موحدة لضمان الموثوقية والصلاحية، مع اتخاذ تدابير مناسبة لتقليل التحيز. تم إجراء التحليل باستخدام أدوات برمجية للحساب الإحصائي، مما يسمح بتطبيق اختبارات مختلفة مثل اختبارات t، ANOVA، أو تحليل الانحدار لتفسير النتائج بشكل فعال. يبرز القسم البروتوكولات الصارمة المتبعة لضمان قوة النتائج، والتي تعتبر حاسمة لاستخلاص استنتاجات صحيحة من البحث.

نتائج

تشير النتائج إلى تباين كبير في نتائج التنبؤ، خاصة بالنسبة لأحجام مجموعات البيانات الصغيرة. كما هو موضح في الشكل 2، كانت الانحراف المعياري (S.D.) للمنطقة تحت المنحنى (AUC) لطيّات التحقق الفردية هي الأعلى بشكل ملحوظ عند حجم عينة قدره \( N = 100 \)، بمتوسط 0.20 AUC. امتد هذا التباين عبر نطاق واسع من قيم AUC من 0 إلى 1، مع توقعات للدرجات بين 0.5 (تشير إلى عدم وجود قيمة تنبؤية) و1 (تشير إلى تنبؤ مثالي). مع زيادة حجم مجموعة البيانات، انخفض التباين في نتائج AUC بشكل حاد؛ بحلول \( N = 400 \)، انخفض S.D. إلى النصف ليصل إلى 0.10، وانخفض أكثر إلى حد أدنى قدره 0.03 AUC عند \( N = 3,654 \).

تشير النتائج إلى أن مجموعات البيانات الأكبر تنتج نتائج أكثر استقرارًا وتناسقًا، بينما يمكن أن تؤدي مجموعات البيانات الصغيرة إلى اختلافات كبيرة في النتائج. بالإضافة إلى ذلك، كان التباين ملحوظًا بشكل خاص لمجموعات الميزات الأقل تنبؤية. على سبيل المثال، أظهرت نتائج AUC لبيانات الاستبيان البسيط عند \( N = 100 \) نطاقًا واسعًا، بمتوسط 0.60 وانحراف معياري يتراوح من 0.37 إلى 0.83، بينما أظهرت بيانات السلوك المختارة تباينًا أقل قليلاً، بمتوسط AUC قدره 0.70 وانحراف معياري يتراوح من 0.52 إلى 0.94.

مناقشة

في هذه الدراسة، تم تحليل مجموعة بيانات تضم 3,654 مستخدمًا لتقييم القوة التنبؤية لمجموعات الميزات المختلفة ونماذج التعلم الآلي (ML) في سياق توقع التسرب في التدخلات الرقمية للصحة النفسية (DMHIs). كشفت مجموعة البيانات أن 63% من المستخدمين تم تصنيفهم على أنهم متسربون، وتراوحت مجموعات الميزات من استبيانات بسيطة تحتوي على ميزتين إلى بيانات سلوكية موسعة تحتوي على ما يصل إلى 129 ميزة. شملت النماذج المستخدمة نايف بايز (NB)، والانحدار اللوجستي (LR)، وآلات الدعم الناقل (SVM)، والغابات العشوائية (RF)، وadaBoost، وشبكة عصبية متعددة الطبقات ضحلة (NN). أشارت النتائج إلى أن بيانات الاستبيان البسيط كانت لها قوة تنبؤية ضئيلة (AUC = 0.53)، بينما أظهرت مجموعات الميزات الأكثر تعقيدًا، وخاصة تلك المستندة إلى سلوك المستخدم، قدرات تنبؤية أعلى بكثير، حيث وصلت درجات AUC إلى 0.81.

سلط التحليل الضوء على مشكلة التكيف الزائد، خاصة في مجموعات البيانات الصغيرة (N ≤ 300)، حيث غالبًا ما كانت نتائج التحقق المتقاطع (CV) تتجاوز نتائج الاختبار بمقدار يصل إلى 0.12 AUC. مع زيادة أحجام مجموعات البيانات (N ≥ 500)، تضاءل التكيف الزائد، خاصة بالنسبة للميزات الأكثر إفادة. وجدت الدراسة أن النماذج الأبسط مثل NB وLR كانت أقل عرضة للتكيف الزائد لكنها تقاربت في الأداء في وقت مبكر، بينما كانت النماذج الأكثر تطورًا مثل RF وadaBoost تؤدي بشكل أفضل مع مجموعات بيانات أكبر. من الجدير بالذكر أن الدراسة توصي بحجم مجموعة بيانات أدنى قدره N = 500 لتقليل التكيف الزائد وتقترح أن الأحجام الأكبر (N = 750 إلى 1500) ضرورية للاستفادة الكاملة من القوة التنبؤية للميزات المعقدة. بشكل عام، تؤكد النتائج على أهمية حجم مجموعة البيانات واختيار الميزات في تطوير نماذج تنبؤية قوية للتدخلات الرقمية للصحة النفسية، داعية إلى النظر بعناية في هذه العوامل لتجنب توقعات غير واقعية في نتائج البحث.

Journal: npj Digital Medicine, Volume: 7, Issue: 1
DOI: https://doi.org/10.1038/s41746-024-01360-w
PMID: https://pubmed.ncbi.nlm.nih.gov/39695276
Publication Date: 2024-12-18
Author(s): Kirsten Zantvoort et al.
Primary Topic: Digital Mental Health Interventions

Overview

The research investigates the impact of dataset size on the predictive performance of artificial intelligence models in the context of digital mental health interventions. Analyzing data from 3,654 users, the study evaluates dropout predictions across varying dataset sizes (N = 100-3654), feature groups (F = 2-129), and algorithms ranging from Naive Bayes to Neural Networks. The findings indicate that small datasets (N ≤ 300) tend to overestimate predictive accuracy, with a negative correlation between in-sample prediction performance and dataset size when using uninformative feature groups.

The study highlights that while sophisticated models may overfit on smaller datasets, they achieve optimal performance on holdout tests with larger datasets. Specifically, a dataset size of N = 500 helps reduce overfitting, but convergence in performance is not reached until sizes between N = 750 and 1500. Based on these results, the authors recommend minimum dataset sizes of N = 500-1000 for future research, providing a crucial empirical reference for researchers engaged in AI studies related to digital mental health interventions.

Introduction

The everyBody dissemination study (ISRCTN13716228) aimed to evaluate evidence-based prevention and health promotion programs for eating disorders (ED) among adult women in Germany. Conducted from November 2016 to May 2019, the study involved 3,654 participants who were recruited from the general population and provided informed consent for anonymous participation. Utilizing a stratified, nonrandomized, parallel-group interventional design, participants were allocated to five different intervention arms: Basic (N = 452), Original (N = 397), Plus (N = 1,386), AN (N = 80), and Fit (N = 1,339). Each intervention consisted of 4 to 12 weekly online sessions grounded in cognitive-behavioral principles, focusing on psychoeducation, body image enhancement, balanced eating, and symptom reduction, supplemented by online diaries and moderated peer discussions.

Analysis of pre-post changes in weight-related concerns revealed significant reductions across four of the five intervention arms, with effect sizes ranging from $d = -0.45$ to $d = -0.94$. The study defined dropout as completion of fewer than four sessions, leading to dropout rates of 56% for Basic, 64% for Original, 70% for Plus, 61% for AN, and 58% for Fit. This operationalization of dropout was chosen for its strong correlation with intervention outcomes, allowing for the identification of participants most at risk of disengagement while ensuring adequate time for intervention. The study was ethically approved and pre-registered, with detailed methodology available in supplementary materials.

Methods

The “Methods” section of the research paper outlines the experimental design and analytical techniques employed to investigate the research question. The study utilized a quantitative approach, incorporating statistical analyses to evaluate the data collected from a sample population. Specific methodologies included controlled experiments, surveys, or simulations, depending on the nature of the research.

Data collection involved standardized instruments to ensure reliability and validity, with appropriate measures taken to minimize bias. The analysis was conducted using software tools for statistical computation, allowing for the application of various tests such as t-tests, ANOVA, or regression analysis to interpret the results effectively. The section emphasizes the rigorous protocols followed to ensure the robustness of the findings, which are critical for drawing valid conclusions from the research.

Results

The results indicate significant variability in the prediction outcomes, particularly for smaller data set sizes. As illustrated in Figure 2, the standard deviation (S.D.) of the area under the curve (AUC) for individual validation folds was notably highest at a sample size of \( N = 100 \), averaging 0.20 AUC. This variability spanned a broad range of AUC values from 0 to 1, with expectations of scores between 0.5 (indicating no predictive value) and 1 (indicating perfect prediction). As the data set size increased, the variability in AUC results decreased sharply; by \( N = 400 \), the S.D. had halved to 0.10, and it further declined to a minimum of 0.03 AUC at \( N = 3,654 \).

The findings suggest that larger data sets yield more stable and consistent results, while smaller data sets can lead to substantial discrepancies in outcomes. Additionally, the variance was particularly pronounced for less predictive feature groups. For instance, the AUC results for the simple questionnaire data at \( N = 100 \) exhibited a wide range, with a mean of 0.60 and a standard deviation spanning from 0.37 to 0.83, while the selected behavior data showed slightly lower variance, with a mean AUC of 0.70 and an S.D. ranging from 0.52 to 0.94.

Discussion

In this study, a dataset of 3,654 users was analyzed to evaluate the predictive power of various feature groups and machine learning (ML) models in the context of dropout prediction in digital mental health interventions (DMHIs). The dataset revealed that 63% of users were classified as dropouts, and feature groups ranged from simple questionnaires with 2 features to extended behavior data with up to 129 features. The models employed included Naïve Bayes (NB), Logistic Regression (LR), Support Vector Machines (SVM), Random Forest (RF), adaBoost, and a shallow Multilayer Perceptron Neural Network (NN). Results indicated that simple questionnaire data had negligible predictive power (AUC = 0.53), while more complex feature groups, particularly those based on user behavior, demonstrated significantly higher predictive capabilities, with AUC scores reaching up to 0.81.

The analysis highlighted the issue of overfitting, particularly in smaller datasets (N ≤ 300), where the cross-validation (CV) results often exceeded test results by up to 0.12 AUC. As dataset sizes increased (N ≥ 500), overfitting diminished, especially for more informative features. The study found that simpler models like NB and LR were less prone to overfitting but converged earlier in performance, while more sophisticated models like RF and adaBoost performed better with larger datasets. Notably, the study recommends a minimum dataset size of N = 500 to mitigate overfitting and suggests that larger sizes (N = 750 to 1500) are necessary to fully leverage the predictive power of complex features. Overall, the findings emphasize the importance of dataset size and feature selection in developing robust predictive models for DMHIs, advocating for careful consideration of these factors to avoid unrealistic expectations in research outcomes.