الذكاء الاصطناعي القابل للتفسير لاكتشاف الاكتئاب وتصنيف شدته من بيانات النشاط: دراسة تطوير وتقييم إطار قابل للتفسير
Explainable AI for Depression Detection and Severity Classification From Activity Data: Development and Evaluation Study of an Interpretable Framework

المجلة: JMIR Mental Health، المجلد: 12
DOI: https://doi.org/10.2196/72038
PMID: https://pubmed.ncbi.nlm.nih.gov/40934462
تاريخ النشر: 2025-09-11
المؤلف: Iftikhar Ahmad وآخرون
الموضوع الرئيسي: الصحة النفسية من خلال الكتابة

نظرة عامة

تتناول هذه الدراسة القضية الملحة للاكتئاب، وهو اضطراب شائع في الصحة النفسية يؤثر على حوالي 280 مليون فرد حول العالم، وغالبًا ما يبقى غير مشخص أو يتم تشخيصه بشكل خاطئ. مع ارتفاع استخدام الأجهزة القابلة للارتداء التي تسهل مراقبة النشاط المستمر، تستكشف الأبحاث إطار عمل جديد لتعلم الآلة يهدف إلى اكتشاف الاكتئاب وتصنيف شدته باستخدام بيانات النشاط القابلة للارتداء. تتناول الدراسة تحديات كبيرة، بما في ذلك عدم توازن مجموعات البيانات والحاجة إلى شفافية النموذج، وهي أمور حاسمة لقبولها في المجال السريري.

باستخدام مجموعة بيانات Depresjon، نفذ الباحثون تقنية أخذ عينات اصطناعية تكيفية (ADASYN) لمعالجة عدم توازن الفئات واستخرجوا ميزات إحصائية متنوعة وسمات ديموغرافية من بيانات النشاط الخام. قاموا بتقييم خمسة خوارزميات لتعلم الآلة – الانحدار اللوجستي، آلات الدعم الشعاعي، الغابة العشوائية، XGBoost، والشبكات العصبية – باستخدام مقاييس مثل الدقة، الدقة، الاسترجاع، F1-score، الخصوصية، ومعامل ارتباط ماثيو. أظهرت النتائج أن XGBoost حقق أعلى دقة، حيث بلغت 84.94% للتصنيف الثنائي و85.91% لشدة متعددة الفئات. استخدمت تفسيرات شابلي الإضافية (SHAP) وتفسيرات نموذج محلي قابلة للتفسير (LIME) لتحديد المتنبئين الرئيسيين، بما في ذلك متوسط كثافة الطيف الترددي، العمر، والتلقائية، مما يبرز أهمية الاضطرابات اليومية في الاكتئاب. يظهر الإطار قدرة موثوقة على تحديد الأفراد المكتئبين وتفريق شدة الاكتئاب، مما يبرز إمكانيات الذكاء الاصطناعي القابل للتفسير في تعزيز الكشف المبكر والتدخل في الرعاية الصحية النفسية.

مقدمة

تسلط المقدمة الضوء على انتشار الاضطرابات النفسية على مستوى العالم، وخاصة الاكتئاب، الذي يؤثر على أكثر من 280 مليون فرد ويرتبط بعواقب وخيمة مثل زيادة الوفيات والأمراض المصاحبة. لقد زادت جائحة COVID-19 من حدوث الاكتئاب والقلق، خاصة بين الفئات الشابة. يظهر الاكتئاب من خلال الاضطرابات العاطفية ويمكن أن يعطل الوظائف اليومية، مما يجعل التشخيص المبكر أمرًا حيويًا. تواجه طرق التشخيص التقليدية تحديات، مما يؤدي غالبًا إلى التشخيص الخاطئ، ويتم التأكيد على الحاجة إلى حلول مبتكرة.

تناقش الورقة إمكانيات تعلم الآلة (ML) والذكاء الاصطناعي (AI) في تعزيز الكشف وتصنيف الاكتئاب. بينما أظهرت نماذج ML الحالية وعودًا، إلا أنها غالبًا ما تكافح في التمييز بين درجات الاكتئاب المختلفة وتفتقر إلى الشفافية في عمليات اتخاذ القرار. يقترح المؤلفون استخدام بيانات من الأجهزة القابلة للارتداء لتحسين دقة النموذج وقابليته للتفسير، باستخدام تقنيات مثل تقنية أخذ العينات الاصطناعية التكيفية (ADASYN) لمعالجة عدم توازن مجموعات البيانات. تهدف الدراسة إلى تنفيذ خوارزميات ML متنوعة، بما في ذلك الانحدار اللوجستي والشبكات العصبية، مع استخدام أيضًا تفسيرات شابلي الإضافية (SHAP) وتفسيرات نموذج محلي قابلة للتفسير (LIME) لتعزيز قابلية تفسير النموذج، مما يسهل التطبيقات السريرية الأفضل في تشخيص الصحة النفسية.

الطرق

توضح قسم “الطرق” تصميم التجارب والتقنيات التحليلية المستخدمة في الدراسة. استخدم الباحثون نهجًا كميًا، حيث قاموا بإجراء تحليلات إحصائية لتقييم البيانات التي تم جمعها من تجارب متنوعة. تضمنت المنهجيات المحددة تجارب محكومة، حيث تم التلاعب بالمتغيرات بشكل منهجي لتقييم آثارها على النتائج المعنية.

شملت جمع البيانات أدوات موحدة لضمان الموثوقية والصلاحية، مع اتخاذ تدابير مناسبة لتقليل التحيز. تم تطبيق اختبارات إحصائية، مثل ANOVA وتحليل الانحدار، لتفسير النتائج، مما سمح بتحديد العلاقات المهمة بين المتغيرات. يبرز القسم صرامة الطرق المستخدمة، مما يضمن أن النتائج قوية ويمكن تعميمها على سياقات أوسع.

النتائج

في هذا القسم، يقوم المؤلفون بتقييم تقنيات الذكاء الاصطناعي القابل للتفسير (XAI) بشكل نقدي، وتحديدًا SHAP وLIME، لتوضيح أنماط الميزات التي تُعلم نماذج تصنيف الاكتئاب. يقارنون هذه التفسيرات عبر XGBoost وهياكل الشبكات العصبية، مؤكدين على أهمية القابلية للتفسير في نماذج تعلم الآلة (ML)، خاصة في سياقات الرعاية الصحية حيث تكون الشفافية ضرورية لبناء الثقة واتخاذ القرار. يقوم SHAP، المستند إلى نظرية الألعاب الائتلافية، بحساب قيم شابلي لتقييم مساهمة كل ميزة في توقعات النموذج، بينما يبسط LIME توقعات النموذج من خلال تحليل التغيرات المحلية في بيانات الإدخال لتحديد الميزات المؤثرة.

تكشف النتائج من تحليل SHAP-LIME عن تركيز مستمر على التلقائية وميزات النشاط الطيفي، مما يتماشى مع الأدلة السريرية الحالية التي تربط الاضطرابات في إيقاعات الساعة البيولوجية بالاضطرابات المزاجية. يستشهد المؤلفون بأبحاث تشير إلى أن الدورات اليومية المتغيرة مرتبطة بالاكتئاب، مشيرين إلى أن العلاجات التي تهدف إلى إعادة ضبط هذه الإيقاعات يمكن أن تخفف من أعراض الاكتئاب. ومع ذلك، يحذرون من أنه بينما تتماشى نتائجهم مع الروابط المعروفة، إلا أنها لا تؤسس لعلاقة سببية بين الميزات المتعلقة بالإيقاع والاكتئاب.

المناقشة

في هذا القسم، تناقش الأبحاث المنهجية والنتائج المتعلقة بتصنيف الاكتئاب باستخدام مجموعة بيانات “Depresjon”، التي تشمل بيانات النشاط الحركي والمعلومات الديموغرافية. تتناول الدراسة عدم توازن الفئات من خلال تقنية ADASYN وتستخدم هندسة الميزات لاستخراج مؤشرات ذات صلة من بيانات السلاسل الزمنية المستمرة. تم تصنيف الميزات الرئيسية إلى مجال الزمن، مجال التردد، تحليل إيقاع الساعة البيولوجية، وميزات الانتقال، مع التركيز الكبير على دور الاضطرابات اليومية وأنماط النشاط في عكس حالة الصحة النفسية. تشمل النماذج التي تم تقييمها الانحدار اللوجستي، آلات الدعم الشعاعي، الغابة العشوائية، XGBoost، والشبكات العصبية، حيث أظهر XGBoost أداءً متفوقًا عبر مهام التصنيف الثنائي والمتعدد الفئات، محققًا أعلى دقة وغيرها من مقاييس التقييم.

تستكشف المناقشة أيضًا قابلية تفسير النماذج من خلال تقنيات الذكاء الاصطناعي القابل للتفسير (XAI)، وتحديدًا SHAP وLIME. تكشف هذه الطرق أن ميزات مثل متوسط كثافة الطيف الترددي (PSD)، متوسط مستوى النشاط، والتلقائية هي عوامل حاسمة في توقع الاكتئاب. بالنسبة للتصنيف الثنائي، ظهر متوسط PSD باستمرار كأكثر الميزات تأثيرًا، بينما بالنسبة للتصنيف متعدد الفئات، كان العمر والتلقائية متنبئين مهمين عبر مستويات شدة الاكتئاب المختلفة. تؤكد النتائج على قوة XGBoost وتبرز أهمية الميزات الديموغرافية والمتعلقة بالنشاط في فهم الاكتئاب، مما يوفر رؤية شاملة حول كيفية تفاعل هذه العوامل ضمن عملية اتخاذ القرار للنموذج. تشير التحليلات المقارنة بين XGBoost والشبكات العصبية إلى أنه بينما تحدد كلا النموذجين متوسط PSD كميزة رئيسية، إلا أنهما يختلفان في اعتمادهما على متغيرات أخرى، مما يشير إلى رؤى تكاملية حول الأنماط الأساسية لشدة الاكتئاب.

Journal: JMIR Mental Health, Volume: 12
DOI: https://doi.org/10.2196/72038
PMID: https://pubmed.ncbi.nlm.nih.gov/40934462
Publication Date: 2025-09-11
Author(s): Iftikhar Ahmad et al.
Primary Topic: Mental Health via Writing

Overview

This study addresses the pressing issue of depression, a prevalent mental health disorder affecting around 280 million individuals worldwide, often remaining undiagnosed or misdiagnosed. With the rise of wearable devices that facilitate continuous activity monitoring, the research explores a novel machine learning framework aimed at detecting depression and classifying its severity using wearable-actigraphy data. The study tackles significant challenges, including imbalanced datasets and the need for model transparency, which are critical for clinical acceptance.

Utilizing the Depresjon dataset, the researchers implemented Adaptive Synthetic Sampling (ADASYN) to address class imbalance and extracted various statistical features and demographic attributes from raw activity data. They evaluated five machine learning algorithms—logistic regression, support vector machines, random forest, XGBoost, and neural networks—using metrics such as accuracy, precision, recall, F1-score, specificity, and the Matthew correlation coefficient. The results indicated that XGBoost achieved the highest accuracy, with 84.94% for binary classification and 85.91% for multiclass severity. The use of Shapley Additive Explanations (SHAP) and Local Interpretable Model-agnostic Explanations (LIME) identified key predictors, including power spectral density mean, age, and autocorrelation, underscoring the significance of circadian disruptions in depression. The framework demonstrates reliable identification of depressed individuals and differentiation of depression severity, highlighting the potential of explainable artificial intelligence in enhancing early detection and intervention in mental health care.

Introduction

The introduction highlights the global prevalence of mental disorders, particularly depression, which affects over 280 million individuals and is linked to severe consequences such as increased mortality and comorbidities. The COVID-19 pandemic has exacerbated the incidence of depression and anxiety, especially among younger populations. Depression manifests through emotional disturbances and can disrupt daily functioning, making early diagnosis crucial. Traditional diagnostic methods face challenges, often leading to misdiagnosis, and the need for innovative solutions is underscored.

The paper discusses the potential of machine learning (ML) and artificial intelligence (AI) in enhancing the detection and classification of depression. While existing ML models have shown promise, they often struggle with distinguishing between varying severities of depression and lack transparency in their decision-making processes. The authors propose utilizing data from wearable devices to improve model accuracy and interpretability, employing techniques such as Adaptive Synthetic Sampling Technique (ADASYN) to address dataset imbalances. The study aims to implement various ML algorithms, including logistic regression and neural networks, while also utilizing Shapley Additive Explanations (SHAP) and Local Interpretable Model-agnostic Explanations (LIME) to enhance model explainability, thereby facilitating better clinical applications in mental health diagnosis.

Methods

The “Methods” section outlines the experimental design and analytical techniques employed in the study. The researchers utilized a quantitative approach, employing statistical analyses to evaluate the data collected from various experiments. Specific methodologies included controlled trials, where variables were systematically manipulated to assess their effects on the outcomes of interest.

Data collection involved standardized instruments to ensure reliability and validity, with appropriate measures taken to minimize bias. Statistical tests, such as ANOVA and regression analysis, were applied to interpret the results, allowing for the identification of significant relationships between the variables. The section emphasizes the rigor of the methods used, ensuring that the findings are robust and can be generalized to broader contexts.

Results

In this section, the authors critically evaluate explainable artificial intelligence (XAI) techniques, specifically SHAP and LIME, to elucidate the feature patterns that inform depression-classification models. They compare these explanations across XGBoost and neural network architectures, emphasizing the importance of interpretability in machine learning (ML) models, particularly in healthcare contexts where transparency is vital for trust and decision-making. SHAP, based on coalition game theory, calculates Shapley values to assess the contribution of each feature to the model’s predictions, while LIME simplifies model predictions by analyzing local variations in input data to identify influential features.

The findings from the SHAP-LIME analysis reveal a consistent focus on autocorrelation and spectral activity features, aligning with existing clinical evidence that links disrupted circadian rhythms to mood disorders. The authors cite research indicating that altered circadian cycles are associated with depression, noting that therapies aimed at realigning these rhythms can alleviate depressive symptoms. However, they caution that while their results are consistent with established associations, they do not establish a causal relationship between rhythm-related features and depression.

Discussion

In this section, the research discusses the methodology and findings related to the classification of depression using the “Depresjon” dataset, which includes motor activity data and demographic information. The study addresses class imbalance through the ADASYN technique and employs feature engineering to extract relevant indicators from continuous time-series data. Key features were categorized into time domain, frequency domain, circadian rhythm analysis, and transition features, with significant emphasis on the role of circadian disruptions and activity patterns in reflecting mental health status. The models evaluated include Logistic Regression, Support Vector Machines, Random Forest, XGBoost, and Neural Networks, with XGBoost demonstrating superior performance across both binary and multiclass classification tasks, achieving the highest accuracy and other evaluation metrics.

The discussion further explores the interpretability of the models through Explainable AI (XAI) techniques, specifically SHAP and LIME. These methods reveal that features such as Power Spectral Density (PSD) mean, mean activity level, and autocorrelation are critical in predicting depression. For binary classification, PSD mean consistently emerged as the most influential feature, while for multiclass classification, age and autocorrelation were significant predictors across different severity levels of depression. The findings underscore the robustness of XGBoost and highlight the importance of demographic and activity-related features in understanding depression, providing a comprehensive view of how these factors interact within the model’s decision-making process. The comparative analysis between XGBoost and Neural Networks indicates that while both models identify PSD mean as a key feature, they diverge in their reliance on other variables, suggesting complementary insights into the underlying patterns of depression severity.