التنبؤ عالي الدقة لدرجات الصحة النفسية من تمثيلات BERT الإنجليزية المدربة على تقارير ذاتية اصطناعية تم إنشاؤها بواسطة LLM: دراسة تطوير طريقة تعتمد فقط على الاصطناعية
High-accuracy prediction of mental health scores from English BERT embeddings trained on LLM-generated synthetic self-reports: a synthetic-only method development study

المجلة: Frontiers in Digital Health، المجلد: 7
DOI: https://doi.org/10.3389/fdgth.2025.1694464
PMID: https://pubmed.ncbi.nlm.nih.gov/41586203
تاريخ النشر: 2026-01-08
المؤلف: Birger Moëll وآخرون
الموضوع الرئيسي: الصحة النفسية من خلال الكتابة

نظرة عامة

تبحث هذه الدراسة في إمكانية التقارير الذاتية السريرية من منظور الشخص الأول التي تم إنشاؤها بواسطة نموذج لغة كبير (LLM) للتنبؤ بالدرجات القياسية للصحة النفسية، وبشكل خاص لأدوات PHQ-9 و LSAS و PCL-5. استخدمت الدراسة نموذج Gemini 2.5 LLM لإنشاء سرديات مرتبطة بالدرجات المستهدفة، مع ضمان التماسك والتوافق من خلال الفحص اليدوي. تم تدريب نماذج تعلم الآلة المختلفة، بما في ذلك الانحدار الخطي وطرق التجميع، على هذه السرديات الاصطناعية، محققة مقاييس أداء تنبؤية قوية (على سبيل المثال، PHQ-9 Ridge: MSE 4.41، $R^2 = 0.92$).

تشير النتائج إلى أن التقارير الذاتية التي تم إنشاؤها بواسطة LLM يمكن أن تشفر إشارات ذات مغزى لتقييم الصحة النفسية، مما يقدم بديلاً يحافظ على الخصوصية للبحث والتطوير في معلومات الصحة النفسية. ومع ذلك، يحذر المؤلفون من تعميم هذه النتائج على البيئات السريرية الحقيقية، مشددين على الحاجة إلى التحقق الواسع من البيانات السريرية الفعلية قبل أي تطبيق سريري. يجب أن تركز الأبحاث المستقبلية على تقييم دقة وميول البيانات التي تم إنشاؤها بواسطة LLM لضمان نشر آمن وأخلاقي في الرعاية الصحية النفسية. بشكل عام، تسلط هذه الدراسة الضوء على وعد البيانات الاصطناعية في تقدم أبحاث الصحة النفسية مع معالجة التحديات المتعلقة بالوصول إلى البيانات وخصوصية المرضى.

مقدمة

تسلط المقدمة الضوء على التحدي العالمي الملح الذي تطرحه اضطرابات الصحة النفسية، والتي تسهم بشكل كبير في الإعاقة وعبء المرض. يعتمد التشخيص والعلاج الفعال على طرق التقييم الدقيقة، ومع ذلك، تواجه الأساليب التقليدية مثل المقابلات السريرية المنظمة واستبيانات التقرير الذاتي (مثل PHQ-9 و LSAS و PCL-5) قيودًا، بما في ذلك استهلاك الوقت، والاعتماد على بصيرة المريض، وعدم القدرة على التقاط التغيرات الديناميكية في الأعراض. تقدم التطورات الأخيرة في معالجة اللغة الطبيعية (NLP) وتعلم الآلة (ML)، وخاصة من خلال نماذج قائمة على المحولات مثل BERT، طرقًا واعدة لتعزيز هذه التقييمات من خلال الاستفادة من النصوص التي ينتجها المرضى.

ومع ذلك، فإن تطوير نماذج NLP/ML المتقدمة يعيقه نقص مجموعات البيانات السريرية الكبيرة والمُعَلَّمة عالية الجودة بسبب اللوائح المتعلقة بالخصوصية (مثل HIPAA و GDPR). تستكشف هذه الدراسة إمكانية نماذج اللغة الكبيرة (LLMs) لتوليد بيانات اصطناعية تحاكي بيانات المرضى الحقيقية دون المساس بالخصوصية. بشكل محدد، تقيم الأداء التنبؤي لنماذج تعلم الآلة المدربة على تمثيلات BERT المشتقة من أوصاف سريرية اصطناعية من منظور الشخص الأول، مستهدفة الدرجات الكمية المعروفة للاكتئاب والقلق الاجتماعي و PTSD. الهدف الأساسي هو تقييم دقة التنبؤات المستندة إلى البيانات الاصطناعية، مما يضع خطوة أساسية نحو استخدام هذا النهج في البحث وتطوير النماذج حيث يكون الوصول إلى البيانات الحقيقية محدودًا.

الطرق

توضح قسم “الطرق” في ورقة البحث الإجراءات التجريبية والتحليلية المستخدمة للتحقيق في سؤال البحث. تتفصل في اختيار المشاركين، وتصميم الدراسة، والتقنيات المحددة المستخدمة لجمع البيانات وتحليلها. تشمل المنهجية كلاً من الأساليب النوعية والكمية، مما يضمن فهمًا شاملاً للظواهر قيد الدراسة.

يتم وصف الأدوات والمعدات الرئيسية المستخدمة في البحث، جنبًا إلى جنب مع أي طرق إحصائية تم تطبيقها لتفسير البيانات. يركز القسم على صرامة التصميم التجريبي، بما في ذلك الضوابط والمتغيرات، لتعزيز موثوقية وصدق النتائج. بشكل عام، تم هيكلة الطرق لتسهيل إعادة الإنتاج وتوفير إطار واضح لتقييم النتائج.

النتائج

تشير النتائج إلى أن نماذج تعلم الآلة، التي تستخدم تمثيلات BERT المشتقة من بيانات اصطناعية تم إنشاؤها بواسطة نموذج لغة كبير (LLM)، أظهرت أداءً تنبؤيًا قويًا لجميع الحالات الثلاثة التي تم تقييمها للصحة النفسية. وهذا يشير إلى أن دمج البيانات الاصطناعية في التدريب يمكن أن يعزز بشكل فعال قدرة النماذج على تحديد والتنبؤ بمشاكل الصحة النفسية. تؤكد النتائج على إمكانية الاستفادة من تقنيات معالجة اللغة الطبيعية المتقدمة في تشخيصات الصحة النفسية.

المناقشة

تحدد قسم المناقشة في هذه الورقة البحثية التمييز بين النصوص الاصطناعية والحقيقية، مشددة على أن الدراسة تستخدم حصريًا سرديات اصطناعية تم إنشاؤها بواسطة نموذج لغة كبير (LLM) دون أي بيانات مرضى حقيقية. يهدف هذا النهج إلى تطوير ومعايرة منهجيات لتقييم الصحة النفسية مع معالجة تحديات نقص البيانات واللوائح المتعلقة بالخصوصية. يبرز المؤلفون قيود أدوات تقييم الصحة النفسية التقليدية وإمكانية نماذج LLM في إنتاج بيانات اصطناعية عالية الدقة، والتي يمكن أن تكون مصدرًا قيمًا لتدريب نماذج تعلم الآلة بطريقة تحافظ على الخصوصية.

تستعرض الورقة الأدبيات الموجودة حول أدوات تقييم الصحة النفسية ودور الطب النفسي الحسابي، مشيرة إلى أنه بينما تم استكشاف البيانات الاصطناعية لزيادة البيانات، تركز هذه الدراسة بشكل فريد على تدريب النماذج فقط على السرديات التي تم إنشاؤها بواسطة LLM. تشير النتائج إلى أن النماذج يمكن أن تلتقط بفعالية العلاقات بين النص الاصطناعي والدرجات النفسية، محققة دقة تنبؤية عالية لحالات مثل الاكتئاب والقلق الاجتماعي و PTSD. ومع ذلك، يحذر المؤلفون من أن مقاييس الأداء التي لوحظت في هذا السياق الاصطناعي قد لا تترجم مباشرة إلى التطبيقات الواقعية بسبب الاختلافات الجوهرية في تعقيد السرد وتنوعه الموجود في الاتصالات السريرية الأصلية.

يتم اقتراح اتجاهات البحث المستقبلية، مع التأكيد على ضرورة التحقق الخارجي من هذه النماذج على النصوص السريرية الحقيقية لتقييم قابليتها للتعميم. يدعو المؤلفون إلى دراسات مقارنة بين مجموعات البيانات الاصطناعية فقط، والبيانات الحقيقية فقط، والبيانات الهجينة لتحديد فوائد البيانات الاصطناعية. كما يؤكدون على أهمية الاعتبارات الأخلاقية في نشر هذه التقنيات، لضمان أن الطرق التي تحافظ على الخصوصية لا تخفي التحيزات المحتملة. بشكل عام، تسلط هذه الدراسة الضوء على وعد البيانات الاصطناعية التي تم إنشاؤها بواسطة LLM كأداة منهجية لتقدم معلومات الصحة النفسية مع التأكيد على الحاجة الملحة للتحقق الدقيق قبل التطبيق السريري.

القيود

القيود الرئيسية لهذه الدراسة هي اعتمادها الحصري على البيانات الاصطناعية لتدريب النماذج. يثير هذا مخاوف بشأن قابلية تعميم النتائج، حيث لا توجد أدلة تجريبية تدعم أن النماذج التي تم تطويرها باستخدام مجموعات بيانات اصطناعية ستؤدي بشكل فعال على النصوص السريرية الحقيقية المشتقة من مرضى حقيقيين. من المحتمل أن تكون “فجوة المجال” بين البيانات الاصطناعية والأصلية كبيرة؛ ومع ذلك، لم يتم تحديد هذه الفجوة في البحث الحالي، مما يبرز منطقة حاسمة للتحقيق المستقبلي.

Journal: Frontiers in Digital Health, Volume: 7
DOI: https://doi.org/10.3389/fdgth.2025.1694464
PMID: https://pubmed.ncbi.nlm.nih.gov/41586203
Publication Date: 2026-01-08
Author(s): Birger Moëll et al.
Primary Topic: Mental Health via Writing

Overview

This research investigates the potential of synthetic first-person clinical self-reports generated by a large language model (LLM) to predict standardized mental health scores, specifically for the PHQ-9, LSAS, and PCL-5 instruments. The study utilized the Gemini 2.5 LLM to create narratives paired with target scores, ensuring coherence and alignment through manual screening. Various machine learning models, including linear regression and ensemble methods, were trained on these synthetic narratives, achieving strong predictive performance metrics (e.g., PHQ-9 Ridge: MSE 4.41, $R^2 = 0.92$).

The findings suggest that LLM-generated self-reports can encode meaningful signals for mental health assessment, presenting a privacy-preserving alternative for research and development in mental health informatics. However, the authors caution against generalizing these results to real clinical settings, emphasizing the need for extensive validation on actual clinical data before any clinical application. Future research should focus on evaluating the fidelity and biases of LLM-generated data to ensure safe and ethical deployment in mental healthcare. Overall, this study highlights the promise of synthetic data in advancing mental health research while addressing challenges related to data access and patient privacy.

Introduction

The introduction highlights the pressing global challenge posed by mental health disorders, which significantly contribute to disability and disease burden. Effective diagnosis and treatment hinge on accurate assessment methods, yet traditional approaches like structured clinical interviews and self-report questionnaires (e.g., PHQ-9, LSAS, PCL-5) face limitations, including time consumption, reliance on patient insight, and inability to capture dynamic symptom changes. Recent advancements in Natural Language Processing (NLP) and Machine Learning (ML), particularly through Transformer-based models like BERT, offer promising avenues to enhance these assessments by leveraging patient-generated text.

However, the development of advanced NLP/ML models is hindered by the scarcity of large, high-quality annotated clinical datasets due to privacy regulations (e.g., HIPAA, GDPR). This study explores the potential of Large Language Models (LLMs) to generate synthetic data that mimics real patient data without compromising privacy. Specifically, it evaluates the predictive performance of machine learning models trained on BERT embeddings derived from synthetic first-person clinical descriptions, targeting established quantitative scores for depression, social anxiety, and PTSD. The primary aim is to assess the accuracy of predictions based on synthetic data, establishing a foundational step toward utilizing this approach in research and model development where access to real data is limited.

Methods

The “Methods” section of the research paper outlines the experimental and analytical procedures employed to investigate the research question. It details the selection of participants, the design of the study, and the specific techniques used for data collection and analysis. The methodology includes both qualitative and quantitative approaches, ensuring a comprehensive understanding of the phenomena under study.

Key instruments and tools utilized in the research are described, along with any statistical methods applied to interpret the data. The section emphasizes the rigor of the experimental design, including controls and variables, to enhance the reliability and validity of the findings. Overall, the methods are structured to facilitate reproducibility and to provide a clear framework for evaluating the results.

Results

The results indicate that the machine learning models, utilizing BERT embeddings derived from large language model (LLM)-generated synthetic data, demonstrated robust predictive performance for all three assessed mental health conditions. This suggests that the integration of synthetic data in training can effectively enhance the models’ ability to identify and predict mental health issues. The findings underscore the potential of leveraging advanced natural language processing techniques in mental health diagnostics.

Discussion

The discussion section of this research paper delineates the distinction between synthetic and real text, emphasizing that the study exclusively utilizes synthetic narratives generated by a Large Language Model (LLM) without any real patient data. This approach aims to develop and benchmark methodologies for mental health assessments while addressing the challenges of data scarcity and privacy regulations. The authors highlight the limitations of traditional mental health assessment tools and the potential of LLMs to produce high-fidelity synthetic data, which can serve as a valuable resource for training machine learning models in a privacy-preserving manner.

The paper reviews existing literature on mental health assessment instruments and the role of computational psychiatry, noting that while synthetic data has been explored for data augmentation, this study uniquely focuses on training models solely on LLM-generated narratives. The findings indicate that models can effectively capture the relationships between synthetic text and psychometric scores, achieving high predictive accuracy for conditions such as depression, social anxiety, and PTSD. However, the authors caution that the performance metrics observed in this synthetic context may not directly translate to real-world applications due to the inherent differences in narrative complexity and variability found in authentic clinical communications.

Future research directions are proposed, emphasizing the necessity for external validation of these models on real clinical text to assess their generalizability. The authors advocate for comparative studies between synthetic-only, real-only, and hybrid datasets to quantify the benefits of synthetic data. They also stress the importance of ethical considerations in deploying these technologies, ensuring that privacy-preserving methods do not obscure potential biases. Overall, this study underscores the promise of LLM-generated synthetic data as a methodological tool to advance mental health informatics while highlighting the critical need for rigorous validation before clinical application.

Limitations

The primary limitation of this study is its exclusive reliance on synthetic data for model training. This raises concerns regarding the generalizability of the findings, as there is no empirical evidence to support that models developed using synthetic datasets will perform effectively on genuine clinical texts derived from real patients. The potential “domain gap” between synthetic and authentic data is likely considerable; however, this gap has not been quantified in the current research, highlighting a critical area for future investigation.