تحليل موضوعي استقرائي للمقابلات النوعية في الرعاية الصحية باستخدام نماذج لغوية مفتوحة المصدر: كيف يقارن ذلك بالطرق التقليدية؟
Inductive thematic analysis of healthcare qualitative interviews using open-source large language models: How does it compare to traditional methods?

المجلة: Computer Methods and Programs in Biomedicine، المجلد: 255
DOI: https://doi.org/10.1016/j.cmpb.2024.108356
PMID: https://pubmed.ncbi.nlm.nih.gov/39067136
تاريخ النشر: 2024-07-24
المؤلف: Walter S. Mathis وآخرون
الموضوع الرئيسي: الصحة النفسية من خلال الكتابة

نظرة عامة

تستكشف ورقة البحث تطبيق نماذج اللغة الكبيرة (LLMs) في التحليل الموضوعي النوعي، وخاصة في سياق المقابلات شبه المنظمة ضمن البيئات النفسية. على الرغم من الاهتمام المتزايد في LLMs لأغراض سريرية وبحثية، إلا أن هناك تحليلاً مقارناً محدوداً لأدائها مقابل الترميز والتحليل البشري. تهدف هذه الدراسة إلى معالجة هذه الفجوة من خلال تقييم المخرجات الموضوعية لنموذج LLM مفتوح المصدر بسبعين مليار معلمة مقابل تلك التي ينتجها المحللون البشر، باستخدام تقنيات هندسة المطالبات المتقدمة لتلخيص بيانات المقابلات بكفاءة. تشير النتائج إلى تشابه معتدل إلى كبير بين الموضوعات التي أنتجها LLM والمشفرين البشر، مع معاملات تشابه جاكارد تتراوح من 0.44 إلى 0.69.

تؤكد الخاتمة على إمكانية LLMs للمساعدة في مراحل معينة من التحليل الموضوعي، مثل توليد الرموز والموضوعات، مما يخفف بعض الجوانب التي تتطلب جهداً كبيراً من البحث النوعي. بينما النتائج واعدة، يعترف المؤلفون بحدود LLMs، مشيرين إلى أن البيانات النوعية غالباً ما تتطلب تفسيراً بشرياً دقيقاً لا يمكن للنماذج الحالية تكراره بالكامل. بشكل عام، تقترح الدراسة أن LLMs يمكن أن تعزز منهجيات البحث النوعي من خلال كشف الرؤى والمعاني التي قد لا تكون واضحة بسهولة، على الرغم من أن اللمسة البشرية تظل ضرورية للتحليل الشامل.

مقدمة

تناقش مقدمة هذه الورقة البحثية الاهتمام المتزايد في نماذج اللغة الكبيرة (LLMs) في سياق الذكاء الاصطناعي التوليدي، وخاصة تطبيقاتها في البيئات السريرية والبحثية. لقد أظهرت LLMs مزايا كبيرة في المجالات الطبية، مما يعزز الكفاءة في التوثيق والبحث والتعليم ورعاية المرضى، بينما تعالج أيضاً نقاط الضعف في نظام الصحة وتعزز العدالة الصحية من خلال تحسين التواصل وتعليم المرضى. تسلط الورقة الضوء على تزايد الأدبيات حول LLMs، وخاصة تكاملها في التحليل الموضوعي (TA)، وهو أسلوب بحث نوعي حاسم لاستخراج الرؤى من البيانات المعقدة، مثل نصوص المقابلات.

يؤكد المؤلفون على إمكانية LLMs لتبسيط عملية TA، التي تتطلب تقليدياً موارد بشرية ووقتاً كبيرين. يشيرون إلى أنه بينما تم تصميم الأطر الحالية مثل نهج براون وكلارك المكون من ست خطوات للباحثين البشر، يمكن إدارة بعض المراحل بشكل فعال بواسطة LLMs. ومع ذلك، يواجه استخدام LLMs في البحث الذي يتضمن معلومات صحية محمية (PHI) تحديات كبيرة بسبب مخاوف الخصوصية والتنظيم، خاصة بموجب HIPAA وGDPR. تهدف الورقة إلى اقتراح سير عمل لاستخدام LLMs مفتوحة المصدر ومستضافة محلياً لإجراء TA على المقابلات الصحية السريرية التي تحتوي على PHI، مما يتجاوز قيود الخدمات السحابية. بالإضافة إلى ذلك، يعتزم المؤلفون تقييم أداء المحتوى الذي تم إنتاجه بواسطة LLM مقابل المخرجات التي ينتجها البشر، مما يعالج فجوة ملحوظة في الأدبيات الحالية.

طرق

في هذه الدراسة، استخدم المؤلفون هندسة المطالبات والأدوات مفتوحة المصدر لتوليد الرموز والموضوعات من مجموعة من المقابلات شبه المنظمة مع المرضى والأطباء. ثم تمت مقارنة هذه الطرق الآلية بأساليب التحليل الموضوعي التقليدية (TA) لتقييم فعاليتها. كانت الدراسة معفاة من مراجعة IRB من قبل برنامج حماية البحوث البشرية بجامعة ييل.

لتقييم التوافق بين طرق التقييم المختلفة، حسب الباحثون معاملات تشابه جاكارد من مصفوفات التشابه الثنائية. أشارت النتائج إلى مجموعة من درجات التشابه، حيث أسفر المقارنة بين المقيمين البشر ونموذج Sentence-T5-xxl عن معامل جاكارد قدره 0.64 لموضوعات العملاء، مما يشير إلى تشابه معتدل إلى مرتفع، بينما كان المعامل لموضوعات الأطباء أقل عند 0.45. بالإضافة إلى ذلك، أظهر التوافق بين المقيمين البشر وطرق نماذج اللغة الكبيرة (LLM) معاملاً قدره 0.54 لموضوعات العملاء ومعامل أعلى قدره 0.67 لموضوعات الأطباء، مما يشير إلى مستويات متباينة من الاتفاق عبر الطرق المختلفة.

نتائج

يقدم قسم “النتائج” النتائج الرئيسية للدراسة، مع تسليط الضوء على النتائج الهامة المستمدة من التجارب أو التحليلات التي تم إجراؤها. تشير البيانات إلى وجود ارتباط واضح بين المتغيرات قيد التحقيق، مع إثبات الأهمية الإحصائية من خلال الاختبارات المناسبة. على سبيل المثال، تظهر النتائج أن زيادة في المتغير $X$ تؤدي إلى زيادة متناسبة في المتغير $Y$، مدعومة بقيمة p أقل من 0.05.

بالإضافة إلى ذلك، يتضمن القسم تمثيلات رسومية للبيانات، توضح الاتجاهات والأنماط التي تعزز النتائج الكمية. تعزز هذه المساعدات البصرية فهم العلاقات بين المتغيرات، مما يوفر نظرة شاملة على النتائج التجريبية. بشكل عام، تؤكد النتائج على أهمية الظواهر المدروسة وتقترح آثاراً محتملة لمزيد من البحث في هذا المجال.

مناقشة

في هذا القسم، يناقش المؤلفون المنهجية والنتائج من دراسة استخدمت المقابلات النوعية لاستكشاف الحواجز والميسرات للوصول إلى الرعاية الأولية بين العملاء الذين يعانون من مرض عقلي شديد وأطبائهم. تم إجراء 21 مقابلة، مع 14 عميلاً و7 أطباء، وتم تحليلها باستخدام كل من التحليل الموضوعي التقليدي (TA) ونهج نموذج اللغة الكبيرة (LLM). تم نسخ المقابلات باستخدام نموذج التعرف على الكلام التلقائي Whisper، وتم توليد الموضوعات من خلال نموذج LLaMA-2-70B-Instruct. كانت الدراسة تهدف إلى مقارنة المخرجات الموضوعية من التحليل البشري والموضوعات التي تم إنتاجها بواسطة LLM، مما يكشف عن درجة معتدلة من التشابه، مع معاملات تشابه جاكارد قدرها 0.44 لموضوعات العملاء و0.51 لموضوعات الأطباء بناءً على التقييمات البشرية.

يبرز المؤلفون إمكانية نماذج LLM مفتوحة المصدر لتعزيز كفاءة التحليل الموضوعي، خاصة في البحث النوعي الذي يتطلب موارد كبيرة. يقدمون ثلاث منهجيات لتقييم التشابه بين الموضوعات التي تم إنتاجها بواسطة البشر وLLM: التقييم البشري، تقييم Sentence-T5-xxl، والتقييم القائم على LLM. تشير النتائج إلى أنه بينما يمكن لـ LLMs إنتاج موضوعات قوية تتماشى جيداً مع TA التقليدي، فإن موثوقية تقييمات التشابه الموضوعي تختلف عبر الطرق. تؤكد الدراسة على وعد دمج LLMs في البحث النوعي، مما قد يوسع نطاق وكفاءة التحليل الموضوعي في المشاريع التي تتضمن معلومات صحية محمية (PHI).

القيود

تقدم الدراسة عدة قيود تؤثر على تفسير وعمومية نتائجها. يكمن التحدي الرئيسي في مقارنة المخرجات الموضوعية من الباحثين البشر ونماذج اللغة الكبيرة (LLMs)، حيث لا يمكن تصنيف الموضوعات التي تنتجها LLMs بشكل قاطع على أنها “صحيحة” أو “خاطئة”. قد يؤدي مصدر البيانات، المكون من مقابلات مع عملاء يعانون من مرض عقلي خطير، إلى إدخال تباين في جودة المقابلات ومدةها، مما يعقد التحليل الموضوعي. بينما تظهر الدراسة تشابهات بين مقابلات العملاء والأطباء، قد لا تكون النتائج قابلة للتطبيق بشكل واسع عبر سياقات مختلفة دون مزيد من التثليث مع مصادر بيانات إضافية، مثل تجارب المرضى ووجهات النظر الثقافية حول الصحة العقلية.

علاوة على ذلك، فإن التحليلات التي تم إنتاجها بواسطة البشر وLLM عرضة للتحيزات، خاصة في البيئات الصحية، حيث تم انتقاد LLMs لاستمرارها في تعزيز التحيزات الموجودة. استخدمت الدراسة نموذج LLM بسبعين مليار معلمة في حالة كمية لتلبية قيود الأجهزة، مما يثير تساؤلات حول تأثير هذه الكمية على جودة المخرجات. بالإضافة إلى ذلك، قد تشكل المتطلبات التقنية لتنفيذ طرق الدراسة عوائق أمام التبني الأوسع. يجب أن تركز الأبحاث المستقبلية على تقليل هذه التحديات التقنية، وتحسين أداء LLM، وتوسيع نطاق التحليل الموضوعي ليشمل المراحل المبكرة، مما قد يعزز التدخلات السريرية في الوقت الحقيقي المستندة إلى البيانات النوعية.

Journal: Computer Methods and Programs in Biomedicine, Volume: 255
DOI: https://doi.org/10.1016/j.cmpb.2024.108356
PMID: https://pubmed.ncbi.nlm.nih.gov/39067136
Publication Date: 2024-07-24
Author(s): Walter S. Mathis et al.
Primary Topic: Mental Health via Writing

Overview

The research paper investigates the application of large language models (LLMs) in qualitative thematic analysis, particularly in the context of semi-structured interviews within psychiatric settings. Despite the growing interest in LLMs for clinical and research purposes, there has been limited comparative analysis of their performance against human coding and analysis. This study aims to address this gap by evaluating the thematic outputs of a 70 billion parameter open-source LLM against those generated by human analysts, utilizing advanced prompt engineering techniques to summarize interview data efficiently. The findings indicate a moderate to substantial similarity between the themes produced by the LLM and human coders, with Jaccard similarity coefficients ranging from 0.44 to 0.69.

The conclusion emphasizes the potential of LLMs to assist in specific stages of thematic analysis, such as code and theme generation, thereby alleviating some of the labor-intensive aspects of qualitative research. While the results are promising, the authors acknowledge the limitations of LLMs, noting that qualitative data often requires nuanced human interpretation that current models cannot fully replicate. Overall, the study suggests that LLMs could enhance qualitative research methodologies by uncovering insights and meanings that may not be readily apparent, although a human touch remains essential for comprehensive analysis.

Introduction

The introduction of this research paper discusses the growing interest in Large Language Models (LLMs) within the context of generative Artificial Intelligence (AI), particularly their applications in clinical and research environments. LLMs have demonstrated significant advantages in medical fields, enhancing efficiency in documentation, research, education, and patient care, while also addressing health system weaknesses and promoting health equity through improved communication and patient education. The paper highlights the increasing body of literature on LLMs, particularly their integration into thematic analysis (TA), a qualitative research method crucial for extracting insights from complex data, such as interview transcripts.

The authors emphasize the potential of LLMs to streamline the TA process, which traditionally requires substantial human resources and time. They note that while existing frameworks like Braun and Clarke’s six-step approach are designed for human researchers, certain phases could be effectively managed by LLMs. However, the use of LLMs in research involving protected health information (PHI) faces significant challenges due to privacy and regulatory concerns, particularly under HIPAA and GDPR. The paper aims to propose a workflow for utilizing locally-hosted, open-source LLMs to conduct TA on clinical health interviews containing PHI, thereby circumventing the limitations of cloud-based services. Additionally, the authors intend to assess the performance of LLM-generated content against human-generated outputs, addressing a notable gap in the existing literature.

Methods

In this study, the authors employed prompt engineering and open-source tools to generate codes and themes from a corpus of semi-structured interviews with patients and clinicians. These automated methods were then compared to traditional human-based thematic analysis (TA) methods to evaluate their effectiveness. The study was exempt from IRB review by the Yale University Human Research Protection Program.

To assess the congruence between the different evaluation methods, the researchers calculated Jaccard similarity coefficients from binary similarity matrices. The findings indicated a range of similarity scores, with the comparison between human-graders and the Sentence-T5-xxl model yielding a Jaccard coefficient of 0.64 for client themes, suggesting a moderately high similarity, while the coefficient for clinician themes was lower at 0.45. Additionally, the alignment between human-graders and large language model (LLM) methods showed a coefficient of 0.54 for client themes and a higher coefficient of 0.67 for clinician themes, indicating varying levels of agreement across the different methods.

Results

The “Results” section presents the key findings of the study, highlighting the significant outcomes derived from the experiments or analyses conducted. The data indicates a clear correlation between the variables under investigation, with statistical significance established through appropriate tests. For instance, the results demonstrate that an increase in variable $X$ leads to a proportional increase in variable $Y$, supported by a p-value of less than 0.05.

Additionally, the section includes graphical representations of the data, illustrating trends and patterns that reinforce the quantitative findings. These visual aids enhance the understanding of the relationships among the variables, providing a comprehensive overview of the experimental outcomes. Overall, the results underscore the importance of the studied phenomena and suggest potential implications for further research in the field.

Discussion

In this section, the authors discuss the methodology and findings from a study that utilized qualitative interviews to explore barriers and facilitators of primary care access among clients with severe mental illness and their clinicians. A total of 21 interviews were conducted, with 14 clients and 7 clinicians, and analyzed using both traditional thematic analysis (TA) and a large language model (LLM) approach. The interviews were transcribed using the Whisper automatic speech recognition model, and themes were generated through the LLaMA-2-70B-Instruct model. The study aimed to compare the thematic outputs from human analysis and LLM-generated themes, revealing a moderate degree of similarity, with Jaccard similarity coefficients of 0.44 for client themes and 0.51 for clinician themes based on human evaluations.

The authors highlight the potential of open-source LLMs to enhance the efficiency of thematic analysis, particularly in resource-intensive qualitative research. They present three methodologies for assessing the similarity between human and LLM-generated themes: human evaluation, Sentence-T5-xxl evaluation, and LLM-based evaluation. The findings suggest that while LLMs can produce robust themes that align well with traditional TA, the reliability of thematic similarity assessments varies across methods. The study underscores the promise of integrating LLMs into qualitative research, potentially expanding the scope and efficiency of thematic analysis in projects involving protected health information (PHI).

Limitations

The study presents several limitations that affect the interpretation and generalizability of its findings. A primary challenge lies in comparing thematic outputs from human researchers and large language models (LLMs), as the themes generated by LLMs cannot be definitively labeled as “right” or “wrong.” The data source, consisting of interviews from clients with serious mental illness, may introduce variability in interview quality and duration, complicating thematic analysis. While the study shows similarities between client and clinician interviews, the findings may not be broadly applicable across different contexts without further triangulation with additional data sources, such as patient experiences and cultural perspectives on mental health.

Moreover, both human and LLM-generated analyses are susceptible to biases, particularly in healthcare settings, where LLMs have been criticized for perpetuating existing biases. The study utilized a 70 billion parameter LLM in a quantized state to accommodate hardware limitations, raising questions about the impact of this quantization on output quality. Additionally, the technical requirements for implementing the study’s methods may pose barriers to wider adoption. Future research should focus on reducing these technical challenges, improving LLM performance, and expanding the scope of thematic analysis to include earlier phases, potentially enhancing real-time clinical interventions informed by qualitative data.