تقدم التحليل الموضوعي المدفوع بالذكاء الاصطناعي في البحث النوعي: دراسة مقارنة لتسعة نماذج توليدية على بيانات الليشمانيا الجلدية
Advancing AI-driven thematic analysis in qualitative research: a comparative study of nine generative models on Cutaneous Leishmaniasis data

المجلة: BMC Medical Informatics and Decision Making، المجلد: 25، العدد: 1
DOI: https://doi.org/10.1186/s12911-025-02961-5
PMID: https://pubmed.ncbi.nlm.nih.gov/40065373
تاريخ النشر: 2025-03-10
المؤلف: Issam Bennis وآخرون
الموضوع الرئيسي: سمات الشخصية وعلم النفس

نظرة عامة

تستكشف الدراسة دمج الذكاء الاصطناعي التوليدي (A.I.) في البحث النوعي، من خلال تحليل موضوعي للأثر النفسي الاجتماعي لندبات الليشمانيا الجلدية (CL). من خلال مقارنة فعالية تسعة نماذج من الذكاء الاصطناعي – مثل Llama 3.1 405B وChatGPT o1-Pro – مقابل التحليل اليدوي التقليدي، استخدمت البحث 448 استجابة من المشاركين وطبقت أدوات إحصائية مثل معامل كابا لكوهين ومؤشر جاكارد لتقييم التوافق. كشفت النتائج أن نماذج الذكاء الاصطناعي المتقدمة أظهرت توافقًا عاليًا مع التحليل الخبير، حيث حقق بعضها توافقًا مثاليًا (مؤشر جاكارد = 1.00)، وقدمت رؤى قيمة حول العواقب النفسية الاجتماعية المحددة حسب الجنس.

تؤكد النتائج على إمكانيات الذكاء الاصطناعي في تعزيز منهجيات البحث النوعي، لا سيما في السياقات النفسية الاجتماعية المعقدة. تدعو الدراسة إلى علاقة تآزرية بين قدرات الذكاء الاصطناعي والخبرة البشرية، مع التأكيد على الحاجة إلى إشراف صارم من قبل الخبراء النوعيين لضمان التحقق من النتائج. علاوة على ذلك، تدعو إلى تطوير إرشادات موحدة للبحث النوعي المدعوم بالذكاء الاصطناعي لتعزيز الشفافية وتسهيل التطبيق الأوسع عبر بيئات البحث المتنوعة. بشكل عام، تسلط الدراسة الضوء على الإمكانات التحويلية للذكاء الاصطناعي في إثراء التحليل النوعي وفهم التجارب الإنسانية المعقدة.

مقدمة

تناقش مقدمة هذه الورقة البحثية أهمية التحليل الموضوعي في البحث النوعي، مع التأكيد على تباينه بسبب الاعتماد على التفكير البشري ومهارات التفسير. التحليل الموضوعي مناسب بشكل خاص للمواد النصية الواسعة، مما يسمح للباحثين باستكشاف أنماط معقدة في تجارب وسلوكيات الناس. تحدد الورقة مسارين رئيسيين في التحليل النوعي المعاصر: أحدهما يركز على البيانات غير التقليدية لاكتشاف الأنماط الكامنة من خلال التفكير الاستقرائي والاستنتاجي، والآخر يستفيد من التقدم التكنولوجي مثل برامج تحليل البيانات النوعية المدعومة بالحاسوب (CAQDAS) وأدوات الذكاء الاصطناعي التوليدي مثل نماذج اللغة الكبيرة (LLMs).

يقدم دمج الذكاء الاصطناعي في التحليل النوعي فرصًا لأتمتة المهام المملة مثل النسخ والترميز الأولي، مما يعزز الكفاءة ويمكّن الباحثين من التركيز على التحليلات التفسيرية. يمكن أن توفر نماذج الذكاء الاصطناعي أيضًا تحليلات دقيقة قد تتجاوز القدرات البشرية، مما قد يقلل من التحيزات ويحسن قابلية تكرار النتائج. ومع ذلك، تحذر الورقة من الاعتماد المفرط على الذكاء الاصطناعي، مشددة على الحاجة إلى رقابة صارمة على الجودة والتحقق من المخرجات بسبب التعقيدات الكامنة في البحث النوعي. تهدف الدراسة إلى تقييم ما إذا كانت ChatGPT ونماذج الذكاء الاصطناعي التوليدية الأخرى يمكن أن تعزز دقة التركيب النوعي فيما يتعلق بالأثر النفسي الاجتماعي لندبات الليشمانيا الجلدية مقارنة بالأساليب التقليدية التي يقودها البشر.

الطرق

في المرحلة 1C من الدراسة، أجرى الباحثون تحليلًا نوعيًا لتقييم الآثار النفسية الاجتماعية لليشمانيا الجلدية (CL) على الطلاب، مع التركيز على الفروق بين الجنسين. شمل التحليل تصنيف الاستجابات إلى ثلاث مجموعات رئيسية: (P) تشير إلى وجود أثر نفسي اجتماعي، (N) تشير إلى عدم وجود أو عدم اليقين بشأن الأثر النفسي، و(U) تمثل الاستجابات غير المحددة أو غير المستجيبة. تم بناء هذا التصنيف على استجابات تسعة وسبعين طالبًا أفادوا بتأثرهم بـ CL، مع تحليل لاحق لثلاثة وستين طالبًا بعد استبعاد أولئك الذين كانت استجاباتهم غير مكتملة.

تم إجراء تحليل البيانات باستخدام برنامج Jamovi الإصدار 2.5.4، مع استخدام اختبارات كاي-تربيع أو اختبار فيشر الدقيق لتحديد الأهمية الإحصائية، مع عتبة p < 0.05. تم توثيق النتائج من هذه المرحلة، بما في ذلك النتائج الإحصائية التفصيلية، في المواد التكميلية المقدمة.

النتائج

تسلط النتائج المقدمة في هذا القسم الضوء على الأداء المقارن لمختلف نماذج الذكاء الاصطناعي في التحليل النوعي الآلي مقارنة بالطرق اليدوية التقليدية. تشير الجدول 1 إلى أن نماذج مثل Claude_1st وNotebookLM_1st وGemini_1st حققت معاملات كابا لكوهين مرتفعة، مما يدل على اتساق داخلي قوي وتوافق مع المعيار المرجعي (المرجع A). من الجدير بالذكر أن ChatGPT o1-Pro أظهر أعلى درجة اتساق خارجي تبلغ 0.79 (95% CI: [0.74، 0.85])، تليها Claude (0.78) وLlama (0.78). أظهرت التحليلات اليدوية تحسنًا في الاتساق الخارجي من 0.74 (95% CI: [0.68، 0.80]) في التقييم الأول إلى 0.82 (95% CI: [0.77، 0.87]) في الثاني.

كشفت التحليلات الإضافية أن Llama 3.1 405B حافظ على توافق خارجي ثابت عبر مجموعات الجنس، مع درجات كابا تبلغ 0.82 و0.83 في التحليلين الأول والثاني، على التوالي. حقق ChatGPT o1-Pro اتساقًا داخليًا مثاليًا (كابا = 1.00) عبر جميع المجموعات الفرعية، بينما أظهرت Claude 3.5 Sonnet اتساقًا داخليًا مشابهًا في تحليل استجابات الطالبات. حدد التحليل الموضوعي خمسة مواضيع رئيسية و24 موضوعًا فرعيًا تتعلق بالآثار النفسية الاجتماعية، مما أدى إلى تطوير إطار عمل دائرة الفراكتال للهشاشة. يوضح هذا الإطار الآثار النفسية الاجتماعية متعددة المستويات لليشمانيا الجلدية، مع تضمين أبعاد مثل الوصمة المرتبطة والتجارب المحددة حسب الجنس، مما يوفر فهمًا شاملاً للتفاعل بين مجالات التأثير المختلفة على الهشاشة.

المناقشة

تقيّم قسم المناقشة في هذه الدراسة جدوى وفعالية الذكاء الاصطناعي (AI) في إجراء التحليل الموضوعي ضمن البحث النوعي، مع التركيز بشكل خاص على الآثار النفسية الاجتماعية لليشمانيا الجلدية بين طلاب المدارس الثانوية المغربية. تكشف التحليل المقارن بين الأساليب النوعية التقليدية التي يقودها البشر والأساليب المدفوعة بالذكاء الاصطناعي أن نماذج الذكاء الاصطناعي التوليدية المعاصرة، وخاصة ChatGPT o1-Pro وGemini، تظهر تحسينات كبيرة في الدقة والاتساق وقابلية التكرار. استخدمت الدراسة مجموعة بيانات تضم 448 استجابة من الطلاب، مستخدمة تسعة نماذج مختلفة من الذكاء الاصطناعي لتحليل البيانات النوعية، والتي تمت مقارنتها بعد ذلك مع النتائج المرجعية المعتمدة. تشير النتائج إلى أن منهجيات الذكاء الاصطناعي لا تعزز فقط موثوقية التركيب الموضوعي ولكن أيضًا تسهل فهمًا أعمق للظواهر النفسية الاجتماعية المعقدة، لا سيما في السياقات المحددة حسب الجنس.

علاوة على ذلك، تقدم الدراسة مفهوم “نظرية مؤصلة مدعومة بالذكاء الاصطناعي”، مما يبرز كيف يمكن للذكاء الاصطناعي تحسين أطر البحث النوعي من خلال التقاط الفروق الدقيقة في التجارب الحياتية. تشير هذه التقدم المنهجي إلى أن الذكاء الاصطناعي يمكن أن يعمل كأداة مثلث آلي، مما يغني التحليلات النوعية من خلال دمج مصادر بيانات متنوعة ووجهات نظر. ومع ذلك، يؤكد المؤلفون على ضرورة وجود رقابة صارمة على الجودة وإقامة إرشادات موحدة لدمج الذكاء الاصطناعي في البحث النوعي لضمان الشفافية وقابلية التكرار. بشكل عام، تدعو النتائج إلى علاقة تآزرية بين قدرات الذكاء الاصطناعي والخبرة البشرية لتحسين نتائج البحث النوعي، مما يمهد الطريق لاستكشافات مستقبلية في مجالات البحث المختلفة.

القيود

تسلط القيود المفروضة على الدراسة حول استجابات الذكاء الاصطناعي التوليدي لندبات الليشمانيا الجلدية الضوء على عدة مجالات حاسمة يجب أخذها بعين الاعتبار. أولاً، بينما تشير النتائج إلى تقدم كبير في التحليل النوعي المدعوم بالذكاء الاصطناعي ضمن سياق جغرافي وثقافي محدد، هناك حاجة ملحة للتكرار في بيئات متنوعة للتحقق من هذه الملاحظات. ستعزز هذه التمديدات فهم كيفية تفاعل نماذج الذكاء الاصطناعي مع مختلف التجليات الاجتماعية والثقافية للآثار النفسية الاجتماعية على مستوى العالم. بالإضافة إلى ذلك، يجب إيلاء اهتمام دقيق للتحيزات الكامنة في خوارزميات الذكاء الاصطناعي، بما في ذلك تحيز الباحث، وتحياز المستجيب، وتحياز الرغبة الاجتماعية، فضلاً عن إمكانية أن يقلل الذكاء الاصطناعي من هذه التحيزات أو يزيدها.

من الناحية المنهجية، كشفت اعتماد الدراسة على نموذج Llama 405B عن ميل نحو التصنيف المفرط، لا سيما في تعامله الحاسم مع الاستجابات، مما قد يؤدي إلى تصنيفات مبسطة للآثار النفسية الاجتماعية. علاوة على ذلك، يعني التقدم السريع في تكنولوجيا الذكاء الاصطناعي أن النتائج تعكس لقطة للقدرات الحالية، مع إمكانية أن تقدم الإصدارات المستقبلية ميزات محسنة. تستدعي الآثار الأخلاقية لاستخدام الذكاء الاصطناعي في البحث النوعي، خاصة بين الباحثين الكبار، مزيدًا من النقاش. يجب أن تركز الأبحاث المستقبلية على توسيع نطاق الدراسات عبر خلفيات ثقافية ولغوية متنوعة وإقامة أطر موحدة لتقييم البحث النوعي المدعوم بالذكاء الاصطناعي، مما يعزز موثوقية وتأثير مثل هذه التحليلات في أبحاث الرعاية الصحية.

Journal: BMC Medical Informatics and Decision Making, Volume: 25, Issue: 1
DOI: https://doi.org/10.1186/s12911-025-02961-5
PMID: https://pubmed.ncbi.nlm.nih.gov/40065373
Publication Date: 2025-03-10
Author(s): Issam Bennis et al.
Primary Topic: Personality Traits and Psychology

Overview

The study explores the integration of generative artificial intelligence (A.I.) into qualitative research, specifically through thematic analysis of the psychosocial impact of cutaneous leishmaniasis (CL) scars. By comparing the efficacy of nine A.I. models—such as Llama 3.1 405B and ChatGPT o1-Pro—against traditional manual analysis, the research utilized 448 participant responses and employed statistical tools like Cohen’s Kappa coefficient and the Jaccard index to assess concordance. The findings revealed that advanced A.I. models demonstrated high congruence with expert analysis, with some achieving perfect concordance (Jaccard index = 1.00), and provided valuable insights into gender-specific psychosocial consequences.

The results underscore the potential of A.I. to enhance qualitative research methodologies, particularly in complex psychosocial contexts. The study advocates for a synergistic relationship between A.I. capabilities and human expertise, emphasizing the need for rigorous oversight by qualitative experts to ensure validation of findings. Furthermore, it calls for the development of standardized guidelines for A.I.-assisted qualitative research to promote transparency and facilitate broader application across diverse research settings. Overall, the research highlights the transformative potential of A.I. in enriching qualitative analysis and understanding of complex human experiences.

Introduction

The introduction of this research paper discusses the significance of thematic analysis in qualitative research, emphasizing its variability due to the reliance on human reasoning and interpretative skills. Thematic analysis is particularly suited for extensive text-based material, allowing researchers to explore complex patterns in people’s experiences and behaviors. The paper outlines two main trajectories in contemporary qualitative analysis: one focusing on atypical data to uncover latent patterns through inductive and abductive reasoning, and the other leveraging technological advancements such as Computer-Assisted Qualitative Data Analysis Software (CAQDAS) and generative artificial intelligence (A.I.) tools like large language models (LLMs).

The integration of A.I. in qualitative analysis presents opportunities to automate tedious tasks such as transcription and initial coding, thereby enhancing efficiency and enabling researchers to concentrate on interpretative analytics. A.I. models can also provide nuanced analyses that may surpass human capabilities, potentially reducing biases and improving the reproducibility of results. However, the paper cautions against over-reliance on A.I., highlighting the need for rigorous quality control and validation of outputs due to the inherent complexities of qualitative research. The study aims to evaluate whether ChatGPT and other generative A.I. models can enhance the accuracy of qualitative synthesis regarding the psychosocial impact of cutaneous leishmaniasis scarring compared to traditional human-led approaches.

Methods

In Phase 1C of the study, the researchers conducted a qualitative analysis to assess the psychosocial effects of cutaneous leishmaniasis (CL) on students, with a focus on gender differences. The analysis involved categorizing responses into three main groups: (P) indicating the presence of a psychosocial effect, (N) indicating no or uncertain psychological effect, and (U) representing undecided or non-responses. This categorization was based on the responses of seventy-nine students who reported being affected by CL, with a subsequent analysis of sixty-three students after excluding those with incomplete responses.

Data analysis was performed using Jamovi software version 2.5.4, employing Chi-squared or Fisher’s exact tests to determine statistical significance, with a threshold of p < 0.05. The findings from this phase, including detailed statistical results, are documented in the supplementary materials provided.

Results

The results presented in this section highlight the comparative performance of various AI models in automated qualitative analysis relative to traditional manual methods. Table 1 indicates that models such as Claude_1st, NotebookLM_1st, and Gemini_1st achieved high weighted Cohen Kappa coefficients, demonstrating strong internal consistency and alignment with the reference standard (Reference A). Notably, ChatGPT o1-Pro exhibited the highest external consistency score of 0.79 (95% CI: [0.74, 0.85]), followed closely by Claude (0.78) and Llama (0.78). Manual analyses showed an improvement in external consistency from 0.74 (95% CI: [0.68, 0.80]) in the first evaluation to 0.82 (95% CI: [0.77, 0.87]) in the second.

Further analysis revealed that Llama 3.1 405B maintained consistent external alignment across gender subgroups, with Kappa scores of 0.82 and 0.83 in the first and second analyses, respectively. ChatGPT o1-Pro achieved perfect internal consistency (Kappa = 1.00) across all subgroups, while Claude 3.5 Sonnet demonstrated similar internal consistency in analyzing female student responses. The thematic analysis identified five main themes and 24 sub-themes related to psychosocial impacts, culminating in the development of the Fractal Circle of Vulnerabilities framework. This framework elucidates the multi-level psychosocial effects of cutaneous leishmaniasis, incorporating dimensions such as stigma by association and gender-specific experiences, thereby offering a comprehensive understanding of the interplay between various spheres of influence on vulnerabilities.

Discussion

The discussion section of this study evaluates the feasibility and effectiveness of artificial intelligence (AI) in conducting thematic analysis within qualitative research, specifically focusing on the psychosocial impacts of cutaneous leishmaniasis among Moroccan high school students. The comparative analysis between traditional human-led qualitative methods and AI-driven approaches reveals that contemporary generative AI models, particularly ChatGPT o1-Pro and Gemini, demonstrate significant improvements in accuracy, consistency, and reproducibility. The study utilized a dataset of 448 student responses, employing nine different AI models to analyze qualitative data, which were then compared against established reference findings. The results indicate that AI methodologies not only enhance the reliability of thematic synthesis but also facilitate a deeper understanding of complex psychosocial phenomena, particularly in gender-specific contexts.

Moreover, the study introduces the concept of “AI-augmented grounded theory,” highlighting how AI can refine qualitative research frameworks by capturing nuanced differences in lived experiences. This methodological advancement suggests that AI can serve as an automated triangulation tool, enriching qualitative analyses by integrating diverse data sources and perspectives. However, the authors emphasize the necessity for rigorous quality control and the establishment of standardized guidelines for AI integration in qualitative research to ensure transparency and reproducibility. Overall, the findings advocate for a synergistic relationship between AI capabilities and human expertise to optimize qualitative research outcomes, paving the way for future explorations in various research domains.

Limitations

The limitations of the study on generative A.I. responses to cutaneous leishmaniasis scars highlight several critical areas for consideration. Firstly, while the findings indicate significant advancements in AI-assisted qualitative analysis within a specific geographical and cultural context, there is a pressing need for replication in diverse settings to validate these observations. Such extensions would enhance understanding of how A.I. models interact with various socio-cultural manifestations of psychosocial impacts globally. Additionally, careful attention must be paid to biases inherent in A.I. algorithms, including researcher bias, respondent bias, and social desirability bias, as well as the potential for A.I. to either mitigate or exacerbate these biases.

Methodologically, the study’s reliance on the Llama 405B model revealed a tendency for over-classification, particularly in its decisive handling of responses, which may lead to oversimplified categorizations of psychosocial effects. Furthermore, the rapid advancement of A.I. technology means that the findings reflect a snapshot of current capabilities, with future iterations potentially offering improved features. The ethical implications of using A.I. in qualitative research, especially among senior researchers, warrant further discussion. Future research should focus on broadening the scope of studies across varied cultural and linguistic backgrounds and establishing standardized frameworks for evaluating A.I.-supported qualitative research, thereby enhancing the reliability and impact of such analyses in healthcare research.