تقدم التحليل الموضوعي المدفوع بالذكاء الاصطناعي في البحث النوعي: دراسة مقارنة لتسعة نماذج توليدية على بيانات الليشمانيا الجلدية Advancing AI-driven thematic analysis in qualitative research: a comparative study of nine generative models on Cutaneous Leishmaniasis data

المجلة: BMC Medical Informatics and Decision Making، المجلد: 25، العدد: 1
DOI: https://doi.org/10.1186/s12911-025-02961-5
PMID: https://pubmed.ncbi.nlm.nih.gov/40065373
تاريخ النشر: 2025-03-10

تقدم التحليل الموضوعي المدفوع بالذكاء الاصطناعي في البحث النوعي: دراسة مقارنة لتسعة نماذج توليدية على بيانات الليشمانيا الجلدية

عصام بنيس وصافوان موفق

الملخص

الخلفية كجزء من البحث النوعي، فإن التحليل الموضوعي يتطلب وقتًا طويلاً وتقنية عالية. لقد جلب ظهور الذكاء الاصطناعي التوليدي، وخاصة نماذج اللغة الكبيرة، الأمل في تعزيز وتحسين جزئي للتحليل الموضوعي. الطرق قامت الدراسة بتقييم الفعالية النسبية للتحليل الموضوعي التقليدي مقابل التحليل الموضوعي المدعوم بالذكاء الاصطناعي عند التحقيق في التأثير النفسي الاجتماعي لندبات الليشمانيا الجلدية. تم تحليل 448 استجابة من المشاركين من دراسة أساسية، مقارنة بين تسعة نماذج توليدية للذكاء الاصطناعي: Llama 3.1 405B، Claude 3.5 Sonnet، NotebookLM، Gemini 1.5 Advanced Ultra، ChatGPT o1-Pro، ChatGPT o1، GrokV2، DeepSeekV3، Gemini 2.0 Advanced مع التحليل اليدوي من قبل خبراء. حافظ برنامج Jamovi على صرامة منهجية من خلال حسابات معامل كوهين كابا لتقييم التوافق وقياس التشابه عبر بايثون باستخدام حسابات مؤشر جاكارد. النتائج أظهرت نماذج الذكاء الاصطناعي المتقدمة توافقًا مثيرًا للإعجاب مع المعايير المرجعية؛ حيث كان لبعضها توافق مثالي (مؤشر جاكارد = 1.00). أظهرت التحليلات المحددة حسب الجنس أداءً متسقًا عبر المجموعات الفرعية، مما سمح بفهم دقيق للعواقب النفسية الاجتماعية. طورت عملية النظرية المستندة إلى البيانات الإطار الخاص بالدائرة الهشة من الضعف التي دمجت رؤى جديدة حول التعقيد النفسي الاجتماعي المرتبط بالليشمانيا الجلدية بينما أسست أبعادًا جديدة. الاستنتاجات تُظهر هذه الدراسة كيف يمكن دمج الذكاء الاصطناعي في منهجية البحث النوعي، لا سيما في التحليل النفسي الاجتماعي المعقد. وبالتالي، أثبتت نماذج التعلم العميق للذكاء الاصطناعي كفاءتها العالية ودقتها. تشير هذه النتائج إلى أن الاتجاهات المستقبلية لمنهجية البحث النوعي يجب أن تركز على الحفاظ على الصرامة التحليلية من خلال استخدام التكنولوجيا باستخدام مزيج من قدرات الذكاء الاصطناعي وخبرة البشر وفقًا لقائمة مراجعة موحدة للمستقبل لضمان الشفافية الكاملة في العملية. الكلمات الرئيسية الذكاء الاصطناعي في البحث النوعي، نماذج اللغة الكبيرة، التحليل الموضوعي، تطوير النظرية المستندة إلى البيانات، معالجة اللغة الطبيعية، أتمتة البحث، الليشمانيا الجلدية.

الخلفية

التحليل الموضوعي هو حجر الزاوية في منهجية البحث النوعي ويختلف بشكل كبير من باحث لآخر بسبب الاعتماد على التفكير البشري المتقدم ومهارات التفسير. . قد تمكنت هذه الأساليب المنظمة من إجراء تحليلات مقارنة قوية مع الأدبيات المعتمدة. يتطلب الاستكشاف المفاهيمي ضمن الأطر المنهجية عمليات منطقية صارمة وتصنيف منهجي للبيانات للتعرف على الأنماط ومكوناتها الفرعية [3]. التحليل الموضوعي مناسب عند تحليل المواد النصية الواسعة وعندما يرغب الباحثون في التفكير في تجارب الناس وأفكارهم وسلوكياتهم [3]. في الواقع، تتطلب عمق التعقيد الموجود في البيانات النوعية تحضيرًا ذهنيًا كبيرًا ومشاركة مستمرة طوال التحليل من الباحثين [4]. لقد تطور التحليل النوعي المعاصر على مسارين متوازيين ولكن متداخلين. تشمل المسار الأول تحليل البيانات غير التقليدية وتسمح للباحثين باكتشاف الأنماط المنطقية الكامنة والارتباطات المحتملة [5]. تعتمد هذه الشكل على جهود متعددة التخصصات مستندة إلى الاستدلال الاستقرائي والاستدلال الاستنتاجي لنظرية الأرض المعاصرة [6، 7]. تنتج هذه العمليات وتختبر الفرضيات بناءً على ملاحظات جديدة أو مبتكرة تتجاوز الموضوعات أو الأنماط الأصلية. المسار الثاني هو تكنولوجي، يتعلق ببرامج تحليل البيانات النوعية المدعومة بالحاسوب (CAQDAS)، التي تسمح للباحثين بتثليث التحليلات النوعية مع الكمية بسرعة أثناء العمل على مجموعات بيانات كبيرة الحجم. لقد أنقذت CAQDAS في تمكين إدارة عمليات تخزين البيانات ومعالجتها واسترجاعها [4، 8]. لقد أثار الذكاء الاصطناعي التوليدي (A.I.) تقدمًا مثيرًا في تحليل البيانات النوعية في المجالات العلمية [9، 10]. إحدى الطرق الحديثة التي تم تطويرها مؤخرًا، والتي أصبحت شائعة في تحليل كميات هائلة من البيانات النصية، هي استخدام نماذج اللغة الكبيرة (LLMs مثل ChatGPT) [11]. يمكن تدريب LLM على مجموعة ضخمة من النصوص التي تعتبر مثالية لجعل معالجة اللغة الطبيعية (NLP) تقنية بارزة، ومن ثم توليد كلمات رئيسية ذات صلة، وأنماط، وروابط على مستوى المعاني الدقيقة بسرعة وكفاءة [12].
هناك العديد من الأمثلة حيث يمكن استخدام الذكاء الاصطناعي لتعزيز المكونات الشاملة للتحليل النوعي من خلال أتمتة خطوات البحث النوعي التي يعتبرها معظم الباحثين مملة أو متكررة، بما في ذلك النسخ والترجمة والترميز الأولي للنصوص. إن أتمتة هذه العمليات اليدوية تعزز من إنتاج النتائج، وتسمح بالتركيز أكثر على التحليلات التفسيرية وتساعد في تقليل التحيز المحتمل. كما تشير إلى ميزة محتملة أخرى تتمثل في أن الخوارزميات التحليلية التي يستخدمها الذكاء الاصطناعي يمكن تحليلها بواسطة عتبات سلوكية لا يمكن للبشر الوصول إليها، مما يسمح بإجراء تحليلات أكثر دقة تتجاوز النطاق الذي قد يغفله البشر.
يمكن تشغيل ( overlook) [13]. بالإضافة إلى ذلك، يمكن أن يكون نص الذكاء الاصطناعي بمثابة مقارنة قيمة لتفسير الأبحاث، مما قد يكشف عن التحيزات ويوسع الأطر التفسيرية. يمكن لنماذج ChatGPT وغيرها من نماذج الذكاء الاصطناعي التعبير عن نتائجها، مما يوفر للباحثين سياقًا قيمًا. علاوة على ذلك، مع هذه الشفافية، يمكن ضمان إعادة إنتاج النتائج مع تقليل التحيز المحتمل الناتج عن الذات البشرية. تعيد بعض نماذج الذكاء الاصطناعي تنظيم المعلومات بناءً على الأسئلة، مما يحسن هيكلة البيانات وتحليلها. بدلاً من ذلك، إذا كانت البيانات غير مؤكدة أو كانت هناك أخطاء برمجية أو عدم دقة في البيانات أو المدخلات، فقد يشك المرء في النتائج.
علاوة على ذلك، تتطلب الأبحاث النوعية تفسيرًا غامرًا، وقبولًا للتأملات غير العادية، ومرونة في النماذج من الباحث، والتي تعتبر جزءًا من عملية التحليل، مما يجعلها مفهومة بشكل خاطئ للغاية بالنسبة لخوارزميات الذكاء الاصطناعي. لذلك، يجب توخي الحذر عند استخدام الذكاء الاصطناعي وتفسير النتائج المستندة إلى الذكاء الاصطناعي. ومن ثم، يحتاج الباحثون إلى التحقق من نتائجهم الجارية من خلال إجراء إجراءات صارمة لمراقبة الجودة، بما في ذلك التقييم الدقيق والتحقق من مخرجات البحث. في هذا السياق، تسعى هذه الدراسة إلى تقييم ما إذا كان ChatGPT o1-Pro ومجموعة متنوعة من ثمانية نماذج أخرى من الذكاء الاصطناعي التوليدي يمكن أن تحسن دقة التركيب النوعي في الأدلة المعقدة المتعلقة بالعبء النفسي والاجتماعي لندبات الليشمانيا الجلدية عند مقارنتها بأساليب التحليل النوعي التقليدية التي يقودها البشر.

المواد

تصميم الدراسة

تم إجراء هذه الدراسة المقارنة لتقييم جدوى استخدام الذكاء الاصطناعي لإبلاغ البحث في العلوم الاجتماعية في الممارسة العملية، هنا تم تحقيق ذلك من خلال التحليل الموضوعي مقابل التحليل النوعي الذي يقوده الإنسان. كان السؤال المقارن المركزي المطروح هو ما إذا كانت نماذج الذكاء الاصطناعي التوليدية المعاصرة وإصداراتها المحدثة يمكن أن تقدم مزايا من حيث الدقة والكفاءة ووجهات النظر البصيرة بقدر أو أكثر من الطرق النوعية التقليدية.

المشاركون

استخدمت هذه الدراسة بيانات من دراسة أولية حول الآثار النفسية لليشمانيا الجلدية التي أجريت على طلاب المدارس الثانوية المغاربة (بنس، وآخرون، 2017) [20]. تم اختيار هذه المجموعة من البيانات لأنها كانت مدرجة في نتائج مراجعة منهجية نُشرت في أغسطس 2024، والتي وجدت أنها مصدر مهم لاستكشاف الأبعاد النفسية والاجتماعية لليشمانيا الجلدية بين الطلاب الذكور والإناث [21]. تتكون هذه المجموعة من 448 اقتباسًا مباشرًا تم استخراجها مباشرة من ردود الطلاب في الدراسة الأساسية، مما يتيح مقارنة مباشرة بين النهجين المنهجيين [20].
النهج الأول استخدم التحليل النوعي التقليدي في مرحلتين، المؤلف الثاني، أستاذ الصحة العامة، لديه خلفية نوعية وأكثر من عشر سنوات من الخبرة في هذا المجال. النهج الثاني تم بواسطة المؤلف الأول باستخدام تسعة نماذج ذكاء اصطناعي توليدية. كان لدى المؤلف الأول خبرة في البحث النوعي، بما في ذلك مع عدد من حزم برامج تحليل البيانات النوعية QACDAS.
يوليو 2024 وديسمبر 2024 كانتا فترتين لاختيار نماذج الذكاء الاصطناعي المختلفة. النماذج المختارة تعكس أحدث ما في التعلم العميق لتوليد اللغة وتم الترويج لها كأدوات أفضل لتطبيق خوارزميات معالجة اللغة الطبيعية. تضمنت نماذج مجموعة يوليو Llama 3.1 405B، Claude 3.5 Sonnet، NotebookLM، Gemini 1.5 Advanced Ultra ونماذج ChatGPT o1-preview. بينما تضمنت مجموعة ديسمبر ChatGPT o1 التي حلت محل النموذج السابق، GrokV2، DeepSeekV3، وGemini 2.0 Advanced. النموذج التاسع الذي تم إضافته كان في ديسمبر 2024 نموذج تجاري متقدم جداً تم إصداره حديثاً ChatGPT o1-Pro.
تمت مقارنة النتائج من كلا النهجين مع النتائج المرجعية (المرجع A) التي تتعلق بالقرار البشري باستخدام برنامج Nvivo، كما هو موضح في المواد التكميلية 1. تم إصدار هذه النتائج المرجعية A من تحليل متعدد التخصصات بواسطة فريق متعدد الجنسيات من الأنثروبولوجيين وعلماء الاجتماع والأساتذة والمتخصصين في الصحة العامة البيطرية والبشرية الذين تم تشكيلهم سابقاً بواسطة بينيس وآخرون، 2017 [20].

موقع الدراسة

تم إجراء الدراسة في بيئة أكاديمية منظمة لتقليل تأثير العوامل الخارجية وضمان دقة النتائج. تم إجراء جميع التحليلات باستخدام التحليل اليدوي (Man_1 و Man_2 الذي تم بواسطة الباحث الثاني) أو التحليل المدعوم بالكمبيوتر الذي تم بواسطة الباحث الأول في فترتين.

وصف الأدوات المستخدمة

تم اختيار نماذج الذكاء الاصطناعي بناءً على سمعة المطورين بين خبراء الذكاء الاصطناعي وبعض الاستخدامات الأخيرة لتحديثات 2024. تم أخذ Llama 3.1 405B من Meta A.I. (المعروفة سابقاً بأبحاث Facebook A.I.) في البداية. تم تحسين هذا النموذج لمهام معالجة اللغة الطبيعية، ولديه قدرات عالية في فهم المعالجة، ويؤدي بدقة في البيانات النصية [22]. Claude 3.5 Sonnet من Anthropic [23]. كلاهما يمكن أن ينتج نصوصاً قائمة على السياق، مما يجعلهما مرشحين قادرين للدراسات المعقدة في التحليل النوعي.
نموذج لغوي مدعوم بالتعلم الآلي والعميق ومطور في أبحاث Google يعرف باسم Notebook LM، يسمح التحليل والتوليف التفاعلي للعلماء لمجموعات نصية كبيرة [24]. نموذج DeepMind Gemini 1.5 Advanced Ultra هو نموذج معالجة لغة طبيعية
يدعم تحليلات أكثر تعقيداً وتوليفاً دقيقاً كما تم تسويقه [25]. وهذا يجعل كلا الأداتين مناسبين لتحليل المحتوى الأكاديمي أو المهني حيث تم تصميمهما بهياكل لتوليف كميات كبيرة من البيانات. في ديسمبر، تم تقديم نماذج جديدة ومحدثة أخرى. Gemini 2.0 Advanced هو النموذج الذي يحسن القدرات في المهام المعقدة مثل البرمجة، الرياضيات، المنطق، والتعليم [26]. GrokV2 هو نموذج دردشة الذكاء الاصطناعي من X الذي تم بناؤه مباشرة في منصة X (المعروفة سابقاً بتويتر) [27]. DeepSeekV3 مشهور بنموذجه اللغوي مفتوح المصدر الكبير مع مزيج من بنية الخبراء مجاناً بالكامل [28]. ChatGPT o1 هو النسخة الجديدة من GPT4 (المحول المدرب مسبقاً التوليدي). هذا النموذج لمعالجة اللغة الطبيعية حل محل وظيفة o1-preview في ديسمبر. يتم تقديمه بخصوصية قضاء المزيد من الوقت في التفكير قبل فهم هيكل المهمة وحلها بشكل أكثر فعالية [29]. أخيراً، ChatGPT o1-Pro، نموذج تم إنتاجه بواسطة OpenAI يكلف 200 دولار شهرياً، هو الأكثر فائدة للمهام المهنية بما في ذلك البحث الأكاديمي والتحليل الذي يحتاج إلى نتائج ذكاء اصطناعي متسقة وعالية الجودة عبر تفاعلات متعددة من الطلبات، والفهم، والتفكير [30].

إجراءات جمع البيانات والتحضير

تمت كتابة الاقتباسات بواسطة 454 طالباً لاحظوا ستة رفضات للمشاركة في الدراسة الرئيسية (بينيس وآخرون 2017). لذلك، تم جمع 448 اقتباساً وتم إخفاء الهوية كملفات PDF متاحة كمواد تكميلية على هذا الرابط [31] ومواد تكميلية 2. كل اقتباس هو وحدة استجابة منفصلة لهذا التحليل الموضوعي الحالي.

عملية تحليل البيانات

تضمنت هذه العملية ثلاث مراحل رئيسية، كما هو موضح في الشكل 1.

المرحلة 1A: تحليل دقة الترميز النوعي لاستجابات الطلاب

في الخطوة الأولى من التحليل، تم إيلاء اهتمام كبير لترميز 448 إجابة من المستجيبين لسؤال مفتوح واحد: “هل يمكنك كتابة جملة قصيرة عن الحالة النفسية المحتملة للشخص الذي لديه ندبة داء الليشمانيا الجلدي؟
تم ترميز كل استجابة بشكل مستقل، باستخدام خمس فئات: 1: تأثير نفسي سلبي؛ 2: تأثير طبيعي أو لا تأثير؛ 3: تأثير مختلط بين السلبي والطبيعي؛ 4: لا استجابة محددة للسؤال؛ 0: لا استجابة (صندوق فارغ). تم استخدام تسعة نماذج ذكاء اصطناعي توليدية خلال هذه المرحلة لتحليل الاقتباسات مرتين (ترميز 1، 2)، مع الكتابة فوق نتائج التحليل الأول قبل بدء الثاني لتجنب أي تأثير تعلم على النموذج. علاوة على ذلك، كانت نماذج الذكاء الاصطناعي
الشكل 1 إطار المراحل الثلاثة لتقييم ومقارنة الموضوعات الفرعية التي تم إنشاؤها بواسطة الذكاء الاصطناعي لهذه الدراسة
مستخدمة في نسخها المدفوعة باستثناء Llama وDeepSeek، المتاحة بالكامل كمصدر مفتوح. تم منح ميزة فقط للترميز اليدوي الذي قام به الباحث الثاني من خلال مقارنة نتائج تحليله الأول (Man_1st) مع نتائج المرجع A (المأخوذة من النتائج السابقة المنشورة [20]) وطلب أن يتم إجراء التحليل الثاني فقط من خلال استهداف الاستجابات التي كانت موضوع خلاف (Man_2nd). ضمنت هذه الإجراءات تحسيناً منهجياً في الاتساق الخارجي مع النتائج المرجعية لضمان أن نتائج التحليل الثاني كانت أكثر اتساقاً مع تلك الخاصة بالتحليل الثاني من خلال الترميز اليدوي.
ومع ذلك، تم صياغة نفس الطلب لنماذج الذكاء الاصطناعي دون تعلم مسبق (انظر الطلبات في المرحلة 1A في المواد التكميلية 3). تم حفظ النتائج التي تم الحصول عليها في تنسيق Excel أو CSV نصي. تم مرافقة تحليل البيانات بتسجيل فيديو لتوثيق العملية. جعل إجراء نفس التحليل مرتين لكل نموذج من الممكن مقارنة الاتساق الداخلي لجميع استجابات الطلاب (المواد التكميلية 1). على سبيل المثال، تم تسهيل تصنيف متقاطع لجميع استجابات الطلاب باستخدام مؤشر كابا لكوهين، الذي تم استخدامه لتحديد مدى أداء أنماط معينة مستمدة من الترميز الداخلي والخارجي مقارنة بتلك المستمدة من دفتر الرموز المرجعية (المواد التكميلية 4).
ومع ذلك، لفهم تجارب الطلاب مع داء الليشمانيا الجلدي والجوانب المتعلقة بالجنس، تم تنفيذ المرحلة 1B.
المرحلة 1B: تحليل دقة الترميز النوعي لاستجابات الطلاب المعلنة بأنها متأثرة بداء الليشمانيا الجلدي، ومقارنتها حسب الجنس
لهذا التحليل الجديد، تم استهداف فقط مجموعة فرعية من 79 طالباً أعلنوا أنهم متأثرون بداء الليشمانيا الجلدي. لحساب كابا كوهين باستخدام برنامج Jamovi، تم إعداد ملف Excel جديد ليشمل فقط بيانات الاختيار حول الطلاب المستهدفين (المواد التكميلية 5).

المرحلة 1C: تحليل مستوى الأهمية بين استجابات الطلاب المعلنة بأنها متأثرة بداء الليشمانيا الجلدي، ومقارنتها حسب الجنس حول طرق التحليل المستخدمة

يتم تقييم شكل التحليل النوعي من خلال تقييم نوعي للمتغيرات التالية (الجنس، أنواع الاستجابة ونماذج التحليل) لكل خيار استجابة لمشارك حول وجود أو عدم وجود تأثير نفسي اجتماعي مرتبط بالعواقب النفسية الاجتماعية لداء الليشمانيا الجلدي بشرط أن يكون عدد الأنواع محدوداً. تم تقليل أنواع الفئات كما يلي:
  • (P) وجود تأثير نفسي اجتماعي. إعادة تصنيف 1 إلى P (تأثير نفسي).
  • (N) لا أو ربما من تأثير نفسي (N). إعادة تصنيف 2 أو 3 إلى N (لا تأثير نفسي).
  • (U) لا رد محدد على السؤال أو لا رد على الإطلاق. إعادة تصنيف 0 أو 4 إلى U (غير محدد).
بالإضافة إلى ذلك، تم النظر في أنواع الاستجابات من خلال تحليل أولاً جميع الطلاب التسعة والسبعين الذين قالوا إنهم تأثروا بليشمانيا الجلد (المادة التكميلية 6). ثم، من خلال تحليل، في الجولة الثانية، فقط ثلاثة وستين طالبًا (المادة التكميلية 7 باستثناء الستة عشر صندوقًا الفارغ الذي اعتُبر أنه لا توجد استجابة). تم تحليل البيانات باستخدام برنامج Jamovi الإصدار 2.5.4، وتم حساب الدلالة الإحصائية باستخدام اختبار كاي تربيع أو اختبار فيشر الدقيق بشرط أن تكون قيمة p أقل من 0.05. تم الإبلاغ عن نتائج البرنامج لهذه المرحلة 1 في المادة التكميلية 8 والمادة التكميلية 9.

المرحلة 2: ملخص نوعي للمواضيع والمواضيع الفرعية

كانت المرحلة الثانية من التحليل محددة لنماذج الذكاء الاصطناعي وتهدف إلى التحقق من قدرتها على الدقة في التركيب النوعي للمواضيع والمواضيع الفرعية المتعلقة بالنتائج المنشورة. شملت هذه المرحلة تقييم متانة استجابات الذكاء الاصطناعي مقارنة بالإطار المرجعي. تم الوصول إلى النتائج باستخدام محفزين، متاحين في المواد التكميلية 10.
تم تنفيذ طريقة 2-1 مرتين لجميع النماذج التسعة لتوليد الذكاء الاصطناعي (بعد كل إكمال، تم حذف النتائج السابقة قبل إعادة تشغيل نفس الطلب). نتيجةً لهذا الطلب، تم إنشاء نصين لكل نموذج، تم تسجيلهما كملفات PDF تُعرف باسم “1st” و”2nd”. في الوقت نفسه، استخدمت طريقة 2-2 طلبًا موحدًا آخر، مما أدى إلى إنشاء ملفين PDF إضافيين يُطلق عليهما “3rd” و”4th”. لفهم هذه العملية بشكل أفضل، تتوفر عرضان فيديو في [32] و[33].
نتائج دفتر السجل من Llama 3.1 405B تم ترميزها كنموذج “B”. نتائج NotebookLM تم ترميزها كنموذج “C”؛ نتائج Gemini 1.5 Advanced Ultra تم ترميزها كنموذج “D”؛ نتائج Claude 3.5 Sonnet تنتمي إلى نموذج “E”؛ نتائج ChatGPT o1-Pro تقع تحت نموذج “F”؛ نتائج ChatGPT o1 تم ترميزها كنموذج “G”؛ تم ترميز GrokV2 كنموذج “H”؛ DeepSeekV3 تم ترميزها كنموذج “K” وأخيرًا، تم ترميز Gemini 2.0 Advanced كنموذج “M”.
تم تقديم موجه المرجع A في المرحلة 2 في نموذج ذكاء اصطناعي منفصل يسمى Perplexity Pro لتطوير موضوعات المرجع A وموضوعاته الفرعية بشكل مستقل [34]. في الواقع، باستخدام موجهات منظمة (المادة التكميلية 11) التي تجمع المعلومات من النص المنشور الذي تمت مراجعته من قبل الأقران والإطار الذي تم تضمينه سابقًا في مقال بينيس وآخرون 2017 والمقدم في المادة التكميلية 12. أربع تكرارات من نفس الشيء
تم إنشاء المطالبات باستخدام نموذج Perplexity لتغطية النتائج المستهدفة المشتركة بين المطالبات الأربعة المتعاقبة التي تم إنشاؤها، كما هو موضح في [35]. تهدف هذه الطريقة إلى ضمان التناسق مع المعرفة التي تم تأسيسها سابقًا مع الاستفادة من إمكانيات الذكاء الاصطناعي في التوليف والتنظيم الموضوعي المنهجي.

المرحلة 3: التحليل المقارن لدقة الموضوعات الفرعية في التركيب بواسطة النماذج B و C و D و E و F و G و H و K و M المدعومة بالذكاء الاصطناعي. مقارنةً بالمرجع

سمحت المرحلة 3A بمقارنة 24 موضوعًا فرعيًا من المرجع A مع كل من النماذج B وC وD وE وF وG وH وK وM. في الواقع، مكنت نتائج المرحلتين 2-1 و2-2، المستندة إلى الملف الأولي الذي يحتوي على جميع ردود الطلاب، كل نموذج من توليد أربع تحليلات موضوعية تم ملاحظتها 1st و2nd و3rd و4th. تضمنت مصفوفة الردود (المادة التكميلية 13) 24 موضوعًا فرعيًا من المرجع A ولكل عمود كمتغير، الموضوعات الفرعية 1st و2nd و3rd و4th لكل نموذج، بالإضافة إلى الثلاثة تركيبات التالية 1st+2nd و3rd+4th و1st + 2nd + 3rd + 4th. apart from this، تم مقارنة تحليل الموضوعات لكل من النماذج الأربعة وتركيباتها مع 24 موضوعًا فرعيًا من المرجع A باستخدام مصفوفة P/A التي تحدد كل موضوع فرعي على أنه ‘موجود’ أو ‘غير موجود’. تم جعل المقارنة ممكنة من خلال استخدام نموذج NotebookLM. شمل هذا النموذج تحميل جميع ملفات PDF الأربعة (1st و2nd و3rd و4th) لكل من النماذج التسعة للذكاء الاصطناعي كمصادر، مع مقارنة Canvas المعدلة مع المرجع A (المادة التكميلية 14).
ثم، تم تطبيق طلب للمرحلة 3A (انظر المواد التكميلية 15) بشكل منهجي لكل نموذج محدد. من خلال إدخال حرف “X”، لم يكن هناك حاجة لاستبدال حرف النموذج المحدد B، C، D، E، F، G، H، K، وM يدويًا لكل طلب. (كما هو موضح في عرض الفيديو) [36]. يجب ملاحظة أن استخدام NotebookLM كان مدفوعًا كونه النموذج الوحيد الذي يمكنه قبول أكثر من 50 موردًا كمرفقات لنفس المشروع، مما ساعد على إعادة إنتاج النتائج من خلال إعادة تشغيل نفس الطلبات المتكررة. علاوة على ذلك، كانت إمكانية اختيار موارد دقيقة في كل مرة مثالية لتجنب أي تعلم غير مقصود قد يؤثر على توليد نتائج النموذج المحدد.
ثم، المرحلة 3B، تم حساب دقة الموضوعات الفرعية المحددة باستخدام النماذج المدعومة بالذكاء الاصطناعي مقارنةً بالنتائج المرجعية (A) مع تطبيق مؤشر جاكارد.
إن مؤشر جاكارد يُعرف بأنه النسبة بين التقاطع والاتحاد لمجموعات الموضوعات الفرعية المرجعية المتعلقة بالموضوعات الفرعية لكل من النماذج المستخدمة من خلال تطبيق الصيغة التالية: / | .
مؤشر جاكارد هو مقياس إحصائي مستخدم على نطاق واسع لتقييم التشابه بين المجموعات، خاصة في استرجاع المعلومات وتنقيب النصوص. يحسب هذا المؤشر نسبة التقاطع إلى اتحاد مجموعتين، مما ينتج عنه قيمة تتراوح بين 0 (عدم وجود تشابه) و1 (تشابه تام). يغطي نطاقه مقارنة الكلمات الرئيسية الأكثر سطحية إلى المستويات الأكثر تعقيدًا للوثائق الكاملة، خاصة فيما يتعلق بتجميع الوثائق وتنقيب النصوص. يتمتع بحسابات بسيطة ونتائج ممتازة في مقارنة تشابهات النصوص المختلفة في العديد من مجالات التحليل واسترجاع المعلومات. في المرحلة 3B، تم حساب مؤشر جاكارد في هذه الدراسة الحالية استنادًا إلى ملف Excel المجمّع في المادة التكميلية 16، مما ساعد على استخدام الشيفرة الخوارزمية المشتركة في إصدار بايثون 3.13.0، كما تم الإشارة إليه في المادة التكميلية 17.

نظرية مؤسسية لرؤى إطار جديدة

استنادًا إلى اقتراحات المراجعين الخارجيين، تم إضافة المرحلة النهائية 3C من خلال تطوير موجه نظرية مستندة إلى الذكاء الاصطناعي باستخدام أفضل نموذج ذكاء اصطناعي متاح، وضم 448 اقتباسًا من الطلاب الأوائل (كما هو متاح في المواد التكميلية 18). تم إنشاء الموجه من خلال السؤال عن نماذج مفاهيمية مبتكرة وشرحها باستخدام التحليل الموضوعي وتطبيق نظرية مستندة للتحقيق في أفكار غير قابلة للمقارنة كما تم مناقشته.
الجدول 1 معاملات كوهين كابا الموزونة مع القيم الدنيا والعليا لنماذج الذكاء الاصطناعي التوليدية حول تماسكها الداخلي والمقارنة مع المرجع الأول A لــ 448 استجابة تم تحليلها في المرحلة A1
المقارنة بين الأزواج تقدير الاتساق الداخلي (الأول مقابل الثاني) تقدير التوافق الخارجي مع المرجع الأولي A
مانا_1 0.88 [0.83، 0.92] 0.74 [0.68، 0.80]
مانا_2 0.82 [0.77، 0.87]
كلود_الأول 0.99 [0.97، 1.00] 0.78 [0.73، 0.84]
كلود_2 0.78 [0.73، 0.84]
نوتبوك إل إم_1 0.93 [0.89، 0.96] 0.72 [0.65، 0.78]
نوتبوك إل إم_2 0.76 [0.71، 0.82]
جمني1.5_1 0.92 [0.89، 0.96] 0.73 [0.67، 0.79]
جمني1.5_2 0.77 [0.72، 0.83]
لاما_1 0.79 [0.73، 0.86] 0.75 [0.68، 0.82]
لاما_2 0.78 [0.72, 0.83]
شات جي بي تي – 01_1 0.80 [0.75، 0.85] 0.77 [0.71، 0.82]
شات جي بي تي-01_2 0.71 [0.65، 0.76]
شات جي بي تي-01 برو_1 0.97 [0.94، 0.99] 0.79 [0.74، 0.85]
شات جي بي تي – 01 برو – 2 0.79 [0.73، 0.84]
جروك V2_1 0.78 [0.72، 0.84] 0.66 [0.60، 0.73]
جروك V2_2 0.77 [0.71، 0.83]
ديب سيك V3_1 0.90 [0.86، 0.94] 0.76 [0.70، 0.81]
ديب سيك V3_2 0.75 [0.69، 0.81]
جمني2.0_1 0.79 [0.74، 0.85] 0.63 [0.57، 0.69]
جمني2.0_2 0.76 [0.70، 0.82]
في المراجع الثلاثة المذكورة [3، 5-7]. ثم، باستخدام نفس النموذج، تم بدء عملية مثلثية مع هذه الجملة: ‘قم بمثلث نتائجك مع الرؤى التالية أثناء تقديم إطار مفاهيمي أصلي وغير تقليدي’، مضيفًا جميع الموضوعات الفرعية الجديدة التي تم جمعها والتي تم إنشاؤها بواسطة أكثر نماذج الذكاء الاصطناعي أداءً والتي حققت أعلى مؤشر جاكارد في الخطوة النهائية من المرحلة 2 والمبلغ عنها في المواد التكميلية 19. وقد ولدت هذه العملية مثلثات جديدة وموضوعات فرعية مفيدة لإنشاء إطار عمل جديد، بما في ذلك أفكار ثاقبة لم يتم تقديمها بالفعل خلال تحليل الموضوعات الدراسية ولا في المقالة المنشورة قبل عدة سنوات [20]. استغرق كامل العملية أقل من 15 دقيقة، كما تم الإشارة إليه في عرض الفيديو [40]. تم استخدام أداة نابكين للذكاء الاصطناعي التوليدية لتطوير الإطار المقترح [41] باستخدام التركيب التوليدي للنتائج التي تم الوصول إليها (انظر المواد التكميلية 20).
تفي الدراسة بمعايير SRQR (معايير الإبلاغ عن البحث النوعي) الموجودة في المادة التكميلية 21 [42].

النتائج

توضح الجدول 1 الأداء المقارن لمختلف نماذج الذكاء الاصطناعي في التحليل النوعي الآلي مقارنة بالطرق اليدوية التقليدية. كشفت معاملات كوهين كابا الموزونة عن مستويات أداء متفاوتة فيما يتعلق بالاتساق الداخلي والتوافق مع المعيار المرجعي الأولي (المرجع A). أظهرت النتائج أن نماذج Claude_1st و NoteboookLM_1st و Gemini_1st حققت درجات كابا موزونة عالية في التقييم الأول مع انخفاض في تباين التقييمات. فيما يتعلق بالاتساق الخارجي مع المرجع A، تراوح الأداء عبر النماذج من اتفاق معتدل إلى قوي. حقق ChatGPT o1-Pro أعلى اتساق خارجي (0.79 [ ])، تليها كلود ( 0.78 [ ]) ولاما ( 0.78 [ ]). أظهرت التحليلات اليدوية تقدمًا من التناسق الخارجي الأولي ( 0.74 [ ]) إلى التقييم الثاني ( 0.82 [0.77، 0.87]).
توثقت النتائج في الجدول 2 أنماطًا محددة عبر مجموعات الجنس في قدرات التحليل النوعي المدعوم بالذكاء الاصطناعي. أظهرت Llama 3.1 405B توافقًا خارجيًا مستمرًا مع المرجع A (Карра [0.680.97] للتحليل الأول، لتحليل الثاني)، مع الحفاظ على الأداء عبر مجموعات الجنس الفرعية. حقق ChatGPT o1-Pro اتساقًا داخليًا مثاليًا (كاررا عبر جميع المجموعات الفرعية، مع درجات اتفاق خارجي متسقة (كاررا [0.69-0.94]). أظهر تحليل ردود الطالبات في سونيت كلود 3.5 اتساقًا داخليًا مثاليًا (كابا [1.00-1.00]) وحافظت على اتساق خارجي مستقر (كابا سجلت NotebookLM و Gemini 1.5 Advanced Ultra مقاييس أداء قوية.
الجدول 2 تقديرات كابا كوهين مع فترات الثقة الدنيا والعليا للتناسق الخارجي (مقارنة بالمرجع A) والتناسق الداخلي (التحليل الأول مقابل التحليل الثاني) لجميع الطلاب الـ 79 الذين تأثروا سابقًا بـ CL (35 إناث و44 ذكور) الذين تم تحليلهم في المرحلة 1B
نموذج كابا_الجميع_الأول ضد ريف_A كابا_الجميع_الثاني ضد ريف_أ التناسق الداخلي جميع 1 ضد 2 كابا_أنثى_الأولى ضد ريف_أ كابا_أنثى_المرتبة الثانية ضد ريف_أ الاتساق الداخلي الإناث 1 مقابل 2 كابا_ذكر_الأول ضد ريف_أ كابا_ ذكر_ الثاني ضد ريف_أ الاتساق الداخلي الذكور 1 مقابل 2
رجل 0.59 (0.42-0.77) 0.77 (0.63-0.92) 0.82 (0.72-0.93) 0.47 (0.15-0.79) 0.76 (0.44-1.00) 0.57 (0.25-0.90) 0.63 (0.44-0.83) 0.78 (0.61-0.94) 0.88 (0.80-0.96)
سونيت كلود 3.5 0.66 (0.51-0.81) 0.71 (0.54-0.87) 0.98 (0.94-1.00) 0.80 (0.52-1.00) 0.80 (0.52-1.00) 1.00 (1.00-1.00) 0.64 (0.47-0.81) 0.70 (0.51-0.89) 0.97 (0.92-1.00)
نوتبوك إل إم 0.76 (0.64-0.88) 0.82 (0.71-0.93) 0.91 (0.81-1.00) 0.64 (0.38-0.90) 0.78 (0.56-1.00) 0.73 (0.41-1.00) 0.80 (0.67-0.93) 0.83 (0.71-0.95) 0.97 (0.91-1.00)
جمني 1.5 المتقدم ألترا 0.77 (0.63-0.90) 0.82 (0.71-0.93) 0.97 (0.92-1.00) 0.78 (0.58-0.99) 0.88 (0.70-1.00) 0.90 (0.73-1.00) 0.76 (0.59-0.93) 0.80 (0.67-0.93) 0.99 (0.98-1.00)
لياما 405B 0.82 (0.68-0.97) 0.83 (0.68-0.97) 0.97 (0.92-1.00) 0.82 (0.51-1.00) 0.82 (0.51-1.00) 1.00 (1.00-1.00) 0.82 (0.66-0.98) 0.83 (0.67-0.99) 0.95 (0.88-1.00)
شات جي بي تي 01 0.78 (0.64-0.92) 0.70 (0.58-0.83) 0.79 (0.67-0.92) 0.80 (0.52-1.00) 0.64 (0.38-0.90) 0.85 (0.63-1.00) 0.77 (0.62-0.93) 0.73 (0.59-0.86) 0.78 (0.62-0.93)
شات جي بي تي o1_PRO 0.81 (0.69-0.94) 0.81 (0.69-0.94) 1.00 (1.00-1.00) 0.80 (0.52-1.00) 0.80 (0.52-1.00) 1.00 (1.00-1.00) 0.82 (0.68-0.96) 0.82 (0.68-0.96) 1.00 (1.00-1.00)
غروك V2 0.76 (0.64-0.87) 0.79 (0.66-0.91) 0.90 (0.80-0.99) 0.77 (0.56-0.98) 0.80 (0.52-1.00) 0.74 (0.50-0.99) 0.75 (0.61-0.89) 0.80 (0.67-0.94) 0.94 (0.86-1.00)
ديب سيك V3 0.78 (0.66-0.90) 0.75 (0.61-0.90) 0.92 (0.81-1.00) 0.64 (0.38-0.90) 0.80 (0.52-1.00) 0.85 (0.63-1.00) 0.83 (0.71-0.95) 0.76 (0.59-0.93) 0.93 (0.80-1.00)
جمني 2.0 المتقدم 0.69 (0.54-0.84) 0.73 (0.62-0.85) 0.80 (0.65-0.94) 0.96 (0.90-1.00) 0.80 (0.52-1.00) 0.85 (0.85-1.00) 0.63 (0.45-0.82) 0.74 (0.60-0.87) 0.80 (0.64-0.95)
كشفت تحليل الجدول 3 عن أنماط توزيع الاستجابة عبر حجمين من العينات (63 و79 استجابة). في مجموعة بيانات الـ 79 استجابة، أظهر كل من Claude 3.5 Sonnet وChatGPT o1-Pro وChatGPT o1 دلالة إحصائية. في كلا التحليلين. أظهر ChatGPT o1-Pro تصنيفات غير محددة (U) أقل مقارنة بالإصدارات السابقة، بينما سجل Llama 3.1 405B تصنيفات غير محددة (U) قليلة جداً في عينة من 63 استجابة.
حدد التحليل خمسة مواضيع رئيسية تشمل 24 موضوعًا فرعيًا مميزًا، كما هو موضح في الجدول 4: مفهوم الذات (أربعة مواضيع فرعية تتناول الهوية الشخصية)، صورة الجسم (ثلاثة مواضيع فرعية تركز على المظهر)، الوصمة الاجتماعية (خمسة مواضيع فرعية تفحص التأثيرات بين الأفراد)، الوصمة الذاتية (ستة مواضيع فرعية توضح الاستجابات النفسية)، وسلوك البحث عن الصحة (ستة مواضيع فرعية تغطي التكيف والعلاج).
وثقت الجدول 5 قدرات التوافق الموضوعي لإصدارات نماذج الذكاء الاصطناعي الأحدث. توافقت ChatGPT o1-Pro وChatGPT o1 وGrokV2 وDeepSeekV3 مع المرجع A في نسخها النهائية، حيث حددت كل منها جميع 24 موضوعًا فرعيًا (مؤشر جاكارد ).
أخيرًا، سمحت لنا نظرية الأساس المستندة إلى الذكاء الاصطناعي المتبعة في المرحلة 3C بالحصول على نتائج جديدة من المواضيع والمواضيع الفرعية المقدمة في الملف الإضافي 10qua. تم استخدام تلك النتائج لإنشاء الإطار النهائي.
أنتج التحليل إطار دائرة الفراكتال للثغرات، وهو إطار متكامل لفهم التأثيرات النفسية والاجتماعية متعددة المستويات لمرض الليشمانيا الجلدية (الشكل 2)، ويتكون من خمس دوائر مترابطة: الجوهر الشخصي، دائرة العلاقات، المجال الاجتماعي الثقافي، السياق المؤسسي، وعوامل المرونة. وقد تضمن هذا الإطار أبعادًا لم يتم تناولها سابقًا، بما في ذلك الوصمة الناتجة عن الارتباط، والوصمة الهيكلية، والتجارب الخاصة بالجنس.
تقدم الهيكل الدائري للإطار، الذي يبرز التفاعلات المستمرة بين المجالات، فهمًا أكثر دقة لكيفية تفاعل مستويات التأثير المختلفة واستمرارها في تعزيز نقاط الضعف. ومن الأهمية الخاصة العناصر التي تم تحديدها حديثًا مثل الوصمة الناتجة عن الارتباط التي تؤثر على أفراد الأسرة والجهات المقربة، والوصمة الهيكلية التي تشمل الحواجز النظامية، والتجارب المحددة حسب الجنس التي تبرز التأثيرات غير المتناسبة على النساء والفتيات.

نقاش

تقييمت هذه الدراسة إمكانيات الذكاء الاصطناعي في إجراء التحليل الموضوعي، مع التركيز على تطبيقاته في الدراسات النوعية للتجارب الذاتية المتعلقة بالتأثيرات المدركة ذاتياً للندوب الناتجة عن الليشمانيا الجلدية. تظهر النتائج أن المنهجيات المدفوعة بالذكاء الاصطناعي تحسن من الاتساق، وإمكانية التكرار، والعمومية مقارنةً بأساليب التحليل النوعي القياسية.
الجدول 3 جدول الطوارئ لاختلاف الجنس يظهر قيمة كاي لكل نموذج مقارنة بين نوعين من الاستجابات من الإناث والذكور من تسعة وسبعين طالبًا تأثروا بمرض الليشمانيا الجلدية ومجموعة فرعية من ثلاثة وستين طالبًا بعد استبعاد الستة عشر استجابة فارغة (تمت الحسابات باستخدام برنامج جاموفي الإصدار 2.5.4)
توزيع الجنس النتائج الأولى النتائج الثانية
P ن أنت تشي P ن أنت تشي
المرجع أ ل63 ردًا ٢٥ ٦ 0 0.65
23 ٨ 1
المرجع أ لعدد 79 ردًا ٢٥ ٦ ٤ 0.14
23 ٨ ١٣
رجل لـ 63 ردًا ٢٤ ٧ 0 0.01* 27 ٤ 0 0.04*
21 ٤ ٧ ٢٢ ٤ ٦
رجل لـ 79 ردًا ٢٤ ٧ ٤ 0.006* 27 ٤ ٤ 0.01*
21 ٤ 19 ٢٢ ٤ ١٨
كلود سونيت لـ 63 ردًا 26 ٤ 1 0.13 26 ٤ 1 0.1
21 ٥ ٦ 21 ٤ ٧
كلود سونيت لـ 79 ردًا 26 ٤ ٥ 0.027* 26 ٤ ٥ 0.02*
21 ٥ ١٨ 21 ٤ 19
NoteboookLM لـ 63 ردود ٢٤ ٥ 2 0.39 ٢٥ ٥ 1 0.28
٢٢ ٤ ٦ ٢٢ ٥ ٥
NoteboookLM لـ 79 ردود ٢٤ ٥ ٦ 0.06 ٢٥ ٥ ٥ 0.05
٢٢ ٤ ١٨ ٢٢ ٥ 17
جمني 1.5 لـ 63 استجابة ٢٥ ٥ 1 0.28 ٢٤ ٦ 1 0.25
٢٢ ٥ ٥ 23 ٤ ٥
جمني 1.5 لـ 79 استجابة ٢٥ ٥ ٥ 0.05 ٢٤ ٦ ٥ 0.04*
٢٢ ٥ 17 23 ٤ 17
لاما لـ 63 ردًا 26 ٥ 0 0.75 26 ٥ 0 0.36
٢٥ ٧ 0 23 9 0
لاما لـ 79 ردًا 26 ٥ ٤ 0.18 26 ٥ ٤ 0.12
٢٥ ٧ 12 23 9 12
ChatGPT o1 لـ 63 ردود 26 ٤ 1 0.09 ٢٥ ٥ 1 0.21
٢٢ ٣ ٧ 19 10 ٣
ChatGPT o1 لـ 79 ردود 26 ٤ ٥ 0.02* ٢٥ ٥ ٥ 0.04*
٢٢ ٣ 19 19 10 15
ChatGPT o1 PRO لـ 63 ردًا 26 ٤ 1 0.19 26 ٤ 1 0.19
23 ٣ ٦ 23 ٣ ٦
ChatGPT o1 PRO مقابل 79 ردًا 26 ٤ ٥ 0.03* 26 ٤ ٥ 0.03*
23 ٣ 18 23 ٣ 18
جروك V2 لـ 63 ردًا ٢٤ ٦ 1 0.74 26 ٤ 1 0.52
23 ٦ ٣ ٢٤ ٤ ٤
جروك V2 لـ 79 ردًا ٢٤ ٦ ٥ 0.13 26 ٤ ٥ 0.08
٢٣ ٦ 15 ٢٤ ٤ 16
DeepSeekV3 لـ 63 استجابة 25 ٥ 1 0.31 26 ٤ 1 0.17
23 ٤ ٥ ٢٢ ٤ ٦
DeepSeekV3 لـ 79 استجابة ٢٥ ٥ ٥ 0.05 26 ٤ ٥ 0.03*
23 ٤ 17 ٢٢ ٤ ١٨
جمني 2.0 لـ 63 استجابة ٢٥ ٤ 2 0.11 26 ٤ 1 0.28
18 ٧ ٧ ٢٢ ٦ ٤
جمني 2.0 لـ 79 استجابة ٢٥ ٤ ٦ 0.01 26 ٤ ٥ 0.07
١٨ ٧ 19 ٢٢ ٦ 16
(P) وجود تأثير نفسي اجتماعي. إعادة ترميز 1 إلى P (تأثير نفسي)
(N) لا أو ربما من التأثير النفسي (N). إعادة ترميز 2 أو 3 إلى N (لا تأثير نفسي)
(U) لا رد محدد على السؤال أو لا رد على الإطلاق. إعادة ترميز 0 أو 4 إلى U (غير محدد)
دون تحليل الردود الفارغة (عدد الطلاب=63)
مع تحليل الاستجابات الفارغة (عدد الطلاب=79)
(*) أو مستوى الدلالة الدقيق لفشر إذا كانت قيمة p أقل من 0.05
الجدول 4: يتم استخدام 24 موضوعًا فرعيًا ناتجًا عن التحليل الموضوعي الأولي المذكور في المرجع A لمقارنة دقة عملية التركيب النوعي.
الموضوع الرئيسي مرجع الموضوع الفرعي A شرح موجز للموضوع الفرعي للمرجع A
تصور الذات الثقة بالنفس فقدان الثقة بالنفس بسبب الندوب
تقدير الذات انخفاض تقدير الذات المرتبط بالمظهر
الوعي الذاتي زيادة الوعي بالمظهر الجسدي
احتقار الذات الكراهية الذاتية بسبب الندوب
صورة الجسم جمال الجسم الانشغال بجمال الجسم
مظهر الوجه أهمية المظهر الوجه
آثار الندبات التجميلية التأثيرات التجميلية للندوب
وصمة اجتماعية عائلة العلاقات الأسرية المتأثرة بخوف العدوى
تجنب من قبل الآخرين تجنب الآخرين بسبب الندوب
ازدراء اجتماعي الازدراء الاجتماعي للندوب
صعوبات الزواج صعوبات الزواج المرتبطة بالمظهر الجسدي
خوف من الرفض خوف من الرفض الاجتماعي والعدوى
الوصمة الذاتية إحراج مشاعر الانزعاج المرتبطة بالندوب
عار تشعر بالخجل من مظهرك في الأماكن العامة
قلق
حزن
الاكتئاب الاكتئاب الناتج عن الندوب
أفكار انتحارية أفكار انتحارية مرتبطة بالندوب
سلوك البحث عن الصحة تقليدي استخدام العلاجات التقليدية لعلاج الندبات
العلاجات التقليدية العلاجات الطبية التقليدية غالبًا ما تكون غير فعالة.
استراتيجيات التكيف استراتيجيات التكيف لإخفاء الندوب
الدعم النفسي أحتاج إلى دعم نفسي للتعامل مع الندوب.
تدخل الحكومة دعوة للتدخل الحكومي لضمان الرعاية بأسعار معقولة.

دقة وتناسق نماذج الذكاء الاصطناعي التطورية

أظهرت دقة وثبات نماذج ثوار الذكاء الاصطناعي تحسينات ملحوظة في الدقة والاستقرار (خصوصًا نماذج جمني وChatGPT). تميز ChatGPT o1-Pro من خلال التحليل مقارنةً بنماذج الذكاء الاصطناعي الأخرى التي تم مراجعتها. تم تحقيق أمثلة قابلة للقياس على هذه الفروقات في الأداء.
من خلال معاملات كابا الموزونة ومؤشرات جاكارد، وهي مقاييس مقبولة على نطاق واسع لمدى موثوقية التحليلات. إحدى الرؤى المهمة المتعلقة بمعالجة الاستجابات الغامضة: كانت النسخ السابقة من النموذج أكثر عرضة لتصنيف الاستجابات على أنها غير محددة (U)، خاصة عندما كانت البيانات معقدة. هذا يعالج التحسن الملحوظ في قدرة النماذج الجديدة على معالجة التحليل النوعي الطبوغرافي بعمق وفهم أفضل للتحولات السلوكية النفسية الاجتماعية. هذا التحسين في القدرة التحليلية يلبي ضرورة موثوقية تصنيفات استجابات الذكاء الاصطناعي هذه.
تعتبر عمليات مراقبة الجودة من حيث التطوير أو الوصول إلى استنتاج بناءً على إمكانية إعادة إنتاج التحليل أكثر وأكثر ضرورة في بعض النماذج [16]. على سبيل المثال، أصبح من الممكن الآن إجراء تحليل المشاعر باستخدام أحدث النماذج اللغوية، خاصة تلك التي تستهدف وسائل التواصل الاجتماعي مثل Grok وLlama، وهو ما لم يكن ممكنًا مع LLM قبل ثلاث سنوات فقط [44]. لم يتم الوصول بعد إلى سباق عالمي لإنشاء نماذج ذكاء اصطناعي توليدية أكثر تقدمًا قادرة على إجراء تحليل نوعي دقيق وحساس للبيانات [45]. ومع ذلك، استنادًا إلى مؤشر جاكارد، من السهل تأكيد أنه في هذه الدراسة الحديثة، تميل أحدث إصدارات نماذج الذكاء الاصطناعي الجديدة (ChatGPT، Gemini، DeepSeek) على مدى الشهرين إلى الأربعة أشهر الماضية إلى أن تكون أكثر دقة في أي تحليل نوعي. لذلك، في المستقبل، سيكون هناك المزيد من النماذج المدربة مسبقًا وأقل من المطالبات اليدوية لتحليل دقة أسهل ومراجعة [17، 46].

فعالية التثليث المدعوم بالذكاء الاصطناعي

التثليث هو تقنية نوعية لا غنى عنها تعزز من صحة نتائج البحث النوعي من خلال دمج طرق أو بيانات متعددة [47]. تأخذ هذه الدراسة حول تطبيق الذكاء الاصطناعي في التحليل الموضوعي نهجًا للتثليث يتطلب الوصف وفهم السياق الذي يتم فيه إجراء التركيب الموضوعي التقليدي أولاً [48].
تظهر هذه الدراسة أن نماذج الذكاء الاصطناعي يمكن أن تعمل كأداة مثلثية آلية، مما يجعل التحليلات تتجاوز البيانات الأولية وتنتج أطرًا تفسيرية أو فرضيات أكثر [48]. يمكن أن تترجم هذه النماذج اللغات واللهجات المنطوقة في جمل (أو اقتباسات) مشابهة مثل الدارجة المغربية، الأمازيغية المغربية، العربية المغربية أو الفرنسية دون مشكلة كبيرة. كان من المتوقع أن يؤثر الارتفاع المتوقع في التكرارات بشكل إيجابي على تدابير مراقبة الجودة والمثلثية.

رؤى نظرية grounded A.l.

مصطلح “نظرية الأساس المعززة بالذكاء الاصطناعي” يمثل تطورًا منهجيًا يستحق الملاحظة فيما يتعلق بكيفية مساعدة نماذج الذكاء الاصطناعي وتحسينها لأساليب نظرية الأساس في البحث النوعي [49]. اعتمادًا على
الجدول 5 قيم مؤشر جاكارد للنماذج المستخدمة، بمفردها أو مجتمعة، في التحليل النوعي مقارنة بالمرجع A باستخدام بايثون 3.13.0
نموذج(نماذج) جاكار (A, X1_X2) جاكارد (A، X3_X4) جاكار (A, X1_X2_X3_X4) مواضيع فرعية مشتركة مواضيع فرعية فردية صيغة حساب مؤشر جاكارد لأربعة تركيبات نوعية لنفس النموذج J (A, X)
ب: ليما 3.1 0.67 0.63 0.79 19 ٢٤ 19 / (24 + 19-19)
ج: نوتبوك إل إم 0.54 0.54 0.63 15 ٢٤ 15 / (24+15-15)
دي: جمنائي 1.5 أدف أولترا 0.58 0.71 0.75 ١٨ ٢٤ 18 / (24 + 18 – 18)
إي: كلود 3.5 سونيت 0.50 0.83 0.83 20 ٢٤ 20 / (24+20-20)
F: دردشة GPTo1 PRO 0.96 1.00 1.00 ٢٤ ٢٤ 24 / (24+24-24)
جي: دردشة جي بي تي 01 0.87 0.96 1.00 ٢٤ ٢٤ 24 / (24 + 24 – 24)
H: جروك V2 0.92 0.96 1.00 ٢٤ ٢٤ 24 / (24+24-24)
K: DeepSeek V3 0.83 1.00 1.00 ٢٤ ٢٤ 24 / (24 + 24 – 24)
M: جمنائي 2.0 المتقدم 0.87 0.92 0.92 ٢٢ ٢٤ 22 / (24+22-22)
‘ X ‘ يمكن استبداله بالحرف B أو C أو D أو E أو F أو G أو H أو K أو M. مع العلم أن B يمثل نموذج LlaMA 3.1، وC يمثل نموذج NotebookLM، وD يمثل نموذج Gemini1.5 Advanced Ultra، وE يمثل نموذج Claude 3.5 Sonnet، وF يمثل نموذج Chat GPTo1 PRO، وG يمثل نموذج Chat GPTo1، وH يمثل نموذج GrokV2، وK يمثل نموذج DeepSeekV3، وM يمثل نموذج Gemini2.0 Advanced. الصيغة الحسابية المستخدمة هي كما يلي

دائرة الفراكتل للثغرات

الشكل 2 إطار دائرة الفجوات المتكررة
القدرات الفعلية لكل نموذج، حول قبول أو عدم قبول الملفات الخارجية، عددها وحجمها، مع أو بدون سهولة إعطاء أوامر أو تعليمات إضافية للمطالب الموحدة، تكون نتائج الذكاء الاصطناعي عميقة و/أو مفصلة.
ثم، القرار بالاحتفاظ فقط بالنماذج الأربعة التي وصلت إلى مؤشر جاكار الكامل سمح بتوليف قوي جداً لرؤى جديدة وساعد في إنشاء إطار دائرة الفراكتال الجديدة للثغرات التي تم تطويرها من خلال
هذا النهج الهجين. الاتساق في هذا الإطار (الشكل 2)، خاصة فيما يتعلق بالدراسات الخاصة بالجنس، يعني سهولة فهم الفرق بين الآثار النفسية الاجتماعية ووجود مثل هذه الآثار النفسية الاجتماعية، متجاوزاً إمكانية التصنيف المفرط لاستكشاف بعض هذه الأفكار والبنى التي تؤكد على المرونة. في الواقع، تشير المرونة إلى طرق أوسع للتعامل مع التجارب الفردية والظروف الهيكلية المرتبطة بثغرات CL. هذه الأدلة بارزة بشكل خاص في التحليلات الخاصة بالجنس، حيث أظهرت الذكاء الاصطناعي قدرته على التقاط الفروق الدقيقة في التجارب الحياتية، وهي عملية حيوية لتطوير النظرية المستندة [14] والمنهجية [7]. علاوة على ذلك، شملت الموضوعات الفرعية التي تم التقاطها بناءً على تحليل الاقتباسات جميع الجوانب المختارة، مثل ما تم تقديمه في المراجعة المنهجية التي تستكشف الآثار الثقافية للجنس على تصورات CL [50]. هذه الطريقة المقترحة للتعامل مع هذه الظاهرة النوعية باستخدام الذكاء الاصطناعي تستند إلى المفهوم الذي تم اقتراحه لأول مرة في عام 2021 والذي ركز على تطوير التعايش المتناغم والتعاون بين نماذج الذكاء الاصطناعي التوليدية والبشر في تحليل البيانات النوعية [51].

CAQDAS مقابل الأنظمة النوعية – الذكاء الاصطناعي

لقد طرحت أدوات التحليل المدفوعة بالذكاء الاصطناعي تحديات منهجية جديدة لبرامج CAQDAS، التي واجهت تقليدياً مقاومة من الأنثروبولوجيين وعلماء الاجتماع على حد سواء. إحدى القضايا الرئيسية هي ما إذا كان يمكن أن يكون العينة النوعية تمثيلية عند استخدام الذكاء الاصطناعي، مثل تلك المستخدمة خصيصاً للبحث الحساس للسياق. كما سيجادل النقاد، قد يعيق التركيز على عينة التباين الأقصى تعميم الرؤى الأوسع من الدراسات النوعية خارج السياقات الميدانية الفورية، مما يجعل نتائجها بالكاد قابلة للتحويل إلى مجموعات سكانية أكبر [52].
نموذج توليدي جديد قائم على الذكاء الاصطناعي يستهدف الباحثين النوعيين لتمكينهم من تحليل كميات أكبر من البيانات النوعية وتحسين جودتها وتغطيتها وأهميتها. بالإضافة إلى ذلك، يمكن تطبيق مثل هذه النماذج التوليدية للذكاء الاصطناعي في العديد من التخصصات الصحية الأخرى، وقد حققت أحدث نماذج التفكير بالذكاء الاصطناعي نتائج تتجاوز تفكير الأطباء البشر دون أي حواجز لغوية أو تواصلية [53-55].

المتطلبات المسبقة لممارسة البحث النوعي بالذكاء الاصطناعي

على سبيل المثال، يتطلب دمج الذكاء الاصطناعي في البحث النوعي تعديل أساليب التدريس ومراجعة المناهج الدراسية. تضمن أدوات مثل قائمة التحقق SRQR (المعايير لتقارير البحث النوعي) أن يظل دمج الذكاء الاصطناعي يحافظ على الشفافية وقابلية التكرار [56]. هذه هي السبب الذي يجعل الباحثين بحاجة إلى تقديم شرح مفصل حول نماذج الذكاء الاصطناعي المستخدمة خلال التحليل النوعي بالكامل أو جزء منه، وما يمكنهم وما لا يمكنهم القيام به وكيف تتناسب مع
الأساليب الكلاسيكية، من أجل تفكير أكثر صرامة حول الأساليب النوعية المستندة إلى التجارب غير العادية [57]. قد يحتاج الباحثون إلى تعزيز مهارات أخرى، مثل مثلث الذكاء الاصطناعي، لقراءة وتقييم جودة مثل هذه النتائج. بخلاف ذلك، لدى الذكاء الاصطناعي القدرة على المساعدة في تبسيط بعض جوانب عمليات التحليل النوعي من خلال تقليل عدد تباين المحققين مع الحفاظ على عمق التحليل البشري.

القيود والآفاق

تحتاج بعض القيود إلى المناقشة في سياق هذه الدراسة حول الاستجابات المدعومة بالذكاء الاصطناعي تجاه ندبات الليشمانيا الجلدية. على الرغم من أن هذه النتائج تظهر تقدمًا كبيرًا في التحليل النوعي المدعوم بالذكاء الاصطناعي، في سياق جغرافي وثقافي محدد لليشمانيا الجلدية، فإن تكرار هذه الدراسة في سياقات جغرافية وثقافية أخرى سيثبت الملاحظات التي تم إجراؤها. سيكون هذا التمديد مفيدًا بشكل خاص في توضيح كيفية عمل نماذج الذكاء الاصطناعي من خلال مظاهر اجتماعية ثقافية مختلفة للأثر النفسي الاجتماعي على مستوى العالم. بالإضافة إلى ذلك، عند التخطيط لاستخدام خوارزمية ذكاء اصطناعي لتمكين طريقة البحث النوعي، يجب توخي الحذر الشديد بشأن التحيز فيما يتعلق بخوارزميات الذكاء الاصطناعي التي سيتم استخدامها، مع الوصول الكامل إلى المحفزات المستخدمة، وعروض الفيديو وقابلية تكرار التحليل اعتمادًا على الأنماط أو الفئات أو المتغيرات المقدمة والنتائج المستهدفة من الذكاء الاصطناعي التي يجب أن تتناسب مع الأهداف الرئيسية للباحثين، فضلاً عن القدرة على تحديد كيفية تقسيم العمل من حيث الوقت والجهد بين الذكاء الاصطناعي والبشر [58]. يشمل ذلك القيود المتعلقة بتحيز الباحث، وتحامل المستجيبين، وتحامل الرغبة الاجتماعية، فضلاً عن كيفية تأثير الذكاء الاصطناعي على تخفيف أو تفاقم هذه التحيزات.
تمثل قيود أخرى تجلت منهجياً في التحليل مرتبطة بنموذج Llama 405B الذي قدم نمطًا تحليليًا مميزًا، خاصة عند التعامل مع عينة الاستجابة 63، حيث أظهر حسمًا ملحوظًا من خلال تقليل التصنيفات غير القابلة للتحديد، وتقليل الفئات غير المؤكدة وإظهار قدرة عالية على إجراء تمييز ثنائي بين وجود وغياب الآثار النفسية الاجتماعية. ومع ذلك، يجب توخي الحذر بشأن هذا الحسم خوفًا من تصنيفه المفرط المحتمل [59]. اعتبار آخر مهم هو أن تكنولوجيا الذكاء الاصطناعي تتقدم بسرعة. تمثل النتائج ما يمكن أن يفعله الذكاء الاصطناعي في وقت معين. ومع ذلك، كما هو موضح في قسم النتائج لجمنائي وChatGPT، قد تحتوي الإصدارات المستقبلية على ميزات وتطورات أفضل. قد يكون قبول أو عدم استخدام أدوات الذكاء الاصطناعي التوليدية من قبل الباحثين الجامعيين الكبار أو من قبل الباحثين ذوي الإنتاجية البحثية العالية موضوع نقاش مرتبط بأخلاقيات استخدام الذكاء الاصطناعي في البحث النوعي [60]. يجب أن تهدف الأبحاث المستقبلية إلى إجراء دراسات شاملة ضمن خلفيات ثقافية ولغوية متنوعة، وفحص أداء الذكاء الاصطناعي عبر
حالات صحية وسياقات نفسية اجتماعية مختلفة، وتأسيس أطر موحدة لتقييم البحث النوعي المدعوم بالذكاء الاصطناعي. بعض الإنتاجات قيد المراجعة بالفعل، وستتبعها المزيد من الإنتاجات القابلة للتنبؤ قريبًا [61، 62]. سيوسع هذا من موثوقية وفائدة التحليل النوعي المعزز بالذكاء الاصطناعي في أبحاث الرعاية الصحية من أجل نشر أفضل مع أعلى تأثيرات مؤثرة بدلاً من الاقتباسات.

الخاتمة

تقدم هذه التقييم الشامل لتسعة نماذج من الذكاء الاصطناعي التي تحلل التصورات النفسية الاجتماعية لليشمانيا الجلدية أدلة قوية على الإمكانات التحويلية للذكاء الاصطناعي التوليدي في البحث النوعي. استنادًا إلى المراحل الثلاث، يمكن تطبيق طريقة الدراسة المقترحة لتقييم دقة وتناسق نماذج الذكاء الاصطناعي المستقبلية بما في ذلك عملية التعلم العميق. على سبيل المثال، من المتوقع أن تحتوي نماذج التعلم العميق المتطورة التي ستتبع ChatGPT o1-Pro (مثل o3 orient، DeepSeek R) على ارتباط إيجابي أعلى بين دقة التحليل النوعي وعمق فهم تجارب الناس المعقدة. تشير النتائج إلى أن العلاقة بين قدرات الذكاء الاصطناعي وتجربة الإنسان تحتاج إلى أن تكون تآزرية لتحقيق أفضل نتائج البحث النوعي، والتي يجب التحقيق فيها والإشراف عليها بدقة من قبل خبراء النوعية البشرية لأي تحقق نهائي. أخيرًا، من الضروري تطوير إرشادات موحدة توسيع العناصر التي يجب القيام بها للبحث النوعي بالذكاء الاصطناعي أو الإبلاغ عن الأطر المفاهيمية للذكاء الاصطناعي، لتسهيل الاستخدام الأوسع الموحد في سياقات البحث العالمية المختلفة.

الاختصارات

الذكاء الاصطناعي. الذكاء الاصطناعي (التوليدي)
CAQDAS برامج تحليل البيانات النوعية المدعومة بالحاسوب
CL الليشمانيا الجلدية
LLMs نماذج اللغة الكبيرة
NLP معالجة اللغة الطبيعية
SRQR معايير تقارير البحث النوعي

المعلومات التكميلية

تحتوي النسخة الإلكترونية على مواد تكميلية متاحة علىhttps://doi.org/10.1186/s12911-025-02961-5.

المادة التكميلية 1: ملف إضافي 1bis. المرحلة 1A قاعدة بيانات كاملة 31 122024

المادة التكميلية 2: الملف الإضافي 0. اقتباسات مترجمة إلى الإنجليزية
المادة التكميلية 3: الملف الإضافي 1. المحفزات المستخدمة في المرحلة 1A
المادة التكميلية 4: الملف الإضافي 1تر. حساب كابا كوهين للمرحلة 1A 31122024
المادة التكميلية 5: الملف الإضافي 2. تحليل المرحلة 1B لـ 79 طالبًا ثنائيي الجنس M و F المتأثرين بـ CL 31122024
المادة التكميلية 6: الملف الإضافي 3. تحليل المرحلة 1C لـ 79 طالبًا مصابًا بـ CL مشفر P N U 31122024
المادة التكميلية 7: الملف الإضافي 4. تحليل المرحلة 1C لـ 63 طالبًا مع CL مشفر P N U 31122024
المادة التكميلية 8: الملف الإضافي 3bis. المرحلة 1C 79 طالبًا مع CL PNU نتائج Jamovi 31122024
المادة التكميلية 9: الملف الإضافي 4bis. المرحلة 1C 63 طالبًا مع CL PNU نتائج Jamovi 31122024
المادة التكميلية 10: الملف الإضافي 5. المحفزات المستخدمة في المرحلة 2-1 والمرحلة 2-2. الملف الإضافي 5bis. المرحلة 2-1 عرض الفيديو الأول كلود سونيت 3.5. يوتيوب [32]. الملف الإضافي 5ter. المرحلة 2-2 عرض الفيديو المتقدم الثاني جمنائي 2.0. يوتيوب [33]
المادة التكميلية 11: الملف الإضافي 6. توليد مواضيع فرعية لمرجع المرحلة 2 حول تعقيد المحفز
المادة التكميلية 12: الملف الإضافي 6bis. المرحلة 2 المرجع A نص مستخرج من المقالة الرئيسية. الملف الإضافي 6ter. المرحلة 2 المرجع A فيديو توضيحي لنتائج التعقيد. يوتيوب [35]
المادة التكميلية 13: الملف الإضافي 7. مصفوفة النتائج المقارنة للمرجع A مقابل نماذج الذكاء الاصطناعي التوليدية الأخرى
المادة التكميلية 14: الملف الإضافي 7bis. مصفوفة X المبسطة للمقارنة مع مواضيع ومواضيع فرعية في المرجع A
المادة التكميلية 15: الملف الإضافي 8. المرحلة 3A. الملف الإضافي 8bis. نتائج جميع نماذج الذكاء الاصطناعي في المرحلة 3A 2025-01-06 – عرض فيديو. يوتيوب [36]
المادة التكميلية 16: الملف الإضافي 9bis. قاعدة بيانات مؤشر جاكارد الخام
المادة التكميلية 17: الملف الإضافي 9. كود بايثون للمرحلة 3B المستخدم لحساب مؤشر جاكارد
المادة التكميلية 18: الملف الإضافي 10. تطوير نموذج نظرية مؤسسية للذكاء الاصطناعي المرحلة 3C
المادة التكميلية 19: الملف الإضافي 10bis. رؤى إضافية حول الموضوعات والمواضيع الفرعية من المرحلة 3A. الملف الإضافي 10ter. تحليل النظرية المستندة إلى البيانات، عرض فيديو بتاريخ 2025-01-06. يوتيوب [40]
المادة التكميلية 20: الملف الإضافي 10qua. نتائج إطار نظرية الأرض المرحلة 3C
المادة التكميلية 21: الملف الإضافي 11. قائمة مراجعة SRQR

شكر وتقدير

يشكر المؤلفون المراجعين على تعليقاتهم واقتراحاتهم لتقييم المخطوطة.

مساهمات المؤلفين

IB: التصور، التحليل الرسمي، الكتابة، المراجعة، التحرير والتحقق. SM: التحليل الرسمي والتحقق.

تمويل

لم تتلقَ هذه الدراسة أي منحة محددة من أي وكالة تمويل في القطاعات العامة أو التجارية أو غير الربحية.

توفر البيانات

تُقدم البيانات ضمن المخطوطة وملفات المعلومات التكميلية.

الإعلانات

تمت مراعاة الآثار الأخلاقية لاستخدام الذكاء الاصطناعي في البحث النوعي بشكل كامل في هذه الدراسة، لا سيما فيما يتعلق بسرية البيانات وشفافية المنهجية. تم إجراء جميع التحليلات باستخدام إعدادات تخزين مؤقتة، مما يضمن عدم أرشفة أي بيانات تم تحليلها. تم التخلص من جميع المطالبات والنتائج التي تم إنشاؤها بواسطة الذكاء الاصطناعي بشكل دائم بعد تحميل الأجهزة للحفاظ على أمان البيانات. هذه الدراسة هي تحليل ثانوي لبيانات نوعية مجهولة الهوية تم جمعها في دراسة بحثية سابقة حول التأثير النفسي الاجتماعي لندبات الليشمانيا الجلدية (بنس وآخرون، 2017) [20]. هذه الدراسة هي تحليل ثانوي لبيانات نوعية مجهولة الهوية تم جمعها في دراسة بحثية سابقة حول التأثير النفسي الاجتماعي لندبات الليشمانيا الجلدية.
(بنس وآخرون، 2017) [20]. تمت الموافقة على الدراسة الأصلية من قبل اللجنة الأخلاقية للبحوث الطبية الحيوية في الرباط، المغرب (CERB). لم يكن هناك حاجة لموافقة أخلاقية إضافية، حيث كانت هذه الدراسة تتعلق بتحليل بيانات ثانوية. كانت مجموعة البيانات المستخدمة مجهولة الهوية بالكامل، ولم تحدث أي تفاعلات جديدة مع المشاركين البشريين. يعترف المؤلفون بأنجرامرلي.كومتم استخدام Microsoft Office Version 6.8.263 للمساعدة في تحرير اللغة، ولكن لم يتم استخدامه لإنشاء محتوى أصلي.
غير قابل للتطبيق.

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.
تاريخ الاستلام: 20 سبتمبر 2024 / تاريخ القبول: 3 مارس 2025
نُشر على الإنترنت: 10 مارس 2025

References

  1. De Paoli S. Performing an inductive thematic analysis of semi-structured interviews with a large Language model: an exploration and provocation on the limits of the approach. Soc Sci Comput Rev. 2024;42:997-1019.
  2. Hitch D. Artificial intelligence augmented qualitative analysis: the way of the future?? Qual Health Res. 2024;34:595-606.
  3. Chapman A, Hadfield M, Chapman C. Qualitative research in healthcare: an introduction to grounded theory using thematic analysis. J R Coll Physicians Edinb. 2015;45:201-5.
  4. Leech NL, Onwuegbuzie AJ. Beyond constant comparison qualitative data analysis: using NVivo. Sch Psychol Q. 2011;26:70-84.
  5. Starks H, Brown Trinidad S. Choose your method: a comparison of phenomenology, discourse analysis, and grounded theory. Qual Health Res. 2007;17:1372-80.
  6. Stough LM, Lee S. Grounded theory approaches used in educational research journals. Int J Qual Methods. 2021;20:16094069211052203.
  7. Charmaz K, Thornberg R. The pursuit of quality in grounded theory. Qual Res Psychol. 2021;18:305-27.
  8. André E. Reflections on qualitative data analysis software- possibilities, limitations and challenges in qualitative educational research. Rev Electrónica En Educ Pedagog. 2020;4:41-55.
  9. Pérez Gamboa AJ, Díaz-Guerra DD. Artificial intelligence for the development of qualitative studies. LatIA. 2023;1:4.
  10. Sawicki J, Ganzha M, Paprzycki M. The state of the art of natural language processing-A systematic automated review of NLP literature using NLP techniques. Data Intell. 2023;5:707-49.
  11. Abdüsselam MS. Qualitative data analysis in the age of artificial general intelligence. Int J Adv Nat Sci Eng Res. 2023.
  12. Morgan DL. Exploring the use of artificial intelligence for qualitative data analysis: the case of ChatGPT. Int J Qual Methods. 2023;22:16094069231211248.
  13. Atkinson CF. Cheap, quick, and rigorous: artificial intelligence and the systematic literature review. Soc Sci Comput Rev. 2024;42:376-93.
  14. Zhang H, Wu C, Xie J, Lyu Y, Cai J, Carroll JM. Redefining qualitative analysis in the AI era: utilizing ChatGPT for efficient thematic analysis. 2024. https://arxiv. org/abs/2309.10771
  15. Zala K, Acharya B, Mashru M, Palaniappan D, Gerogiannis VC, Kanavos A, et al. Transformative automation: AI in scientific literature reviews. Int J Adv Comput Sci Appl IJACSA. 2024;15.
  16. Rodrigues Dos Anjos J, De Souza MG, Serrano De Andrade Neto A, Campello De Souza B. An analysis of the generative AI use as analyst in qualitative research in science education. Rev Pesqui Qual. 2024;12:01-29.
  17. Chubb LA. Me and the machines: possibilities and pitfalls of using artificial intelligence for qualitative data analysis. Int J Qual Methods. 2023;22:16094069231193593.
  18. Christou P. How to use Artificial Intelligence (AI) as a resource, methodological and analysis tool in qualitative research? Qual Rep. 2023. https://doi.org/1 0.46743/2160-3715/2023.6406
  19. Antons D, Breidbach CF, Joshi AM, Salge TO. Computational literature reviews: method, algorithms, and roadmap. Organ Res Methods. 2023;26:107-38.
  20. Bennis I, Thys S, Filali H, De Brouwere V, Sahibi H, Boelaert M. Psychosocial impact of scars due to cutaneous leishmaniasis on high school students in errachidia province, Morocco. Infect Dis Poverty. 2017;6:46.
  21. Alderton DL, Ackley C, Trueba ML. The psychosocial impacts of skinneglected tropical diseases (SNTDs) as perceived by the affected persons: a systematic review. PLoS Negl Trop Dis. 2024;18:e0012391.
  22. Llama 3. 1. Meta Llama. https://Ilama.meta.com/. Accessed 4 Aug 2024.
  23. Introducing Claude 3.5 Sonnet Anthropic. https://www.anthropic.com/ne ws/claude-3-5-sonnet. Accessed 4 Aug 2024.
  24. NotebookLM| Note Taking & Research Assistant. Powered by Al. https://noteb ooklm.google/. Accessed 4 Aug 2024.
  25. Gemini Ultra. Google DeepMind. 2024. https://deepmind.google/technologi es/gemini/ultra/. Accessed 4 Aug 2024.
  26. Gemini Advanced. accédez aux modèles d’IA les plus performants de Google avec Gemini 2.0. Gemini. https://gemini.google/advanced/. Accessed 6 Jan 2025.
  27. Grok. X (formerly Twitter). https://x.com/i/grok. Accessed 6 Jan 2025.
  28. DeepSeek. https://www.deepseek.com/. Accessed 6 Jan 2025.
  29. Learning to Reason with LLMs. https://openai.com/index/learning-to-reaso n-with-Ilms/. Accessed 6 Jan 2025.
  30. Introducing ChatGPT Pro. https://openai.com/index/introducing-chatgpt-pro /. Accessed 6 Jan 2025.
  31. French translation of participants’ responses to the last question. Available online https://static-content.springer.com/esm/art%3A10.1186%2Fs40249-0 17-0267-5/MediaObjects/40249_2017_267_MOESM4_ESM.pdf
  32. I Bennis. Additional file 5bis Phase 21 Claude 3.5 Sonnet 1st video demonstration. 2025. https://www.youtube.com/watch?v=UmJI7DGYheo. Accessed 8 Jan 2025.
  33. Bennis I. Additional file 5ter Phase 22 Gemini 20 Advanced 4th video demonstration. 2025. https://www.youtube.com/watch?v=o25Hd3vw7R8. Accessed 8 Jan 2025.
  34. Perplexity collaborates with Amazon Web Services to launch Enterprise Pro. h ttps://www.perplexity.ai/hub/blog/perplexity-collaborates-with-amazon-we b-services-to-launch-enterprise-pro. Accessed 6 Jan 2025.
  35. I Bennis. Additional file 6ter Phase 2 Reference A Perplexity results video demonstration. 2025. https://www.youtube.com/watch?v=jTwjw5WHZ7w. Accessed 8 Jan 2025.
  36. I Bennis. Additional file 8bis Phase 3A All AI Models results 20250106 video demonstration. 2025. https://www.youtube.com/watch?v=EboN18on4rl. Accessed 8 Jan 2025.
  37. Niwattanakul S, Singthongchai J, Naenudorn E, Wanapu S. Using of Jaccard Coefficient for Keywords Similarity. Hong Kong. 2013. https://www.iaeng.org/ publication/IMECS2013/IMECS2013_pp380-384.pdf
  38. Zahrotun L. Comparison Jaccard similarity, cosine similarity and combined both of the data clustering with shared nearest neighbor method. Comput Eng Appl J. 2016;5:11-8.
  39. Vijaymeena MK, Kavitha K. A survey on similarity measures in text mining. Mach Learn Appl Int J. 2016;3:19-28.
  40. Bennis I. Additional file 10ter Grounded theory analysis 20250106 video demonstration. 2025. https://www.youtube.com/watch?v=8XbjpP_bR1U. Accessed 8 Jan 2025.
  41. Napkin AI. Jan – The visual AI for business storytelling. Napkin AI. https://www w.napkin.ai. Accessed 72025.
  42. O’Brien BC, Harris IB, Beckman TJ, Reed DA, Cook DA. Standards for reporting qualitative research: A synthesis of recommendations. Acad Med. 2014;89:1245-51.
  43. LeBeau B, Ellison S, Aloe AM. Reproducible analyses in education research. Rev Res Educ. 2021;45:195-222.
  44. Md A, Ali Khan A-E. Sentiment analysis through machine learning. J Southwest Jiaotong Univ. 2021;56.
  45. Martin S, Beecham E, Kursumovic E, Armstrong RA, Cook TM, Déom N et al. Comparing human vs. machine-assisted analysis to develop a new approach for. Big Qualitative Data Anal. 2024;2024.07.16.24310275.
  46. Aditya G. Understanding and addressing AI hallucinations in healthcare and life sciences. Int J Health Sci. 2024;7:1-11.
  47. Donkoh S, Mensah J. Application of triangulation in qualitative research. J Appl Biotechnol Bioeng. 2023;10:6-9.
  48. Thomas J, Harden A. Methods for the thematic synthesis of qualitative research in systematic reviews. BMC Med Res Methodol. 2008;8:45.
  49. Using AI. In Grounded Theory research – a proposed framework for a ChatGPT-based research assistant. Accessed 7 Jan 2025. https://osf.io/preprin ts/socarxiv/a2dc4_v1
  50. Wenning B, Price H, Nuwangi H, Reda KT, Walters B, Ehsanullah R, et al. Exploring the cultural effects of gender on perceptions of cutaneous leishmaniasis: a systematic literature review. Glob Health Res Policy. 2022;7:1-13.
  51. Feuston JL, Brubaker JR. Putting tools in their place: the role of time and perspective in Human-AI collaboration for qualitative analysis. Proc ACM Hum-Comput Interact. 2021;5:1-25.
  52. Levitt HM. Qualitative generalization, not to the population but to the phenomenon: reconceptualizing variation in qualitative research. Qual Psychol. 2021;8:95-110.
  53. Levine DM, Tuwani R, Kompa B, Varma A, Finlayson SG, Mehrotra A, et al. The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study. Lancet Digit Health. 2024;6:e555-61.
  54. Tanaka Y, Nakata T, Aiga K, Etani T, Muramatsu R, Katagiri S, et al. Performance of generative pretrained transformer on the National medical licensing examination in Japan. PLOS Digit Health; 2024;3(1):e0000433.
  55. Fang C, Wu Y, Fu W, Ling J, Wang Y, Liu X, et al. How does ChatGPT-4 preform on non-English National medical licensing examination? An evaluation in Chinese Language. PLOS Digit Health. 2023;2:e0000397.
  56. Karjus A. Machine-assisted mixed methods: augmenting humanities and social sciences with artificial intelligence. 2023. https://arxiv.org/abs/2309.143 79
  57. Kim H, Sefcik JS, Bradway C. Characteristics of qualitative descriptive studies: A systematic review. Res Nurs Health. 2017;40:23-42.
  58. Weidener L, Fischer M. Teaching AI ethics in medical education: A scoping review of current literature and practices. Perspect Med Educ. 2023;12.
  59. Tao K, Osman ZA, Tzou PL, Rhee S-Y, Ahluwalia V, Shafer RW. GPT-4 performance on querying scientific publications: reproducibility, accuracy, and impact of an instruction sheet. BMC Med Res Methodol. 2024;24:139.
  60. Marshall DT, Naff DB. The ethics of using artificial intelligence in qualitative research. J Empir Res Hum Res Ethics. 2024;19:92-102.
  61. Leça M, de Valença M, Santos L, de Santos R. S. Applications and Implications of Large Language Models in Qualitative Analysis: A New Frontier for Empirical Software Engineering. 2024. https://arxiv.org/abs/2412.06564
  62. Schroeder H, Quéré MAL, Randazzo C, Mimno D, Schoenebeck S. Large Language Models in Qualitative Research: Can We Do the Data Justice? 2024. https://doi.org/10.48550/ARXIV.2410.07362

ملاحظة الناشر

تظل شركة سبرينجر ناتشر محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.

  1. *المراسلات:
    عصام بنيس
    issambennis@gmail.com; issambennis@um6ss.ma
    ¹مدرسة محمد السادس الدولية للصحة العامة، جامعة محمد السادس للعلوم والصحة، الدار البيضاء، المغرب

Journal: BMC Medical Informatics and Decision Making, Volume: 25, Issue: 1
DOI: https://doi.org/10.1186/s12911-025-02961-5
PMID: https://pubmed.ncbi.nlm.nih.gov/40065373
Publication Date: 2025-03-10

Advancing AI-driven thematic analysis in qualitative research: a comparative study of nine generative models on Cutaneous Leishmaniasis data

Issam Bennis and Safwane Mouwafaq

Abstract

Background As part of qualitative research, the thematic analysis is time-consuming and technical. The rise of generative artificial intelligence (A.I.), especially large language models, has brought hope in enhancing and partly automating thematic analysis. Methods The study assessed the relative efficacy of conventional against AI-assisted thematic analysis when investigating the psychosocial impact of cutaneous leishmaniasis (CL) scars. Four hundred forty-eight participant responses from a core study were analysed comparing nine A.I. generative models: Llama 3.1 405B, Claude 3.5 Sonnet, NotebookLM, Gemini 1.5 Advanced Ultra, ChatGPT o1-Pro, ChatGPT o1, GrokV2, DeepSeekV3, Gemini 2.0 Advanced with manual expert analysis. Jamovi software maintained methodological rigour through Cohen’s Kappa coefficient calculations for concordance assessment and similarity measurement via Python using Jaccard index computations. Results Advanced A.I. models showed impressive congruence with reference standards; some even had perfect concordance (Jaccard index = 1.00). Gender-specific analyses demonstrated consistent performance across subgroups, allowing a nuanced understanding of psychosocial consequences. The grounded theory process developed the framework for the fragile circle of vulnerabilities that incorporated new insights into CL-related psychosocial complexity while establishing novel dimensions. Conclusions This study shows how A.I. can be incorporated in qualitative research methodology, particularly in complex psychosocial analysis. Consequently, the A.I. deep learning models proved to be highly efficient and accurate. These findings imply that the future directions for qualitative research methodology should focus on maintaining analytical rigour through the utilisation of technology using a combination of A.I. capabilities and human expertise following standardised future checklist of reporting full process transparency. Keywords Artificial intelligence in qualitative research, Large language models, Thematic analysis, Grounded theory development, Natural language processing, Research automation, Cutaneous leishmaniasis

Background

Thematic analysis is a cornerstone of qualitative research methodology and is quite variable from researcher to researcher due to reliance on sophisticated human reasoning and interpretative skills . These structured approaches may enable strong comparative analyses with established literature. A conceptual exploration within methodological frameworks requires strict logical processes and systematic data classification to recognise and articulate patterns and their subsidiary components [3]. Thematic analysis is appropriate when analysing extensive text-based material and when researchers want to reflect on people’s experiences, thoughts, and behaviours [3]. Indeed, the depth of complexity found in qualitative data requires significant mental pre-work and ongoing engagement throughout the analysis from researchers [4]. Contemporary qualitative analysis has evolved along two parallel but intertwined paths. The first trajectory includes analysing atypical data and allows researchers to discover latent logical patterns and possible correlations [5]. This form woven multi-disciplinary efforts based on inductive and abductive inference of contemporary ground theory [6, 7]. Such process approaches produce and test hypotheses based on new or novel observations beyond the original themes or patterns. The second trajectory is technological, concerned with ComputerAssisted Qualitative Data Analysis Software (CAQDAS), which allows researchers to quickly triangulate qualitative with quantitative approaches while working on datasets of considerable size. CAQDAS has saved of the time in enabling the management of data storage, manipulation and retrieval processes [4, 8]. Generative artificial intelligence (A.I.) has sparked exciting advancements in qualitative data analysis in scientific fields [9, 10]. A recently developed prompt, now popular approach to analysing an enormous amount of textual data, is using large language models (LLMs such as ChatGPT) [11]. LLM can be trained on a vast corpus of text that is perfect for making Natural Language Processing (NLP) a headline-making technology and subsequently generating relevant keywords, patterns, and links at the level of micro semantics very quickly and efficiently [12].
There are several examples where A.I. is applicable to enhance the holistic components of qualitative analysis by automating the steps of qualitative research that most researchers consider tedious or repetitive, including transcription, translation and initial coding texts [11]. Automating these manual workflows turbocharges result generation, allows focus more on interpretative analytics and aids with potential bias [9]. They also indicate another potential advantage in that the analytical algorithms that A.I. use can be analysed by behavioural thresholds unattainable by humans so that more nuanced analyses beyond the scope (which humans may miss or
overlook) are possible to run [13]. In addition, A.I. text can serve as a valuable comparator for research interpretation, potentially uncovering biases and expanding interpretative frameworks . ChatGPT and other A.I. models can articulate their results, offering researchers valuable context. Moreover, with this transparency, the reproduction of the results can be assured with lower potential human subjectivity bias [14-16]. Some artificial intelligence models reorganise information based on questions, which improves data structuring and analysis [11, 17]. Alternatively, if data is uncertain or there are programming errors or inaccuracies in the data or inputs, one may distrust the results [11].
Furthermore, qualitative research requires immersive interpretation, acceptance of unusual reflections, and flexibility paradigms from the researcher, considered part of the analysis process, making it incredibly misunderstood for A.I. algorithms to prompt [2, 18]. Therefore, caution must be taken while using A.I. and interpreting A.I. based results [18, 19]. Hence, researchers need to check and verify their ongoing results by doing strict quality control procedures, including rigorous appraisal and validation of research outputs [12, 13, 17]. In this context, this study seeks to assess whether ChatGPT o1-Pro and a diverse set of eight other generative A.I. models can improve the accuracy of qualitative synthesis in complex evidence concerning the psychosocial burden of cutaneous leishmaniasis scarring when compared to traditional human-led qualitative analysis approaches.

Materials

Study design

This comparative study was conducted to evaluate the feasibility of use of artificial intelligence to inform social science inquiry in practice, here realised through thematic analysis versus human-led qualitative analysis. The central comparative question posed was whether contemporary generative A. I. models and their updated versions can offer advantages of accuracy, efficiency, and insightful perspectives as much or over traditional qualitative methods.

Participants

This study used data from a preliminary study on cutaneous leishmaniasis psychological effects performed on Moroccan high school students (Bennis et al., 2017) [20]. This dataset was selected because it was included in the findings of a systematic review published in August 2024, which found that it was an important source for exploring the psychosocial dimensions of cutaneous leishmaniasis among male and female students [21]. This dataset consisted of 448 direct quotations extracted directly from the primary study’s student responses, enabling direct comparison of the two methodological approaches [20].
The first approach employed traditional qualitative analysis in two stages, the second author, a Professor of Public Health, with a qualitative background and more than ten years of experience in the field. The second approach done by the first author using nine generative AI models. The first author had an experience with qualitative research, including with a number of QACDAS qualitative analysis software packages.
July 2024 and December 2024 were two time slots for choosing the different A.I. models. The selected models reflect the latest in deep learning for language generation and was promoted as applicating better natural language-processing algorithms. Models from the July cohort included Llama 3.1 405B, Claude 3.5 Sonnet, NotebookLM, Gemini 1.5 Advanced Ultra and ChatGPT o1-preview models. While from the December cohort included ChatGPT o1 that replaced the preview one, GrokV2, DeepSeekV3, and Gemini 2.0 Advanced. The 9th model that was added was in December 2024 a recently released very advanced commercial model ChatGPT o1-Pro.
The results from both approaches were compared with reference findings (Named Reference A) corresponding to the human decision with Nvivo software, as shown in Suplementary material 1. These reference A findings were issued from a multi-disciplinary analysis by a multinational team of anthropologists, sociologists, professors and specialists in veterinary and human public health built earlier by Bennis et al., 2017 [20].

Study location

The study was conducted in a regulated academic environment to minimise the influence of external factors and ensure the accuracy of the results. All analyses employing manual (Man_1 & Man_2 done by the second researcher) or computer-assisted analysis done by the first researcher in two periods.

Description of instruments used

A.I models are chosen based on the reputation of developers among artificial intelligence experts and some latest use of 2024 updates. Llama 3.1 405B from Meta A.I. (formerly Facebook A.I. Research) was initially taken. This model is optimised for NLP formative tasks, has high integrity processing understanding abilities, and performs accurately in textual data [22]. Claude 3.5 Sonnet by Anthropic [23]. Both can produce contextually based text, which renders them able candidates for complex qualitative analysis studies.
A language model powered by machine and deep learning and developed at Google Research known as Notebook LM, scientists-interactive-exploration allows for analysis and synthesis of large text corpora [24]. The DeepMind Gemini 1.5 Advanced Ultra is a NLP model
that supports more intricate analysis and exact synthesis as marketed [25]. This makes both tools suitable to analyse academic or professional content since they have been designed with architectures for synthesising large volumes of data. In December, other updated and new models were introduced. Gemini 2.0 Advanced is the model that improves capabilities in complex tasks like programming, mathematics, logic, and teaching [26]. GrokV2 is X’s A.I. chatbot model solution ended up building directly into the X platform (Former Twitter) [27]. DeepSeekV3 is famous for its large open-source language model with a mixture of expert architecture fully free of charge [28]. ChatGPT o1 is the new version of GPT4 (Generative Pre-trained Transformer). This natural language processing model replaced in December the o1-preview functionality. It is presented with the particularity to spend more time reasoning before understanding the task structure and solving it more effectively [29]. Lastly, ChatGPT o1-Pro, a model produced by OpenAI that costs 200 dollars per month, is the most useful for professional tasks including academic research and analysis that need consistent, high-quality A.I. results across multiple requests interactions, understanding, and reasoning [30].

Data collection and preparation procedures

The quotes were written by 454 students who noticed six refusals to participate in the main study (Bennis et al. 2017). Therefore, 448 quotes were collected and anonymised as PDF files available as supplementary materials at this link [31] and Supplementary material 2. Every quote is a separate response unit for this current thematic analysis.

Data analysis process

This process involved three main phases, as shown in Fig. 1.

Phase 1A: analysis of the accuracy of qualitative coding of student responses

In the first step of the analysis, great attention was paid to the qualitative coding of the 448 respondents’ answers to a single open-ended question: “Can you write a short sentence about the likely psychological state of the person with the cutaneous leishmaniasis scar?
Each response was coded independently, using five categories: 1: Negative psychological effect; 2: Normal effect or no effect; 3: Mixed effect between negative and normal; 4: No specific response to the question; 0 : No response (empty box). The nine generative A.I. models were used during this phase to analyse the quotes twice (coded 1st, 2nd), overwriting the results of the first analysis before launching the second to avoid any learning effect on the model. Moreover, the A.I. models were
Fig. 1 The three phases framework for evaluating and comparing AI-generated sub-themes for this study
used for their paid versions except for Llama and DeepSeek, which are fully available in open source. An advantage was given only to the manual coding done by the second researcher by comparing the results of its first analysis (Man_1st) with the results of reference A (Taken from the previous results published [20]) and by requesting that the second analysis be carried out only by targeting the responses subject to discordance (Man_2nd). This procedure guaranteed a systematic improvement in external consistency with the reference results to ensure that the results of the second analysis were more consistent with those of the second analysis by manual coding.
However, the same prompt was formulated for the A.I. models without prior learning (See prompts of Phase 1A in Supplementary material 3). The results obtained were saved in Excel or text CSV format. Analysing the data was accompanied by a video capture to record the process. Carrying out the same analysis twice for each model made it possible to compare the internal consistency of all the students’ responses (Supplementary material 1 ). For instance, a cross-classification of all students’ responses was facilitated using Cohen’s kappa index, which was used to determine how well specific patterns derived from internal and external coding performed compared to those derived from the reference codebook (Supplementary material 4).
Nevertheless, to understand students’ experiences with cutaneous leishmaniasis and gender aspects, phase 1 B was performed.
Phase 1B: analysis of the accuracy of the qualitative coding of the students’ responses declared to be affected by cutaneous leishmaniasis, comparing them according to gender
For this new analysis, only the subgroup of 79 students who declared themselves affected with cutaneous leishmaniasis was targeted. To calculate the Cohen Kappa using the Jamovi software, a new Excel file was prepared to include only the data selection about the targeted students (Supplementary material 5).

Phase 1C: analysis of the significance level between the students’ responses declared affected by cutaneous leishmaniasis, comparing them by gender about the analysis methods used

Qualitative analysis form is assessed by qualitatively assessing the following variables (gender, types of response and analysis models) for each response option to a participant on the presence or absence of a psychosocial effect related to the psychosocial consequences of CL sufficed that the variety number is limited. The types of categories have been reduced as follows:
  • (P) Presence of psychosocial effect. Re-categorisation 1 to P (Psychological effect).
  • (N) No or maybe of psychological effect (N). Re-categorisation 2 or 3 to N (No psychological effect).
  • (U) No specific reply to the question or no reply at all. Re-categorisation 0 or 4 to U (Undecided).
In addition, the types of responses were considered by analysing first all the seventy-nine students who said they had been affected by cutaneous leishmaniasis (Supplementary material 6). Then, by analysing, in the second round, only sixty-three students (Supplementary material 7 excluding the sixteen empty boxes considered to have no response). Data were analysed using Jamovi software v2.5.4, and the statistical significance was calculated using Chi-squared or Fisher exact test provided the p -value was below 0.05 . The software results of this Phase 1 are reported in Supplementary material 8 and Supplementary material 9.

Phase 2: qualitative summary of themes and sub-themes

The second phase of the analysis was specific to the A.I. models and aimed to verify their capacity for precision in the qualitative synthesis of themes and sub-themes about the published results. This phase included an assessment of the robustness of the A.I. responses compared to the reference framework. The results were reached using two prompts, available in Supplementary material 10.
The method 2-1 prompt was done twice for all the nine A.I. generative models (After each completion, prior results were deleted before rerunning the same prompt). As a result of this prompt, two file texts were created per model, recorded as PDF files known as “1st” and “2nd”. Meanwhile, method 2-2 prompt used another unified request, leading to two additional PDFs named “3rd” and “4th”. To better understand this process, two video demonstrations are available in [32] and [33].
The logbook results from Llama 3.1 405B were coded as Model “B”. NotebookLM results coded Model “C”; Gemini 1.5 Advanced Ultra results coded Model “D”; Claude 3.5 Sonnet results belong to Model “E”; ChatGPT o1-Pro results fall under Model “F”; ChatGPT o1 results coded Model “G”; GrokV2 were coded as Model “H”; DeepSeekV3 coded as Model “K” and finally, Gemini 2.0 Advanced coded as Model “M”.
Phase 2 Reference A’s prompt was introduced in a separate A.I. model named Perplexity Pro to independently develop this Reference A themes and sub-themes [34]. Indeed, using structured prompts (Supplementary material 11) that synthesise information from the published peer-reviewed text and framework previously included in the Bennis et al. 2017 article and presented in Supplementary material 12. Four iterations of the same
prompt were made using the Perplexity model to cover the targeted results shared between the four successive prompts generated, as shown in [35]. This approach aims to ensure consistency with previously established knowledge while leveraging A.I.’s potential for systematic thematic synthesis and organisation.

Phase 3: comparative analysis of the sub-themes accuracy of the synthesis by models B, C, D, E, F, G, H, K and M supported by A.I. Compared to reference

Phase 3A allowed the comparison of the 24 sub-themes of reference A to each of Models B, C, D, E, F, G, H, K and M . Indeed, the results of phases 2-1 and 2-2, based on the initial file containing all the students’ responses, enabled each model to generate four thematic analyses noticed 1st, 2nd, 3rd, and 4th. A response matrix (Supplementary material 13 ) included the 24 sub-themes of reference A and for each column as a variable, the subthemes 1st, 2nd, 3rd, and 4th of each model, in addition to the three following combination 1st+2nd, 3rd+4th and 1st + 2nd + 3rd + 4th. Apart from this, each of the four models’ thematic analysis and their combinations were compared to the 24 sub-themes of reference A using a P/A matrix defining each sub-theme as either ‘Present’ or ‘Absent.’ The comparison was made possible by employing the NotebookLM model. This model involved uploading at the same time all four PDF files (1st, 2nd, 3rd, and 4th) of each of the nine A.I. models as resources, with the adapted Canvas comparison with Reference A (Supplementary material 14).
Then, a prompt for Phase 3A (see Supplementary material 15 ) was applied systematically for each specific model. By introducing the ” X ” letter, there was no need to replace manually for each prompt the specific model letter B, C, D, E, F, G, H, K, and M. (as shown in the video demonstration) [36]. It should be noted that using NotebookLM was motivated by being the only model that could accept more than 50 resources as attachments for the same project, which helped the reproducibility of the results by rerunning the same repetitive prompts. Moreover, the possibility of selecting precise resources each time was perfect for avoiding any unintended learning that could influence the generation of specific model results.
Then, phase 3B, calculated the accuracy of the subthemes identified using the Models supported by A.I. compared to the reference results (A) with the application of Jaccard’s index.
Indeed, Jaccard’s index is defined as the ratio between the intersection and union of the sets of reference subthemes concerning the sub-themes of each of the models used by applying the following formula: / | .
The Jaccard index is a widely used statistical measure for assessing similarity between sets, particularly in information retrieval and text mining [37]. This index calculates the intersection ratio to the union of two sets, yielding a value between 0 (no similarity) and 1 (perfect similarity). Its scope covers the most superficial keyword comparison to the more complex levels of entire documents, especially concerning document clustering and text mining. It has simple computations and excellent results in comparison of various text similarities in many fields of analysis and retrieval of information [38, 39]. In phase 3B, the Jaccard index was calculated in this current study based on the Excel file collected Supplementary material 16, helping to use the algorithmic code shared in Python version 3.13.0, as notified in Supplementary material 17.

Grounded theory for new framework insights

Based on the external reviewers’ suggestions, A final phase 3C was added by developing an AI-grounded theory prompt using the most performant AI model and including the 448 initial students quotes (As available in Supplementary material 18). The prompt was created by asking about innovative and explanatory conceptual models using thematic analysis and applying a grounded theory to investigate non-comparable ideas as discussed
Table 1 The weighted Cohen kappa coefficients with lower and upper values of the A.I. Generative models about their internal coherence and the comparison with the initial reference A for the 448 responses analysed in phase A1
Pair-Wise comparaison Estimation of internal consistency (1st vs. 2nd) Estimation of the external consistency with the initial reference A
ManA_1st 0.88 [0.83, 0.92] 0.74 [0.68, 0.80]
ManA_2nd 0.82 [0.77, 0.87]
Claude_1st 0.99 [0.97, 1.00] 0.78 [0.73, 0.84]
Claude_2nd 0.78 [0.73, 0.84]
NoteboookLM_1st 0.93 [0.89, 0.96] 0.72 [0.65, 0.78]
NoteboookLM_2nd 0.76 [0.71, 0.82]
Gemini1.5_1st 0.92 [0.89, 0.96] 0.73 [0.67, 0.79]
Gemini1.5_2nd 0.77 [0.72, 0.83]
LlaMA_1st 0.79 [0.73, 0.86] 0.75 [0.68, 0.82]
LlaMA_2nd 0.78 [0.72, 0.83]
ChatGPT-o1_1st 0.80 [0.75, 0.85] 0.77 [0.71, 0.82]
ChatGPT-o1_2nd 0.71 [0.65, 0.76]
ChatGPT-o1PRO_1st 0.97 [0.94, 0.99] 0.79 [0.74, 0.85]
ChatGPT-o1PRO_2nd 0.79 [0.73, 0.84]
GrokV2_1st 0.78 [0.72, 0.84] 0.66 [0.60, 0.73]
GrokV2_2nd 0.77 [0.71, 0.83]
DeepSeekV3_1st 0.90 [0.86, 0.94] 0.76 [0.70, 0.81]
DeepSeekV3_2nd 0.75 [0.69, 0.81]
Gemini2.0_1st 0.79 [0.74, 0.85] 0.63 [0.57, 0.69]
Gemini2.0_2nd 0.76 [0.70, 0.82]
in the three cited references [3, 5-7]. Then, with the same model, a triangulation prompt was started with this sentence: ‘Triangulate your findings with the following insights while presenting an original and non-classical conceptual framework’ adding all the gathered new additional subthemes generated by the most performant A.I. models reaching the highest Jaccard index in the final step of phase 2 and reported in Supplementary material 19. This triangulation generated new themes and subthemes useful for creating a new framework, including insightful ideas not already presented during the study thematic analysis nor in the published article several years ago [20]. The full process took less than 15 min , as notified in the video demonstration as [40]. The Napkin A.I. generative visual tool was used to develop the proposed framework [41] using the generative synthesis of the results reached (See Supplementary material 20).
The study meets the SRQR (Standards for Reporting Qualitative Research) found in Supplementary material 21 [42].

Results

Table 1 demonstrates the comparative performance of various AI models in automated qualitative analysis against traditional manual methods. The weighted Cohen Kappa coefficients revealed varying performance levels regarding internal consistency and alignment with the initial reference standard (Reference A). The results showed that Claude_1st, NoteboookLM_1st and Gemini_1st models achieved high weighted Kappa scores in the first evaluation with low inter-evaluation variability. Regarding external consistency with Reference A, the performance across models ranged from moderate to strong agreement. ChatGPT o1-Pro achieved the highest external consistency ( 0.79 [ ]), followed by Claude ( 0.78 [ ]) and Llama ( 0.78 [ ]). Manual analysis showed progression from initial external consistency ( 0.74 [ ]) to second evaluation ( 0.82 [0.77, 0.87]).
The results in Table 2 documented specific patterns across gender subgroups in AI-driven qualitative analysis capabilities. Llama 3.1 405B demonstrated consistent external alignment with Reference A (Карра [0.680.97] for the first analysis, for the second analysis), maintaining performance across gender subgroups. ChatGPT o1-Pro achieved perfect internal consistency (Карра ) across all subgroups, with consistent external agreement scores (Карра [0.69-0.94]). Claude 3.5 Sonnet’s analysis of female student responses showed perfect internal consistency (Kappa [1.00-1.00]) and maintained stable external consistency (Kappa ). NotebookLM and Gemini 1.5 Advanced Ultra recorded strong performance metrics.
Table 2 Cohen’s kappa estimates with lower and upper confidence intervals for external consistency (compared to reference A) and internal consistency ( 1 st vs. 2nd analysis) for all 79 students previously affected by CL ( 35 females and 44 males) analysed in phase 1B
Model Kappa_All_1st Vs Ref_A Kappa_All_2nd Vs Ref_A Internal_Consistency All 1st Vs 2nd Kappa_ Female_1st Vs Ref_A Kappa_ Female_2nd Vs Ref_A Internal_Consistency Female 1st Vs 2nd Kappa_Male_1st Vs Ref_A Kappa_ Male_2nd Vs Ref_A Internal_Consistency Male 1st Vs 2nd
Man 0.59 (0.42-0.77) 0.77 (0.63-0.92) 0.82 (0.72-0.93) 0.47 (0.15-0.79) 0.76 (0.44-1.00) 0.57 (0.25-0.90) 0.63 (0.44-0.83) 0.78 (0.61-0.94) 0.88 (0.80-0.96)
Claude 3.5 Sonnet 0.66 (0.51-0.81) 0.71 (0.54-0.87) 0.98 (0.94-1.00) 0.80 (0.52-1.00) 0.80 (0.52-1.00) 1.00 (1.00-1.00) 0.64 (0.47-0.81) 0.70 (0.51-0.89) 0.97 (0.92-1.00)
NoteboookLM 0.76 (0.64-0.88) 0.82 (0.71-0.93) 0.91 (0.81-1.00) 0.64 (0.38-0.90) 0.78 (0.56-1.00) 0.73 (0.41-1.00) 0.80 (0.67-0.93) 0.83 (0.71-0.95) 0.97 (0.91-1.00)
Gemini1.5 Advanced Ultra 0.77 (0.63-0.90) 0.82 (0.71-0.93) 0.97 (0.92-1.00) 0.78 (0.58-0.99) 0.88 (0.70-1.00) 0.90 (0.73-1.00) 0.76 (0.59-0.93) 0.80 (0.67-0.93) 0.99 (0.98-1.00)
LIaMA 405B 0.82 (0.68-0.97) 0.83 (0.68-0.97) 0.97 (0.92-1.00) 0.82 (0.51-1.00) 0.82 (0.51-1.00) 1.00 (1.00-1.00) 0.82 (0.66-0.98) 0.83 (0.67-0.99) 0.95 (0.88-1.00)
ChatGPT o1 0.78 (0.64-0.92) 0.70 (0.58-0.83) 0.79 (0.67-0.92) 0.80 (0.52-1.00) 0.64 (0.38-0.90) 0.85 (0.63-1.00) 0.77 (0.62-0.93) 0.73 (0.59-0.86) 0.78 (0.62-0.93)
ChatGPT o1_PRO 0.81 (0.69-0.94) 0.81 (0.69-0.94) 1.00 (1.00-1.00) 0.80 (0.52-1.00) 0.80 (0.52-1.00) 1.00 (1.00-1.00) 0.82 (0.68-0.96) 0.82 (0.68-0.96) 1.00 (1.00-1.00)
GrokV2 0.76 (0.64-0.87) 0.79 (0.66-0.91) 0.90 (0.80-0.99) 0.77 (0.56-0.98) 0.80 (0.52-1.00) 0.74 (0.50-0.99) 0.75 (0.61-0.89) 0.80 (0.67-0.94) 0.94 (0.86-1.00)
DeepSeekV3 0.78 (0.66-0.90) 0.75 (0.61-0.90) 0.92 (0.81-1.00) 0.64 (0.38-0.90) 0.80 (0.52-1.00) 0.85 (0.63-1.00) 0.83 (0.71-0.95) 0.76 (0.59-0.93) 0.93 (0.80-1.00)
Gemini2.0 Advanced 0.69 (0.54-0.84) 0.73 (0.62-0.85) 0.80 (0.65-0.94) 0.96 (0.90-1.00) 0.80 (0.52-1.00) 0.85 (0.85-1.00) 0.63 (0.45-0.82) 0.74 (0.60-0.87) 0.80 (0.64-0.95)
The analysis of Table 3 revealed response distribution patterns across two sample sizes ( 63 and 79 responses). In the 79 -response dataset, Claude 3.5 Sonnet, ChatGPT o1-Pro, and ChatGPT o1 demonstrated statistical significance ( ) in both analyses. ChatGPT o1-Pro showed reduced undecided (U) categorisations compared to earlier versions, while Llama 3.1 405B recorded minimal undecided (U) categorisations in the 63-response sample.
The analysis identified five main themes encompassing 24 distinct sub-themes, as presented in Table 4: SelfConcept (four sub-themes addressing personal identity), Body Image (three sub-themes focusing on appearance), Social Stigma (five sub-themes examining interpersonal effects), Self-Stigma (six sub-themes detailing psychological responses), and Health Seeking Behaviour (six subthemes covering coping and treatment).
Table 5 documented the thematic alignment capabilities of newer A.I. model versions. ChatGPT o1-Pro, ChatGPT o1, GrokV2, and DeepSeekV3 aligned with Reference A in their final iterations, each identifying all 24 sub-themes (Jaccard index ).
Finally, the A.I. grounded theory followed in phase 3C allowed us to get new themes and subthemes results presented in Additional file 10qua. Those results were used to create the final framework.
The analysis generated the Fractal circle of vulnerabilities framework, an integrated framework for understanding multi-level psychosocial impacts of cutaneous leishmaniasis (Fig. 2), comprising five interconnected spheres: Personal Core, Relational Circle, Socio-Cultural Sphere, Institutional Context, and Resilience Factors. This framework incorporated previously unaddressed dimensions, including stigma by association, structural stigma, and gender-specific experiences.
The framework’s circular structure, highlighting continuous interactions between spheres, introduces a more nuanced understanding of how different levels of influence interact and perpetuate vulnerabilities. Of particular significance are the newly identified elements such as stigma by association affecting family members and close contacts, structural stigma encompassing systemic barriers, and gender-specific experiences highlighting disproportionate impacts on women and girls.

Discussion

This study assessed the potential of artificial intelligence in performing thematic analysis, emphasising their application to qualitative studies of subjective experiences regarding the self-perceived effects of scarring from cutaneous leishmaniasis. The results show that AI-driven methodologies improve consistency, reproducibility and generalisability compared to standard qualitative analytical methods.
Table 3 Contingency table of gender difference showing the Chi for each model comparing two types of responses from females and males of the seventy-nine students affected by cutaneous leishmaniasis and their subgroup of sixty-three students after discarding the sixteen empty responses (The calculation using jamovi software version 2.5.4)
Gender repartition 1st Results 2nd Results
P N U Chi P N U Chi
Ref A for 63 responses 25 6 0 0.65
23 8 1
Ref A for 79 responses 25 6 4 0.14
23 8 13
Man for 63 responses 24 7 0 0.01* 27 4 0 0.04*
21 4 7 22 4 6
Man for 79 responses 24 7 4 0.006* 27 4 4 0.01*
21 4 19 22 4 18
Claude Sonnet for 63 responses 26 4 1 0.13 26 4 1 0.1
21 5 6 21 4 7
Claude Sonnet for 79 responses 26 4 5 0.027* 26 4 5 0.02*
21 5 18 21 4 19
NoteboookLM for 63 responses 24 5 2 0.39 25 5 1 0.28
22 4 6 22 5 5
NoteboookLM for 79 responses 24 5 6 0.06 25 5 5 0.05
22 4 18 22 5 17
Gemini1.5 for 63 responses 25 5 1 0.28 24 6 1 0.25
22 5 5 23 4 5
Gemini1.5 for 79 responses 25 5 5 0.05 24 6 5 0.04*
22 5 17 23 4 17
LlaMA for 63 responses 26 5 0 0.75 26 5 0 0.36
25 7 0 23 9 0
LlaMA for 79 responses 26 5 4 0.18 26 5 4 0.12
25 7 12 23 9 12
ChatGPT o1 for 63 responses 26 4 1 0.09 25 5 1 0.21
22 3 7 19 10 3
ChatGPT o1 for 79 responses 26 4 5 0.02* 25 5 5 0.04*
22 3 19 19 10 15
ChatGPT o1 PRO for 63 responses 26 4 1 0.19 26 4 1 0.19
23 3 6 23 3 6
ChatGPT o1 PRO for 79 responses 26 4 5 0.03* 26 4 5 0.03*
23 3 18 23 3 18
GrokV2 for 63 responses 24 6 1 0.74 26 4 1 0.52
23 6 3 24 4 4
GrokV2 for 79 responses 24 6 5 0.13 26 4 5 0.08
23 6 15 24 4 16
DeepSeekV3 for 63 responses 25 5 1 0.31 26 4 1 0.17
23 4 5 22 4 6
DeepSeekV3 for 79 responses 25 5 5 0.05 26 4 5 0.03*
23 4 17 22 4 18
Gemini2.0 for 63 responses 25 4 2 0.11 26 4 1 0.28
18 7 7 22 6 4
Gemini2.0 for 79 responses 25 4 6 0.01 26 4 5 0.07
18 7 19 22 6 16
(P) Presence of Psychosocial effect. Recoding 1 to P (Psychological effect)
(N) No or maybe of psychological effect (N). Recoding 2 or 3 to N (No psychological effect)
(U) No specific reply to the question or no reply at all. Recoding 0 or 4 to U (Undecided)
Without analysing empty responses (Students=63)
With analysing empty responses (Students=79)
(*) or Fisher exact significance level if the p -value is inferior to 0.05
Table 4 The 24 sub-themes resulting from the initial thematic analysis mentioned in reference A are used to compare the accuracy of the qualitative synthesis process
Main theme Sub-theme reference A Brief explanation of subtheme of reference A
Self-Concept Self-Confidence Loss of self-confidence due to scars
Self-Esteem Reduced self-esteem linked to appearance
Self-Awareness Increased awareness of physical appearance
Self-Contempt Self-loathing because of scars
Body Image Body Beauty Preoccupation with body beauty
Face Appearance The importance of facial appearance
Scars Cosmetic Effects Cosmetic effects of scars
Social Stigma Family Family relationships affected by fear of contagion
Avoidance by Others Avoidance by others because of scars
Social Contempt Social contempt for scars
Marriage Difficulties Marriage difficulties linked to physical appearance
Fear of rejection Fear of social rejection and contagion
Self-Stigma Embarrassment Feelings of discomfort associated with scars
Shame Ashamed of the way you look in public
Anxiety
Sadness
Depression Depression caused by scars
Suicidal Ideas Suicidal thoughts associated with scars
Health Seeking Behaviour Traditional Using traditional remedies to treat scars
Conventional Treatments Conventional medical treatments are often ineffective.
Coping Strategies Coping strategies to hide scars
Psychological Support Need psychological support to deal with scars.
Government Intervention Call for government intervention to ensure affordable care.

The accuracy and consistency of A.I. evolutive models

The accuracy and consistency of A.I. revolutionaries’ models showed significant improvements in accuracy and stability (Especially the Gemini and ChatGPT models). ChatGPT o1-Pro excelled through the analysis compared to other A.I. models reviewed. Quantifiable examples of these performance differentials were realised
via their weighted Kappa coefficients and their Jaccard indices, widely accepted measures of trustworthiness of analytics [1]. One important insight related to treating ambiguous responses: earlier model versions were much more prone to label responses as undecided (U), especially when complex data were involved. This addresses the notable improvement of new models’ ability to process topographic-qualitative in-depth analysis and better understand psychosocial behavioural transformations [43]. This enhancement of analytic capacity fulfils a necessity for the reliability of such A.I. responses categorisations.
Quality control processes in terms of development or making a conclusion based on the potential of reproducibility of the analysis more and more in some models is needed urgently [16]. For example, it would now be possible to conduct sentiment analysis using the most advanced linguistic models, especially those targeting social media like Grok and Llama, which was not the case with LLM just three years before [44]. A worldwide race for creating more advanced reasoning A.I. generative models capable of conducting delicate, sentimental qualitative data analysis has not yet been reached [45]. Nevertheless, based on the Jaccard index, it is easy to confirm that in this recent study, the latest versions of new A.I. models (ChatGPT, Gemini, DeepSeek) over the past two through four months tend to be more accurate for any qualitative analysis. Therefore, in future, there will be more pre-trained models and fewer manual prompts for an easier accuracy analysis and review [17, 46].

Al-assisted triangulation efficacy

Triangulation is an indispensable qualitative technique that enhances the validity of qualitative research findings by combining multiple methods or data [47]. This study on A.I. application for thematic analysis takes an approach to triangulation that requires the description and understanding of the setting within which traditional thematic synthesis is done first [48].
This study shows that A.I. models can serve as automated triangulation, making analyses go beyond the initial data and producing more interpretative frames or hypotheses [48]. These models could translate languages and dialects spoken in similar sentences (or quotes) like Moroccan Darija, Moroccan Amazigh, Moroccan Arabic or French without much problem. An anticipated rise in iterations was expected to affect quality control measures and triangulation positively.

A.l. grounded theory insights

The term “AI-augmented grounded theory” marks a methodological development worth noting regarding how A.I. models can aid and improve grounded theory approaches in qualitative research [49]. Depending on
Table 5 The Jaccard index values of the models used, alone or combined, in the qualitative analysis compared with reference A using python3.13.0
Model(s) Jaccard (A, X1_X2) Jaccard (A, X3_X4) Jaccard (A, X1_X2_X3_X4) Shared sub-themes Single sub-themes The formula for calculating the Jaccard index for four qualitative syntheses of the same model J (A, X)
B: LIaMA 3.1 0.67 0.63 0.79 19 24 19 / (24 + 19-19)
C: NotebookLM 0.54 0.54 0.63 15 24 15 / (24+15-15)
D: Gemini1.5 Adv Ultra 0.58 0.71 0.75 18 24 18 / (24 + 18-18)
E: Claude 3.5 Sonnet 0.50 0.83 0.83 20 24 20 / (24+20-20)
F: Chat GPTo1 PRO 0.96 1.00 1.00 24 24 24 / (24+24-24)
G: Chat GPTo1 0.87 0.96 1.00 24 24 24 / (24 + 24-24)
H: Grok V2 0.92 0.96 1.00 24 24 24 / (24+24-24)
K: DeepSeek V3 0.83 1.00 1.00 24 24 24 / (24 + 24-24)
M: Gemini2.0 Advanced 0.87 0.92 0.92 22 24 22 / (24+22-22)
‘ X ‘ can be replaced by the letter B, C, D, E, F, G, H, K, or M. Knowing that B represents the LlaMA 3.1 model, C represents the NotebookLM model, D represents the Gemini1.5 Advanced Ultra model, E represents the Claude 3.5 Sonnet model, F represents the Chat GPTo1 PRO model, G represents the Chat GPTo1 model, H represents the GrokV2 model, K represents the DeepSeekV3 model, and M represents the Gemini2.0 Advanced model. The calculation formula used is as follows

Fractal Circle of Vulnerabilities

Fig. 2 Fractal circle of vulnerabilities framework
the actual capacities of each model, about accepting or not external files, how many and what size with or not easy to give additional commands or instructions to the unified prompts, the A.I. results be deep and/or detailed.
Then, the decision to keep only the four models that reached the full Jaccard index allowed a very strong synthesis of new insights and helped to create the new Fractal circle of vulnerabilities framework developed through
this hybrid approach. The consistency in this framework (Fig. 2), especially concerning gender-specific studies, implies the facility to understand the difference between psychosocial effects and the existence of such psychosocial effects, jumping the possibility of over-classification to explore some of these ideas and constructs that stress resilience. Indeed, resilience points towards broader ways to deal with individual experiences and structural conditions associated with CL vulnerabilities. Such evidence is particularly salient in gender-specific analyses, where A.I. has demonstrated its capacity to capture nuanced differences in lived experiences, a process vital to grounded theory development [14] and methodology [7]. Moreover, the captured subthemes based on the quote analysis included all the aspects selected, like what was presented in the systematic review exploring the cultural effects of gender on perceptions of CL [50]. This proposed way to deal with this qualitative phenomenon using A.I. is based on the concept first proposed in 2021 that focused on developing harmonious coexistence and collaboration between A.I. generative models and humans in qualitative data analysis [51].

CAQDAS vs qualitative -AI systems

The arrival of AI-driven analytical tools has posed new methodological challenges for CAQDAS software, which has traditionally faced resistance from anthropologists and sociologists alike. One major concern is whether qualitative sampling can be representative when using A.I, such as ones employed specifically for context-sensitive research. As critics would argue, focusing on maximal variation sampling may hamper generalising broader insights from qualitative studies beyond immediate field contexts, thereby making their results hardly transferable to larger populations [52].
A new AI-based generative model targets qualitative researchers to enable them to analyse larger volumes of qualitative data and improve its quality, coverage and importance. Additionally, such A.I. generative models could be applied in many other health disciplines, and most recent AI reasoning models achieved results exceeding human physicians’ reasoning without any language or communication barriers [53-55].

Prerequisites for AI qualitative research practice

For instance, incorporating A.I. into qualitative research requires adapting teaching approaches and revising course curricula. Tools like the SRQR (standards for reporting qualitative research) checklist ensure that A.I. integration maintains transparency and reproducibility [56]. This is the reason that researchers need to give a detailed explanation about their A.I. models used during the whole or a part of the qualitative analysis, what they can and cannot do and how they fit in with
the classical approaches, for more rigorous thinking on qualitative methods based on non-ordinary experiences [57]. Researchers may need to foster other skills, such as A.I. triangulation, to read and assess the quality of such findings. Other than this, A.I. has the potential to help streamline some aspects of qualitative analytic processes by thereby minimising the number of investigators’ heterogeneity while maintaining human analysis depth.

Limitations and prospects

Some limitations need to be discussed in the context of this study on responses supported by generative A.I. toward cutaneous leishmaniasis scars. Though, these findings show significant progress in AI-assisted qualitative analysis, in a particular geographically and culturally specific context of cutaneous leishmaniasis, replication of this study in other geographical and cultural contexts will validate the observations made. This extension would be especially helpful in elucidating how A.I. models work through different socio-cultural manifestations of the psychosocial impact globally. In addition, planning to use an A.I. algorithm to enable qualitative research method, special care must be taken for bias regarding the A.I. algorithms to be used, with full access to the used prompts, videos demonstrations and reproducibility of the analysis depending on the introduced modalities, categories or variables and the targeted outcomes from A.I. that should match the researchers main objectives, as well as being able to decide how to divide the labour of time and effort between A.I. and human [58]. This includes limitations into researcher bias, respondent bias, and social desirability bias, as well as how AI may mitigate or exacerbate these biases.
Another limitation methodologically manifested itself in the analysis is linked to the Llama 405B model that presented a distinguishing analytical pattern, especially when handling the 63 -response sample, where it showed remarkable decisiveness by reducing undecidable categorisations, lowering uncertain categories and demonstrating a high ability to make binary distinctions between presence and absence of psychosocial effects. However, this decisiveness must be taken caution for fear of its potential over-classification [59]. Another weighty consideration is that A.I. technology is fast advancing. The findings represent what A.I. can do at a given time. However, as shown in the results section for Gemini and ChatGPT, future versions may have better features and advancements. Accepting or not using A.I. generative tools by senior university researchers or by researchers with high research productivity could be a subject of debate linked to the ethics of using A.I. in qualitative research [60]. Further research should aim to conduct wide-ranging studies within diverse cultural and linguistic backgrounds, examine A.I. performance across
different health conditions and psychosocial contexts, and establish standardised frameworks for evaluating AI-supported qualitative research. Some productions are already under review, and more predictable ones will follow shortly [61, 62]. This would broaden the reliability and usefulness of AI-enhanced qualitative analysis in healthcare research for a better publication with the highest influential impacts rather than citations.

Conclusion

This comprehensive evaluation of nine A.I. models analysing psychosocial perceptions of cutaneous leishmaniasis offers robust evidence for the transformative potential of generative artificial intelligence in qualitative research. Based on the three phases, the proposed study method could be applied to assess the accuracy and consistency of future A.I. models including deep learning process. For example, sophisticated deep learning models that will follow ChatGPT o1-Pro (Such the upcoming o3 orient, DeepSeek R) will be expected to have higher positive correlation between qualitative analytic precision and depth of understanding of people’s complex experiences. The finding argues that the relationship between AI capabilities and human experience needs to be synergetic for the best qualitative research outcomes, which should be thoroughly investigated and overseen by human qualitative experts for any definitive validation. Finally, it is essential to develop a standardised guidelines expanding the items to do for A.I. qualitative research or reporting A.I. conceptual frameworks, to facilitate standardised broader use in various worldwide research contexts.

Abbreviations

A.I. Artificial intelligence (Generative)
CAQDAS Computer-assisted qualitative data analysis software
CL Cutaneous Leishmaniasis
LLMs Large Language Models
NLP Natural language processing
SRQR Standards for Reporting Qualitative Research

Supplementary Information

The online version contains supplementary material available at https://doi.or g/10.1186/s12911-025-02961-5.

Supplementary Material 1: Additional file 1bis. Phase 1A Full database 31 122024

Supplementary Material 2: Additional file 0. English translated quotes
Supplementary Material 3: Additional file 1. Prompts used in Phase 1A
Supplementary Material 4: Additional file 1ter. Phase1A Kappa Cohen R calculation 31122024
Supplementary Material 5: Additional file 2. Phase 1B Analysis of 79 students binary M & F affected by CL 31122024
Supplementary Material 6: Additional file 3. Phase 1C Analysis of 79 students with CL coded P N U 31122024
Supplementary Material 7: Additional file 4. Phase 1C Analysis of 63 students with CL Coded P N U 31122024
Supplementary Material 8: Additional file 3bis. Phase 1C 79 Students with CL PNU Jamovi results 31122024
Supplementary Material 9: Additional file 4bis. Phase 1C 63 Students with CL PNU Jamovi results 31122024
Supplementary Material 10: Additional file 5. Prompts used in Phase 2-1 and Phase 2-2. Additional file 5bis. Phase 2-1 Claude Sonnet 3.5 1st video demonstration. YouTube [32]. Additional file 5ter. Phase 2-2 Gemini 2.0 Advanced 4th video demonstration. YouTube [33]
Supplementary Material 11: Additional file 6. Phase 2 Reference A Prompt Perplexity sub-themes generation
Supplementary Material 12: Additional file 6bis. Phase 2 Reference A Text extracted from the primary article. Additional file 6ter. Phase 2 Reference A Perplexity results video demonstration. YouTube [35]
Supplementary Material 13: Additional file 7. Matrix of comparative results of reference A Vs other generative A.I. models
Supplementary Material 14: Additional file 7bis. Simplified X Matrix to compare with Reference A themes and subthemes
Supplementary Material 15: Additional file 8. Prompt Phase 3A. Additional file 8bis. Phase 3A All A.I. Models results 2025-01-06-video demonstration. YouTube [36]
Supplementary Material 16: Additional file 9bis. Jaccard index raw database
Supplementary Material 17: Additional file 9. Phase 3B Code Python used to calculate Jaccard Index
Supplementary Material 18: Additional file 10. Phase 3C Grounded theory AI prompt development
Supplementary Material 19: Additional file 10bis. FGHK Additional themes & sub-themes insights issued from Phase 3A. Additional file 10ter. Grounded theory analysis 2025-01-06 video demonstration. YouTube [40]
Supplementary Material 20: Additional file 10qua. Phase 3C Grounded theory AI framework results
Supplementary Material 21: Additional file 11. SRQR checklist

Acknowledgements

The authors thank the reviewers for their comments and suggestions for the manuscript assessment.

Author contributions

IB: Conceptualization, Formal Analysis, Writing, Review, Editing and Validation. SM: Formal analysis and Validation.

Funding

This research received no specific grant from any funding agency in the public, commercial, or not-for-profit sectors.

Data availability

Data is provided within the manuscript and supplementary information files.

Declarations

The ethical implications of A.I. utilisation in qualitative research were fully considered in this study, particularly concerning data confidentiality and methodological transparency. All analyses were conducted using ephemeral storage settings, ensuring no analysed data were archived. All AI-generated prompts and results were permanently discarded after hardware download to maintain data security. This study is a secondary analysis of anonymised qualitative data collected in a previous research study on the psychosocial impact of cutaneous leishmaniasis scars (Bennis et al., 2017) [20]. This study is a secondary analysis of anonymised qualitative data collected in a previous research study on the psychosocial impact of cutaneous leishmaniasis scars
(Bennis et al., 2017) [20]. The original study was approved by the Ethical Committee of Biomedical Research in Rabat, Morocco (CERB). No additional ethics approval was required, as this study involved secondary data analysis. The dataset used was fully anonymised, and no new interactions with human participants occurred. The authors acknowledge that Grammarly.com for Microsoft Office Version 6.8.263 was used for language editing assistance, but it was not employed for generating original content.
Not applicable.

Competing interests

The authors declare no competing interests.
Received: 20 September 2024 / Accepted: 3 March 2025
Published online: 10 March 2025

References

  1. De Paoli S. Performing an inductive thematic analysis of semi-structured interviews with a large Language model: an exploration and provocation on the limits of the approach. Soc Sci Comput Rev. 2024;42:997-1019.
  2. Hitch D. Artificial intelligence augmented qualitative analysis: the way of the future?? Qual Health Res. 2024;34:595-606.
  3. Chapman A, Hadfield M, Chapman C. Qualitative research in healthcare: an introduction to grounded theory using thematic analysis. J R Coll Physicians Edinb. 2015;45:201-5.
  4. Leech NL, Onwuegbuzie AJ. Beyond constant comparison qualitative data analysis: using NVivo. Sch Psychol Q. 2011;26:70-84.
  5. Starks H, Brown Trinidad S. Choose your method: a comparison of phenomenology, discourse analysis, and grounded theory. Qual Health Res. 2007;17:1372-80.
  6. Stough LM, Lee S. Grounded theory approaches used in educational research journals. Int J Qual Methods. 2021;20:16094069211052203.
  7. Charmaz K, Thornberg R. The pursuit of quality in grounded theory. Qual Res Psychol. 2021;18:305-27.
  8. André E. Reflections on qualitative data analysis software- possibilities, limitations and challenges in qualitative educational research. Rev Electrónica En Educ Pedagog. 2020;4:41-55.
  9. Pérez Gamboa AJ, Díaz-Guerra DD. Artificial intelligence for the development of qualitative studies. LatIA. 2023;1:4.
  10. Sawicki J, Ganzha M, Paprzycki M. The state of the art of natural language processing-A systematic automated review of NLP literature using NLP techniques. Data Intell. 2023;5:707-49.
  11. Abdüsselam MS. Qualitative data analysis in the age of artificial general intelligence. Int J Adv Nat Sci Eng Res. 2023.
  12. Morgan DL. Exploring the use of artificial intelligence for qualitative data analysis: the case of ChatGPT. Int J Qual Methods. 2023;22:16094069231211248.
  13. Atkinson CF. Cheap, quick, and rigorous: artificial intelligence and the systematic literature review. Soc Sci Comput Rev. 2024;42:376-93.
  14. Zhang H, Wu C, Xie J, Lyu Y, Cai J, Carroll JM. Redefining qualitative analysis in the AI era: utilizing ChatGPT for efficient thematic analysis. 2024. https://arxiv. org/abs/2309.10771
  15. Zala K, Acharya B, Mashru M, Palaniappan D, Gerogiannis VC, Kanavos A, et al. Transformative automation: AI in scientific literature reviews. Int J Adv Comput Sci Appl IJACSA. 2024;15.
  16. Rodrigues Dos Anjos J, De Souza MG, Serrano De Andrade Neto A, Campello De Souza B. An analysis of the generative AI use as analyst in qualitative research in science education. Rev Pesqui Qual. 2024;12:01-29.
  17. Chubb LA. Me and the machines: possibilities and pitfalls of using artificial intelligence for qualitative data analysis. Int J Qual Methods. 2023;22:16094069231193593.
  18. Christou P. How to use Artificial Intelligence (AI) as a resource, methodological and analysis tool in qualitative research? Qual Rep. 2023. https://doi.org/1 0.46743/2160-3715/2023.6406
  19. Antons D, Breidbach CF, Joshi AM, Salge TO. Computational literature reviews: method, algorithms, and roadmap. Organ Res Methods. 2023;26:107-38.
  20. Bennis I, Thys S, Filali H, De Brouwere V, Sahibi H, Boelaert M. Psychosocial impact of scars due to cutaneous leishmaniasis on high school students in errachidia province, Morocco. Infect Dis Poverty. 2017;6:46.
  21. Alderton DL, Ackley C, Trueba ML. The psychosocial impacts of skinneglected tropical diseases (SNTDs) as perceived by the affected persons: a systematic review. PLoS Negl Trop Dis. 2024;18:e0012391.
  22. Llama 3. 1. Meta Llama. https://Ilama.meta.com/. Accessed 4 Aug 2024.
  23. Introducing Claude 3.5 Sonnet Anthropic. https://www.anthropic.com/ne ws/claude-3-5-sonnet. Accessed 4 Aug 2024.
  24. NotebookLM| Note Taking & Research Assistant. Powered by Al. https://noteb ooklm.google/. Accessed 4 Aug 2024.
  25. Gemini Ultra. Google DeepMind. 2024. https://deepmind.google/technologi es/gemini/ultra/. Accessed 4 Aug 2024.
  26. Gemini Advanced. accédez aux modèles d’IA les plus performants de Google avec Gemini 2.0. Gemini. https://gemini.google/advanced/. Accessed 6 Jan 2025.
  27. Grok. X (formerly Twitter). https://x.com/i/grok. Accessed 6 Jan 2025.
  28. DeepSeek. https://www.deepseek.com/. Accessed 6 Jan 2025.
  29. Learning to Reason with LLMs. https://openai.com/index/learning-to-reaso n-with-Ilms/. Accessed 6 Jan 2025.
  30. Introducing ChatGPT Pro. https://openai.com/index/introducing-chatgpt-pro /. Accessed 6 Jan 2025.
  31. French translation of participants’ responses to the last question. Available online https://static-content.springer.com/esm/art%3A10.1186%2Fs40249-0 17-0267-5/MediaObjects/40249_2017_267_MOESM4_ESM.pdf
  32. I Bennis. Additional file 5bis Phase 21 Claude 3.5 Sonnet 1st video demonstration. 2025. https://www.youtube.com/watch?v=UmJI7DGYheo. Accessed 8 Jan 2025.
  33. Bennis I. Additional file 5ter Phase 22 Gemini 20 Advanced 4th video demonstration. 2025. https://www.youtube.com/watch?v=o25Hd3vw7R8. Accessed 8 Jan 2025.
  34. Perplexity collaborates with Amazon Web Services to launch Enterprise Pro. h ttps://www.perplexity.ai/hub/blog/perplexity-collaborates-with-amazon-we b-services-to-launch-enterprise-pro. Accessed 6 Jan 2025.
  35. I Bennis. Additional file 6ter Phase 2 Reference A Perplexity results video demonstration. 2025. https://www.youtube.com/watch?v=jTwjw5WHZ7w. Accessed 8 Jan 2025.
  36. I Bennis. Additional file 8bis Phase 3A All AI Models results 20250106 video demonstration. 2025. https://www.youtube.com/watch?v=EboN18on4rl. Accessed 8 Jan 2025.
  37. Niwattanakul S, Singthongchai J, Naenudorn E, Wanapu S. Using of Jaccard Coefficient for Keywords Similarity. Hong Kong. 2013. https://www.iaeng.org/ publication/IMECS2013/IMECS2013_pp380-384.pdf
  38. Zahrotun L. Comparison Jaccard similarity, cosine similarity and combined both of the data clustering with shared nearest neighbor method. Comput Eng Appl J. 2016;5:11-8.
  39. Vijaymeena MK, Kavitha K. A survey on similarity measures in text mining. Mach Learn Appl Int J. 2016;3:19-28.
  40. Bennis I. Additional file 10ter Grounded theory analysis 20250106 video demonstration. 2025. https://www.youtube.com/watch?v=8XbjpP_bR1U. Accessed 8 Jan 2025.
  41. Napkin AI. Jan – The visual AI for business storytelling. Napkin AI. https://www w.napkin.ai. Accessed 72025.
  42. O’Brien BC, Harris IB, Beckman TJ, Reed DA, Cook DA. Standards for reporting qualitative research: A synthesis of recommendations. Acad Med. 2014;89:1245-51.
  43. LeBeau B, Ellison S, Aloe AM. Reproducible analyses in education research. Rev Res Educ. 2021;45:195-222.
  44. Md A, Ali Khan A-E. Sentiment analysis through machine learning. J Southwest Jiaotong Univ. 2021;56.
  45. Martin S, Beecham E, Kursumovic E, Armstrong RA, Cook TM, Déom N et al. Comparing human vs. machine-assisted analysis to develop a new approach for. Big Qualitative Data Anal. 2024;2024.07.16.24310275.
  46. Aditya G. Understanding and addressing AI hallucinations in healthcare and life sciences. Int J Health Sci. 2024;7:1-11.
  47. Donkoh S, Mensah J. Application of triangulation in qualitative research. J Appl Biotechnol Bioeng. 2023;10:6-9.
  48. Thomas J, Harden A. Methods for the thematic synthesis of qualitative research in systematic reviews. BMC Med Res Methodol. 2008;8:45.
  49. Using AI. In Grounded Theory research – a proposed framework for a ChatGPT-based research assistant. Accessed 7 Jan 2025. https://osf.io/preprin ts/socarxiv/a2dc4_v1
  50. Wenning B, Price H, Nuwangi H, Reda KT, Walters B, Ehsanullah R, et al. Exploring the cultural effects of gender on perceptions of cutaneous leishmaniasis: a systematic literature review. Glob Health Res Policy. 2022;7:1-13.
  51. Feuston JL, Brubaker JR. Putting tools in their place: the role of time and perspective in Human-AI collaboration for qualitative analysis. Proc ACM Hum-Comput Interact. 2021;5:1-25.
  52. Levitt HM. Qualitative generalization, not to the population but to the phenomenon: reconceptualizing variation in qualitative research. Qual Psychol. 2021;8:95-110.
  53. Levine DM, Tuwani R, Kompa B, Varma A, Finlayson SG, Mehrotra A, et al. The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study. Lancet Digit Health. 2024;6:e555-61.
  54. Tanaka Y, Nakata T, Aiga K, Etani T, Muramatsu R, Katagiri S, et al. Performance of generative pretrained transformer on the National medical licensing examination in Japan. PLOS Digit Health; 2024;3(1):e0000433.
  55. Fang C, Wu Y, Fu W, Ling J, Wang Y, Liu X, et al. How does ChatGPT-4 preform on non-English National medical licensing examination? An evaluation in Chinese Language. PLOS Digit Health. 2023;2:e0000397.
  56. Karjus A. Machine-assisted mixed methods: augmenting humanities and social sciences with artificial intelligence. 2023. https://arxiv.org/abs/2309.143 79
  57. Kim H, Sefcik JS, Bradway C. Characteristics of qualitative descriptive studies: A systematic review. Res Nurs Health. 2017;40:23-42.
  58. Weidener L, Fischer M. Teaching AI ethics in medical education: A scoping review of current literature and practices. Perspect Med Educ. 2023;12.
  59. Tao K, Osman ZA, Tzou PL, Rhee S-Y, Ahluwalia V, Shafer RW. GPT-4 performance on querying scientific publications: reproducibility, accuracy, and impact of an instruction sheet. BMC Med Res Methodol. 2024;24:139.
  60. Marshall DT, Naff DB. The ethics of using artificial intelligence in qualitative research. J Empir Res Hum Res Ethics. 2024;19:92-102.
  61. Leça M, de Valença M, Santos L, de Santos R. S. Applications and Implications of Large Language Models in Qualitative Analysis: A New Frontier for Empirical Software Engineering. 2024. https://arxiv.org/abs/2412.06564
  62. Schroeder H, Quéré MAL, Randazzo C, Mimno D, Schoenebeck S. Large Language Models in Qualitative Research: Can We Do the Data Justice? 2024. https://doi.org/10.48550/ARXIV.2410.07362

Publisher’s note

Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

  1. *Correspondence:
    Issam Bennis
    issambennis@gmail.com; issambennis@um6ss.ma
    ¹Mohammed VI International School of Public Health, Mohammed VI University of Sciences and Health, Casablanca, Morocco