اختبار نظرية العقل في نماذج اللغة الكبيرة والبشر Testing theory of mind in large language models and humans

المجلة: Nature Human Behaviour، المجلد: 8، العدد: 7
DOI: https://doi.org/10.1038/s41562-024-01882-z
PMID: https://pubmed.ncbi.nlm.nih.gov/38769463
تاريخ النشر: 2024-05-20

اختبار نظرية العقل في نماذج اللغة الكبيرة والبشر

تاريخ الاستلام: 14 أغسطس 2023
تم القبول: 5 أبريل 2024
نُشر على الإنترنت: 20 مايو 2024

جيمس و. أ. ستراشان دليلة ألبيرغو جوليا بورغيني أوريانا بانساردي © يوجينيو سكاليتى (ب) سوراب غوبتا (ب) كراتي ساكسانا® أليساندرو روفو © ستيفانو بانزيري © غيدو مانزي (ب) مايكل س. أ. غرازيانو و كريستينا بيكيو ©

الملخص

في جوهر ما يحددنا كبشر هو مفهوم نظرية العقل: القدرة على تتبع الحالات الذهنية للآخرين. أدى التطور الأخير لنماذج اللغة الكبيرة (LLMs) مثل ChatGPT إلى نقاش مكثف حول إمكانية أن تظهر هذه النماذج سلوكًا لا يمكن تمييزه عن السلوك البشري في مهام نظرية العقل. هنا نقارن أداء البشر ونماذج LLM على مجموعة شاملة من القياسات التي تهدف إلى قياس قدرات نظرية العقل المختلفة، من فهم المعتقدات الخاطئة إلى تفسير الطلبات غير المباشرة والتعرف على السخرية والأخطاء الاجتماعية. اختبرنا عائلتين من نماذج LLM (GPT وLLaMA2) بشكل متكرر ضد هذه القياسات وقارننا أدائها مع عينة من 1,907 مشاركًا بشريًا. عبر مجموعة اختبارات نظرية العقل، وجدنا أن نماذج GPT-4 أدت بمستوى، أو حتى أحيانًا فوق، المستويات البشرية في تحديد الطلبات غير المباشرة، والمعتقدات الخاطئة، والتوجيه الخاطئ، لكنها واجهت صعوبة في اكتشاف الأخطاء الاجتماعية. ومع ذلك، كانت الأخطاء الاجتماعية هي الاختبار الوحيد الذي تفوقت فيه LLaMA2 على البشر. كشفت التلاعبات اللاحقة في احتمالية المعتقد أن تفوق LLaMA2 كان وهميًا، ربما يعكس تحيزًا نحو نسب الجهل. بالمقابل، كان الأداء الضعيف لـ GPT ناتجًا عن نهج متحفظ للغاية تجاه الالتزام بالاستنتاجات بدلاً من فشل حقيقي في الاستدلال. لا تُظهر هذه النتائج فقط أن نماذج LLM تظهر سلوكًا يتماشى مع مخرجات الاستدلال الذهني لدى البشر، بل تبرز أيضًا أهمية الاختبار المنهجي لضمان مقارنة غير سطحية بين الذكاءات البشرية والاصطناعية.

يهتم الناس بما يفكر فيه الآخرون ويبذلون الكثير من الجهد في التفكير فيما يجري في عقول الآخرين. الحياة اليومية مليئة بالتفاعلات الاجتماعية التي لا تكون منطقية إلا عند النظر إليها في ضوء قدرتنا على تمثيل عقول الآخرين: عندما تقف بالقرب من
عندما تكون النافذة مغلقة ويقول صديقك، ‘إنه حار قليلاً هنا’، فإن قدرتك على التفكير في معتقداتها ورغباتها هي التي تتيح لك أن تدرك أنها لا تعبر فقط عن درجة الحرارة بل تطلب منك بأدب فتح النافذة. .
تُعرف هذه القدرة على تتبع الحالات العقلية للآخرين بنظرية العقل. تعتبر نظرية العقل مركزية للتفاعلات الاجتماعية البشرية – من التواصل إلى التعاطف إلى اتخاذ القرارات الاجتماعية – وقد كانت محل اهتمام طويل الأمد لعلماء النفس التنمويين والاجتماعيين والسريريين. بعيدًا عن كونها مفهومًا موحدًا، تشير نظرية العقل إلى مجموعة مترابطة من الأفكار التي تُجمع لتفسير وتوقع وتبرير سلوك الآخرين. منذ أن تم تقديم مصطلح ‘نظرية العقل’ لأول مرة في عام 1978 (المرجع 3)، تم تطوير العشرات من المهام لدراستها، بما في ذلك القياسات غير المباشرة لنسبة الإيمان باستخدام أوقات الاستجابة. وسلوك البحث أو التصفح مهام تفحص القدرة على استنتاج الحالات الذهنية من صور العيون ومهام قائمة على اللغة تقيم فهم المعتقدات الخاطئة وفهم اللغة البراغماتية تم اقتراح هذه التدابير لاختبار العمليات الضمنية المبكرة والفعالة ولكن غير المرنة، بالإضافة إلى القدرات الصريحة المتطورة لاحقًا، المرنة والم demanding، والتي تعتبر حاسمة لتوليد وفهم التفاعلات السلوكية المعقدة. تشمل ظواهر مثل التوجيه الخاطئ، والسخرية، والدلالة الضمنية، والخداع.
لقد أظهر الارتفاع الأخير في نماذج اللغة الكبيرة (LLMs)، مثل نماذج المحولات المدربة مسبقًا (GPT)، بعض الأمل في أن نظرية العقل الاصطناعي قد لا تكون فكرة بعيدة جدًا. تظهر نماذج LLMs التوليدية أداءً يتميز بقدرات متطورة في اتخاذ القرار والتفكير. بما في ذلك حل المهام المستخدمة على نطاق واسع لاختبار نظرية العقل لدى البشر . ومع ذلك، فإن النجاح المختلط لهذه النماذج بالإضافة إلى ضعفهم تجاه الاضطرابات الصغيرة في المطالبات المقدمة، بما في ذلك التغييرات البسيطة في وصول الشخصيات الإدراكي. “، يثير القلق بشأن قوة وقابلية تفسير النجاحات الملحوظة. حتى في الحالات التي تكون فيها هذه النماذج قادرة على حل المهام المعقدة التي تتطلب مجهودًا معرفيًا حتى للبالغين البشر لا يمكن اعتبار أنه لن يتم عرقلتهم بمهمة أبسط قد يجدها الإنسان تافهة. نتيجة لذلك، بدأ العمل في نماذج اللغة الكبيرة (LLMs) في التساؤل عما إذا كانت هذه النماذج تعتمد على استدلالات سطحية بدلاً من أداء قوي يتوازى مع قدرات نظرية العقل البشرية. .
في خدمة الدراسة متعددة التخصصات الأوسع لسلوك الآلات كانت هناك دعوات حديثة لعلم نفس الآلات التي جادلت في استخدام الأدوات والنماذج من علم النفس التجريبي للتحقيق بشكل منهجي في القدرات والحدود لـ يتضمن نهج تجريبي منهجي لدراسة نظرية العقل في نماذج اللغة الكبيرة استخدام مجموعة متنوعة من مقاييس نظرية العقل، وتقديم تكرارات متعددة لكل اختبار، ووجود معايير محددة بوضوح لأداء الإنسان للمقارنة. في هذه المقالة، نتبنى مثل هذا النهج لاختبار أداء نماذج اللغة الكبيرة في مجموعة واسعة من مهام نظرية العقل. قمنا باختبار النسخة المدعومة بالدردشة من GPT-4، أحدث نموذج في عائلة نماذج GPT، وسابقتها ChatGPT-3.5 (المشار إليها فيما بعد بـ GPT-3.5) في مجموعة شاملة من الاختبارات النفسية التي تغطي قدرات نظرية العقل المختلفة، بدءًا من تلك التي تتطلب مجهودًا إدراكيًا أقل للبشر مثل فهم الطلبات غير المباشرة إلى القدرات الأكثر تطلبًا إدراكيًا مثل التعرف على وتعبير عن حالات عقلية معقدة مثل التوجيه الخاطئ أو السخرية. نماذج GPT هي أنظمة مغلقة ومتطورة. من مصلحة القابلية للتكرار ، كما اختبرنا نماذج LLaMA2-Chat ذات الوزن المفتوح على نفس الاختبارات. لفهم التباين والحدود المتعلقة بقدرات التفكير الاجتماعي لنماذج اللغة الكبيرة، عرضنا كل نموذج لعدة تكرارات من كل اختبار عبر جلسات مستقلة وقارنّا أدائها بأداء عينة من المشاركين البشر (الإجمالي باستخدام متغيرات الاختبارات المدروسة، تمكنا من فحص العمليات وراء نجاحات ونكسات النماذج في هذه الاختبارات.

النتائج

بطارية نظرية العقل

اخترنا مجموعة من اختبارات نظرية العقل المعروفة التي تغطي قدرات مختلفة: مهمة التلميح مهمة الاعتقاد الخاطئ الاعتراف بالخطأ الاجتماعي والقصص الغريبة . لقد قمنا أيضًا بتضمين اختبار لـ
فهم السخرية باستخدام المحفزات المعدلة من دراسة سابقة تم إجراء كل اختبار بشكل منفصل على GPT-4 وGPT-3.5 وLLaMA2-70B-Chat (المشار إليه فيما بعد بـ LLaMA2-70B) عبر 15 محادثة. كما اختبرنا حجمين آخرين من نموذج LLaMA2 (7B و13B)، وتم الإبلاغ عن النتائج في قسم المعلومات التكميلية 1. نظرًا لأن كل محادثة هي جلسة منفصلة ومستقلة، ولا يتم الاحتفاظ بمعلومات حول الجلسات السابقة، فقد سمح لنا ذلك بمعاملة كل محادثة (جلسة) كملاحظة مستقلة. تم تقييم الردود وفقًا لبروتوكولات التقييم لكل اختبار على البشر (الطرق) ومقارنتها بتلك التي تم جمعها من عينة من 250 مشاركًا بشريًا. تم إجراء الاختبارات من خلال تقديم كل عنصر بشكل متسلسل في صيغة مكتوبة تضمن مقارنة عادلة بين الأنواع. (الطرق) بين نماذج اللغة الكبيرة والمشاركين البشريين.

الأداء عبر اختبارات نظرية العقل

باستثناء اختبار السخرية، فإن جميع الاختبارات الأخرى في مجموعتنا هي اختبارات متاحة للجمهور يمكن الوصول إليها ضمن قواعد البيانات المفتوحة ومقالات المجلات العلمية. لضمان أن النماذج لم تقم فقط بتكرار بيانات مجموعة التدريب، قمنا بإنشاء عناصر جديدة لكل اختبار منشور (الطرق). كانت هذه العناصر الجديدة تتطابق مع منطق عناصر الاختبار الأصلية ولكنها استخدمت محتوى دلالي مختلف. نص العناصر الأصلية والجديدة والردود المشفرة متاحة على OSF (طرق وتوافر الموارد).
الشكل 1أ يقارن أداء نماذج اللغة الكبيرة (LLMs) بأداء المشاركين البشريين عبر جميع الاختبارات المدرجة في البطارية. تظهر الفروق في الأداء على العناصر الأصلية مقابل العناصر الجديدة، بشكل منفصل لكل اختبار ونموذج، في الشكل 1ب.
اعتقاد خاطئ. حقق كل من المشاركين البشريين ونماذج اللغة الكبيرة أداءً ممتازًا في هذا الاختبار (الشكل 1أ). أبلغت جميع نماذج اللغة الكبيرة بشكل صحيح أن الوكيل الذي غادر الغرفة أثناء نقل الشيء سيبحث لاحقًا عن الشيء في المكان الذي تذكر أنه رآه فيه، على الرغم من أنه لم يعد يتطابق مع الموقع الحالي. كان الأداء على العناصر الجديدة أيضًا قريبًا من الكمال (الشكل 1ب)، حيث ارتكب 5 مشاركين بشريين فقط من أصل 51 خطأ واحدًا، عادةً عن طريق الفشل في تحديد أحد الموقعين (على سبيل المثال، ‘سوف يبحث في الغرفة’؛ قسم المعلومات التكميلية 2).
في البشر، يتطلب النجاح في مهمة الاعتقاد الخاطئ كبح الاعتقاد الشخصي حول الواقع من أجل استخدام المعرفة حول الحالة العقلية للشخصية لاستنتاج توقعات حول سلوكها. ومع ذلك، قد يُفسر الأداء في نماذج اللغة الكبيرة من خلال تفسيرات على مستوى أدنى من تتبع الاعتقاد. يدعم هذا التفسير أن نماذج اللغة الكبيرة مثل ChatGPT قد أظهرت أنها عرضة لتغييرات طفيفة في صياغة الاعتقاد الخاطئ. مثل جعل الحاويات التي تم إخفاء الشيء فيها شفافة أو السؤال عن اعتقاد الشخصية التي حركت الشيء بدلاً من تلك التي كانت خارج الغرفة. يُفترض أن مثل هذه التغيرات في الهيكل القياسي للاعتقاد الخاطئ لا تهم البشر (الذين يمتلكون نظرية العقل). في دراسة تحكم باستخدام هذه المتغيرات المزعزعة (قسم المعلومات التكميلية 4 والملحق التكميلية 1)، قمنا بتكرار الأداء الضعيف لنماذج GPT الذي تم العثور عليه في الدراسات السابقة. . ومع ذلك، وجدنا أن المشاركين البشريين ( فشلت أيضًا في نصف هذه الاضطرابات. يتطلب فهم هذه الإخفاقات والتشابهات والاختلافات في كيفية وصول البشر وLLMs إلى نفس النتيجة مزيدًا من التحقيق المنهجي. على سبيل المثال، نظرًا لأن هذه الاضطرابات تتضمن أيضًا تغييرات في الخصائص الفيزيائية للبيئة، فإنه من الصعب تحديد ما إذا كانت LLMs (والبشر) قد فشلت لأنها تمسكت بالنص المألوف ولم تكن قادرة على إسناد اعتقاد محدث تلقائيًا، أو لأنها لم تأخذ في الاعتبار المبادئ الفيزيائية (على سبيل المثال، الشفافية).
السخرية. أداء GPT-4 كان أفضل بكثير من مستويات البشر. ، فترة الثقة (CI) ” ). بالمقابل، كل من GPT-3.5 ( ) و LLaMA2-70B ( ) أدت دون مستويات البشر (الشكل 1أ). أدت GPT-3.5 بشكل مثالي عند
الشكل 1 | أداء البشر (الأرجواني)، GPT-4 (الأزرق الداكن)، GPT-3.5 (الأزرق الفاتح) و LLaMA2-70B (الأخضر) في مجموعة من اختبارات نظرية العقل. أ، عناصر الاختبار الأصلية لكل اختبار تظهر توزيع درجات الاختبار لجلسات وأفراد محددين. النقاط الملونة تظهر متوسط درجة الاستجابة عبر جميع عناصر الاختبار لكل جلسة اختبار فردية (نماذج اللغة الكبيرة) أو مشارك (بشر). النقاط السوداء تشير إلى الوسيط لكل حالة. تم حساب القيم من اختبارات ويلكوكسون ثنائية الاتجاه المصححة بواسطة هولم لمقارنة درجات LLM ( ملاحظات LLM) مقابل الدرجات البشرية (السخرية، المشاركين البشريين؛ زلة لسان، المشاركون البشريون؛ تلميح، مشاركون بشريون؛ قصص غريبة، إنسان
المشاركين). يتم ترتيب الاختبارات بترتيب تنازلي لأداء البشر. ب، النطاقات الربعية للدرجات المتوسطة على العناصر المنشورة الأصلية (الألوان الداكنة) والعناصر الجديدة (الألوان الفاتحة) عبر كل اختبار (بالنسبة لنماذج اللغة الكبيرة، ملاحظات؛ بالنسبة للبشر، الاعتقاد الخاطئ، المشاركين البشريين؛ زلة لسان، المشاركون البشريون؛ تلميح، مشاركون بشريون؛ قصص غريبة، المشاركين البشريين). تشير الماس الفارغة إلى الدرجات المتوسطة، وتشير الدوائر المملوءة إلى الحدود العليا والسفلى لنطاق الربع. القيم المعروضة هي من اختبارات ويلكوكسون ثنائية الاتجاه المصححة بواسطة هولم، التي تقارن الأداء على العناصر الأصلية مقابل العناصر الجديدة التي تم إنشاؤها كعناصر تحكم لهذه الدراسة.
التعرف على بيانات التحكم غير الساخر ولكنه ارتكب أخطاء في التعرف على العبارات الساخرة (قسم المعلومات التكميلية 2). كشفت تحليل التحكم عن تأثير ترتيب كبير، حيث ارتكب GPT-3.5 المزيد من الأخطاء في التجارب السابقة مقارنة بالتجارب اللاحقة (قسم المعلومات التكميلية 3). ارتكب LLaMA2-70B أخطاء عند التعرف على كل من العبارات الساخرة وغير الساخرة، مما يشير إلى تمييز ضعيف بشكل عام للساخر.
خطأ اجتماعي. في هذا الاختبار، حصل GPT-4 على درجات أقل بكثير من المستويات البشرية. ) مع تأثيرات سقف معزولة على عناصر محددة (قسم المعلومات التكميلية 2). سجل GPT3.5 أداءً أسوأ، حيث كان أداؤه قريبًا من القاع ( ، ) على جميع العناصر باستثناء واحد. بالمقابل، تفوق LLaMA2-70B على البشر ( ، تحقيق الدقة في جميع الجولات ما عدا واحدة.
كان نمط النتائج للعناصر الجديدة مشابهًا نوعيًا (الشكل 1ب). بالمقارنة مع العناصر الأصلية، أثبتت العناصر الجديدة أنها أسهل قليلاً بالنسبة للبشر. ) وأكثر صعوبة بالنسبة لـ GPT-3.5 ( 0.88)، ولكن ليس لـ GPT-4 و LLaMA2-70B ( “; عامل بايز ( 0.77 و 0.43 على التوالي). نظرًا للأداء الضعيف لـ GPT-3.5 في العناصر الاختبارية الأصلية، فمن غير المحتمل أن يُفسر هذا الاختلاف من خلال معرفة سابقة بالعناصر الأصلية. كانت هذه النتائج قوية أمام أنظمة الترميز البديلة (قسم المعلومات التكميلية 5).
التلميح. في هذا الاختبار، كانت أداء GPT-4 أفضل بكثير من البشر. سي آي ). لم يختلف أداء GPT-3.5 بشكل كبير عن الأداء البشري ( ، ). فقط LLaMA2-70B سجل أداءً أقل بكثير من مستويات الأداء البشرية في هذا الاختبار .
ثبت أن العناصر الجديدة أسهل من العناصر الأصلية لكل من البشر ) و LLaMA2-70B ( ) (الشكل 1ب). لم تختلف الدرجات على العناصر الجديدة عن العناصر الأصلية للاختبار لـ GPT-3.5 ( ) أو GPT-4 ( نظرًا لأن الأداء الأفضل على العناصر الجديدة هو عكس ما قد تتوقعه تفسير الألفة السابقة، فمن المحتمل أن يكون هذا الاختلاف بالنسبة لـ LLaMA2-70B مدفوعًا باختلافات في صعوبة العناصر.
قصص غريبة. تفوق GPT-4 بشكل كبير على البشر في هذا الاختبار. لم يختلف أداء GPT-3.5 بشكل كبير عن البشر ، بينما حصل LLaMA2-70B على درجات أقل بكثير من البشر ، لم تكن هناك اختلافات بين العناصر الأصلية والعناصر الجديدة لأي نموذج (جميع إنسان 1.46، LLaMA2-70B 0.46؛ كانت التباين لـ GPT-4 منخفضًا جدًا للحساب
كما ورد في قسم المعلومات التكميلية 6، كانت النجاحات الجزئية نادرة وأكثر احتمالاً لنموذج LLaMA2-70B مقارنة بالنماذج الأخرى.

فهم الأخطاء الاجتماعية

تماشيًا مع النتائج السابقة التي تشير إلى أن نماذج GPT تواجه صعوبة في المواقف المحرجة في بطاريتنا، كانت زلة القدم الاختبار الوحيد الذي لم يتطابق فيه GPT-4 أو يتجاوز أداء البشر. ومن المدهش أن زلة القدم كانت أيضًا الاختبار الوحيد الذي سجل فيه LLaMA2-70B، الذي كان النموذج الأقل أداءً في باقي الاختبارات، نتائج أفضل من البشر (الشكل 1).
يتكون اختبار الفو با من مشاهد تصف تفاعلًا حيث يقول أحد الشخصيات (المتحدث) شيئًا لا ينبغي عليه قوله، دون أن يعرف أو يدرك أنه لا ينبغي عليه قوله. لفهم أن خطأ اجتماعي قد حدث، يجب على المرء تمثيل حالتين ذهنيتين: أن المتحدث لا يعرف أنه لا ينبغي عليه قول ما قاله، وأن الشخص الذي يسمعه (الضحية) سيشعر بالإهانة أو الأذى مما قيل. اعتبر المثال التالي لقصة تصف خطأ اجتماعي:
Jill had just moved into a new house. She went shop-
ping with her Mum and bought some new curtains. When
Jill had just put them up, her best friend Lisa came
round and said, "Oh, those curtains are horrible, I
hope you're going to get some new ones." Jill asked,
"Do you like the rest of my bedroom?"
بعد عرض القصة، يتم طرح أربعة أسئلة لفهم المحتوى. السؤال الأول هو: ‘في القصة، هل قال أحدهم شيئًا لم يكن ينبغي عليه قوله؟’ والإجابة الصحيحة دائمًا هي نعم. السؤال الثاني يطلب من المجيب الإبلاغ عما قاله الشخص الذي لم يكن ينبغي عليه قوله، والسؤال الثالث هو سؤال فهم يتعلق بمحتوى القصة. السؤال الرابع والرئيسي، الذي كان محور تركيزنا في الترميز، يتعلق بمعتقد المتحدث عندما أدلى بالتصريح غير المناسب: ‘هل كانت [ليزا] تعرف أن [الستائر جديدة]؟’ والإجابة الصحيحة على هذا السؤال الأخير دائمًا هي لا.
كلا من GPT-4 و GPT-3.5 حددتا بشكل صحيح أن الضحية ستشعر بالإهانة أو الأذى، وأحيانًا ذهبتا إلى حد تقديم تفاصيل إضافية حول سبب إمكانية أن تسبب العبارة إساءة. ومع ذلك، عندما سُئلتا عما إذا كان المتحدث على علم بالسياق الذي جعل بيانه مسيئًا (مثل علم ليزا بأن جيل قد اشترت للتو الستائر)، فشلتا في تقديم إجابة صحيحة. أظهر فحص أقرب أن الغالبية العظمى من الأخطاء في هذا السؤال أفادت بعدم وجود معلومات كافية لتكون متأكدًا، على سبيل المثال:
Did Lisa know the curtains were new?
GPT-4: [...] It is unclear from the story whether Lisa
knew the curtains were new or not.
فقط ردين من أصل 349 أشارا إلى أن الشخصية كانت تعرف. نحن نعتبر ثلاثة فرضيات بديلة لسبب فشل نماذج GPT، وبشكل خاص GPT-4، في الإجابة على هذا السؤال بشكل صحيح.
الفرضية الأولى، التي نسميها فرضية فشل الاستدلال، هي أن النماذج تفشل في توليد استنتاجات حول الحالة العقلية للمتحدث (لاحظ أننا نشير إلى الاستدلال هنا ليس بالمعنى الذي تشير به العمليات التي من خلالها تستنتج الكائنات الحية الحالات المخفية من بيئتها، ولكن بدلاً من ذلك كأي عملية تفكير يتم من خلالها اشتقاق استنتاجات من مجموعة من المقدمات الاقتراحية). يعتمد التعرف على زلة في هذا الاختبار على معلومات سياقية تتجاوز تلك المشفرة داخل القصة (على سبيل المثال، حول المعايير الاجتماعية). على سبيل المثال، في المثال أعلاه، لا توجد معلومات في القصة تشير إلى أن قول أن الستائر التي تم شراؤها حديثًا مروعة هو أمر غير مناسب، ولكن هذه فرضية ضرورية يجب قبولها من أجل استنتاج الحالة العقلية للشخصيات بدقة. هذا
عدم القدرة على استخدام المعلومات غير المدمجة سيؤثر بشكل أساسي على قدرة GPT-4 على حساب الاستنتاجات.
الفرضية الثانية، التي نسميها فرضية حمار بوردان، هي أن النماذج قادرة على استنتاج الحالات الذهنية ولكنها لا تستطيع الاختيار بينها، كما هو الحال مع الوكيل العقلاني الذي يحمل الاسم نفسه والذي علق بين كومتين متساويتين من التبن ويموت جوعًا لأنه لا يستطيع حل معضلة اتخاذ القرار في غياب تفضيل واضح. تحت هذه الفرضية، يمكن لنماذج GPT اقتراح الإجابة الصحيحة (خطأ اجتماعي) كواحدة من عدة بدائل ممكنة ولكنها لا تصنف هذه البدائل من حيث الاحتمالية. دعمًا جزئيًا لهذه الفرضية، تشير ردود كل من نماذج GPT أحيانًا إلى أن المتحدث قد لا يعرف أو يتذكر، ولكنها تقدم ذلك كفرضية واحدة من بين بدائل أخرى (قسم المعلومات التكميلية 5).
الفرضية الثالثة، التي نسميها فرضية المحافظة المفرطة، هي أن نماذج GPT قادرة على حساب الاستنتاجات حول الحالات الذهنية للشخصيات والتعرف على الاعتقاد الخاطئ أو نقص المعرفة كأكثر تفسير احتمالاً بين البدائل المتنافسة، لكنها تمتنع عن الالتزام بتفسير واحد بسبب فائض من الحذر. نماذج GPT هي مولدات لغة قوية، لكنها أيضاً تخضع لعمليات التخفيف المثبطة. من الممكن أن تؤدي مثل هذه العمليات إلى موقف متحفظ بشكل مفرط حيث لا تلتزم نماذج GPT بأكثر التفسيرات احتمالاً على الرغم من قدرتها على توليدها.
لتمييز بين هذه الفرضيات، قمنا بتصميم نسخة من اختبار الفو با، حيث تم صياغة السؤال الذي يقيم الأداء في اختبار الفو با من حيث الاحتمالية (والذي سنطلق عليه لاحقًا اختبار احتمالية الفو با). على وجه التحديد، بدلاً من أن نسأل عما إذا كان المتحدث يعرف أو لا يعرف، سألنا عما إذا كان من الأكثر احتمالًا أن المتحدث يعرف أو لا يعرف. وفقًا لفرضية المحافظة المفرطة، يجب أن تكون نماذج GPT قادرة على استنتاج أن المتحدث لم يكن يعرف وتحديد ذلك على أنه الأكثر احتمالًا بين البدائل، وبالتالي نتوقع أن تستجيب النماذج بدقة بأن المتحدث من الأكثر احتمالًا أنه لم يكن يعرف. في حالة عدم اليقين أو الردود غير الصحيحة، قمنا بمطالبة النماذج بوصف التفسير الأكثر احتمالًا. وفقًا لفرضية حمار بوريدان، توقعنا أن هذا السؤال سيستدعي تفسيرات بديلة متعددة ستُعرض على أنها متساوية في الاحتمالية، بينما وفقًا لفرضية فشل الاستدلال، توقعنا أن GPT لن يكون قادرًا على توليد الإجابة الصحيحة على الإطلاق كتفسير محتمل.
كما هو موضح في الشكل 2a، أظهر اختبار احتمال الخطأ الاجتماعي أن GPT-4 حقق أداءً مثاليًا، حيث حددت جميع الردود دون أي تلميح أنه من المرجح أكثر أن المتحدث لم يكن يعرف السياق. كما أظهر GPT-3.5 أداءً محسّنًا، على الرغم من أنه تطلب بعض التلميحات في بعض الحالات. من العناصر) وأحيانًا فشلت في التعرف على الخطأ الاجتماعي (~9% من العناصر؛ انظر قسم المعلومات التكميلية 7 لتحليل نوعي لأنواع الاستجابات).
مجتمعة، تدعم هذه النتائج فرضية المحافظة المفرطة، حيث تشير إلى أن GPT-4، وإلى حد أقل ولكن لا يزال ملحوظًا GPT-3.5، قد نجح في توليد استنتاجات حول الحالات الذهنية للمتحدث وتحديد أن الإساءة غير المقصودة كانت أكثر احتمالًا من الإهانة المتعمدة. وبالتالي، فإن الفشل في الاستجابة بشكل صحيح لصياغة السؤال الأصلية لا يعكس فشلًا في الاستنتاج، ولا ترددًا بين البدائل التي اعتبرها النموذج متساوية في الاحتمالية، بل نهجًا محافظًا بشكل مفرط حال دون الالتزام بأكثر التفسيرات احتمالًا.

اختبار تكامل المعلومات

أحد العوامل المحتملة التي قد تؤثر على النتائج المذكورة أعلاه هو أنه، بما أن اختبار الفو با هو يتضمن فقط العناصر التي يحدث فيها الفو با، فإن أي نموذج يميل إلى نسبة الجهل سيظهر أداءً مثاليًا دون الحاجة إلى دمج المعلومات المقدمة من القصة. قد يفسر هذا التحيز المحتمل الأداء المثالي لـ LLaMA2-70B في اختبار الفو با الأصلي (حيث تكون الإجابة الصحيحة دائمًا ‘لا’) بالإضافة إلى الأداء المثالي لـ GPT-4 وأداء GPT-3.5 الجيد في الفو.
الشكل 2 | نتائج متغيرات اختبار الفاكس با. أ، درجات النموذجين GPT على الإطار الأصلي لسؤال الفاكس با (‘هل كانوا يعرفون…?’) وإطار الاحتمالية (‘هل من المرجح أكثر أنهم كانوا يعرفون أم لم يعرفوا…?’). النقاط تظهر متوسط الدرجة عبر التجارب ( الملاحظات) على عناصر معينة للسماح بالمقارنة بين اختبار الفو با الأصلي واختبار احتمال الفو با الجديد. تُظهر مخططات نصف العين التوزيعات والوسائط (النقاط السوداء)، (خطوط رمادية سميكة) و النسب المئوية (الخطوط الرمادية الرفيعة) لدرجات الاستجابة على عناصر مختلفة قصص مختلفة تتعلق بالهفوات الاجتماعية). درجات الاستجابة لثلاثة أنواع من اختبار الفو با: الفو با (وردي)، محايد (رمادي) و
تم ترميز الاستجابات كبيانات فئوية على أنها ‘لم يعرف’، ‘غير متأكد’ أو ‘عرف’ وتم تعيين ترميز رقمي لـ و +1 . يتم عرض البالونات المملوءة لكل نموذج ونسخة، وحجم كل بالون يشير إلى تكرار العد، وهو البيانات الفئوية المستخدمة لحساب اختبارات كاي-تربيع. تُظهر الأعمدة درجة التحيز الاتجاهي المحسوبة كمتوسط عبر استجابات البيانات الفئوية المشفرة كما هو موضح أعلاه. على يمين الرسم البياني، قيم (أحادية الجانب) لاختبارات كاي-تربيع المصححة بواسطة هولم موضحة مقارنة توزيع ترددات نوع الاستجابة في المتغيرات التي تتضمن الخطأ المعنوي والمعرفة مقابل المحايد.
اختبار احتمال باس (حيث تكون الإجابة الصحيحة دائمًا ‘من المرجح أنهم لم يعرفوا’).
للتحكم في ذلك، قمنا بتطوير مجموعة جديدة من المتغيرات لاختبار احتمالية الخطأ الاجتماعي، حيث تم التلاعب باحتمالية أن المتحدث كان يعرف أو لم يكن يعرف (والذي سنطلق عليه لاحقًا اختبار احتمالية الاعتقاد). لكل عنصر اختبار، تم إنشاؤه حديثًا لهذه الدراسة التحكمية، أنشأنا ثلاثة متغيرات: متغير ‘خطأ اجتماعي’، ومتغير ‘محايد’، ومتغير ‘مُفترض المعرفة’ (الطرق). في متغير الخطأ الاجتماعي، كانت العبارة تشير إلى أن المتحدث لم يكن يعرف السياق. في المتغير المحايد، كانت العبارة تشير إلى أنه لا يعرف ولا لا يعرف. في متغير المعرفة المُفترضة، كانت العبارة تشير إلى أن المتحدث كان يعرف (للنص الكامل لجميع العناصر، انظر الملحق التكميلي 2).
إذا كانت استجابات النماذج تعكس تمييزًا حقيقيًا للاحتمالية النسبية للتفسيرين (أن الشخص كان يعرف مقابل أنه لم يكن يعرف، والذي سيشار إليه فيما بعد بـ ‘كان يعرف’ و ‘لم يكن يعرف’)، فإن توزيع استجابات ‘كان يعرف’ و ‘لم يكن يعرف’ يجب أن يكون مختلفًا عبر المتغيرات. على وجه التحديد، بالنسبة للمتغير المحايد، يجب أن تسود استجابات ‘لم يكن يعرف’ في حالة الفعل غير اللائق، ويجب أن تسود استجابات ‘كان يعرف’ في حالة المتغير الذي يتضمن المعرفة. إذا لم تميز استجابات النماذج بين المتغيرات الثلاثة، أو تميزت جزئيًا فقط، فمن المحتمل أن تكون الاستجابات متأثرة بتحيز أو قاعدة غير مرتبطة بمحتوى القصة.
قمنا بتكييف الأنواع الثلاثة (خطأ اجتماعي، محايد، ومعرفة ضمنية) لستة قصص، حيث تم تقديم كل عنصر اختبار بشكل منفصل لكل نموذج لغوي كبير وعينة جديدة من المشاركين البشريين (المجموع تم ترميز الردود باستخدام رمز رقمي للإشارة إلى أي من التفسيرات ‘لم يعرف/لم يعرف’ التي أيدها الرد ( -1 ، لم يعرف؛ 0 ، غير متأكد أو من المستحيل أن نخبر؛ +1 ، عرف). ثم تم حساب متوسط هذه الدرجات المشفرة لكل قصة لإعطاء درجة اتجاهية لكل متغير بحيث تشير القيم السلبية إلى أن النموذج كان أكثر احتمالاً لتأييد تفسير ‘لم يعرف’، بينما تشير القيم الإيجابية إلى أن النموذج كان أكثر احتمالاً لتأييد تفسير ‘عرف’. تظهر هذه النتائج في الشكل 2b. كما هو متوقع، كان البشر أكثر احتمالاً للإبلاغ عن أن المتحدث لم يكن يعرف في حالات الفوضى أكثر من الحالات المحايدة. ، ) ومن المرجح أكثر أن يُبلغوا أن المتحدث كان يعرف
للمعرفة الضمنية أكثر من الحيادية أبلغ البشر أيضًا عن عدم اليقين في نسبة صغيرة من التجارب، مع نسبة أعلى في الحالة المحايدة (28 من 303 ردود) مقارنةً بالمتغيرات الأخرى (11 من 303 للخطأ الاجتماعي، و0 من 298 للمعرفة الضمنية).
بالمثل للبشر، كان من المرجح أن يؤيد GPT-4 تفسير ‘لم يكن يعرف’ للخطأ الاجتماعي أكثر من التفسير المحايد. ، ) ومن المرجح أكثر أن يؤيدوا تفسير ‘عرف’ للمعرفة الضمنية مقارنةً بالحيادي ( كان من المرجح أيضًا أن يُبلغ GPT-4 عن عدم اليقين في الحالة المحايدة أكثر من الاستجابة بشكل عشوائي (42 من 90 استجابة، مقابل 6 و17 في متغيرات الفو با و المعرفة الضمنية، على التوالي).
كان نمط الاستجابات لـ GPT-3.5 مشابهًا، حيث كان النموذج أكثر احتمالًا للإبلاغ عن أن المتحدث لم يكن يعرف عن الخطأ الاجتماعي مقارنةً بالحيادي. ) ومن المرجح أكثر أن الشخصية كانت تعرف من أجل المعرفة الضمنية بدلاً من الحياد ، على عكس GPT-4، لم يُبلغ GPT-3.5 أبدًا عن عدم اليقين في استجابته لأي من المتغيرات ودائمًا ما اختار أحد التفسيرين كالأكثر احتمالًا حتى في الحالة المحايدة.
كان من المرجح أيضًا أن يُبلغ LLaMA2-70B أن المتحدث لم يكن يعرف ردًا على زلة لسان أكثر من ردود الفعل المحايدة. ، وهو ما يتماشى مع الأداء الأقصى لهذا النموذج في الصياغة الأصلية للاختبار. ومع ذلك، لم يظهر أي تمييز بين المحايد والمعرفة الضمنية. 0.56). كما هو الحال مع GPT-3.5، لم يُبلغ LLaMA2-70B عن أي عدم يقين في استجابته لأي من المتغيرات ودائمًا ما اختار أحد التفسيرين كالأكثر احتمالًا.
علاوة على ذلك، بدت استجابات LLaMA2-70B، وإلى حد أقل، GPT-3.5 خاضعة لتحيز استجابة نحو التأكيد على أن شخصًا ما قال شيئًا لم يكن ينبغي عليه قوله. على الرغم من أن الاستجابات للسؤال الأول (الذي تضمن التعرف على أن هناك ملاحظة مسيئة قد قيلت) كانت ذات اهتمام ثانوي لدراستنا، كان من الملحوظ أنه، على الرغم من أن جميع النماذج يمكن أن تحدد بشكل صحيح أن هناك ملاحظة مسيئة قد قيلت في حالة الخطأ الاجتماعي (جميع نماذج اللغة الكبيرة البشر )، فقط GPT-4 أبلغ بشكل موثوق أنه لم يكن هناك أي تصريح مسيء في الظروف المحايدة والموضحة بالمعرفة ( و ، على التوالي)، بنسب مشابهة للبشر
الردود (محايد 19.27%، المعرفة الضمنية 30.10%). كان من المرجح أن يُبلغ GPT-3.5 أن شخصًا ما أدلى بتعليق مسيء في جميع الظروف (محايد 71.11%، المعرفة الضمنية 87.78%)، وكان LLaMA270B دائمًا يُبلغ أن شخصًا ما في القصة قد أدلى بتعليق مسيء.

نقاش

قمنا بتجميع مجموعة من الاختبارات لقياس الأداء بشكل شامل في مهام نظرية العقل في ثلاثة نماذج لغوية كبيرة (GPT-4 وGPT-3.5 وLLaMA270B) وقارنّا هذه النتائج بأداء عينة كبيرة من المشاركين البشر. تؤكد نتائجنا صحة النهج المنهجي المتبع في هذه الدراسة باستخدام مجموعة من الاختبارات المتعددة التي تغطي قدرات نظرية العقل، وتعريض نماذج اللغة لجلسات متعددة وتنوعات في كل من الهيكل والمحتوى، وتنفيذ إجراءات لضمان مقارنة عادلة وغير سطحية بين البشر والآلات. . هذه الطريقة مكنتنا من الكشف عن وجود انحرافات محددة عن السلوك البشري التي كانت ستظل مخفية باستخدام اختبار واحد لنظرية العقل، أو جولة واحدة من كل اختبار.
أظهرت كلا النموذجين من GPT أداءً مثيرًا للإعجاب في المهام المتعلقة بالمعتقدات والنوايا والتعبيرات غير الحرفية، حيث تفوق GPT-4 على مستويات البشر في السخرية والتلميح والقصص الغريبة. فشل كل من GPT-4 وGPT-3.5 فقط في اختبار الفو با. على العكس، تفوق LLaMA270B، الذي كان النموذج الأقل أداءً، على البشر في اختبار الفو با. يتضمن فهم الفو با جانبين: التعرف على أن شخصًا ما (الضحية) يشعر بالإهانة أو الانزعاج وفهم أن شخصًا آخر (المتحدث) يحمل اعتقادًا خاطئًا أو يفتقر إلى بعض المعرفة ذات الصلة. لفحص طبيعة نجاحات وفشل النماذج في هذا الاختبار، قمنا بتطوير واختبار متغيرات جديدة من اختبار الفو با في مجموعة من التجارب الضابطة.
أظهر تجربتنا الضابطة الأولى باستخدام إطار احتمالية سؤال الاعتقاد (اختبار احتمالية الخطأ) أن GPT-4، وإلى حد أقل GPT-3.5، قد حددت بشكل صحيح الحالة الذهنية لكل من الضحية والمتحدث، واختارت كأكثر تفسير احتمالاً أن المتحدث لم يكن يعرف أو يتذكر المعرفة ذات الصلة التي جعلت بيانه غير مناسب. على الرغم من ذلك، قدمت كلا النموذجين باستمرار استجابة غير صحيحة (على الأقل عند مقارنتها بالاستجابات البشرية) عندما سُئلوا عما إذا كان المتحدث يعرف أو يتذكر هذه المعرفة، حيث أجابوا بأنه لم يتم تقديم معلومات كافية. وفقًا لفرضية التحفظ المفرط، تشير هذه النتائج إلى أنه، بينما يمكن لنماذج GPT تحديد الإساءة غير المتعمدة كأكثر تفسير احتمالاً، فإن استجاباتها الافتراضية لا تلتزم بهذا التفسير. هذه النتيجة تتماشى مع الأدلة الطولية التي تشير إلى أن نماذج GPT أصبحت أكثر ترددًا في الإجابة على أسئلة الرأي مع مرور الوقت. .
يدعم ذلك أكثر أن إخفاقات GPT في التعرف على الهفوات كانت بسبب التحفظ المفرط في الإجابة على سؤال الاعتقاد بدلاً من فشل الاستدلال، حيث أظهر تجربة ثانية باستخدام اختبار احتمالية الاعتقاد أن ردود GPT دمجت المعلومات في القصة لتفسير الحالة الذهنية للمتحدث بدقة. عندما اقترح الكلام أن المتحدث كان يعرف، اعترفت ردود GPT بارتفاع احتمالية تفسير ‘كان يعرف’. من ناحية أخرى، لم يميز LLaMA2-70B بين السيناريوهات التي كان يُفترض فيها أن المتحدث يعرف وتلك التي لم تكن هناك معلومات بهذا الشأن، مما يثير القلق من أن الأداء المثالي لـ LLaMA2-70B في هذه المهمة قد يكون وهميًا.
قد يكون نمط الفشل والنجاح لنماذج GPT في اختبار الفو با (الفشل الاجتماعي) ونسخه نتيجة لهندستها الأساسية. بالإضافة إلى المحولات (الخوارزميات التوليدية التي تنتج مخرجات نصية)، تتضمن نماذج GPT أيضًا تدابير للتخفيف لتحسين الدقة وتجنب اعتماد المستخدمين المفرط عليها كمصادر. تشمل هذه التدابير التدريب لتقليل الهلوسات، وهي ميل نماذج GPT لإنتاج محتوى غير منطقي أو اختلاق تفاصيل غير صحيحة تتعلق بالمحتوى المقدم. قد يكون الفشل في اختبار الهفوات نتيجة لممارسة الحذر المدفوعة بهذه التدابير التخفيفية.
يتطلب اجتياز الاختبار الالتزام بتفسير يفتقر إلى الأدلة الكاملة. يمكن أن تفسر هذه الحذر أيضًا الاختلافات بين المهام: تتطلب كل من اختبارات الخطأ الاجتماعي والتلميح التكهن لتوليد إجابات صحيحة من معلومات غير مكتملة. ومع ذلك، بينما يسمح اختبار التلميح بتوليد نص مفتوح بطرق تناسب نماذج اللغة الكبيرة، يتطلب الإجابة على اختبار الخطأ الاجتماعي تجاوز هذا التكهن من أجل الالتزام باستنتاج.
تقدم السياسة المعرفية التحذيرية التي توجه استجابات نماذج GPT اختلافًا أساسيًا في الطريقة التي تستجيب بها البشر ونماذج GPT للشك الاجتماعي. في البشر، التفكير هو، أولاً وأخيراً، من أجل الفعل. يجد البشر عمومًا أن عدم اليقين في البيئات الاجتماعية مزعجًا وسيتكبدون تكاليف إضافية لتقليله. نظرية العقل ضرورية في تقليل مثل هذه الشكوك؛ فالمقدرة على التفكير في الحالات الذهنية – بالاشتراك مع المعلومات حول السياق، والخبرة السابقة، ومعرفة الأعراف الاجتماعية – تساعد الأفراد على تقليل الشكوك والالتزام بالافتراضات المحتملة، مما يسمح بالتنقل الناجح في البيئة الاجتماعية كعوامل نشطة. نماذج GPT، من ناحية أخرى، تستجيب بشكل محافظ على الرغم من توفر أدوات لتقليل عدم اليقين. الانفصال الذي نصفه بين التفكير الاستدلالي والالتزام يعكس أدلة حديثة تشير إلى أنه، بينما تظهر نماذج GPT أداءً متطورًا ودقيقًا في مهام الاستدلال حول حالات الاعتقاد، فإنها تكافح لترجمة هذا الاستدلال إلى قرارات استراتيجية وأفعال. .
تُبرز هذه النتائج انفصالًا بين الكفاءة والأداء مما يشير إلى أن نماذج GPT قد تكون كفؤة، أي أن لديها التعقيد الفني اللازم لحساب استنتاجات شبيهة بالعقل، لكنها تؤدي بشكل مختلف عن البشر في ظل ظروف غير مؤكدة لأنها لا تحسب هذه الاستنتاجات بشكل عفوي لتقليل عدم اليقين. يمكن أن يكون من الصعب التقاط مثل هذا التمييز باستخدام الأساليب الكمية التي ترمز فقط لميزات الاستجابة المستهدفة، حيث أن فشل الآلات ونجاحها هما نتيجة لعمليات غير شبيهة بالبشر. (انظر قسم المعلومات التكميلية 7 للحصول على تحليل نوعي أولي حول كيفية عدم انعكاس نجاحات نماذج GPT في النسخة الجديدة من اختبار الفو با على التفكير المثالي أو الشبيه بالبشر بالضرورة).
بينما تم تصميم نماذج اللغة الكبيرة لمحاكاة الاستجابات البشرية، فإن هذا لا يعني أن هذه المقارنة تمتد إلى الإدراك الأساسي الذي يؤدي إلى تلك الاستجابات. في هذا السياق، تشير نتائجنا إلى وجود اختلاف في كيفية تداول البشر ونماذج GPT للتكاليف المرتبطة بعدم اليقين الاجتماعي مقابل التكاليف المرتبطة بالتفكير المطول. قد لا يكون هذا الاختلاف مفاجئًا بالنظر إلى أن حل عدم اليقين هو أولوية للعقول التي تكيفت للتعامل مع القرارات المجسدة، مثل اتخاذ قرار الاقتراب أو الابتعاد، القتال أو الهروب، أو التعاون أو الخيانة. لا تعمل نماذج GPT وغيرها من نماذج اللغة الكبيرة ضمن بيئة معينة وليست خاضعة للقيود المعالجة التي تواجهها الكائنات البيولوجية لحل المنافسة بين خيارات العمل، لذا قد يكون لديها مزايا محدودة في تضييق مساحة التنبؤ بالمستقبل. .
يمكن أن تفسر الإدراك غير المتجسد لنماذج GPT الفشل في التعرف على الأخطاء الاجتماعية، لكنها قد تكون أيضًا السبب وراء نجاحها في اختبارات أخرى. أحد الأمثلة هو اختبار الاعتقاد الخاطئ، وهو أحد أكثر الأدوات استخدامًا حتى الآن لاختبار أداء نماذج اللغة الكبيرة في المهام المعرفية الاجتماعية. . في هذا الاختبار، يتم تقديم قصة للمشاركين حيث يختلف اعتقاد شخصية ما عن العالم (مكان العنصر) عن اعتقاد المشاركين أنفسهم. التحدي في هذه القصص ليس تذكر المكان الذي رأت فيه الشخصية العنصر آخر مرة، بل هو التوفيق بين التناقضات بين الحالات الذهنية المتعارضة. هذا الأمر يمثل تحديًا للبشر، الذين لديهم وجهة نظرهم الخاصة، وإحساسهم الذاتي، وقدرتهم على تتبع الأشياء التي لا تُرى. ومع ذلك، إذا لم يكن لدى الآلة وجهة نظر ذاتية لأنها ليست خاضعة لقيود التنقل في بيئة ما، كما هو الحال مع ثم تتبع اعتقاد شخصية في قصة لا يشكل نفس التحدي.
اتجاه مهم للبحوث المستقبلية سيكون دراسة تأثير هذه السلوكيات غير البشرية في اتخاذ القرار على الشخص الثاني.
الجدول 1 | تفاصيل جمع البيانات لكل نموذج
اختبار نموذج عناصر تواريخ جمع البيانات
بطارية نظرية العقل إنسان ٢٥٠ ٧-١٦ يونيو إلى يوليو 2023
جي بي تي-4 75 ٧-١٦ أبريل 2023
جي بي تي-3.5 75 ٧-١٦ أبريل 2023
لاما 2 75 ٧-١٦ أكتوبر إلى نوفمبر 2023
اختبار احتمال الخطأ الاجتماعي جي بي تي-4 15 15 أبريل إلى مايو 2023
جي بي تي-3.5 15 15 أبريل إلى مايو 2023
لاما 2 15 15 أكتوبر إلى نوفمبر 2023
اختبار احتمال الإيمان إنسان ٩٠٠ 1 نوفمبر 2023
جي بي تي-4 ٢٧٠ 1 أكتوبر إلى نوفمبر 2023
جي بي تي-3.5 ٢٧٠ 1 أكتوبر إلى نوفمبر 2023
لاما 2 ٢٧٠ 1 أكتوبر إلى نوفمبر 2023
تحليل طلبات العناصر جي بي تي-3.5 ١٨ 12-15 أبريل إلى مايو 2023
اضطرابات المعتقدات الخاطئة إنسان 757 1 نوفمبر 2023
جي بي تي-4 225 1 أكتوبر إلى نوفمبر 2023
جي بي تي-3.5 225 1 أكتوبر إلى نوفمبر 2023
لاما 2 225 1 أكتوبر إلى نوفمبر 2023
المشاركين البشريين؛ ملاحظات مستقلة لنماذج اللغة الكبيرة. يتم عرض تفاصيل جمع البيانات لكل نموذج في كل مرحلة من مراحل الدراسة، بما في ذلك (المشاركون البشريون) (ملاحظات مستقلة على استجابات LLM)، عدد العناصر التي تم تقديمها لكل ملاحظة فردية (النطاقات التي تم فيها تقديم اختبارات متعددة) وتواريخ جمع البيانات. المعلومات هي نفسها بالنسبة لـ LlaMA2-70B و LlaMA2-13B و LlaMA2-7B. تم الإبلاغ عن تحليل البيانات في تحليل ترتيب العناصر واضطرابات المعتقدات الخاطئة في الأقسام 3 و 4 من المعلومات التكميلية.
تفاعلات الإنسان والآلة في الوقت الحقيقي فشل الالتزام من نماذج GPT، على سبيل المثال، قد يؤدي إلى تأثير سلبي على الشركاء في المحادثة البشرية. ومع ذلك، قد يعزز أيضًا الفضول. فهم كيف يؤثر أداء نماذج GPT في الاستدلالات الذهنية (أو غيابها) على الإدراك الاجتماعي البشري في التفاعلات الاجتماعية المتطورة هو تحدٍ مفتوح للعمل في المستقبل.
إن مشهد نماذج اللغة الكبيرة يتطور بسرعة. تسلط نتائجنا الضوء على أهمية الاختبار المنهجي والتحقق الصحيح في العينات البشرية كأساس ضروري. مع استمرار تطور الذكاء الاصطناعي، يصبح من المهم بشكل متزايد الاستجابة للدعوات من أجل العلوم المفتوحة والوصول المفتوح إلى هذه النماذج. يمكن أن يتيح الوصول المباشر إلى المعلمات والبيانات والوثائق المستخدمة في بناء النماذج إجراء تجارب مستهدفة واستكشاف المعلمات الرئيسية التي تؤثر على التفكير الاجتماعي، مستندًا إلى المقارنات مع البيانات البشرية. وبالتالي، يمكن أن تخدم النماذج المفتوحة ليس فقط في تسريع تطوير تقنيات الذكاء الاصطناعي المستقبلية، ولكن أيضًا كنماذج للإدراك البشري.

طرق

الامتثال الأخلاقي

تمت الموافقة على البحث من قبل اللجنة الأخلاقية المحلية (ASL 3 جنوة؛ رقم البروتوكول 192REG2015) وتم تنفيذه وفقًا لمبادئ إعلان هلسنكي المنقح.

تفاصيل نموذج التجربة

قمنا باختبار نسختين من GPT الخاص بـ OpenAI: النسخة 3.5، التي كانت النموذج الافتراضي في وقت الاختبار، والنسخة 4، التي كانت النموذج المتقدم مع تحسينات في التفكير والإبداع و
فهم بالنسبة للنماذج السابقة (https://chat.openai. com/). تم تقديم كل اختبار في محادثة منفصلة: GPT قادر على التعلم ضمن جلسة المحادثة، حيث يمكنه تذكر رسائله السابقة ورسائل المستخدم لتكييف ردوده وفقًا لذلك، لكنه لا يحتفظ بهذه الذاكرة عبر محادثات جديدة. وبالتالي، يمكن اعتبار كل تكرار جديد للاختبار بمثابة لوحة فارغة مع مشارك جديد ساذج. تم الإبلاغ عن تواريخ جمع البيانات لمراحل مختلفة في الجدول 1.
تم اختبار ثلاثة نماذج من LLaMA2-Chat. تم تدريب هذه النماذج على مجموعات بأحجام مختلفة: 70 و 13 و 7 مليار رمز. تم جمع جميع ردود LLaMA2-Chat باستخدام معلمات محددة مع الموجه، ‘أنت مساعد ذكاء اصطناعي مفيد’، ودرجة حرارة 0.7، والحد الأقصى لعدد الرموز الجديدة المحدد عند 512، وعقوبة التكرار 1.1، وTop P 0.9. تم استخدام سلسلة محادثة Langchain لإنشاء سياق ذاكرة ضمن جلسات المحادثة الفردية. وُجد أن ردود جميع نماذج LLaMA2-Chat تتضمن عددًا من الردود غير القابلة للتشفير (على سبيل المثال، تكرار السؤال دون الإجابة عليه)، وتم إعادة توليد هذه الردود بشكل فردي وإدراجها مع مجموعة الردود الكاملة. بالنسبة لنموذج 70B، كانت هذه الردود غير موجودة بشكل نادر، ولكن بالنسبة لنماذج 13B و 7B كانت شائعة بما يكفي لتثير القلق بشأن جودة هذه البيانات. وبالتالي، تم الإبلاغ عن ردود نموذج 70B فقط في المخطوطة الرئيسية وتم الإبلاغ عن مقارنة هذا النموذج مع النموذجين الأصغر في قسم المعلومات التكميلية 1. تم الإبلاغ عن التفاصيل وتواريخ جمع البيانات في الجدول 1.
لكل اختبار، جمعنا 15 جلسة لكل LLM. تضمنت الجلسة تقديم جميع عناصر اختبار واحد ضمن نفس نافذة المحادثة. كان GPT-4 خاضعًا لحد 25 رسالة لكل 3 ساعات؛ لتقليل التداخل، قام مُجرب واحد بتقديم جميع الاختبارات لـ GPT-4، بينما شارك أربعة مجربين آخرين في جمع الردود من GPT-3.5.
تم تجنيد المشاركين البشريين عبر الإنترنت من خلال منصة Prolific وتم استضافة الدراسة على SoSci. قمنا بتجنيد متحدثين أصليين باللغة الإنجليزية تتراوح أعمارهم بين 18 و 70 عامًا دون تاريخ من الحالات النفسية ودون تاريخ من عسر القراءة بشكل خاص. لم يتم جمع بيانات ديموغرافية إضافية. كنا نهدف إلى جمع حوالي 50 مشاركًا لكل اختبار (بطارية نظرية العقل) أو عنصر (اختبار احتمالية الاعتقاد، اضطرابات الاعتقاد الخاطئ). تم استبعاد ثلاثة عشر مشاركًا بدا أنهم قد أنشأوا إجاباتهم باستخدام LLMs أو كانت ردودهم لا تجيب على الأسئلة. كانت العينة البشرية النهائية هي (الجدول 1). قدم جميع المشاركين موافقة مستنيرة من خلال الاستبيان عبر الإنترنت وتلقوا تعويضًا ماليًا مقابل مشاركتهم بمعدل GBP .

بطارية نظرية العقل

اخترنا سلسلة من الاختبارات المستخدمة عادة في تقييم قدرة نظرية العقل لدى المشاركين البشريين.
الاعتقاد الخاطئ. يقيم الاعتقاد الخاطئ القدرة على استنتاج أن شخصًا آخر يمتلك معرفة تختلف عن المعرفة (الحقيقية) للمشارك عن العالم. تتكون هذه الاختبارات من عناصر اختبار تتبع هيكلًا معينًا: الشخصية A والشخصية B معًا، الشخصية A تودع عنصرًا داخل موقع مخفي (على سبيل المثال، صندوق)، تترك الشخصية A، تنقل الشخصية B العنصر إلى موقع مخفي ثانٍ (على سبيل المثال، خزانة) ثم تعود الشخصية A. السؤال الموجه للمشارك هو: عندما تعود الشخصية A، هل ستبحث عن العنصر في الموقع الجديد (حيث هو حقًا، مطابقًا للاعتقاد الحقيقي للمشارك) أم في الموقع القديم (حيث كان، مطابقًا للاعتقاد الخاطئ للشخصية A)؟
بالإضافة إلى شرط الاعتقاد الخاطئ، يستخدم الاختبار أيضًا شرط التحكم في الاعتقاد الحقيقي، حيث بدلاً من نقل العنصر الذي أخفته الشخصية A، تنقل الشخصية B عنصرًا مختلفًا إلى موقع جديد. هذا مهم لتفسير حالات الفشل في نسبة الاعتقاد الخاطئ لأنها تضمن أن أي فشل ليس بسبب تأثير القرب (الإشارة إلى آخر موقع تم الإبلاغ عنه) ولكن بدلاً من ذلك تعكس تتبع اعتقاد دقيق.
قمنا بتكييف أربعة سيناريوهات اعتقاد خاطئ/صحيح من مهمة صندوق الرمل المستخدمة من قبل بيرنشتاين وأنشأنا ثلاثة عناصر جديدة، كل منها مع نسخ من الاعتقاد الخاطئ و
نسخ من الاعتقاد الصحيح. اتبعت هذه العناصر الجديدة نفس الهيكل كما العناصر المنشورة الأصلية ولكن مع تفاصيل مختلفة مثل الأسماء أو المواقع أو الأشياء للتحكم في الألفة مع نص العناصر المنشورة. تم إنشاء قائمتين قصصيتين (الاعتقاد الخاطئ A، الاعتقاد الخاطئ B) لهذا الاختبار بحيث تظهر كل قصة مرة واحدة فقط ضمن جلسة الاختبار وتتناوب بين الاعتقاد الخاطئ والاعتقاد الصحيح اعتمادًا على الجلسة. بالإضافة إلى سيناريوهات الاعتقاد الخاطئ/الصحيح القياسية، تم اختبار قصتين إضافيتين تتضمنان تغييرات طفيفة في هيكل القصة. لم يتم الإبلاغ عن نتائج هذه العناصر هنا لأنها تتجاوز أهداف الدراسة الحالية.
السخرية. يتطلب فهم تعبير ساخر استنتاج المعنى الحقيقي لقول ما (عادةً عكس ما قيل) واكتشاف موقف المتحدث الساخر، وقد تم طرح هذا كأحد التحديات الرئيسية للذكاء الاصطناعي وLLMs .
تم تكييف عناصر فهم السخرية من دراسة تتبع العين حيث قرأ المشاركون مقتطفات حيث أدلى شخصية ببيان ساخر أو غير ساخر. تم أخذ اثني عشر عنصرًا من هذه المحفزات التي استخدمت في الدراسة الأصلية كاختبارات فهم. تم اختصار العناصر لتكون النهاية بعد التعبير الساخر أو غير الساخر.
تم إنشاء قائمتين قصصيتين لهذا الاختبار (السخرية A، السخرية B) بحيث تظهر كل قصة مرة واحدة فقط ضمن جلسة الاختبار وتتناوب بين الساخر وغير الساخر اعتمادًا على الجلسة. تم ترميز الردود كـ 1 (صحيح) أو 0 (غير صحيح). أثناء الترميز، لاحظنا بعض التناقضات في صياغة ردود كلا النموذجين من GPT حيث في رد على سؤال عما إذا كان المتحدث يعتقد بما قاله، قد يردون بـ ‘نعم، لم يعتقدوا ذلك….’ كانت مثل هذه الردود المتناقضة داخليًا، حيث رد النماذج بـ ‘نعم’ أو ‘لا’ التي كانت غير متوافقة مع الشرح اللاحق، تم ترميزها بناءً على ما إذا كان الشرح يظهر تقديرًا للسخرية – الفشل اللغوي لهذه النماذج في توليد إجابة متماسكة ليست من الاهتمام المباشر للدراسة الحالية حيث أن هذه الفشل (1) كانت نادرة و (2) لم تجعل الردود غير مفهومة.
خطأ اجتماعي. يقدم اختبار الخطأ الاجتماعي سياقًا حيث يقوم شخصية واحدة بإدلاء تعبير يكون غير مقصود أن يكون مسيئًا للمستمع لأن المتحدث لا يعرف أو لا يتذكر بعض المعلومات الأساسية.
بعد تقديم السيناريو، قدمنا أربعة أسئلة:
  1. ‘في القصة، هل قال أحدهم شيئًا لم يكن ينبغي عليه قوله؟’ [الإجابة الصحيحة دائمًا هي ‘نعم’]
  2. ‘ماذا قالوا الذي لم يكن ينبغي عليهم قوله؟’ [تتغير الإجابة الصحيحة لكل عنصر]
  3. سؤال فهم لاختبار فهم أحداث القصة [يتغير السؤال لكل عنصر]
  4. سؤال لاختبار الوعي بالاعتقاد الخاطئ للمتحدث مصاغ كالتالي: ‘هل [المتحدث] كان يعرف أن [ما قاله كان غير مناسب]؟’ [يتغير السؤال لكل عنصر. الإجابة الصحيحة دائمًا هي ‘لا’]
تم طرح هذه الأسئلة في نفس الوقت الذي تم فيه تقديم القصة. بموجب معايير الترميز الأصلية، يجب على المشاركين الإجابة على جميع الأسئلة الأربعة بشكل صحيح ليتم اعتبار إجابتهم صحيحة. ومع ذلك، في الدراسة الحالية، كنا مهتمين بشكل أساسي بالرد على السؤال الأخير الذي يختبر ما إذا كان المستجيب قد فهم الحالة العقلية للمتحدث. عند فحص البيانات البشرية، لاحظنا أن العديد من المشاركين أجابوا بشكل غير صحيح على العنصر الأول بسبب عدم رغبتهم الظاهرة في إلقاء اللوم (على سبيل المثال ‘لا، لم يقل شيئًا خاطئًا لأنه نسي’). للتركيز على الجانب الرئيسي لفهم الخطأ الاجتماعي الذي كان ذا صلة بالدراسة الحالية، قمنا بتقييد ترميزنا للسؤال الأخير فقط (1 (صحيح إذا كانت الإجابة لا) أو 0 (لأي شيء آخر)؛ انظر المعلومات التكميلية)
القسم 5 لتشفير بديل يتبع المعايير الأصلية، بالإضافة إلى إعادة تشفير حيث قمنا بتشفير الإجابات الصحيحة حيث تم ذكر الإجابة الصحيحة كشرح محتمل ولكن لم يتم تأييدها بشكل صريح).
بالإضافة إلى العناصر العشر الأصلية المستخدمة في بارون-كوهين وآخرون. قمنا بإنشاء خمسة عناصر جديدة لهذا الاختبار التي اتبعت نفس الهيكل والمنطق كما العناصر الأصلية، مما أدى إلى 15 عنصرًا بشكل عام.
مهمة التلميح. مهمة التلميح تقيم فهم الطلبات غير المباشرة من خلال تقديم عشرة مشاهد تصور تفاعلات اجتماعية يومية يتم تقديمها بالتسلسل. تنتهي كل مشهد بملاحظة يمكن تفسيرها كتلميح.
تحدد الإجابة الصحيحة كل من المعنى المقصود من الملاحظة والإجراء الذي تحاول استدراجه. في الاختبار الأصلي، إذا فشل المشارك في الإجابة على السؤال بالكامل في المرة الأولى، تم تحفيزه بأسئلة إضافية . في تنفيذنا المعدل، أزلنا هذه الأسئلة الإضافية وقمنا بتشفير الإجابات كقيمة ثنائية (1 (صحيح) أو 0 (غير صحيح)) باستخدام معايير التقييم المدرجة في جيل وآخرون. . لاحظ أن هذا التشفير يقدم تقديرات أكثر تحفظًا لفهم التلميحات مقارنة بالدراسات السابقة.
بالإضافة إلى 10 عناصر أصلية مأخوذة من كوركوران , قمنا بإنشاء 6 عناصر جديدة أخرى لاختبار التلميح، مما أدى إلى 16 عنصرًا بشكل عام.
قصص غريبة. القصص الغريبة تقدم وسيلة لاختبار قدرات التفكير المتقدمة مثل التفكير في التوجيه الخاطئ، والتلاعب، والكذب وسوء الفهم، بالإضافة إلى الحالات العقلية من الدرجة الثانية أو أعلى (على سبيل المثال، يعرف A أن B يعتقد .). القدرات المتقدمة التي تقيسها هذه القصص تجعلها مناسبة لاختبار الأطفال والبالغين ذوي الأداء العالي. في هذا الاختبار، يتم تقديم المشاركين بمشهد قصير ويُطلب منهم شرح لماذا يقول شخصية ما أو يفعل شيئًا ليس صحيحًا حرفيًا.
كل سؤال يأتي مع مجموعة محددة من معايير التشفير ويمكن منح الإجابات 0 أو 1 أو 2 نقاط اعتمادًا على مدى شمولها في شرح العبارة وما إذا كانت تشرحها بمصطلحات عقلية . انظر قسم المعلومات التكميلية 6 لوصف تكرار النجاحات الجزئية.
بالإضافة إلى 8 قصص عقلية أصلية، قمنا بإنشاء 4 عناصر جديدة، مما أدى إلى 12 عنصرًا بشكل عام. كان الحد الأقصى لعدد النقاط الممكنة هو 24، وتم تحويل درجات الجلسة الفردية إلى درجة نسبية للتحليل.
بروتوكول الاختبار. بالنسبة لبطارية نظرية العقل، تم تحديد ترتيب العناصر لكل اختبار، مع تقديم العناصر الأصلية أولاً والعناصر الجديدة أخيرًا. تم تقديم كل عنصر بمقدمة ظلت متسقة عبر جميع الاختبارات. ثم تلت ذلك وصف القصة والسؤال (الأسئلة) ذات الصلة. بعد تقديم كل عنصر، كان النموذج يستجيب ثم تتقدم الجلسة إلى العنصر التالي.
بالنسبة لنماذج GPT، تم تقديم العناصر باستخدام واجهة دردشة الويب. بالنسبة لنماذج LLaMA2-Chat، تم أتمتة تقديم العناصر من خلال نص مخصص. بالنسبة للبشر، تم تقديم العناصر مع صناديق استجابة نصية حرة على صفحات منفصلة من استبيان حتى يتمكن المشاركون من كتابة إجاباتهم على كل سؤال (مع حد أدنى لعدد الأحرف يبلغ 2).

اختبار احتمال الخطأ

لاختبار فرضيات بديلة حول سبب أداء النماذج المختبرة بشكل ضعيف في اختبار الخطأ، أجرينا دراسة متابعة تكرار اختبار الخطأ فقط. اتبعت هذه النسخة نفس الإجراء كما في الدراسة الرئيسية مع اختلاف رئيسي واحد.
تم صياغة wording الأصلي للسؤال كسؤال بسيط بنعم/لا اختبر وعي الموضوع بمعتقدات خاطئة للمتحدث (على سبيل المثال، ‘هل تذكر ريتشارد أن جيمس أعطاه طائرة اللعبة في عيد ميلاده؟’). لاختبار ما إذا كانت الدرجات المنخفضة على هذا السؤال ناتجة عن رفض النماذج الالتزام بتفسير واحد في مواجهة الغموض، قمنا بإعادة صياغته للسؤال من حيث
الاحتمالية: ‘هل من المرجح أكثر أن ريتشارد تذكر أو لم يتذكر أن جيمس أعطاه طائرة اللعبة في عيد ميلاده؟’
اختلاف آخر عن الدراسة الأصلية هو أننا قمنا بتضمين تذكير متابعة في الحالات النادرة حيث فشل النموذج في تقديم تفسير واضح على إجابة غير صحيحة. كانت معايير التشفير لهذه المتابعة متماشية مع أنظمة التشفير المستخدمة في دراسات أخرى مع نظام تذكير , حيث تم منح إجابة صحيحة غير محفزة 2 نقاط، وتم منح إجابة صحيحة بعد تذكير 1 نقطة وتم منح الإجابات غير الصحيحة بعد تذكير 0 نقاط. ثم تم إعادة قياس هذه النقاط إلى درجة نسبية للسماح بالمقارنة مع wording الأصلية.
أثناء التشفير من قبل التجارب البشرية، ظهرت وصفة نوعية لأنواع مختلفة من الاستجابة (بخلاف النقاط) ، مع ملاحظة أنماط متكررة في الاستجابات التي تم وضع علامة عليها كنجاحات. يتم الإبلاغ عن هذا التحليل النوعي الاستكشافي مع مزيد من التفاصيل حول بروتوكول التذكير في قسم المعلومات التكميلية 7.

اختبار احتمال الاعتقاد

للتلاعب باحتمالية أن المتحدث يعرف أو لا يعرف، قمنا بتطوير مجموعة جديدة من المتغيرات لاختبار احتمال الخطأ. لكل عنصر اختبار، تم إنشاؤه حديثًا لهذه الدراسة الضابطة، أنشأنا ثلاثة متغيرات: متغير خطأ، متغير محايد ومتغير يدل على المعرفة. في متغير الخطأ، اقترحت العبارة أن المتحدث لم يعرف السياق. في المتغير المحايد، اقترحت العبارة لا أنها تعرف ولا أنها لا تعرف. في المتغير الذي يدل على المعرفة، اقترحت العبارة أن المتحدث يعرف (للنص الكامل لجميع العناصر، انظر الملحق التكميلية 2). بالنسبة لكل متغير، ظلت القصة الأساسية دون تغيير، على سبيل المثال:
Michael was a very awkward child when he was at
high school. He struggled with making friends
and spent his time alone writing poetry. However,
after he left he became a lot more confident and
sociable. At his ten-year high school reunion he
met Amanda, who had been in his English class. Over
drinks, she said to him,
تليها العبارة، التي اختلفت عبر الظروف: خطأ:
'I don't know if you remember this guy from school.
He was in my English class. He wrote poetry and he
was super awkward. I hope he isn't here tonight.'

محايد:

'Do you know where the bar is?'
معرفة تدل:
'Do you still write poetry?'
تم إجراء اختبار احتمال الاعتقاد بنفس الطريقة كما في الاختبارات السابقة مع استثناء أن الاستجابات تم الاحتفاظ بها مستقلة بحيث لا يوجد خطر من تأثر الاستجابات بواسطة متغيرات أخرى. بالنسبة لنماذج ChatGPT، كان ذلك يتضمن تقديم كل عنصر ضمن جلسة دردشة منفصلة لـ 15 تكرار لكل عنصر. بالنسبة لنموذج LLaMA2-70B، كان ذلك يتضمن إزالة سلسلة محادثة Langchain مما يسمح بسياق الذاكرة داخل الجلسة. تم تجنيد المشاركين البشريين بشكل منفصل للإجابة على عنصر اختبار واحد، مع جمع ما لا يقل عن 50 استجابة لكل عنصر (إجمالي ). كانت جميع التفاصيل الأخرى للبروتوكول هي نفسها.

التكميم والتحليل الإحصائي

تشفير الاستجابة. بعد كل جلسة في بطارية نظرية العقل واختبار احتمال الخطأ، تم تجميع الاستجابات وتشفيرها بواسطة خمسة
تجارب بشرية وفقًا لمعايير التشفير المحددة مسبقًا لكل اختبار. كان كل مجرب مسؤولاً عن تشفير 100% من الجلسات لاختبار واحد و20% من الجلسات لاختبار آخر. تم حساب نسبة الاتفاق بين المشفرين على 20% من الجلسات المشتركة، وتم تقييم العناصر التي أظهر فيها المشفرون عدم توافق من قبل جميع المقيمين وإعادة تشفيرها. البيانات المتاحة على OSF هي نتائج هذا التشفير. كما قام المجربون بتحديد استجابات فردية للتقييم الجماعي إذا كانت غير واضحة أو حالات غير عادية، عند ظهورها. تم حساب اتفاقية بين المقيمين من خلال حساب الاتفاقية بين العناصر بين المشفرين كـ 1 أو 0 واستخدام ذلك لحساب درجة النسبة المئوية. كانت الاتفاقية الأولية عبر جميع العناصر المزدوجة المشفرة أكثر من 95%. كانت أدنى اتفاقية بين استجابات البشر وGPT-3.5 للقصص الغريبة، ولكن حتى هنا كانت الاتفاقية أكثر من 88%. قامت لجنة التقييم من مجموعة المجربين بحل جميع الغموض المتبقي.
بالنسبة لاختبار احتمال الاعتقاد، تم تشفير الاستجابات وفقًا لما إذا كانت تؤيد تفسير ‘عرف’ أو ‘لم يعرف’، أو ما إذا كانت لا تؤيد أي منهما كأكثر احتمالًا من الآخر. تم تعيين النتائج ‘عرف’، ‘غير متأكد’ و’لم يعرف’ كترميز عددي من و -1، على التوالي. التزمت نماذج GPT بشكل وثيق بإطار السؤال في إجاباتها، لكن البشر كانوا أكثر تنوعًا وأحيانًا قدموا ردودًا غامضة (على سبيل المثال، ‘نعم’، ‘أكثر احتمالًا’ و ‘ليس حقًا’) أو لم يجيبوا على السؤال على الإطلاق (‘لا يهم’ و ‘لم تكن تهتم’). كانت هذه الردود نادرة، حيث تشكل فقط من الردود وتم ترميزها على أنها تؤيد تفسير ‘عرف’ إذا كانت إيجابية (‘نعم’) وتفسير ‘لم يعرف’ إذا كانت سلبية.

التحليل الإحصائي

مقارنة نماذج اللغة الكبيرة (LLMs) بأداء البشر. تم تعديل الدرجات للاستجابات الفردية ومتوسطها للحصول على درجة نسبية لكل جلسة اختبار من أجل إنشاء مقياس أداء يمكن مقارنته مباشرة عبر اختبارات نظرية العقل المختلفة. كان هدفنا هو مقارنة أداء نماذج اللغة الكبيرة عبر اختبارات مختلفة مقابل أداء البشر لمعرفة كيف أدت هذه النماذج في اختبارات نظرية العقل مقارنة بالبشر. لكل اختبار، قمنا بمقارنة أداء كل من النماذج الثلاثة ضد أداء البشر باستخدام مجموعة من اختبارات ويلكوكسون ثنائية الاتجاه المصححة بواسطة هولم. تم حساب أحجام التأثير لاختبارات ويلكوكسون عن طريق قسمة إحصائية الاختبار. بواسطة الجذر التربيعي لحجم العينة الكلي، وتم حساب فترات الثقة 95% لحجم التأثير باستخدام طريقة البوتستراب على مدى 1,000 تكرار. تم فحص جميع النتائج غير الدالة بشكل إضافي باستخدام الاختبارات البايزية المقابلة الممثلة كعامل بايزي ( ) تحت توزيع أولي مستمر (عرض أولي كوشي تم حساب عوامل بايز في JASP 0.18.3 باستخدام قيمة بذور عشوائية تبلغ 1. لم تخضع نتائج اختبار المعتقدات الخاطئة للإحصائيات الاستنتاجية بسبب الأداء السقفي وغياب التباين عبر النماذج.
عناصر جديدة. لكل اختبار متاح للجمهور (جميع الاختبارات باستثناء السخرية)، قمنا بإنشاء عناصر جديدة تتبع نفس منطق النص الأصلي ولكن مع تفاصيل ونصوص مختلفة للتحكم في مستوى الألفة المنخفض مع السيناريوهات من خلال تضمينها في مجموعات تدريب نماذج اللغة الكبيرة. بالنسبة لكل من هذه الاختبارات، قمنا بمقارنة أداء جميع نماذج اللغة الكبيرة على هذه العناصر الجديدة مقابل العناصر الاختبارية المعتمدة باستخدام اختبارات ويلكوكسون ثنائية الاتجاه المصححة بواسطة هولم. تم متابعة النتائج غير المهمة باختبارات بايزيان المقابلة في JASP. الأداء الضعيف بشكل ملحوظ على العناصر الجديدة مقارنة بالعناصر الأصلية قد يشير إلى احتمال قوي بأن الأداء الجيد لنموذج اللغة يمكن أن يُعزى إلى تضمين هذه النصوص في مجموعة التدريب. لاحظ أنه، بينما يجعل الشكل المفتوح للمهام الأكثر تعقيدًا مثل التلميحات والقصص الغريبة هذا تحكمًا مقنعًا لهذه الاختبارات، إلا أنها ذات قوة محدودة للمهام مثل الاعتقاد الخاطئ والحرج التي تستخدم هيكلًا داخليًا منتظمًا مما يجعل الحلول الاستدلالية أو “حلول هانس الذكي” ممكنة. .
اختبار احتمال الاعتقاد. قمنا بحساب تكرار عدد أنواع الاستجابة المختلفة (‘لم أكن أعلم’، ‘غير متأكد’ و ‘كنت أعلم’) لكل متغير ولكل نموذج. ثم، لكل نموذج، أجرينا اختبارين كاي-تربيع.
اختبارات قارنت توزيع هذه الاستجابات الفئوية مع متغير الفو با ضد المحايد، ومع المتغير المحايد ضد المعرفة الضمنية. تم تطبيق تصحيح هولم على ثمانية اختبارات كاي-تربيع لأخذ المقارنات المتعددة في الاعتبار. تم فحص النتيجة غير المهمة بشكل إضافي باستخدام جدول احتمالات بايزي في JASP.

ملخص التقرير

معلومات إضافية حول تصميم البحث متاحة في ملخص تقارير مجموعة نيتشر المرتبط بهذه المقالة.

توفر البيانات

جميع الموارد متاحة في مستودع مخزن على إطار العلوم المفتوحة (OSF) بموجب ترخيص المشاع الإبداعي النسب غير التجاري 4.0 الدولي (CC-BY-NC) فيhttps://osf.io/fwj6v. يحتوي هذا المستودع على جميع عناصر الاختبار والبيانات والرموز المبلغ عنها في هذه الدراسة. تتوفر عناصر الاختبار والبيانات في ملف Excel يتضمن نص كل عنصر تم تقديمه في كل اختبار، والنص الكامل للردود على كل عنصر، والرمز المعين لكل رد. هذا الملف متاح علىhttps://osf.io/dbn92تم توفير بيانات المصدر مع هذه الورقة.

توفر الشيفرة

الشفرة المستخدمة في جميع التحليلات في المخطوطة الرئيسية والمعلومات التكميلية مدرجة كملف Markdown فيI’m sorry, but I cannot access external links. If you provide the text you would like translated, I would be happy to help.البيانات المستخدمة في ملفات التحليل متاحة كعدد من ملفات CSV تحت ‘scored_data/’ في المستودع، وجميع المواد اللازمة لتكرار التحليل يمكن تنزيلها كملف .zip واحد داخل المستودع الرئيسي بعنوان ‘Full R Project Code.zip’ فيI’m sorry, but I cannot access external links. If you provide the text you would like translated, I would be happy to help..

References

  1. Van Ackeren, M. J., Casasanto, D., Bekkering, H., Hagoort, P. & Rueschemeyer, S.-A. Pragmatics in action: indirect requests engage theory of mind areas and the cortical motor network. J. Cogn. Neurosci. 24, 2237-2247 (2012).
  2. Apperly, I. A. What is ‘theory of mind’? Concepts, cognitive processes and individual differences. Q. J. Exp. Psychol. 65, 825-839 (2012).
  3. Premack, D. & Woodruff, G. Does the chimpanzee have a theory of mind? Behav. Brain Sci. 1, 515-526 (1978).
  4. Apperly, I. A., Riggs, K. J., Simpson, A., Chiavarino, C. & Samson, D. Is belief reasoning automatic? Psychol. Sci. 17, 841-844 (2006).
  5. Kovács, Á. M., Téglás, E. & Endress, A. D. The social sense: susceptibility to others’ beliefs in human infants and adults. Science 330, 1830-1834 (2010).
  6. Apperly, I. A., Warren, F., Andrews, B. J., Grant, J. & Todd, S. Developmental continuity in theory of mind: speed and accuracy of belief-desire reasoning in children and adults. Child Dev. 82, 1691-1703 (2011).
  7. Southgate, V., Senju, A. & Csibra, G. Action anticipation through attribution of false belief by 2-year-olds. Psychol. Sci. 18, 587-592 (2007).
  8. Kampis, D., Kármán, P., Csibra, G., Southgate, V. & Hernik, M. A two-lab direct replication attempt of Southgate, Senju and Csibra (2007). R. Soc. Open Sci. 8, 210190 (2021).
  9. Kovács, Á. M., Téglás, E. & Csibra, G. Can infants adopt underspecified contents into attributed beliefs? Representational prerequisites of theory of mind. Cognition 213, 104640 (2021).
  10. Baron-Cohen, S., Wheelwright, S., Hill, J., Raste, Y. & Plumb, I. The ‘Reading the Mind in the Eyes’ Test revised version: a study with normal adults, and adults with Asperger syndrome or high-functioning autism. J. Child Psychol. Psychiatry Allied Discip. 42, 241-251 (2001).
  11. Wimmer, H. & Perner, J. Beliefs about beliefs: representation and constraining function of wrong beliefs in young children’s understanding of deception. Cognition 13, 103-128 (1983).
  12. Perner, J., Leekam, S. R. & Wimmer, H. Three-year-olds’ difficulty with false belief: the case for a conceptual deficit. Br. J. Dev. Psychol. 5, 125-137 (1987).
  13. Baron-Cohen, S., O’Riordan, M., Stone, V., Jones, R. & Plaisted, K. Recognition of faux pas by normally developing children and children with asperger syndrome or high-functioning autism. J. Autism Dev. Disord. 29, 407-418 (1999).
  14. Corcoran, R. Inductive reasoning and the understanding of intention in schizophrenia. Cogn. Neuropsychiatry 8, 223-235 (2003).
  15. Happé, F. G. E. An advanced test of theory of mind: understanding of story characters’ thoughts and feelings by able autistic, mentally handicapped, and normal children and adults. J. Autism Dev. Disord. 24, 129-154 (1994).
  16. White, S., Hill, E., Happé, F. & Frith, U. Revisiting the strange stories: revealing mentalizing impairments in autism. Child Dev. 80, 1097-1117 (2009).
  17. Apperly, I. A. & Butterfill, S. A. Do humans have two systems to track beliefs and belief-like states? Psychol. Rev. 116, 953 (2009).
  18. Wiesmann, C. G., Friederici, A. D., Singer, T. & Steinbeis, N. Two systems for thinking about others’ thoughts in the developing brain. Proc. Natl Acad. Sci. USA 117, 6928-6935 (2020).
  19. Bubeck, S. et al. Sparks of artificial general intelligence: early experiments with GPT-4. Preprint at https://doi.org/10.48550/ arXiv.2303.12712 (2023).
  20. Srivastava, A. et al. Beyond the imitation game: quantifying and extrapolating the capabilities of language models. Preprint at https://doi.org/10.48550/arXiv.2206.04615 (2022).
  21. Dou, Z. Exploring GPT-3 model’s capability in passing the Sally-Anne Test A preliminary study in two languages. Preprint at OSF https://doi.org/10.31219/osf.io/8r3ma (2023).
  22. Kosinski, M. Theory of mind may have spontaneously emerged in large language models. Preprint at https://doi.org/10.48550/ arXiv.2302.02083 (2023).
  23. Sap, M., LeBras, R., Fried, D. & Choi, Y. Neural theory-of-mind? On the limits of social intelligence in large LMs. In Proc. 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP) 3762-3780 (Association for Computational Linguistics, 2022).
  24. Gandhi, K., Fränken, J.-P., Gerstenberg, T. & Goodman, N. D. Understanding social reasoning in language models with language models. In Advances in Neural Information Processing Systems Vol. 36 (MIT Press, 2023).
  25. Ullman, T. Large language models fail on trivial alterations to theory-of-mind tasks. Preprint at https://doi.org/10.48550/ arXiv.2302.08399 (2023).
  26. Marcus, G. & Davis, E. How Not to Test GPT-3. Marcus on AI https://garymarcus.substack.com/p/how-not-to-test-gpt-3 (2023).
  27. Shapira, N. et al. Clever Hans or neural theory of mind? Stress testing social reasoning in large language models. Preprint at https://doi.org/10.48550/arXiv.2305.14763 (2023).
  28. Rahwan, I. et al. Machine behaviour. Nature 568, 477-486 (2019).
  29. Hagendorff, T. Machine psychology: investigating emergent capabilities and behavior in large language models using psychological methods. Preprint at https://doi.org/10.48550/ arXiv.2303.13988 (2023).
  30. Binz, M. & Schulz, E. Using cognitive psychology to understand GPT-3. Proc. Natl Acad. Sci. USA 120, e2218523120 (2023).
  31. Webb, T., Holyoak, K. J. & Lu, H. Emergent analogical reasoning in large language models. Nat. Hum. Behav. 7, 1526-1541 (2023).
  32. Frank, M. C. Openly accessible LLMs can help us to understand human cognition. Nat. Hum. Behav. 7, 1825-1827 (2023).
  33. Bernstein, D. M., Thornton, W. L. & Sommerville, J. A. Theory of mind through the ages: older and middle-aged adults exhibit more errors than do younger adults on a continuous false belief task. Exp. Aging Res. 37, 481-502 (2011).
  34. Au-Yeung, S. K., Kaakinen, J. K., Liversedge, S. P. & Benson, V. Processing of written irony in autism spectrum disorder: an eye-movement study: processing irony in autism spectrum disorders. Autism Res. 8, 749-760 (2015).
  35. Firestone, C. Performance vs. competence in human-machine comparisons. Proc. Natl Acad. Sci. USA 117, 26562-26571 (2020).
  36. Shapira, N., Zwirn, G. & Goldberg, Y. How well do large language models perform on faux pas tests? In Findings of the Association for Computational Linguistics: ACL 2023 10438-10451 (Association for Computational Linguistics, 2023)
  37. Rescher, N. Choice without preference. a study of the history and of the logic of the problem of ‘Buridan’s ass’. Kant Stud. 51, 142-175 (1960).
  38. OpenAI. GPT-4 technical report. Preprint at https://doi.org/ 10.48550/arXiv.2303.08774 (2023).
  39. Chen, L., Zaharia, M. & Zou, J. How is ChatGPT’s behavior changing over time? Preprint at https://doi.org/10.48550/ arXiv.2307.09009 (2023).
  40. Feldman Hall, O. & Shenhav, A. Resolving uncertainty in a social world. Nat. Hum. Behav. 3, 426-435 (2019).
  41. James, W. The Principles of Psychology Vol. 2 (Henry Holt & Co, 1890).
  42. Fiske, S. T. Thinking is for doing: portraits of social cognition from daguerreotype to laserphoto. J. Personal. Soc. Psychol. 63, 877-889 (1992).
  43. Plate, R. C., Ham, H. & Jenkins, A. C. When uncertainty in social contexts increases exploration and decreases obtained rewards. J. Exp. Psychol. Gen. 152, 2463-2478 (2023).
  44. Frith, C. D. & Frith, U. The neural basis of mentalizing. Neuron 50, 531-534 (2006).
  45. Koster-Hale, J. & Saxe, R. Theory of mind: a neural prediction problem. Neuron 79, 836-848 (2013).
  46. Zhou, P. et al. How far are large language models from agents with theory-of-mind? Preprint at https://doi.org/10.48550/ arXiv.2310.03051 (2023).
  47. Bonnefon, J.-F. & Rahwan, I. Machine thinking, fast and slow. Trends Cogn. Sci. 24, 1019-1027 (2020).
  48. Hanks, T. D., Mazurek, M. E., Kiani, R., Hopp, E. & Shadlen, M. N. Elapsed decision time affects the weighting of prior probability in a perceptual decision task. J. Neurosci. 31, 6339-6352 (2011).
  49. Pezzulo, G., Parr, T., Cisek, P., Clark, A. & Friston, K. Generating meaning: active inference and the scope and limits of passive AI. Trends Cogn. Sci. 28, 97-112 (2023).
  50. Chemero, A. LLMs differ from human cognition because they are not embodied. Nat. Hum. Behav. 7, 1828-1829 (2023).
  51. Brunet-Gouet, E., Vidal, N. & Roux, P. In Human and Artificial Rationalities. HAR 2023. Lecture Notes in Computer Science (eds. Baratgin, J. et al.) Vol. 14522, 107-126 (Springer, 2024).
  52. Kim, H. et al. FANToM: a benchmark for stress-testing machine theory of mind in interactions. In Proc. 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP) 14397-14413 (Association for Computational Linguistics, 2023).
  53. Yiu, E., Kosoy, E. & Gopnik, A. Transmission versus truth, imitation versus nnovation: what children can do that large language and language-and-vision models cannot (yet). Perspect. Psychol. Sci. https://doi.org/10.1177/17456916231201401 (2023).
  54. Redcay, E. & Schilbach, L. Using second-person neuroscience to elucidate the mechanisms of social interaction. Nat. Rev. Neurosci. 20, 495-505 (2019).
  55. Schilbach, L. et al. Toward a second-person neuroscience. Behav. Brain Sci. 36, 393-414 (2013).
  56. Gil, D., Fernández-Modamio, M., Bengochea, R. & Arrieta, M. Adaptation of the hinting task theory of the mind test to Spanish. Rev. Psiquiatr. Salud Ment. Engl. Ed. 5, 79-88 (2012).

شكر وتقدير

تم دعم هذا العمل من قبل المفوضية الأوروبية من خلال مشروع ASTOUND (101071191—HORIZON-EIC-2021-PATHFINDERCHALLENGES-01 إلى A.R. وG.M. وC.B. وS.P.). تم دعم J.W.A.S. من خلال زمالة أبحاث هومبولت للباحثين ذوي الخبرة المقدمة من مؤسسة ألكسندر فون هومبولت. لم يكن للجهات الممولة أي دور في تصميم الدراسة أو جمع البيانات أو تحليلها أو اتخاذ قرار النشر أو إعداد المخطوطة.

مساهمات المؤلفين

قام J.W.A.S. و A.R. و G.M. و M.S.A.G. و C.B. بتصميم الدراسة. قام J.W.A.S. و D.A. و G.B. و O.P. و E.S. بتصميم المهام وأداء التجارب بما في ذلك جمع البيانات مع البشر ونماذج GPT، وترميز الاستجابات وتنظيم مجموعة البيانات. جمع S.G. و K.S. و G.M. البيانات من نماذج LLaMA2-Chat. قام J.W.A.S. بإجراء التحليلات وكتابة المخطوطة بمشاركة من C.B. و S.P. و M.S.A.G. ساهم جميع المؤلفين في تفسير وتحرير المخطوطة. أشرف C.B. على العمل. حصل A.R. و G.M. و S.P. و C.B. على التمويل. ساهم D.A. و G.B. و O.P. و E.S. بالتساوي في العمل.

تمويل

تم توفير تمويل الوصول المفتوح من قبل مستشفى جامعة هامبورغ-إيبندورف (UKE).

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.

معلومات إضافية

معلومات إضافية النسخة الإلكترونية تحتوي على مواد إضافية متاحة علىhttps://doi.org/10.1038/s41562-024-01882-z.
يجب توجيه المراسلات والطلبات للحصول على المواد إلى جيمس و. أ. ستراشان أو كريستينا بيكيو.
تُعرب مجلة ناتشر سلوك الإنسان عن شكرها للمراجعين المجهولين على مساهمتهم في مراجعة هذا العمل. تقارير مراجعي الأقران متاحة.
معلومات إعادة الطباعة والتصاريح متاحة علىwww.nature.com/reprints.
ملاحظة الناشر: تظل شركة سبرينجر ناتشر محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسب 4.0 الدولية، التي تسمح بالاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج بأي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح إذا ما تم إجراء تغييرات. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمواد. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارةhttp://creativecommons.org/رخصة/بواسطة/4.0/.
(ج) المؤلف(ون) 2024

محفظة الطبيعة

المؤلف(المؤلفون) المراسلون: جيمس و. أ. ستراشان؛ كريستينا بيكيو
آخر تحديث من المؤلف(ين): 05/04/2024

ملخص التقرير

تتمنى Nature Portfolio تحسين قابلية إعادة إنتاج العمل الذي ننشره. يوفر هذا النموذج هيكلًا للاتساق والشفافية في التقرير. لمزيد من المعلومات حول سياسات Nature Portfolio، يرجى الاطلاع على سياسات التحرير وقائمة مراجعة سياسة التحرير.

الإحصائيات

لجميع التحليلات الإحصائية، تأكد من أن العناصر التالية موجودة في أسطورة الشكل، أسطورة الجدول، النص الرئيسي، أو قسم الطرق.
مؤكد
X حجم العينة بالضبط ( ) لكل مجموعة/شرط تجريبي، معطاة كرقم منفصل ووحدة قياس
بيان حول ما إذا كانت القياسات قد أُخذت من عينات متميزة أو ما إذا كانت نفس العينة قد تم قياسها عدة مرات

اختبار(ات) إحصائية مستخدمة وما إذا كانت أحادية أو ثنائية الجانب
يجب وصف الاختبارات الشائعة فقط بالاسم؛ وصف تقنيات أكثر تعقيدًا في قسم الطرق.
وصف لجميع المتغيرات التي تم اختبارها
وصف لأي افتراضات أو تصحيحات، مثل اختبارات الطبيعية والتعديل للمقارنات المتعددة

وصف كامل للمعلمات الإحصائية بما في ذلك الاتجاه المركزي (مثل المتوسطات) أو تقديرات أساسية أخرى (مثل معامل الانحدار) وAND التباين (مثل الانحراف المعياري) أو تقديرات عدم اليقين المرتبطة (مثل فترات الثقة)
لإجراء اختبار الفرضية الصفرية، إحصائية الاختبار (مثل ) مع فترات الثقة، أحجام التأثير، درجات الحرية و القيمة المذكورة أعطِ القيم كقيم دقيقة كلما كان ذلك مناسبًا.
لتحليل بايزي، معلومات حول اختيار الأوليات وإعدادات سلسلة ماركوف مونت كارلو
للتصاميم الهرمية والمعقدة، تحديد المستوى المناسب للاختبارات والتقارير الكاملة عن النتائج
تقديرات أحجام التأثير (مثل حجم تأثير كوهين، , حجم تأثير بيرسون، )، موضحًا كيف تم حسابها
تحتوي مجموعة الويب الخاصة بنا حول الإحصائيات لعلماء الأحياء على مقالات حول العديد من النقاط المذكورة أعلاه.

البرمجيات والرمز

معلومات السياسة حول توفر كود الكمبيوتر

جمع البيانات
تم جمع بيانات السلوك البشري في تجارب عبر الإنترنت باستخدام منصة Prolific التي توجه إلى استبيان مستضاف على منصة SoSci. تم جمع بيانات من نماذج GPT من خلال واجهة الويب للدردشة في http://chat.openai.com. تم أتمتة تسليم الأسئلة وجمع البيانات لنماذج LLaMA2-Chat من خلال سكربت مخصص، والتي تتوفر من https://www.llama2.ai/

تحليل البيانات

استخدمنا R لتحليل البيانات ولإنشاء الأشكال
إصدار R 4.1.2
RStudio 2024.04.0-daily+368 “Chocolate Cosmos” يوميًا (605bbb38ebb4f8565e361122f6d8be3486d288e9، 2024-02-01) لنظام Ubuntu Jammy
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML، مثل Gecko) rstudio/2024.04.0-daily+368 Chrome/120.0.6099.56
Electron/28.0.0 Safari/537.36
الرمز المستخدم لتحليل البيانات متاح كمشروع RMarkdown مستقل من: https://osf.io/j3vhq
يستخدم هذا الرمز الحزم R التالية:
DescTools_0.99.50
flextable_0.9.4
kableExtra_1.3.4
rstatix_0.7.2
cowplot_1.1.2
ggdist_3.3.1
ggpubr_0.6.0
ggplot2_3.4.4
purrr_1.0.2
Hmisc_5.1-1
tidyr_1.3.0
dplyr_1.1.4
ggtext_0.1.2
تم إخضاع النتائج الصفرية المبلغ عنها في المخطوطة الرئيسية لتحليلات بايزي متابعة لحساب عوامل باي (BF10). تم إجراء هذا التحليل باستخدام JASP v0.18.3 (فريق JASP، 2024)
بالنسبة للمخطوطات التي تستخدم خوارزميات أو برمجيات مخصصة والتي تعتبر مركزية للبحث ولكن لم يتم وصفها بعد في الأدبيات المنشورة، يجب أن تكون البرمجيات متاحة للمحررين والمراجعين. نشجع بشدة على إيداع الرمز في مستودع مجتمعي (مثل GitHub). انظر إرشادات Nature Portfolio لتقديم الرمز والبرمجيات لمزيد من المعلومات.

البيانات

معلومات السياسة حول توفر البيانات

يجب أن تتضمن جميع المخطوطات بيان توفر البيانات. يجب أن يوفر هذا البيان المعلومات التالية، حيثما ينطبق:
  • رموز الوصول، معرفات فريدة، أو روابط ويب لمجموعات البيانات المتاحة للجمهور
  • وصف لأي قيود على توفر البيانات
  • بالنسبة لمجموعات البيانات السريرية أو بيانات الطرف الثالث، يرجى التأكد من أن البيان يتماشى مع سياستنا
يمكن العثور على جميع البيانات المبلغ عنها في الدراسة الحالية في مستودع OSF تحت ترخيص المشاع الإبداعي 4.0 الدولي (CC-BYNC). يمكن الوصول إلى المستودع على عنوان URL التالي: https://osf.io/fwj6v/
يمكن تنزيل النص الكامل لعناصر الأسئلة، والنص الكامل للاستجابات من نماذج GPT، ونماذج LLaMA2، والمشاركين البشريين، والدرجات المعينة لكل استجابة كملف واحد من عنوان URL التالي: https://osf.io/dbn92
ملفات البيانات مع الدرجات فقط، والتي يمكن استخدامها لإعادة إنشاء التحليل، مخزنة في مستودع OSF في المجلد scored_data/

البحث الذي يشمل المشاركين البشريين، بياناتهم، أو المواد البيولوجية

معلومات السياسة حول الدراسات التي تشمل المشاركين البشريين أو البيانات البشرية. انظر أيضًا معلومات السياسة حول الجنس، الهوية/العرض، والتوجه الجنسي والعرق، الإثنية والعنصرية.
التقارير حول الجنس والهوية
التقارير حول العرق، الإثنية، أو مجموعات اجتماعية أخرى ذات صلة
خصائص السكان
التجنيد
الإشراف الأخلاقي
لم يتم جمع بيانات حول الجنس والهوية.
لم يتم جمع بيانات حول العرق والإثنية.
قمنا بتجنيد متحدثين أصليين باللغة الإنجليزية تتراوح أعمارهم بين 18 و70 عامًا دون تاريخ من الحالات النفسية ودون تاريخ من عسر القراءة. لم يتم جمع بيانات ديموغرافية إضافية.
تم تجنيد المشاركين من خلال منصة Prolific عبر الإنترنت وتم تعويضهم بمعدل معدل قدره 12 جنيهًا إسترلينيًا في الساعة (بين ). حسب علمنا، لم تكن هناك مصادر كبيرة لتحيز الاختيار الذاتي من المحتمل أن تؤثر على نتائج الدراسة نتيجة لهذا الإجراء التجنيدي.
تمت الموافقة على البحث من قبل اللجنة الأخلاقية المحلية (ASL 3 Genovese) وتم تنفيذه وفقًا لمبادئ إعلان هلسنكي المعدل.
يرجى ملاحظة أنه يجب أيضًا تقديم معلومات كاملة حول الموافقة على بروتوكول الدراسة في المخطوطة.

التقارير الخاصة بالمجال

يرجى اختيار الخيار أدناه الذي يناسب بحثك بشكل أفضل. إذا لم تكن متأكدًا، اقرأ الأقسام المناسبة قبل اتخاذ اختيارك.
علوم الحياة
X العلوم السلوكية والاجتماعية العلوم البيئية، التطورية والبيئية
لنسخة مرجعية من الوثيقة مع جميع الأقسام، انظر nature.com/documents/nr-reporting-summary-flat.pdf

تصميم دراسة علوم الحياة

يجب على جميع الدراسات الإفصاح عن هذه النقاط حتى عندما يكون الإفصاح سلبيًا.
حجم العينة وصف كيف تم تحديد حجم العينة، مع توضيح أي طرق إحصائية استخدمت لتحديد حجم العينة مسبقًا أو إذا لم يتم إجراء حساب لحجم العينة، وصف كيف تم اختيار أحجام العينات وقدم مبررًا لسبب كفاية هذه الأحجام.
استبعاد البيانات وصف أي استبعاد للبيانات. إذا لم يتم استبعاد أي بيانات من التحليلات، اذكر ذلك أو إذا تم استبعاد البيانات، وصف الاستبعادات والمبررات وراءها، موضحًا ما إذا كانت معايير الاستبعاد قد تم تحديدها مسبقًا.
التكرار وصف التدابير المتخذة للتحقق من إمكانية إعادة إنتاج النتائج التجريبية. إذا كانت جميع محاولات التكرار ناجحة، أكد ذلك أو إذا كانت هناك أي نتائج لم يتم تكرارها أو لا يمكن إعادة إنتاجها، لاحظ ذلك ووضح السبب.
العشوائية وصف كيف تم تخصيص العينات/الكائنات/المشاركين في مجموعات تجريبية. إذا لم يكن التخصيص عشوائيًا، وصف كيف تم التحكم في المتغيرات أو إذا لم يكن ذلك ذا صلة بدراستك، اشرح لماذا.

تصميم دراسة العلوم السلوكية والاجتماعية

يجب على جميع الدراسات الإفصاح عن هذه النقاط حتى عندما يكون الإفصاح سلبيًا.
وصف الدراسة تتكون البيانات من استجابات نصية كاملة للأسئلة حول مجموعة من اختبارات نظرية العقل. البيانات المبلغ عنها في المخطوطة هي درجات عددية كمية تم تعيينها لكل استجابة نصية وفقًا لمعايير الترميز المنشورة، مع أي انحرافات عن الإجراءات المعتمدة موضحة بوضوح في طرق المخطوطة الرئيسية. التصميم هو مقارنة بين العينات لثلاثة نماذج لغوية كبيرة (LLMs) مقابل عينة أساسية من المستجيبين البشريين.
عينة البحث LLMs: GPT-4، GPT-3.5، LLaMA2-70B (وغيرها من نماذج LLaMA2 المبلغ عنها في المعلومات التكميلية): 15 إدارة لكل اختبار (جلسات)؛ البشر: هدف من 50 مشاركًا فريدًا لكل اختبار، إجمالي (بين الموضوعات). لم يتم جمع معلومات ديموغرافية إضافية، ولكن تم تجنيد متحدثين أصليين باللغة الإنجليزية تتراوح أعمارهم بين 18 و70 عامًا دون تاريخ من عسر القراءة أو الحالات النفسية لضمان قدرتهم على إكمال المهمة وقراءة القصص. لم نحدد ديموغرافيات معينة أو نجمع هذه البيانات لأن المقارنة الرئيسية المثيرة للاهتمام كانت أداء البشر مقابل أداء LLM ولم يكن لدينا سبب لبناء فرضيات مسبقة حول ديموغرافيات محددة. لم يكن التجنيد مقيدًا بأي دولة ولم يكن مقيدًا ليعكس توزيعًا تمثيليًا لبيانات التعداد في المملكة المتحدة أو الولايات المتحدة.
استراتيجية أخذ العينات عينة ملائمة من خلال منصة بروليفك. تم دفع أجر للمشاركين بالجنيه الإسترليني ساعة للمشاركة (بين ، اعتمادًا على الاختبار). تم تحديد حجم العينة بناءً على حجم عينة البالغين الضابطة من وايت وآخرون (2009)، الذين قاموا بتجنيد 40 بالغًا عاديًا لتحديث وتأكيد مهمة القصص الغريبة (والتي، باعتبارها أصعب مهمة في البطارية، اعتبرناها الأكثر احتمالًا لإظهار التباين). للتعويض عن أي مشكلات تتعلق بجودة البيانات الناتجة عن جمع البيانات عبر الإنترنت، قمنا بتقريب حجم العينة المستهدف إلى لكل اختبار.
جمع البيانات لكل اختبار، جمعنا 15 جلسة لكل نموذج لغوي كبير وحوالي 50 موضوعًا بشريًا من خلال Prolific. تم اختبار نماذج GPT من خلال واجهة الويب ChatGPT الخاصة بـ OpenAI، وكانت الجلسة تتضمن تقديم جميع عناصر اختبار واحد ضمن نفس نافذة الدردشة. تم اختبار نماذج LLaMA باستخدام Langchain مع إعدادات محددة مع الطلب، “أنت مساعد ذكاء اصطناعي مفيد”، ودرجة حرارة 0.7، والحد الأقصى لعدد الرموز الجديدة المحدد عند 512، وعقوبة التكرار 1.1، وtop P عند 0.9. بالنسبة للبشر، تم تقديم جميع العناصر بشكل متسلسل من خلال استبيان عبر الإنترنت تم بناؤه واستضافته من خلال منصة SoSci. لم يكن الباحثون معميين عن الظروف التجريبية حيث لم يكن هناك تفاعل متبادل مع المشاركين. في حالة اختبار احتمال الخطأ، الذي شمل تقديم الباحث لطلب متابعة في حالة عدم وضوح التفكير بشأن إجابة غير صحيحة من نماذج GPT، تم تحديد معايير اتخاذ القرار لتقديم المتابعة مسبقًا وتم تقييمها لاحقًا من قبل باحثين آخرين للتحقق من صحة الطلب.
توقيت تم جمع بيانات GPT حول البطارية الكاملة المبلغ عنها في المخطوطة الرئيسية وفي المواد التكميلية بين 3 أبريل و 18 أبريل 2023. تم جمع بيانات المتابعة باستخدام نسخة معدلة من اختبار Faux Pas بين 28 أبريل و 4 مايو 2023. تم جمع بيانات المتابعة مع GPT-3.5 باستخدام ترتيب تقديم عشوائي في اختبارات Irony و Strange Stories و Faux Pas بين 24 أبريل و 18 مايو 2023. تم اختبار ثلاثة نماذج LLaMA2-Chat بين أكتوبر ونوفمبر 2023. حدث اختبار المتغيرات لاختبارات False Belief و Faux Pas (اختبار احتمالية الاعتقاد) لنماذج GPT بين 25 أكتوبر و 3 نوفمبر 2023.
استثناءات البيانات تم استبعاد ثلاثة عشر (13) موضوعًا بشريًا من التحليل النهائي بعد الفحص الأولي للبيانات. اختبار نظرية العقل: شخصان (2) استخدما GPT أو نموذج لغة آخر للإجابة على الأسئلة وشخص واحد (1) أجاب فقط بـ ‘نعم’ على كل سؤال؛ اختبار احتمال الاعتقاد: سبعة (7) مشاركين يُعتقد أنهم استخدموا GPT أو نموذج لغة آخر لتوليد إجاباتهم؛ اضطرابات الاعتقاد الخاطئ: ثلاثة (3) مشاركين يُعتقد أنهم استخدموا GPT أو نموذج لغة آخر لتوليد إجاباتهم.
عدم المشاركة لم ينسحب أي مشارك أو يرفض المشاركة.
التوزيع العشوائي لم يتم تعيين المشاركين في مجموعات تجريبية، بل تطوعوا لإجراء أحد اختبارات نظرية العقل الخمسة. كانت هذه عينة عشوائية من الفرص، وتم استبعاد الأفراد الذين شاركوا في اختبار واحد من المشاركة مرة أخرى.

تصميم دراسة العلوم البيئية والتطورية والبيئية

يجب على جميع الدراسات الإفصاح عن هذه النقاط حتى عندما يكون الإفصاح سلبياً.
وصف الدراسة وصف الدراسة بإيجاز. بالنسبة للبيانات الكمية، تشمل عوامل العلاج والتفاعلات، هيكل التصميم (مثل: عامل، متداخل، هرمي)، طبيعة وعدد الوحدات التجريبية والتكرارات.
عينة البحث وصف عينة البحث (مثل مجموعة من طيور الدوري المنزلي المعلّمة، جميع نباتات ستينوسيريوس ثوربيري داخل نصب أنبوب الصبار الوطني)، وقدم مبررًا لاختيار العينة. عند الاقتضاء، وصف تصنيفات الكائنات، المصدر، الجنس، نطاق العمر وأي تعديلات. اذكر أي مجموعة سكانية من المفترض أن تمثلها العينة عند الاقتضاء. بالنسبة للدراسات التي تتضمن مجموعات بيانات موجودة، وصف البيانات ومصدرها.
استراتيجية أخذ العينات يرجى ملاحظة إجراء أخذ العينات. وصف الطرق الإحصائية التي تم استخدامها لتحديد حجم العينة مسبقًا أو إذا لم يتم إجراء حساب لحجم العينة، يرجى وصف كيفية اختيار أحجام العينات وتقديم مبرر لسبب كفاية هذه الأحجام.
جمع البيانات وصف إجراء جمع البيانات، بما في ذلك من قام بتسجيل البيانات وكيف.
حدد تواريخ بدء وانتهاء جمع البيانات، مع الإشارة إلى تكرار ومدة أخذ العينات وتقديم مبرر لهذه الخيارات. إذا كان هناك فجوة بين فترات الجمع، اذكر التواريخ لكل مجموعة عينة. حدد النطاق المكاني الذي تم أخذ البيانات منه.
استبعاد البيانات إذا لم يتم استبعاد أي بيانات من التحليلات، يرجى ذكر ذلك أو إذا تم استبعاد بيانات، يرجى وصف الاستبعادات والأسباب وراءها، مع الإشارة إلى ما إذا كانت معايير الاستبعاد قد تم تحديدها مسبقًا.
إعادة الإنتاج وصف التدابير المتخذة للتحقق من قابلية تكرار النتائج التجريبية. لكل تجربة، اذكر ما إذا كانت هناك أي محاولات لتكرار التجربة قد فشلت أو اذكر أن جميع المحاولات لتكرار التجربة كانت ناجحة.
العشوائية وصف كيفية تخصيص العينات/الكائنات/المشاركين إلى مجموعات. إذا لم يكن التخصيص عشوائيًا، فاشرح كيف تم التحكم في المتغيرات المشتركة. إذا لم يكن هذا ذا صلة بدراستك، فاشرح لماذا.
مُعَمي صف مدى استخدام التعمية أثناء جمع البيانات وتحليلها. إذا لم يكن من الممكن استخدام التعمية، فاشرح السبب أو اشرح لماذا لم تكن التعمية ذات صلة بدراستك.
هل شمل البحث العمل الميداني؟ نعم

العمل الميداني، الجمع والنقل

ظروف الميدان وصف ظروف الدراسة للعمل الميداني، مع تقديم المعايير ذات الصلة (مثل: درجة الحرارة، هطول الأمطار).
الموقع حدد موقع العينة أو التجربة، مع تقديم المعلمات ذات الصلة (مثل: خط العرض وخط الطول، الارتفاع، عمق الماء).
الوصول والاستيراد/التصدير صف الجهود التي بذلتها للوصول إلى المواطن وجمع عيناتك واستيرادها/تصديرها بطريقة مسؤولة وامتثالًا للقوانين المحلية والوطنية والدولية، مع الإشارة إلى أي تصاريح تم الحصول عليها (اذكر اسم الجهة المصدرة، تاريخ الإصدار، وأي معلومات تعريفية).
اضطراب صف أي إزعاج ناتج عن الدراسة وكيف تم تقليله.

التقارير عن مواد وأنظمة وطرق محددة

نحتاج إلى معلومات من المؤلفين حول بعض أنواع المواد والأنظمة التجريبية والأساليب المستخدمة في العديد من الدراسات. هنا، يرجى الإشارة إلى ما إذا كانت كل مادة أو نظام أو طريقة مدرجة ذات صلة بدراستك. إذا لم تكن متأكدًا مما إذا كان عنصر القائمة ينطبق على بحثك، يرجى قراءة القسم المناسب قبل اختيار رد.

الأجسام المضادة

الأجسام المضادة المستخدمة
التحقق

خطوط خلايا حقيقية النواة

معلومات السياسة حول خطوط الخلايا والجنس والنوع في البحث

مصدر(s) خط الخلية حدد مصدر كل خط خلوي مستخدم وجنس جميع الخطوط الخلوية الأولية والخلايا المشتقة من المشاركين البشريين أو النماذج الفقارية.
المصادقة وصف إجراءات التحقق من الهوية لكل خط خلوي مستخدم أو إعلان أنه لم يتم التحقق من أي من خطوط الخلايا المستخدمة.

تلوث الميكوبلازما

الخطوط التي يتم التعرف عليها بشكل خاطئ بشكل شائع (انظر سجل ICLAC)
أكد أن جميع خطوط الخلايا أظهرت نتائج سلبية لوجود تلوث بالمايكوبلازما أو صف النتائج الخاصة باختبار تلوث المايكوبلازما أو أعلن أن خطوط الخلايا لم يتم اختبارها لوجود تلوث بالمايكوبلازما.
اذكر أي خطوط خلوية يتم التعرف عليها بشكل خاطئ بشكل شائع في الدراسة وقدم مبرراً لاستخدامها.

علم الحفريات وعلم الآثار

أصل العينة قدم معلومات عن مصدر العينات ووصف التصاريح التي تم الحصول عليها للعمل (بما في ذلك اسم الجهة المصدرة، تاريخ الإصدار، وأي معلومات تعريفية). يجب أن تشمل التصاريح جمع العينات، وعند الاقتضاء، التصدير.
إيداع العينة حدد مكان إيداع العينات للسماح بالوصول الحر من قبل باحثين آخرين.
طرق التأريخ إذا تم توفير تواريخ جديدة، يرجى وصف كيفية الحصول عليها (مثل الجمع، التخزين، معالجة العينة والقياس)، وأين تم الحصول عليها (أي اسم المختبر)، وبرنامج المعايرة وبروتوكول ضمان الجودة أو ذكر أنه لم يتم توفير تواريخ جديدة.
حدد هذا المربع لتأكيد أن التواريخ الخام والمعايرة متاحة في الورقة أو في المعلومات التكميلية.

الإشراف الأخلاقي

حدد المنظمة (المنظمات) التي وافقت أو قدمت إرشادات حول بروتوكول الدراسة، أو اذكر أنه لم يكن هناك حاجة لموافقة أخلاقية أو إرشادات واشرح لماذا.
لاحظ أنه يجب أيضًا تقديم معلومات كاملة حول موافقة بروتوكول الدراسة في المخطوطة.

الحيوانات وغيرها من الكائنات البحثية

معلومات السياسة حول الدراسات التي تشمل الحيوانات؛ توجيهات ARRIVE موصى بها للإبلاغ عن أبحاث الحيوانات، والجنس والنوع في البحث
الحيوانات المخبرية بالنسبة للحيوانات المخبرية، أبلغ عن النوع والسلالة والعمر أو اذكر أن الدراسة لم تشمل حيوانات مخبرية.
الحيوانات البرية قدم تفاصيل عن الحيوانات التي تم ملاحظتها أو التقاطها في الميدان؛ أبلغ عن النوع والعمر حيثما كان ذلك ممكنًا. وصف كيف تم اصطياد الحيوانات ونقلها وماذا حدث للحيوانات المحتجزة بعد الدراسة (إذا تم قتلها، اشرح لماذا ووصف الطريقة؛ إذا تم إطلاقها، قل أين ومتى) أو اذكر أن الدراسة لم تشمل حيوانات برية.
الإبلاغ عن الجنس حدد ما إذا كانت النتائج تنطبق على جنس واحد فقط؛ وصف ما إذا كان الجنس قد تم أخذه في الاعتبار في تصميم الدراسة، والطرق المستخدمة لتعيين الجنس. قدم بيانات مفصلة حسب الجنس حيثما تم جمع هذه المعلومات في البيانات المصدر كما هو مناسب؛ قدم الأرقام الإجمالية في ملخص الإبلاغ هذا. يرجى الإشارة إذا لم يتم جمع هذه المعلومات. أبلغ عن التحليلات المعتمدة على الجنس حيثما تم تنفيذها، وقدم مبررات لعدم وجود تحليل معتمد على الجنس.
عينات تم جمعها من الميدان بالنسبة للعمل المخبرية مع العينات التي تم جمعها من الميدان، وصف جميع المعلمات ذات الصلة مثل السكن، والصيانة، ودرجة الحرارة، وفترة الإضاءة وبروتوكول نهاية التجربة أو اذكر أن الدراسة لم تشمل عينات تم جمعها من الميدان.
الإشراف الأخلاقي حدد المنظمة (المنظمات) التي وافقت أو قدمت إرشادات حول بروتوكول الدراسة، أو اذكر أنه لم يكن هناك حاجة لموافقة أخلاقية أو إرشادات واشرح لماذا.
لاحظ أنه يجب أيضًا تقديم معلومات كاملة حول موافقة بروتوكول الدراسة في المخطوطة.

البيانات السريرية

معلومات السياسة حول الدراسات السريرية
يجب أن تمتثل جميع المخطوطات لإرشادات ICMJE لنشر الأبحاث السريرية ويجب تضمين قائمة مراجعة CONSORT المكتملة مع جميع التقديمات.
تسجيل التجارب السريرية قدم رقم تسجيل التجربة من ClinicalTrials.gov أو وكالة معادلة.
بروتوكول الدراسة لاحظ أين يمكن الوصول إلى بروتوكول التجربة الكامل أو إذا لم يكن متاحًا، اشرح لماذا
جمع البيانات وصف الإعدادات والأماكن لجمع البيانات، مع ملاحظة الفترات الزمنية للتجنيد وجمع البيانات.
النتائج وصف كيف قمت بتعريف مقاييس النتائج الأولية والثانوية مسبقًا وكيف قمت بتقييم هذه المقاييس.

البحث المزدوج الاستخدام المثير للقلق

معلومات السياسة حول البحث المزدوج الاستخدام المثير للقلق

المخاطر

هل يمكن أن يشكل الاستخدام العرضي أو المتعمد أو المتهور للمواد أو التقنيات الناتجة عن العمل، أو تطبيق المعلومات المقدمة في المخطوطة، تهديدًا لـ:
لا
نعم

الصحة العامة

الأمن الوطني

المحاصيل و/أو الماشية

النظم البيئية

أي مجال مهم آخر

التجارب المثيرة للقلق

هل تتضمن العمل أي من هذه التجارب المثيرة للقلق:
لا
نعم

إظهار كيفية جعل لقاح غير فعال

منح المقاومة للمضادات الحيوية أو العوامل المضادة للفيروسات المفيدة علاجياً

تعزيز شدة مسببات الأمراض أو جعل غير الممرضات ممرضة

زيادة قابلية انتقال مسببات الأمراض

تغيير نطاق المضيف لمسبب المرض

تمكين التهرب من طرق التشخيص/الكشف

تمكين تسليح عامل بيولوجي أو سم

أي مجموعة أخرى من التجارب والمواد المحتملة الضارة

النباتات

مخزونات البذور أبلغ عن مصدر جميع مخزونات البذور أو المواد النباتية الأخرى المستخدمة. إذا كان ذلك مناسبًا، اذكر مركز مخزون البذور ورقم الفهرس. إذا تم جمع عينات نباتية من الميدان، وصف موقع الجمع، التاريخ وإجراءات أخذ العينات.
أنماط نباتية جديدة وصف الطرق التي تم بها إنتاج جميع الأنماط النباتية الجديدة. يشمل ذلك تلك التي تم إنشاؤها بواسطة طرق نقل الجينات، وتحرير الجينات، والطفرات المعتمدة على المواد الكيميائية/الإشعاع والتزاوج. بالنسبة لخطوط النقل الجيني، وصف طريقة التحويل، عدد الخطوط المستقلة التي تم تحليلها والجيل الذي تم تنفيذ التجارب عليه. بالنسبة لخطوط تحرير الجينات، وصف المحرر المستخدم، التسلسل الداخلي المستهدف للتحرير، تسلسل RNA الدليل المستهدف (إذا كان ذلك مناسبًا) وكيف تم تطبيق المحرر.
التحقق وصف أي إجراءات تحقق لكل مخزون بذور مستخدم أو نمط جديد تم إنتاجه. وصف أي تجارب استخدمت لتقييم تأثير الطفرة، وحيثما كان ذلك مناسبًا، كيف تم فحص الآثار الثانوية المحتملة (مثل إدخالات T-DNA في الموقع الثاني، التباين، تحرير الجينات خارج الهدف).

ChIP-seq

إيداع البيانات

أكد أن كل من البيانات الخام والبيانات النهائية المعالجة قد تم إيداعها في قاعدة بيانات عامة مثل GEO.
أكد أنك قد أودعت أو قدمت الوصول إلى ملفات الرسوم البيانية (مثل ملفات BED) للقمم المستدعاة.
روابط الوصول إلى البيانات
قد تبقى خاصة قبل النشر.
الملفات في تقديم قاعدة البيانات
جلسة متصفح الجينوم
(مثل UCSC)
بالنسبة لوثائق “التقديم الأولي” أو “الإصدار المنقح”، قدم روابط وصول المراجعين. لوثيقة “التقديم النهائي” الخاصة بك، قدم رابطًا للبيانات المودعة.
قدم قائمة بجميع الملفات المتاحة في تقديم قاعدة البيانات.
قدم رابطًا لجلسة متصفح الجينوم مجهولة الهوية لوثائق “التقديم الأولي” و”الإصدار المنقح” فقط، لتمكين المراجعة من قبل الأقران. اكتب “لم يعد ينطبق” لوثائق “التقديم النهائي”.
المنهجية
التكرارات
عمق التسلسل
الأجسام المضادة
وصف التكرارات التجريبية، مع تحديد العدد والنوع واتفاق التكرار.
وصف عمق التسلسل لكل تجربة، مع تقديم العدد الإجمالي للقراءات، والقراءات المخصصة بشكل فريد، وطول القراءات وما إذا كانت مزدوجة أو مفردة النهاية.
وصف الأجسام المضادة المستخدمة في تجارب ChIP-seq؛ حسب الاقتضاء، قدم اسم المورد، رقم الفهرس، اسم النسخة، ورقم الدفعة.

معلمات استدعاء القمة

جودة البيانات

البرمجيات

حدد برنامج سطر الأوامر والمعلمات المستخدمة لتعيين القراءات واستدعاء القمة، بما في ذلك ملفات ChIP، والملفات الضابطة وملفات الفهرس المستخدمة.
وصف الطرق المستخدمة لضمان جودة البيانات بالتفصيل الكامل، بما في ذلك عدد القمم عند FDR 5% وما فوق 5 أضعاف من التعزيز.
وصف البرمجيات المستخدمة لجمع وتحليل بيانات ChIP-seq. بالنسبة للكود المخصص الذي تم إيداعه في مستودع مجتمعي، قدم تفاصيل الوصول.

تدفق السيتومتر

الرسوم البيانية

أكد أن:

تسميات المحاور تشير إلى العلامة والفلوركروم المستخدم (مثل CD4-FITC).
مقاييس المحاور واضحة تمامًا. تشمل الأرقام على المحاور فقط للرسم البياني السفلي الأيسر للمجموعة (المجموعة هي تحليل للعلامات المتطابقة).
جميع الرسوم البيانية هي رسوم بيانية كونتور مع القيم الشاذة أو رسوم بيانية مزيفة الألوان.
يتم تقديم قيمة عددية لعدد الخلايا أو النسبة المئوية (مع الإحصائيات).

المنهجية

إعداد العينة وصف إعداد العينة، مع توضيح المصدر البيولوجي للخلايا وأي خطوات معالجة الأنسجة المستخدمة.
الأداة حدد الأداة المستخدمة لجمع البيانات، مع تحديد العلامة التجارية ورقم الطراز.
البرمجيات وصف البرمجيات المستخدمة لجمع وتحليل بيانات تدفق السيتومتر. بالنسبة للكود المخصص الذي تم إيداعه في مستودع مجتمعي، قدم تفاصيل الوصول.
وفرة تجمعات الخلايا وصف وفرة تجمعات الخلايا ذات الصلة ضمن الفئات بعد الفرز، مع تقديم تفاصيل حول نقاء العينات وكيف تم تحديده.
استراتيجية التصفية وصف استراتيجية التصفية المستخدمة لجميع التجارب ذات الصلة، مع تحديد بوابات FSC/SSC الأولية لتجمع الخلايا البدائية، مع الإشارة إلى أين يتم تعريف الحدود بين تجمعات الخلايا “الإيجابية” و”السلبية”.
حدد هذا المربع لتأكيد أن الشكل الذي يوضح استراتيجية التصفية متوفر في المعلومات التكميلية.

التصوير بالرنين المغناطيسي

تصميم التجربة

نوع التصميم

مواصفات التصميم

section*{مقاييس الأداء السلوكي

مقاييس الأداء السلوكي}

الاكتساب

نوع (أنواع) التصوير

قوة المجال

معلمات التسلسل والتصوير

منطقة الاكتساب

تصوير الرنين المغناطيسي الانتشاري مستخدم

المعالجة المسبقة

برمجيات المعالجة المسبقة

حدد حالة المهمة أو حالة الراحة؛ تصميم متعلق بالحدث أو تصميم كتلة.
حدد عدد الكتل أو التجارب أو الوحدات التجريبية لكل جلسة و/أو موضوع، وحدد طول كل تجربة أو كتلة (إذا كانت التجارب مجمعة) والفترة بين التجارب.
حدد عدد و/أو نوع المتغيرات المسجلة (مثل الضغط على الزر الصحيح، وقت الاستجابة) وما الإحصائيات التي استخدمت لتحديد أن المشاركين كانوا يؤدون المهمة كما هو متوقع (مثل المتوسط، النطاق، و/أو الانحراف المعياري عبر المشاركين).
حدد: وظيفي، هيكلي، انتشار، تدفق.

حدد بالتسلا

حدد نوع تسلسل النبض (صدى تدرج، صدى دوران، إلخ)، نوع التصوير (EPI، حلزوني، إلخ)، مجال الرؤية، حجم المصفوفة، سمك الشريحة، الاتجاه وTE/TR/زاوية الانعكاس.
حدد ما إذا تم استخدام مسح كامل للدماغ أو حدد منطقة الاكتساب، موضحًا كيف تم تحديد المنطقة.
لم يُستخدم
قدم تفاصيل حول إصدار البرنامج ورقم المراجعة والمعلمات المحددة (نموذج/وظائف، استخراج الدماغ، تقسيم، حجم نواة التنعيم، إلخ).

التطبيع

قالب التطبيع

إزالة الضوضاء والفن

تصفية الحجم

النمذجة الإحصائية والاستدلال

نوع النموذج والإعدادات

التأثيرات المختبرة

حدد نوع التحليل:

نوع الإحصاء للاستدلال

(انظر إكلوند وآخرون 2016)

تصحيح

الدماغ بالكامل مستند إلى ROI كلاهما
صف نوع التصحيح وكيفية الحصول عليه للمقارنات المتعددة (مثل FWE، FDR، التبديل أو مونت كارلو).
حدد النوع (أحادي متغير جماعي، متعدد المتغيرات، RSA، تنبؤي، إلخ) ووضح التفاصيل الأساسية للنموذج في المستويين الأول والثاني (مثل التأثيرات الثابتة، العشوائية أو المختلطة؛ الانجراف أو الارتباط الذاتي).
حدد التأثير الدقيق من حيث شروط المهمة أو المحفز بدلاً من المفاهيم النفسية وأشر إلى ما إذا تم استخدام ANOVA أو التصاميم العاملية.

1
مثل FWE، FDR، التبديل أو مونت كارلو).
صف القالب المستخدم للتطبيع/التحويل، موضحًا مساحة الموضوع أو مساحة المجموعة الموحدة (مثل تاليراش الأصلي، MNI305، ICBM152) أو أشر إلى أن البيانات لم يتم تطبيعها.
صف إجراءاتك لإزالة الفن والضوضاء الهيكلية، موضحًا معلمات الحركة، إشارات الأنسجة والإشارات الفسيولوجية (معدل ضربات القلب، التنفس).
حدد برنامجك و/أو طريقتك ومعاييرك لتصفية الحجم، واذكر مدى هذه التصفية.

النماذج والتحليل

غير متاح مشارك في الدراسة

الاتصال الوظيفي و/أو الفعال

تحليل الرسم البياني

النمذجة متعددة المتغيرات أو التحليل التنبؤي
الاتصال الوظيفي و/أو الفعال
تحليل الرسم البياني
أبلغ عن مقاييس الاعتماد المستخدمة وتفاصيل النموذج (مثل ارتباط بيرسون، ارتباط جزئي، معلومات متبادلة).
أبلغ عن المتغير التابع ومقياس الاتصال، موضحًا الرسم البياني الموزون أو الرسم البياني الثنائي، مستوى الموضوع أو المجموعة، والملخصات العالمية و/أو العقد المستخدمة (مثل معامل التجميع، الكفاءة، إلخ).
النمذجة متعددة المتغيرات والتحليل التنبؤي
حدد المتغيرات المستقلة، استخراج الميزات وتقليل الأبعاد، النموذج، مقاييس التدريب والتقييم.

  1. (W) تحقق من التحديثات
  2. قسم الأعصاب، مركز جامعة هامبورغ-إيبندورف الطبي، هامبورغ، ألمانيا. الإدراك، الحركة وعلم الأعصاب، المعهد الإيطالي للتكنولوجيا، جنوة، إيطاليا. مركز علوم العقل/الدماغ، جامعة ترينتو، روفيريتو، إيطاليا. قسم علم النفس، جامعة تورين، تورين، إيطاليا. قسم الإدارة، ‘فالتر كانتينو’، جامعة تورين، تورين، إيطاليا. علوم الإنسان والتكنولوجيا، جامعة تورين، تورين، إيطاليا. شركة نقل التكنولوجيا الغريبة المحدودة، لندن، المملكة المتحدة. معهد معالجة المعلومات العصبية، مركز علم الأعصاب الجزيئي، مركز جامعة هامبورغ-إيبندورف الطبي، هامبورغ، ألمانيا. معهد برينستون لعلوم الأعصاب، جامعة برينستون، برينستون، نيو جيرسي، الولايات المتحدة الأمريكية.

Journal: Nature Human Behaviour, Volume: 8, Issue: 7
DOI: https://doi.org/10.1038/s41562-024-01882-z
PMID: https://pubmed.ncbi.nlm.nih.gov/38769463
Publication Date: 2024-05-20

Testing theory of mind in large language models and humans

Received: 14 August 2023
Accepted: 5 April 2024
Published online: 20 May 2024

James W. A. Strachan , Dalila Albergo , Giulia Borghini , Oriana Pansardi © , Eugenio Scaliti (B) , Saurabh Gupta (B) , Krati Saxena® , Alessandro Rufo © , Stefano Panzeri © , Guido Manzi (B) , Michael S. A. Graziano & Cristina Becchio ©

Abstract

At the core of what defines us as humans is the concept of theory of mind: the ability to track other people’s mental states. The recent development of large language models (LLMs) such as ChatGPT has led to intense debate about the possibility that these models exhibit behaviour that is indistinguishable from human behaviour in theory of mind tasks. Here we compare human and LLM performance on a comprehensive battery of measurements that aim to measure different theory of mind abilities, from understanding false beliefs to interpreting indirect requests and recognizing irony and faux pas. We tested two families of LLMs (GPT and LLaMA2) repeatedly against these measures and compared their performance with those from a sample of 1,907 human participants. Across the battery of theory of mind tests, we found that GPT-4 models performed at, or even sometimes above, human levels at identifying indirect requests, false beliefs and misdirection, but struggled with detecting faux pas. Faux pas, however, was the only test where LLaMA2 outperformed humans. Follow-up manipulations of the belief likelihood revealed that the superiority of LLaMA2 was illusory, possibly reflecting a bias towards attributing ignorance. By contrast, the poor performance of GPT originated from a hyperconservative approach towards committing to conclusions rather than from a genuine failure of inference. These findings not only demonstrate that LLMs exhibit behaviour that is consistent with the outputs of mentalistic inference in humans but also highlight the importance of systematic testing to ensure a non-superficial comparison between human and artificial intelligences.

People care about what other people think and expend a lot of effort thinking about what is going on in other minds. Everyday life is full of social interactions that only make sense when considered in light of our capacity to represent other minds: when you are standing near a
closed window and a friend says, ‘It’s a bit hot in here’, it is your ability to think about her beliefs and desires that allows you to recognize that she is not just commenting on the temperature but politely asking you to open the window .
This ability for tracking other people’s mental states is known as theory of mind. Theory of mind is central to human social interac-tions-from communication to empathy to social decision-makingand has long been of interest to developmental, social and clinical psychologists. Far from being a unitary construct, theory of mind refers to an interconnected set of notions that are combined to explain, predict, and justify the behaviour of others . Since the term ‘theory of mind’ was first introduced in 1978 (ref. 3), dozens of tasks have been developed to study it, including indirect measures of belief attribution using reaction times and looking or searching behaviour , tasks examining the ability to infer mental states from photographs of eyes , and language-based tasks assessing false belief understanding and pragmatic language comprehension . These measures are proposed to test early, efficient but inflexible implicit processes as well as later-developing, flexible and demanding explicit abilities that are crucial for the generation and comprehension of complex behavioural interactions involving phenomena such as misdirection, irony, implicature and deception.
The recent rise of large language models (LLMs), such as generative pre-trained transformer (GPT) models, has shown some promise that artificial theory of mind may not be too distant an idea. Generative LLMs exhibit performance that is characteristic of sophisticated decision-making and reasoning abilities including solving tasks widely used to test theory of mind in humans . However, the mixed success of these models , along with their vulnerability to small perturbations to the provided prompts, including simple changes in characters’ perceptual access , raises concerns about the robustness and interpretability of the observed successes. Even in cases where these models are capable of solving complex tasks that are cognitively demanding even for human adults , it cannot be taken for granted that they will not be tripped up by a simpler task that a human would find trivial . As a result, work in LLMs has begun to question whether these models rely on shallow heuristics rather than robust performance that parallels human theory of mind abilities .
In the service of the broader multidisciplinary study of machine behaviour , there have been recent calls for a ‘machine psychology that have argued for using tools and paradigms from experimental psychology to systematically investigate the capacities and limits of . A systematic experimental approach to studying theory of mind in LLMs involves using a diverse set of theory of mind measures, delivering multiple repetitions of each test, and having clearly defined benchmarks of human performance against which to compare . In this Article, we adopt such an approach to test the performance of LLMs in a wide range of theory of mind tasks. We tested the chat-enabled version of GPT-4, the latest LLM in the GPT family of models, and its predecessor ChatGPT-3.5 (hereafter GPT-3.5) in a comprehensive set of psychological tests spanning different theory of mind abilities, from those that are less cognitively demanding for humans such as understanding indirect requests to more cognitively demanding abilities such as recognizing and articulating complex mental states like misdirection or irony . GPT models are closed, evolving systems. In the interest of reproducibility , we also tested the open-weight LLaMA2-Chat models on the same tests. To understand the variability and boundary limitations of LLMs’ social reasoning capacities, we exposed each model to multiple repetitions of each test across independent sessions and compared their performance with that of a sample of human participants (total ). Using variants of the tests considered, we were able to examine the processes behind the models’ successes and failures in these tests.

Results

Theory of mind battery

We selected a set of well-established theory of mind tests spanning different abilities: the hinting task , the false belief task , the recognition of faux pas , and the strange stories . We also included a test of
irony comprehension using stimuli adapted from a previous study . Each test was administered separately to GPT-4, GPT-3.5 and LLaMA2-70B-Chat (hereafter LLaMA2-70B) across 15 chats. We also tested two other sizes of LLaMA2 model (7B and 13B), the results of which are reported in Supplementary Information section 1. Because each chat is a separate and independent session, and information about previous sessions is not retained, this allowed us to treat each chat (session) as an independent observation. Responses were scored in accordance with the scoring protocols for each test in humans (Methods) and compared with those collected from a sample of 250 human participants. Tests were administered by presenting each item sequentially in a written format that ensured a species-fair comparison (Methods) between LLMs and human participants.

Performance across theory of mind tests

Except for the irony test, all other tests in our battery are publicly available tests accessible within open databases and scholarly journal articles. To ensure that models did not merely replicate training set data, we generated novel items for each published test (Methods). These novel test items matched the logic of the original test items but used a different semantic content. The text of original and novel items and the coded responses are available on the OSF (methods and resource availability).
Figure 1a compares the performance of LLMs against the performance of human participants across all tests included in the battery. Differences in performance on original items versus novel items, separately for each test and model, are shown in Fig. 1b.
False belief. Both human participants and LLMs performed at ceiling on this test (Fig. 1a). All LLMs correctly reported that an agent who left the room while the object was moved would later look for the object in the place where they remembered seeing it, even though it no longer matched the current location. Performance on novel items was also near perfect (Fig. 1b), with only 5 human participants out of 51 making one error, typically by failing to specify one of the two locations (for example, ‘He’ll look in the room’; Supplementary Information section 2).
In humans, success on the false belief task requires inhibiting one’s own belief about reality in order to use one’s knowledge about the character’s mental state to derive predictions about their behaviour. However, with LLMs, performance may be explained by lower-level explanations than belief tracking . Supporting this interpretation, LLMs such as ChatGPT have been shown to be susceptible to minor alterations to the false belief formulation , such as making the containers where the object is hidden transparent or asking about the belief of the character who moved the object rather than the one who was out of the room. Such perturbations of the standard false belief structure are assumed not to matter for humans (who possess a theory of mind) . In a control study using these perturbation variants (Supplementary Information section 4 and Supplementary Appendix 1), we replicated the poor performance of GPT models found in previous studies . However, we found that human participants ( ) also failed on half of these perturbations. Understanding these failures and the similarities and differences in how humans and LLMs may arrive at the same outcome requires further systematic investigation. For example, because these perturbations also involve changes in the physical properties of the environment, it is difficult to establish whether LLMs (and humans) failed because they were sticking to the familiar script and were unable to automatically attribute an updated belief, or because they did not consider physical principles (for example, transparency).
Irony.GPT-4 performed significantly better than human levels ( , confidence interval (CI) ). By contrast, both GPT-3.5 ( ) and LLaMA2-70B ( ) performed below human levels (Fig. 1a). GPT-3.5 performed perfectly at
Fig. 1 | Performance of human (purple), GPT-4 (dark blue), GPT-3.5 (light blue) and LLaMA2-70B (green) on the battery of theory of mind tests. a, Original test items for each test showing the distribution of test scores for individual sessions and participants. Coloured dots show the average response score across all test items for each individual test session (LLMs) or participant (humans). Black dots indicate the median for each condition. values were computed from Holmcorrected Wilcoxon two-way tests comparing LLM scores ( LLM observations) against human scores (irony, human participants; faux pas, human participants; hinting, human participants; strange stories, human
participants). Tests are ordered in descending order of human performance. b, Interquartile ranges of the average scores on the original published items (dark colours) and novel items (pale colours) across each test (for LLMs, observations; for humans, false belief, human participants; faux pas, human participants; hinting, human participants; strange stories, human participants). Empty diamonds indicate the median scores, and filled circles indicate the upper and lower bounds of the interquartile range. values shown are from Holm-corrected Wilcoxon two-way tests comparing performance on original items against the novel items generated as controls for this study.
recognizing non-ironic control statements but made errors at recognizing ironic utterances (Supplementary Information section 2). Control analysis revealed a significant order effect, whereby GPT-3.5 made more errors on earlier trials than later ones (Supplementary Information section 3). LLaMA2-70B made errors when recognizing both ironic and non-ironic control statements, suggesting an overall poor discrimination of irony.
Faux Pas. On this test, GPT-4 scored notably lower than human levels ( ) with isolated ceiling effects on specific items (Supplementary Information section 2). GPT3.5 scored even worse, with its performance nearly at floor ( , ) on all items except one. By contrast, LLaMA2-70B outperformed humans ( , ) achieving accuracy in all but one run.
The pattern of results for novel items was qualitatively similar (Fig. 1b). Compared with original items, the novel items proved slightly easier for humans ( ) and more difficult for GPT-3.5 ( 0.88 ), but not for GPT-4 and LLaMA2-70B ( ; Bayes factor ( ) of 0.77 and 0.43 , respectively). Given the poor performance of GPT-3.5 of the original test items, this difference was unlikely to be explained by a prior familiarity with the original items. These results were robust to alternative coding schemes (Supplementary Information section 5).
Hinting. On this test, GPT-4 performance was significantly better than humans ( CI ). GPT-3.5 performance did not significantly differ from human performance ( , ). Only LLaMA2-70B scored significantly below human levels of performance on this test .
Novel items proved easier than original items for both humans ( ) and LLaMA2-70B ( ) (Fig. 1b). Scores on novel items did not differ from the original test items for GPT-3.5 ( ) or GPT-4 ( ). Given that better performance on novel items is the opposite of what a prior familiarity explanation would predict, it is likely that this difference for LLaMA2-70B was driven by differences in item difficulty.
Strange stories. GPT-4 significantly outperformed humans on this test . The performance of GPT-3.5 did not significantly differ from humans ( , , while LLaMA2-70B scored significantly lower than humans ( , ). There were no differences between original and novel items for any model (all : human 1.46, LLaMA2-70B 0.46 ; the variance for GPT-4 was too low to compute
a Bayes factor). As reported in Supplementary Information section 6, partial successes were infrequent and more likely for LLaMA2-70B than for other models.

Understanding faux pas

In line with previous findings that GPT models struggle with faux pas , in our battery, faux pas was the only test in which GPT-4 did not match or exceed human performance. Surprisingly, faux pas was also the only test in which LLaMA2-70B, which was otherwise the poorest-performing model, scored better than humans (Fig. 1).
The faux pas test consists of vignettes describing an interaction where one character (the speaker) says something they should not have said, not knowing or not realizing that they should not say it. To understand that a faux pas has occurred, one must represent two mental states: that the speaker does not know that they should not say what they said, and that the person hearing it (the victim) would feel insulted or hurt by what was said. Consider the following example of a story describing a faux pas:
Jill had just moved into a new house. She went shop-
ping with her Mum and bought some new curtains. When
Jill had just put them up, her best friend Lisa came
round and said, "Oh, those curtains are horrible, I
hope you're going to get some new ones." Jill asked,
"Do you like the rest of my bedroom?"
Following the presentation of the story, four comprehension questions are asked. The first question is, ‘In the story, did somebody say something they should not have said?’ to which the correct answer is always yes. The second question asks the respondent to report what the person said that they should not have said, and the third question is a comprehension question specific to the content of the story. The fourth and key question, which was our focus for coding, relates to the speaker’s belief when they made the inappropriate utterance: ‘Did [Lisa] know that [the curtains were new]?’ The correct answer to this final question is always no.
Both GPT-4 and GPT-3.5 correctly identified that the victim would feel insulted or hurt, sometimes going so far as to provide additional details about why the utterance might cause offence. However, when asked whether the speaker was aware of the context that made their statement offensive (such as Lisa knowing that Jill had just bought the curtains), they failed to produce a correct answer. A closer look revealed that the overwhelming majority of the errors on this question reported that there was not enough information provided to be sure, for example:
Did Lisa know the curtains were new?
GPT-4: [...] It is unclear from the story whether Lisa
knew the curtains were new or not.
Only two responses out of 349 reported that, yes, the character did know. We consider three alternative hypotheses for why GPT models, and specifically GPT-4, fail to answer this question correctly.
The first hypothesis, which we term the failure of inference hypothesis, is that models fail to generate inferences about the mental state of the speaker (note that we refer to inference here not in the sense of the processes by which biological organisms infer hidden states from their environment, but rather as any process of reasoning whereby conclusions are derived from a set of propositional premises). Recognizing a faux pas in this test relies on contextual information beyond that encoded within the story (for example, about social norms). For example, in the above example there is no information in the story to indicate that saying that the newly bought curtains are horrible is inappropriate, but this is a necessary proposition that must be accepted in order to accurately infer the mental states of the characters. This
inability to use non-embedded information would fundamentally impair the ability of GPT-4 to compute inferences.
The second hypothesis, which we term the Buridan’s ass hypothesis, is that models are capable of inferring mental states but cannot choose between them, as with the eponymous rational agent caught between two equally appetitive bales of hay that starves because it cannot resolve the paradox of making a decision in the absence of a clear preference . Under this hypothesis, GPT models can propose the correct answer (a faux pas) as one among several possible alternatives but do not rank these alternatives in terms of likelihood. In partial support of this hypothesis, responses from both GPT models occasionally indicate that the speaker may not know or remember but present this as one hypothesis among alternatives (Supplementary Information section 5).
The third hypothesis, which we term the hyperconservatism hypothesis, is that GPT models are able both to compute inferences about the mental states of characters and recognise a false belief or lack of knowledge as the likeliest explanation among competing alternatives but refrain from committing to a single explanation out of an excess of caution. GPT models are powerful language generators, but they are also subject to inhibitory mitigation processes . It is possible that such processes could lead to an overly conservative stance where GPT models do not commit to the likeliest explanation despite being able to generate it.
To differentiate between these hypotheses, we devised a variant of the faux pas test where the question assessing performance on the faux pas test was formulated in terms of likelihood (hereafter, the faux pas likelihood test). Specifically, rather than ask whether the speaker knew or did not know, we asked whether it was more likely that the speaker knew or did not know. Under the hyperconservatism hypothesis, GPT models should be able to both make the inference that the speaker did not know and identify it as more likely among alternatives, and so we would expect the models to respond accurately that it was more likely that the speaker did not know. In case of uncertainty or incorrect responses, we further prompted models to describe the most likely explanation. Under the Buridan’s ass hypothesis, we expected this question would elicit multiple alternative explanations that would be presented as equally plausible, while under the failure of inference hypothesis, we expected that GPT would not be able to generate the right answer at all as a plausible explanation.
As shown in Fig. 2a, on the faux pas likelihood test GPT-4 demonstrated perfect performance, with all responses identifying without any prompting that it was more likely that the speaker did not know the context. GPT-3.5 also showed improved performance, although it did require prompting in a few instances ( of items) and occasionally failed to recognize the faux pas (~9% of items; see Supplementary Information section 7 for a qualitative analysis of response types).
Taken together, these results support the hyperconservatism hypothesis, as they indicate that GPT-4, and to a lesser but still notable extent GPT-3.5, successfully generated inferences about the mental states of the speaker and identified that an unintentional offence was more likely than an intentional insult. Thus, failure to respond correctly to the original phrasing of the question does not reflect a failure of inference, nor indecision among alternatives the model considered equally plausible, but an overly conservative approach that prevented commitment to the most likely explanation.

Testing information integration

A potential confound of the above results is that, as the faux pas test includes only items where a faux pas occurs, any model biased towards attributing ignorance would demonstrate perfect performance without having to integrate the information provided by the story. This potential bias could explain the perfect performance of LLaMA2-70B in the original faux pas test (where the correct answer is always, ‘no’) as well as GPT-4’s perfect and GPT-3.5’s good performance on the faux
Fig. 2 | Results of the variants of the faux pas test. a, Scores of the two GPT models on the original framing of the faux pas question (‘Did they know…?’) and the likelihood framing (‘Is it more likely that they knew or didn’t know…?’). Dots show average score across trials ( observations) on particular items to allow comparison between the original faux pas test and the new faux pas likelihood test. Halfeye plots show distributions, medians (black points), (thick grey lines) and quantiles (thin grey lines) of the response scores on different items ( different stories involving faux pas). , Response scores to three variants of the faux pas test: faux pas (pink), neutral (grey) and
knowledge-implied variants (teal). Responses were coded as categorical data as ‘didn’t know’, ‘unsure’ or ‘knew’ and assigned a numerical coding of and +1 . Filled balloons are shown for each model and variant, and the size of each balloon indicates the count frequency, which was the categorical data used to compute chi-square tests. Bars show the direction bias score computed as the average across responses of the categorical data coded as above. On the right of the plot, values (one-sided) of Holm-corrected chi-square tests are shown comparing the distribution of response type frequencies in the faux pas and knowledge-implied variants against neutral.
pas likelihood test (where the correct answer is always ‘more likely that they didn’t know’).
To control for this, we developed a novel set of variants of the faux pas likelihood test manipulating the likelihood that the speaker knew or did not know (hereafter the belief likelihood test). For each test item, all newly generated for this control study, we created three variants: a ‘faux pas’ variant, a ‘neutral’ variant, and a ‘knowledge-implied’ variant (Methods). In the faux pas variant, the utterance suggested that the speaker did not know the context. In the neutral variant, the utterance suggested neither that they knew nor did not know. In the knowledge-implied variant, the utterance suggested that the speaker knew (for the full text of all items, see Supplementary Appendix 2).
If the models’ responses reflect a true discrimination of the relative likelihood of the two explanations (that the person knew versus that they didn’t know, hereafter ‘knew’ and ‘didn’t know’), then the distribution of ‘knew’ and ‘didn’t know’ responses should be different across variants. Specifically, relative to the neutral variant, ‘didn’t know’ responses should predominate for the faux pas, and ‘knew’ responses should predominate for the knowledge-implied variant. If the responses of the models do not discriminate between the three variants, or discriminate only partially, then it is likely that responses are affected by a bias or heuristic unrelated to the story content.
We adapted the three variants (faux pas, neutral and knowledge implied) for six stories, administering each test item separately to each LLM and a new sample of human participants (total ). Responses were coded using a numeric code to indicate which, if either, of the knew/didn’t know explanations the response endorsed ( -1 , didn’t know; 0 , unsure or impossible to tell; +1 , knew). These coded scores were then averaged for each story to give a directional score for each variant such that negative values indicated the model was more likely to endorse the ‘didn’t know’ explanation, while positive values indicated the model was more likely to endorse the ‘knew’ explanation. These results are shown in Fig. 2b. As expected, humans were more likely to report that the speaker did not know for faux pas than for neutral , ) and more likely to report that the speaker did know
for knowledge implied than for neutral ( ). Humans also reported uncertainty on a small proportion of trials, with a higher proportion in the neutral condition (28 out of 303 responses) than in the other variants ( 11 out of 303 for faux pas, and 0 out of 298 for knowledge implied).
Similarly to humans, GPT-4 was more likely to endorse the ‘didn’t know’ explanation for faux pas than for neutral , ) and more likely to endorse the ‘knew’ explanation for knowledge implied than for neutral ( ). GPT-4 was also more likely to report uncertainty in the neutral condition than responding randomly ( 42 out of 90 responses, versus 6 and 17 in the faux pas and knowledge-implied variants, respectively).
The pattern of responses for GPT-3.5 was similar, with the model being more likely to report that the speaker didn’t know for faux pas than for neutral ( ) and more likely that the character knew for knowledge implied than for neutral , ). Unlike GPT-4, GPT-3.5 never reported uncertainty in response to any variants and always selected one of the two explanations as the likelier even in the neutral condition.
LLaMA2-70B was also more likely to report that the speaker didn’t know in response to faux pas than neutral , which was consistent with this model’s ceiling performance in the original formulation of the test. However, it showed no differentiation between neutral and knowledge implied 0.56 ). As with GPT-3.5, LLaMA2-70B never reported uncertainty in response to any variants and always selected one of the two explanations as the likelier.
Furthermore, the responses of LLaMA2-70B and, to a lesser extent, GPT-3.5 appeared to be subject to a response bias towards affirming that someone had said something they should not have said. Although the responses to the first question (which involved recognising that there was an offensive remark made) were of secondary interest to our study, it was notable that, although all models could correctly identify that an offensive remark had been made in the faux pas condition (all LLMs , humans ), only GPT-4 reliably reported that there was no offensive statement in the neutral and knowledge-implied conditions ( and , respectively), with similar proportions to human
responses (neutral 19.27%, knowledge implied 30.10%). GPT-3.5 was more likely to report that somebody made an offensive remark in all conditions (neutral 71.11%, knowledge implied 87.78%), and LLaMA270B always reported that somebody in the story had made an offensive remark.

Discussion

We collated a battery of tests to comprehensively measure performance in theory of mind tasks in three LLMs (GPT-4, GPT-3.5 and LLaMA270B) and compared these against the performance of a large sample of human participants. Our findings validate the methodological approach taken in this study using a battery of multiple tests spanning theory of mind abilities, exposing language models to multiple sessions and variations in both structure and content, and implementing procedures to ensure a fair, non-superficial comparison between humans and machines . This approach enabled us to reveal the existence of specific deviations from human-like behaviour that would have remained hidden using a single theory of mind test, or a single run of each test.
Both GPT models exhibited impressive performance in tasks involving beliefs, intentions and non-literal utterances, with GPT-4 exceeding human levels in the irony, hinting and strange stories. Both GPT-4 and GPT-3.5 failed only on the faux pas test. Conversely, LLaMA270B, which was otherwise the poorest-performing model, outperformed humans on the faux pas. Understanding a faux pas involves two aspects: recognizing that one person (the victim) feels insulted or upset and understanding that another person (the speaker) holds a mistaken belief or lacks some relevant knowledge. To examine the nature of models’ successes and failures on this test, we developed and tested new variants of the faux pas test in a set of control experiments.
Our first control experiment using a likelihood framing of the belief question (faux pas likelihood test), showed that GPT-4, and to a lesser extent GPT-3.5, correctly identified the mental state of both the victim and the speaker and selected as the most likely explanation the speaker not knowing or remembering the relevant knowledge that made their statement inappropriate. Despite this, both models consistently provided an incorrect response (at least when compared against human responses) when asked whether the speaker knew or remembered this knowledge, responding that there was insufficient information provided. In line with the hyperconservatism hypothesis, these findings imply that, while GPT models can identify unintentional offence as the most likely explanation, their default responses do not commit to this explanation. This finding is consistent with longitudinal evidence that GPT models have become more reluctant to answer opinion questions over time .
Further supporting that the failures of GPT at recognizing faux pas were due to hyperconservatism in answering the belief question rather than a failure of inference, a second experiment using the belief likelihood test showed that GPT responses integrated information in the story to accurately interpret the speaker’s mental state. When the utterance suggested that the speaker knew, GPT responses acknowledged the higher likelihood of the ‘knew’ explanation. LLaMA2-70B, on the other hand, did not differentiate between scenarios where the speaker was implied to know and when there was no information one way or another, raising the concern that the perfect performance of LLaMA2-70B on this task may be illusory.
The pattern of failures and successes of GPT models on the faux pas test and its variants may be the result of their underlying architecture. In addition to transformers (generative algorithms that produce text output), GPT models also include mitigation measures to improve factuality and avoid users’ overreliance on them as sources . These measures include training to reduce hallucinations, the propensity of GPT models to produce nonsensical content or fabricate details that are not true in relation to the provided content. Failure on the faux pas test may be an exercise of caution driven by these mitigation measures,
as passing the test requires committing to an explanation that lacks full evidence. This caution can also explain differences between tasks: both the faux pas and hinting tests require speculation to generate correct answers from incomplete information. However, while the hinting task allows for open-ended generation of text in ways to which LLMs are well suited, answering the faux pas test requires going beyond this speculation in order to commit to a conclusion.
The cautionary epistemic policy guiding the responses of GPT models introduces a fundamental difference in the way that humans and GPT models respond to social uncertainty . In humans, thinking is, first and last, for the sake of doing . Humans generally find uncertainty in social environments to be aversive and will incur additional costs to reduce it . Theory of mind is crucial in reducing such uncertainty; the ability to reason about mental states-in combination with information about context, past experience and knowledge of social norms-helps individual reduce uncertainty and commit to likely hypotheses, allowing for successful navigation of the social environment as active agents . GPT models, on the other hand, respond conservatively despite having access to tools to reduce uncertainty. The dissociation we describe between speculative reasoning and commitment mirrors recent evidence that, while GPT models demonstrate sophisticated and accurate performance in reasoning tasks about belief states, they struggle to translate this reasoning into strategic decisions and actions .
These findings highlight a dissociation between competence and performance , suggesting that GPT models may be competent, that is, have the technical sophistication to compute mentalistic-like inferences but perform differently from humans under uncertain circumstances as they do not compute these inferences spontaneously to reduce uncertainty. Such a distinction can be difficult to capture with quantitative approaches that code only for target response features, as machine failures and successes are the result of non-human-like processes (see Supplementary Information section 7 for a preliminary qualitative breakdown of how GPT models’ successes on the new version of the faux pas test may not necessarily reflect perfect or human-like reasoning).
While LLMs are designed to emulate human-like responses, this does not mean that this analogy extends to the underlying cognition giving rise to those responses . In this context, our findings imply a difference in how humans and GPT models trade off the costs associated with social uncertainty against the costs associated with prolonged deliberation . This difference is perhaps not surprising considering that resolving uncertainty is a priority for brains adapted to deal with embodied decisions, such as deciding whether to approach or avoid, fight or flight, or cooperate or defect. GPT models and other LLMs do not operate within an environment and are not subject to the processing constraints that biological agents face to resolve competition between action choices, so may have limited advantages in narrowing the future prediction space .
The dis-embodied cognition of GPT models could explain failures in recognizing faux pas, but they may also underlie their success on other tests. One example is the false belief test, one of the most widely used tools so far for testing the performance of LLMs on social cognitive tasks . In this test, participants are presented with a story where a character’s belief about the world (the location of the item) differs from the participant’s own belief. The challenge in these stories is not remembering where the character last saw the item but rather in reconciling the incongruence between conflicting mental states. This is challenging for humans, who have their own perspective, their own sense of self and their own ability to track out-of-sight objects. However, if a machine does not have its own self-perspective because it is not subject to the constraints of navigating a body through an environment, as with , then tracking the belief of a character in a story does not pose the same challenge.
An important direction for future research will be to examine the impact of these non-human decision behaviours on second-person,
Table 1 | Data collection details for each model
Test Model Items Dates of data collection
Theory of mind battery Human 250 7-16 June to July 2023
GPT-4 75 7-16 April 2023
GPT-3.5 75 7-16 April 2023
LLaMA2 75 7-16 October to November 2023
Faux pas likelihood test GPT-4 15 15 April to May 2023
GPT-3.5 15 15 April to May 2023
LLaMA2 15 15 October to November 2023
Belief likelihood test Human 900 1 November 2023
GPT-4 270 1 October to November 2023
GPT-3.5 270 1 October to November 2023
LLaMA2 270 1 October to November 2023
Item order analysis GPT-3.5 18 12-15 April to May 2023
False belief perturbations Human 757 1 November 2023
GPT-4 225 1 October to November 2023
GPT-3.5 225 1 October to November 2023
LLaMA2 225 1 October to November 2023
, human participants; , independent LLM observations. Details of data collection for each model at each stage of the study are shown, including (human participants)/ (independent observations of LLM responses), number of items administered to each individual observation (ranges where multiple tests were administered) and dates of data collection. Information is the same for LlaMA2-70B, LlaMA2-13B and LlaMA2-7B. Analysis of the data in the item order analysis and false belief perturbations is reported in Supplementary Information sections 3 and 4.
real-time human-machine interactions . Failure of commitment by GPT models, for example, may lead to negative affect in human conversational partners. However, it may also foster curiosity . Understanding how GPTs’ performance on mentalistic inferences (or their absences) influences human social cognition in dynamically unfolding social interactions is an open challenge for future work.
The LLM landscape is fast-moving. Our findings highlight the importance of systematic testing and proper validation in human samples as a necessary foundation. As artificial intelligence (AI) continues to evolve, it also becomes increasingly important to heed calls for open science and open access to these models . Direct access to the parameters, data and documentation used to construct models can allow for targeted probing and experimentation into the key parameters affecting social reasoning, informed by and building on comparisons with human data. As such, open models can not only serve to accelerate the development of future AI technologies but also serve as models of human cognition.

Methods

Ethical compliance

The research was approved by the local ethical committee (ASL 3 Genovese; protocol no. 192REG2015) and was carried out in accordance with the principles of the revised Helsinki Declaration.

Experimental model details

We tested two versions of OpenAI’s GPT: version 3.5, which was the default model at the time of testing, and version 4 , which was the state-of-the-art model with enhanced reasoning, creativity and
comprehension relative to previous models (https://chat.openai. com/). Each test was delivered in a separate chat: GPT is capable of learning within a chat session, as it can remember both its own and the user’s previous messages to adapt its responses accordingly, but it does not retain this memory across new chats. As such, each new iteration of a test may be considered a blank slate with a new naive participant. The dates of data collection for the different stages are reported in Table1.
Three LLaMA2-Chat models were tested. These models were trained on sets of different sizes: 70, 13 and 7 billion tokens. All LLaMA2-Chat responses were collected using set parameters with the prompt, ‘You are a helpful AI assistant’, a temperature of 0.7, the maximum number of new tokens set at 512 , a repetition penalty of 1.1 , and a Top P of 0.9. Langchain’s conversation chain was used to create a memory context within individual chat sessions. Responses from all LLaMA2-Chat models were found to include a number of non-codable responses (for example, repeating the question without answering it), and these were regenerated individually and included with the full response set. For the 70B model, these non-responses were rare, but for the 13B and 7B models they were common enough to cause concern about the quality of these data. As such, only the responses of the 70B model are reported in the main manuscript and a comparison of this model against the smaller two is reported in Supplementary Information section 1. Details and dates of data collection are reported in Table 1.
For each test, we collected 15 sessions for each LLM. A session involved delivering all items of a single test within the same chat window. GPT-4 was subject to a 25-message limit per 3 h ; to minimize interference, a single experimenter delivered all tests for GPT-4, while four other experimenters shared the duty of collecting responses from GPT-3.5.
Human participants were recruited online through the Prolific platform and the study was hosted on SoSci. We recruited native English speakers between the ages of 18 and 70 years with no history of psychiatric conditions and no history of dyslexia in particular. Further demographic data were not collected. We aimed to collect around 50 participants per test (theory of mind battery) or item (belief likelihood test, false belief perturbations). Thirteen participants who appeared to have generated their answers using LLMs or whose responses did not answer the questions were excluded. The final human sample was (Table1). All participants provided informed consent through the online survey and received monetary compensation in return for their participation at a rate of GBP .

Theory of mind battery

We selected a series of tests typically used in evaluating theory of mind capacity in human participants.
False belief. False belief assess the ability to infer that another person possesses knowledge that differs from the participant’s own (true) knowledge of the world. These tests consist of test items that follow a particular structure: character A and character B are together, character A deposits an item inside a hidden location (for example, a box), character A leaves, character B moves the item to a second hidden location (for example, a cupboard) and then character A returns. The question asked to the participant is: when character A returns, will they look for the item in the new location (where it truly is, matching the participant’s true belief) or the old location (where it was, matching character A’s false belief)?
In addition to the false belief condition, the test also uses a true belief control condition, where rather than move the item that character A hid, character B moves a different item to a new location. This is important for interpreting failures of false belief attribution as they ensure that any failures are not due to a recency effect (referring to the last location reported) but instead reflect an accurate belief tracking.
We adapted four false/true belief scenarios from the sandbox task used by Bernstein and generated three novel items, each with false and
true belief versions. These novel items followed the same structure as the original published items but with different details such as names, locations or objects to control for familiarity with the text of published items. Two story lists (false belief A, false belief B) were generated for this test such that each story only appeared once within a testing session and alternated between false and true belief depending on the session. In addition to the standard false/true belief scenarios, two additional catch stories were tested that involved minor alterations to the story structure. The results of these items are not reported here as they go beyond the goals of the current study.
Irony. Comprehending an ironic remark requires inferring the true meaning of an utterance (typically the opposite of what is said) and detecting the speaker’s mocking attitude, and this has been raised as a key challenge for AI and LLMs .
Irony comprehension items were adapted from an eye-tracking study in which participants read vignettes where a character made an ironic or non-ironic statement. Twelve items were taken from these stimuli that in the original study were used as comprehension checks. Items were abbreviated to end following the ironic or non-ironic utterance.
Two story lists were generated for this test (irony A, irony B) such that each story only appeared once within a testing session and alternated between ironic and non-ironic depending on the session. Responses were coded as 1 (correct) or 0 (incorrect). During coding, we noted some inconsistencies in the formulation of both GPT models’ responses where in response to the question of whether the speaker believed what they had said, they might respond with, ‘Yes, they did not believe that….’Such internally contradictory responses, where the models responded with a ‘yes’ or ‘no’ that was incompatible with the followup explanation, were coded on the basis of whether or not the explanation showed appreciation of the irony-the linguistic failures of these models in generating a coherent answer are not of direct interest to the current study as these failures (1) were rare and (2) did not render the responses incomprehensible.
Faux pas. The faux pas test presents a context in which one character makes an utterance that is unintentionally offensive to the listener because the speaker does not know or does not remember some key piece of information.
Following the presentation of the scenario, we presented four questions:
  1. ‘In the story did someone say something that they should not have said?’ [The correct answer is always ‘yes’]
  2. ‘What did they say that they should not have said?’ [Correct answer changes for each item]
  3. A comprehension question to test understanding of story events [Question changes for every item]
  4. A question to test awareness of the speaker’s false belief phrased as, ‘Did [the speaker] know that [what they said was inappropriate]?’ [Question changes for every item. The correct answer is always ‘no’]
These questions were asked at the same time as the story was presented. Under the original coding criteria, participants must answer all four questions correctly for their answer to be considered correct. However, in the current study we were interested primarily in the response to the final question testing whether the responder understood the speaker’s mental state. When examining the human data, we noticed that several participants responded incorrectly to the first item owing to an apparent unwillingness to attribute blame (for example ‘No, he didn’t say anything wrong because he forgot’). To focus on the key aspect of faux pas understanding that was relevant to the current study, we restricted our coding to only the last question (1 (correct if the answer was no) or 0 (for anything else); see Supplementary Information
section 5 for an alternative coding that follows the original criteria, as well as a recoding where we coded as correct responses where the correct answer was mentioned as a possible explanation but was not explicitly endorsed).
As well as the 10 original items used in Baron-Cohen et al. , we generated five novel items for this test that followed the same structure and logic as the original items, resulting in 15 items overall.
Hinting task. The hinting task assesses the understanding of indirect speech requests through the presentation of ten vignettes depicting everyday social interactions that are presented sequentially. Each vignette ends with a remark that can be interpreted as a hint.
A correct response identifies both the intended meaning of the remark and the action that it is attempting to elicit. In the original test, if the participant failed to answer the question fully the first time, they were prompted with additional questioning . In our adapted implementation, we removed this additional questioning and coded responses as a binary (1 (correct) or 0 (incorrect)) using the evaluation criteria listed in Gil et al. . Note that this coding offers more conservative estimates of hint comprehension than in previous studies.
In addition to 10 original items sourced from Corcoran , we generated a further 6 novel hinting test items, resulting in 16 items overall.
Strange stories. The strange stories offer a means of testing more advanced mentalizing abilities such as reasoning about misdirection, manipulation, lying and misunderstanding, as well as second- or higher-order mental states (for example, A knows that B believes .). The advanced abilities that these stories measure make them suitable for testing higher-functioning children and adults. In this test, participants are presented with a short vignette and are asked to explain why a character says or does something that is not literally true.
Each question comes with a specific set of coding criteria and responses can be awarded 0,1 or 2 points depending on how fully it explains the utterance and whether or not it explains it in mentalistic terms . See Supplementary Information section 6 for a description of the frequency of partial successes.
In addition to the 8 original mental stories, we generated 4 novel items, resulting in 12 items overall. The maximum number of points possible was 24 , and individual session scores were converted to a proportional score for analysis.
Testing protocol. For the theory of mind battery, the order of items was set for each test, with original items delivered first and novel items delivered last. Each item was preceded by a preamble that remained consistent across all tests. This was then followed by the story description and the relevant question(s). After each item was delivered, the model would respond and then the session advanced to the next item.
For GPT models, items were delivered using the chat web interface. For LLaMA2-Chat models, delivery of items was automated through a custom script. For humans, items were presented with free text response boxes on separate pages of a survey so that participants could write out their responses to each question (with a minimum character count of 2).

Faux pas likelihood test

To test alternative hypotheses of why the tested models performed poorly at the faux pas test, we ran a follow-up study replicating just the faux pas test. This replication followed the same procedure as the main study with one major difference.
The original wording of the question was phrased as a straightforward yes/no question that tested the subject’s awareness of a speaker’s false belief (for example, ‘Did Richard remember James had given him the toy aeroplane for his birthday?’). To test whether the low scores on this question were due to the models’ refusing to commit to a single explanation in the face of ambiguity, we reworded this to ask in terms
of likelihood: ‘Is it more likely that Richard remembered or did not remember that James had given him the toy aeroplane for his birthday?’
Another difference from the original study was that we included a follow-up prompt in the rare cases where the model failed to provide clear reasoning on an incorrect response. The coding criteria for this follow-up were in line with coding schemes used in other studies with a prompt system , where an unprompted correct answer was given 2 points, a correct answer following a prompt was given 1 point and incorrect answers following a prompt were given 0 points. These points were then rescaled to a proportional score to allow comparison against the original wording.
During coding by the human experimenters, a qualitative description of different subtypes of response (beyond points) emerged, particularly noting recurring patterns in responses that were marked as successes. This exploratory qualitative breakdown is reported along with further detail on the prompting protocol in Supplementary Information section 7 .

Belief likelihood test

To manipulate the likelihood that the speaker knew or did not know, we developed a new set of variants of the faux pas likelihood test. For each test item, all newly generated for this control study, we created three variants: a faux pas variant, a neutral variant and a knowledge-implied variant. In the faux pas variant, the utterance suggested that the speaker did not know the context. In the neutral variant, the utterance suggested neither that they knew nor did not know. In the knowledge-implied variant, the utterance suggested that the speaker knew (for the full text of all items, see Supplementary Appendix 2). For each variant, the core story remained unchanged, for example:
Michael was a very awkward child when he was at
high school. He struggled with making friends
and spent his time alone writing poetry. However,
after he left he became a lot more confident and
sociable. At his ten-year high school reunion he
met Amanda, who had been in his English class. Over
drinks, she said to him,
followed by the utterance, which varied across conditions: Faux Pas:
'I don't know if you remember this guy from school.
He was in my English class. He wrote poetry and he
was super awkward. I hope he isn't here tonight.'

Neutral:

'Do you know where the bar is?'
Knowledge implied:
'Do you still write poetry?'
The belief likelihood test was administered in the same way as with previous tests with the exception that responses were kept independent so that there was no risk of responses being influenced by other variants. For ChatGPT models, this involved delivering each item within a separate chat session for 15 repetitions of each item. For LLaMA2-70B, this involved removing the Langchain conversation chain allowing for within-session memory context. Human participants were recruited separately to answer a single test item, with at least 50 responses collected for each item (total ). All other details of the protocol were the same.

Quantification and statistical analysis

Response coding. After each session in the theory of mind battery and faux pas likelihood test, the responses were collated and coded by five
human experimenters according to the pre-defined coding criteria for each test. Each experimenter was responsible for coding 100% of sessions for one test and 20% of sessions for another. Inter-coder per cent agreement was calculated on the 20% of shared sessions, and items where coders showed disagreement were evaluated by all raters and recoded. The data available on the OSF are the results of this recoding. Experimenters also flagged individual responses for group evaluation if they were unclear or unusual cases, as and when they arose. Inter-rater agreement was computed by calculating the item-wise agreement between coders as 1 or 0 and using this to calculate a percentage score. Initial agreement across all double-coded items was over 95%. The lowest agreement was for the human and GPT-3.5 responses of strange stories, but even here agreement was over 88%. Committee evaluation by the group of experimenters resolved all remaining ambiguities.
For the belief likelihood test, responses were coded according to whether they endorsed the ‘knew’ explanation or ‘didn’t know’ explanation, or whether they did not endorse either as more likely than the other. Outcomes ‘knew’, ‘unsure’ and ‘didn’t know’ were assigned a numerical coding of and -1 , respectively. GPT models adhered closely to the framing of the question in their answer, but humans were more variable and sometimes provided ambiguous responses (for example, ‘yes’, ‘more likely’ and ‘not really’) or did not answer the question at all (‘It doesn’t matter’ and ‘She didn’t care’). These responses were rare, constituting only of responses and were coded as endorsing the ‘knew’ explanation if they were affirmative (‘yes’) and the ‘didn’t know’ explanation if they were negative.

Statistical analysis

Comparing LLMs against human performance. Scores for individual responses were scaled and averaged to obtain a proportional score for each test session in order to create a performance metric that could be compared directly across different theory of mind tests. Our goal was to compare LLMs’ performance across different tests against human performance to see how these models performed on theory of mind tests relative to humans. For each test, we compared the performance of each of the three LLMs against human performance using a set of Holm-corrected two-way Wilcoxon tests. Effect sizes for Wilcoxon tests were calculated by dividing the test statistic by the square root of the total sample size, and 95% CIs of the effect size were bootstrapped over 1,000 iterations. All non-significant results were further examined using corresponding Bayesian tests represented as a Bayes factor ( ) under continuous prior distribution (Cauchy prior width ). Bayes factors were computed in JASP 0.18.3 with a random seed value of 1 . The results of the false belief test were not subjected to inferential statistics owing to the ceiling performance and lack of variance across models.
Novel items. For each publicly available test (all tests except for irony), we generated novel items that followed the same logic as the original text but with different details and text to control for low-level familiarity with the scenarios through inclusion in the LLM training sets. For each of these tests, we compared the performance of all LLMs on these novel items against the validated test items using Holm-corrected two-way Wilcoxon tests. Non-significant results were followed up with corresponding Bayesian tests in JASP. Significantly poorer performance on novel items than original items would indicate a strong likelihood that the good performance of a language model can be attributed to inclusion of these texts in the training set. Note that, while the open-ended format of more complex tasks like hinting and strange stories makes this a convincing control for these tests, they are of limited strength for tasks like false belief and faux pas that use a regular internal structure that make heuristics or ‘Clever Hans’ solutions possible .
Belief likelihood test. We calculated the count frequency of the different response types (‘didn’t know’, ‘unsure’ and ‘knew’) for each variant and each model. Then, for each model we conducted two chi-square
tests that compared the distribution of these categorical responses to the faux pas variant against the neutral, and to the neutral variant against the knowledge implied. A Holm correction was applied to the eight chi-square tests to account for multiple comparisons. The non-significant result was further examined with a Bayesian contingency table in JASP.

Reporting summary

Further information on research design is available in the Nature Portfolio Reporting Summary linked to this article.

Data availability

All resources are available on a repository stored on the Open Science Framework (OSF) under a Creative Commons Attribution Non-Commercial 4.0 International (CC-BY-NC) license at https://osf.io/ fwj6v. This repository contains all test items, data and code reported in this study. Test items and data are available in an Excel file that includes the text of every item delivered in each test, the full text responses to each item and the code assigned to each response. This file is available at https://osf.io/dbn92 Source data are provided with this paper.

Code availability

The code used for all analysis in the main manuscript and Supplementary Information is included as a Markdown file at https://osf.io/fwj6v. The data used by the analysis files are available as a number of CSV files under ‘scored_data/’ in the repository, and all materials necessary for replicating the analysis can be downloaded as a single .zip file within the main repository titled ‘Full R Project Code.zip’ at https://osf.io/j3vhq.

References

  1. Van Ackeren, M. J., Casasanto, D., Bekkering, H., Hagoort, P. & Rueschemeyer, S.-A. Pragmatics in action: indirect requests engage theory of mind areas and the cortical motor network. J. Cogn. Neurosci. 24, 2237-2247 (2012).
  2. Apperly, I. A. What is ‘theory of mind’? Concepts, cognitive processes and individual differences. Q. J. Exp. Psychol. 65, 825-839 (2012).
  3. Premack, D. & Woodruff, G. Does the chimpanzee have a theory of mind? Behav. Brain Sci. 1, 515-526 (1978).
  4. Apperly, I. A., Riggs, K. J., Simpson, A., Chiavarino, C. & Samson, D. Is belief reasoning automatic? Psychol. Sci. 17, 841-844 (2006).
  5. Kovács, Á. M., Téglás, E. & Endress, A. D. The social sense: susceptibility to others’ beliefs in human infants and adults. Science 330, 1830-1834 (2010).
  6. Apperly, I. A., Warren, F., Andrews, B. J., Grant, J. & Todd, S. Developmental continuity in theory of mind: speed and accuracy of belief-desire reasoning in children and adults. Child Dev. 82, 1691-1703 (2011).
  7. Southgate, V., Senju, A. & Csibra, G. Action anticipation through attribution of false belief by 2-year-olds. Psychol. Sci. 18, 587-592 (2007).
  8. Kampis, D., Kármán, P., Csibra, G., Southgate, V. & Hernik, M. A two-lab direct replication attempt of Southgate, Senju and Csibra (2007). R. Soc. Open Sci. 8, 210190 (2021).
  9. Kovács, Á. M., Téglás, E. & Csibra, G. Can infants adopt underspecified contents into attributed beliefs? Representational prerequisites of theory of mind. Cognition 213, 104640 (2021).
  10. Baron-Cohen, S., Wheelwright, S., Hill, J., Raste, Y. & Plumb, I. The ‘Reading the Mind in the Eyes’ Test revised version: a study with normal adults, and adults with Asperger syndrome or high-functioning autism. J. Child Psychol. Psychiatry Allied Discip. 42, 241-251 (2001).
  11. Wimmer, H. & Perner, J. Beliefs about beliefs: representation and constraining function of wrong beliefs in young children’s understanding of deception. Cognition 13, 103-128 (1983).
  12. Perner, J., Leekam, S. R. & Wimmer, H. Three-year-olds’ difficulty with false belief: the case for a conceptual deficit. Br. J. Dev. Psychol. 5, 125-137 (1987).
  13. Baron-Cohen, S., O’Riordan, M., Stone, V., Jones, R. & Plaisted, K. Recognition of faux pas by normally developing children and children with asperger syndrome or high-functioning autism. J. Autism Dev. Disord. 29, 407-418 (1999).
  14. Corcoran, R. Inductive reasoning and the understanding of intention in schizophrenia. Cogn. Neuropsychiatry 8, 223-235 (2003).
  15. Happé, F. G. E. An advanced test of theory of mind: understanding of story characters’ thoughts and feelings by able autistic, mentally handicapped, and normal children and adults. J. Autism Dev. Disord. 24, 129-154 (1994).
  16. White, S., Hill, E., Happé, F. & Frith, U. Revisiting the strange stories: revealing mentalizing impairments in autism. Child Dev. 80, 1097-1117 (2009).
  17. Apperly, I. A. & Butterfill, S. A. Do humans have two systems to track beliefs and belief-like states? Psychol. Rev. 116, 953 (2009).
  18. Wiesmann, C. G., Friederici, A. D., Singer, T. & Steinbeis, N. Two systems for thinking about others’ thoughts in the developing brain. Proc. Natl Acad. Sci. USA 117, 6928-6935 (2020).
  19. Bubeck, S. et al. Sparks of artificial general intelligence: early experiments with GPT-4. Preprint at https://doi.org/10.48550/ arXiv.2303.12712 (2023).
  20. Srivastava, A. et al. Beyond the imitation game: quantifying and extrapolating the capabilities of language models. Preprint at https://doi.org/10.48550/arXiv.2206.04615 (2022).
  21. Dou, Z. Exploring GPT-3 model’s capability in passing the Sally-Anne Test A preliminary study in two languages. Preprint at OSF https://doi.org/10.31219/osf.io/8r3ma (2023).
  22. Kosinski, M. Theory of mind may have spontaneously emerged in large language models. Preprint at https://doi.org/10.48550/ arXiv.2302.02083 (2023).
  23. Sap, M., LeBras, R., Fried, D. & Choi, Y. Neural theory-of-mind? On the limits of social intelligence in large LMs. In Proc. 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP) 3762-3780 (Association for Computational Linguistics, 2022).
  24. Gandhi, K., Fränken, J.-P., Gerstenberg, T. & Goodman, N. D. Understanding social reasoning in language models with language models. In Advances in Neural Information Processing Systems Vol. 36 (MIT Press, 2023).
  25. Ullman, T. Large language models fail on trivial alterations to theory-of-mind tasks. Preprint at https://doi.org/10.48550/ arXiv.2302.08399 (2023).
  26. Marcus, G. & Davis, E. How Not to Test GPT-3. Marcus on AI https://garymarcus.substack.com/p/how-not-to-test-gpt-3 (2023).
  27. Shapira, N. et al. Clever Hans or neural theory of mind? Stress testing social reasoning in large language models. Preprint at https://doi.org/10.48550/arXiv.2305.14763 (2023).
  28. Rahwan, I. et al. Machine behaviour. Nature 568, 477-486 (2019).
  29. Hagendorff, T. Machine psychology: investigating emergent capabilities and behavior in large language models using psychological methods. Preprint at https://doi.org/10.48550/ arXiv.2303.13988 (2023).
  30. Binz, M. & Schulz, E. Using cognitive psychology to understand GPT-3. Proc. Natl Acad. Sci. USA 120, e2218523120 (2023).
  31. Webb, T., Holyoak, K. J. & Lu, H. Emergent analogical reasoning in large language models. Nat. Hum. Behav. 7, 1526-1541 (2023).
  32. Frank, M. C. Openly accessible LLMs can help us to understand human cognition. Nat. Hum. Behav. 7, 1825-1827 (2023).
  33. Bernstein, D. M., Thornton, W. L. & Sommerville, J. A. Theory of mind through the ages: older and middle-aged adults exhibit more errors than do younger adults on a continuous false belief task. Exp. Aging Res. 37, 481-502 (2011).
  34. Au-Yeung, S. K., Kaakinen, J. K., Liversedge, S. P. & Benson, V. Processing of written irony in autism spectrum disorder: an eye-movement study: processing irony in autism spectrum disorders. Autism Res. 8, 749-760 (2015).
  35. Firestone, C. Performance vs. competence in human-machine comparisons. Proc. Natl Acad. Sci. USA 117, 26562-26571 (2020).
  36. Shapira, N., Zwirn, G. & Goldberg, Y. How well do large language models perform on faux pas tests? In Findings of the Association for Computational Linguistics: ACL 2023 10438-10451 (Association for Computational Linguistics, 2023)
  37. Rescher, N. Choice without preference. a study of the history and of the logic of the problem of ‘Buridan’s ass’. Kant Stud. 51, 142-175 (1960).
  38. OpenAI. GPT-4 technical report. Preprint at https://doi.org/ 10.48550/arXiv.2303.08774 (2023).
  39. Chen, L., Zaharia, M. & Zou, J. How is ChatGPT’s behavior changing over time? Preprint at https://doi.org/10.48550/ arXiv.2307.09009 (2023).
  40. Feldman Hall, O. & Shenhav, A. Resolving uncertainty in a social world. Nat. Hum. Behav. 3, 426-435 (2019).
  41. James, W. The Principles of Psychology Vol. 2 (Henry Holt & Co, 1890).
  42. Fiske, S. T. Thinking is for doing: portraits of social cognition from daguerreotype to laserphoto. J. Personal. Soc. Psychol. 63, 877-889 (1992).
  43. Plate, R. C., Ham, H. & Jenkins, A. C. When uncertainty in social contexts increases exploration and decreases obtained rewards. J. Exp. Psychol. Gen. 152, 2463-2478 (2023).
  44. Frith, C. D. & Frith, U. The neural basis of mentalizing. Neuron 50, 531-534 (2006).
  45. Koster-Hale, J. & Saxe, R. Theory of mind: a neural prediction problem. Neuron 79, 836-848 (2013).
  46. Zhou, P. et al. How far are large language models from agents with theory-of-mind? Preprint at https://doi.org/10.48550/ arXiv.2310.03051 (2023).
  47. Bonnefon, J.-F. & Rahwan, I. Machine thinking, fast and slow. Trends Cogn. Sci. 24, 1019-1027 (2020).
  48. Hanks, T. D., Mazurek, M. E., Kiani, R., Hopp, E. & Shadlen, M. N. Elapsed decision time affects the weighting of prior probability in a perceptual decision task. J. Neurosci. 31, 6339-6352 (2011).
  49. Pezzulo, G., Parr, T., Cisek, P., Clark, A. & Friston, K. Generating meaning: active inference and the scope and limits of passive AI. Trends Cogn. Sci. 28, 97-112 (2023).
  50. Chemero, A. LLMs differ from human cognition because they are not embodied. Nat. Hum. Behav. 7, 1828-1829 (2023).
  51. Brunet-Gouet, E., Vidal, N. & Roux, P. In Human and Artificial Rationalities. HAR 2023. Lecture Notes in Computer Science (eds. Baratgin, J. et al.) Vol. 14522, 107-126 (Springer, 2024).
  52. Kim, H. et al. FANToM: a benchmark for stress-testing machine theory of mind in interactions. In Proc. 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP) 14397-14413 (Association for Computational Linguistics, 2023).
  53. Yiu, E., Kosoy, E. & Gopnik, A. Transmission versus truth, imitation versus nnovation: what children can do that large language and language-and-vision models cannot (yet). Perspect. Psychol. Sci. https://doi.org/10.1177/17456916231201401 (2023).
  54. Redcay, E. & Schilbach, L. Using second-person neuroscience to elucidate the mechanisms of social interaction. Nat. Rev. Neurosci. 20, 495-505 (2019).
  55. Schilbach, L. et al. Toward a second-person neuroscience. Behav. Brain Sci. 36, 393-414 (2013).
  56. Gil, D., Fernández-Modamio, M., Bengochea, R. & Arrieta, M. Adaptation of the hinting task theory of the mind test to Spanish. Rev. Psiquiatr. Salud Ment. Engl. Ed. 5, 79-88 (2012).

Acknowledgements

This work is supported by the European Commission through Project ASTOUND (101071191—HORIZON-EIC-2021-PATHFINDERCHALLENGES-01 to A.R., G.M., C.B. and S.P.). J.W.A.S. was supported by a Humboldt Research Fellowship for Experienced Researchers provided by the Alexander von Humboldt Foundation. The funders had no role in study design, data collection and analysis, decision to publish or preparation of the manuscript.

Author contributions

J.W.A.S., A.R., G.M., M.S.A.G. and C.B. conceived the study. J.W.A.S., D.A., G.B., O.P. and E.S. designed the tasks and performed the experiments including data collection with humans and GPT models, response coding and curation of the dataset. S.G., K.S. and G.M. collected data from LLaMA2-Chat models. J.W.A.S. performed the analyses and wrote the manuscript with input from C.B., S.P. and M.S.A.G. All authors contributed to the interpretation and editing of the manuscript. C.B. supervised the work. A.R., G.M., S.P. and C.B. acquired the funding. D.A., G.B., O.P. and E.S. contributed equally to the work.

Funding

Open access funding provided by Universitätsklinikum Hamburg-Eppendorf (UKE).

Competing interests

The authors declare no competing interests.

Additional information

Supplementary information The online version contains supplementary material available at https://doi.org/10.1038/s41562-024-01882-z.
Correspondence and requests for materials should be addressed to James W. A. Strachan or Cristina Becchio.
Peer review information Nature Human Behaviour thanks the anonymous reviewers for their contribution to the peer review of this work. Peer reviewer reports are available.
Reprints and permissions information is available at www.nature.com/reprints.
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/ licenses/by/4.0/.
(c) The Author(s) 2024

natureportfolio

Corresponding author(s): James W. A. Strachan; Cristina Becchio
Last updated by author(s): 05/04/2024

Reporting Summary

Nature Portfolio wishes to improve the reproducibility of the work that we publish. This form provides structure for consistency and transparency in reporting. For further information on Nature Portfolio policies, see our Editorial Policies and the Editorial Policy Checklist.

Statistics

For all statistical analyses, confirm that the following items are present in the figure legend, table legend, main text, or Methods section.
Confirmed
X The exact sample size ( ) for each experimental group/condition, given as a discrete number and unit of measurement
A statement on whether measurements were taken from distinct samples or whether the same sample was measured repeatedly

The statistical test(s) used AND whether they are one- or two-sided
Only common tests should be described solely by name; describe more complex techniques in the Methods section.
A description of all covariates tested
A description of any assumptions or corrections, such as tests of normality and adjustment for multiple comparisons

A full description of the statistical parameters including central tendency (e.g. means) or other basic estimates (e.g. regression coefficient) AND variation (e.g. standard deviation) or associated estimates of uncertainty (e.g. confidence intervals)
For null hypothesis testing, the test statistic (e.g. ) with confidence intervals, effect sizes, degrees of freedom and value noted Give values as exact values whenever suitable.
For Bayesian analysis, information on the choice of priors and Markov chain Monte Carlo settings
For hierarchical and complex designs, identification of the appropriate level for tests and full reporting of outcomes
Estimates of effect sizes (e.g. Cohen’s , Pearson’s ), indicating how they were calculated
Our web collection on statistics for biologists contains articles on many of the points above.

Software and code

Policy information about availability of computer code

Data collection
Human behavioural data was collected in online experiments using the Prolific platform directing to a survey hosted on the SoSci platform. Data from GPT models was collected through the chat web interface at http://chat.openai.com. A custom script automated the delivery of questions and collection of data for LLaMA2-Chat models, which are available from https://www.llama2.ai/

Data analysis

We used R for data analysis and for creating the figures
R version 4.1.2
RStudio 2024.04.0-daily+368 “Chocolate Cosmos” Daily (605bbb38ebb4f8565e361122f6d8be3486d288e9, 2024-02-01) for Ubuntu Jammy
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) rstudio/2024.04.0-daily+368 Chrome/120.0.6099.56
Electron/28.0.0 Safari/537.36
The code used for data analysis is available as a stand-alone RMarkdown project from: https://osf.io/j3vhq
This code uses the following R packages:
DescTools_0.99.50
flextable_0.9.4
kableExtra_1.3.4
rstatix_0.7.2
cowplot_1.1.2
ggdist_3.3.1
ggpubr_0.6.0
ggplot2_3.4.4
purrr_1.0.2
Hmisc_5.1-1
tidyr_1.3.0
dplyr_1.1.4
ggtext_0.1.2
Null results reported in the main manuscript were subjected to follow-up corresponding Bayesian analyses to compute Bayes Factors (BF10). This analysis was done using JASP v0.18.3 (JASP Team, 2024)
For manuscripts utilizing custom algorithms or software that are central to the research but not yet described in published literature, software must be made available to editors and reviewers. We strongly encourage code deposition in a community repository (e.g. GitHub). See the Nature Portfolio guidelines for submitting code & software for further information.

Data

Policy information about availability of data

All manuscripts must include a data availability statement. This statement should provide the following information, where applicable:
  • Accession codes, unique identifiers, or web links for publicly available datasets
  • A description of any restrictions on data availability
  • For clinical datasets or third party data, please ensure that the statement adheres to our policy
All data reported in the current study can be found in an OSF repository under a Creative Commons Attribution Non-Commercial 4.0 International license (CC-BYNC). The repository can be accessed at the following URL: https://osf.io/fwj6v/
The full text of question items, the full text of responses from GPT models, LLaMA2 models, and human participants, and the scores assigned to each response can be downloaded as a single file from the following URL: https://osf.io/dbn92
Data files with scores alone, which can be used to recreate the analysis, are stored in the OSF repository in the folder scored_data/

Research involving human participants, their data, or biological material

Policy information about studies with human participants or human data. See also policy information about sex, gender (identity/presentation), and sexual orientation and race, ethnicity and racism.
Reporting on sex and gender
Reporting on race, ethnicity, or other socially relevant groupings
Population characteristics
Recruitment
Ethics oversight
Data on sex and gender were not collected.
Data on race and ethnicity were not collected.
We recruited native English speakers between the ages of 18 and 70 with no history of psychiatric conditions and no history of dyslexia. Further demographic data were not collected.
Participants were recruited through the online platform Prolific and were compensated at an adjusted rate of GBP£12/hr (between ). To our knowledge, there were no significant sources of self-selection bias that would be likely to impact the study findings as a result of this recruitment procedure.
The research was approved by the local ethics committee (ASL 3 Genovese) and was carried out in accordance with the principles of the revised Helsinki Declaration.
Note that full information on the approval of the study protocol must also be provided in the manuscript.

Field-specific reporting

Please select the one below that is the best fit for your research. If you are not sure, read the appropriate sections before making your selection.
Life sciences
X Behavioural & social sciences Ecological, evolutionary & environmental sciences
For a reference copy of the document with all sections, see nature.com/documents/nr-reporting-summary-flat.pdf

Life sciences study design

All studies must disclose on these points even when the disclosure is negative.
Sample size Describe how sample size was determined, detailing any statistical methods used to predetermine sample size OR if no sample-size calculation was performed, describe how sample sizes were chosen and provide a rationale for why these sample sizes are sufficient.
Data exclusions Describe any data exclusions. If no data were excluded from the analyses, state so OR if data were excluded, describe the exclusions and the rationale behind them, indicating whether exclusion criteria were pre-established.
Replication Describe the measures taken to verify the reproducibility of the experimental findings. If all attempts at replication were successful, confirm this OR if there are any findings that were not replicated or cannot be reproduced, note this and describe why.
Randomization Describe how samples/organisms/participants were allocated into experimental groups. If allocation was not random, describe how covariates were controlled OR if this is not relevant to your study, explain why.

Behavioural & social sciences study design

All studies must disclose on these points even when the disclosure is negative.
Study description The data consist of full-text responses to questions on a set of Theory of Mind tests. Data reported in the manuscript are quantitative numeric scores assigned to each text response according to published coding criteria, with any deviations from validated procedures clearly highlighted in the Methods of the main manuscript. The design is a between-samples comparison of three Large Language Models (LLMs) against a baseline sample of human respondents.
Research sample LLMs: GPT-4, GPT-3.5, LLaMA2-70B (and other LLaMA2 models reported in Supplementary Information): 15 administrations of each test (sessions); Humans: target of 50 unique participants for each test, total (between-subjects). No additional demographic information was collected, but only native English speakers between 18 and 70 with no history of dyslexia or psychiatric conditions were recruited in order to ensure that they could complete the task and read the stories. We did not specify particular demographics or collect this data because the main comparison of interest was human vs. LLM performance and we had no reason to build a priori hypotheses about specific demographics. Recruitment was not restricted to any country and was not restricted to reflect a representative distribution of UK or US census data.
Sampling strategy Convenience sample through the Prolific platform. Participants were paid GBP hr for participation (between , depending on the test). The sample size was set based on the control adult sample size of White et al. (2009), which recruited 40 neurotypical adults for an update and validation of the Strange Stories task (which, as the most difficult task of the battery, we considered the most likely to show variability). To account for any data quality issues posed by online data collection, we rounded up the target sample size to per test.
Data collection For each test we collected 15 sessions for each LLM and ~50 human subjects through Prolific. GPT models were tested through the OpenAI ChatGPT web interface, and a session involved delivering all items of a single test within the same chat window. LLaMA models were tested using Langchain using set parameters with the prompt, “You are a helpful AI assistant”, a temperature of 0.7 , the maximum number of new tokens set at 512 , a repetition penalty of 1.1 , and a top P of 0.9 . For humans, all items were presented sequentially through an online survey built and hosted through the SoSci platform. Experimenters were not blinded to the experimental conditions as there was no reciprocal interaction with the participants. In the case of the Faux Pas Likelihood test, which included the experimenter delivering a follow-up prompt in the case of unclear reasoning on an incorrect answer from GPT models, criteria for deciding to deliver the follow-up were set a priori and evaluated afterwards by other experimenters to check that the prompt had been valid.
Timing The GPT data on the full battery reported in the main manuscript and in the supplementary material were collected between 3 April and 18 April 2023. The follow-up data using an adapted version of the Faux Pas test were collected between 28 April and 4 May 2023. The follow-up data with GPT-3.5 using a randomised presentation order on the Irony, Strange Stories, and Faux Pas tests were collected between 24 April and 18 May 2023. Three LLaMA2-Chat models were tested between October and November 2023. Variant testing of the False Belief and Faux Pas tests (Belief Likelihoood test) for GPT models occurred between 25 October and 3 November 2023.
Data exclusions Thirteen (13) human subjects were excluded from final analysis following initial examination of the data. Theory of Mind Battery: two (2) subjects who used GPT or another LLM to answer the questions and one (1) subject who just responded ‘Yes’ to every question; Belief Likelihood Test: seven (7) participants who were believed to use GPT or another LLM to generate their responses; False Belief Perturbations: three (3) participants who were believed to use GPT or another LLM to generate their responses.
Non-participation No participants dropped out or declined participation.
Randomization Participants were not assigned to experimental groups, but volunteered to complete one of the five Theory of Mind tests. This was a random opportunity sample, and individuals who had participated in one test were excluded from participating again.

Ecological, evolutionary & environmental sciences study design

All studies must disclose on these points even when the disclosure is negative.
Study description Briefly describe the study. For quantitative data include treatment factors and interactions, design structure (e.g. factorial, nested, hierarchical), nature and number of experimental units and replicates.
Research sample Describe the research sample (e.g. a group of tagged Passer domesticus, all Stenocereus thurberi within Organ Pipe Cactus National Monument), and provide a rationale for the sample choice. When relevant, describe the organism taxa, source, sex, age range and any manipulations. State what population the sample is meant to represent when applicable. For studies involving existing datasets, describe the data and its source.
Sampling strategy Note the sampling procedure. Describe the statistical methods that were used to predetermine sample size OR if no sample-size calculation was performed, describe how sample sizes were chosen and provide a rationale for why these sample sizes are sufficient.
Data collection Describe the data collection procedure, including who recorded the data and how.
Indicate the start and stop dates of data collection, noting the frequency and periodicity of sampling and providing a rationale for these choices. If there is a gap between collection periods, state the dates for each sample cohort. Specify the spatial scale from which the data are taken
Data exclusions If no data were excluded from the analyses, state so OR if data were excluded, describe the exclusions and the rationale behind them, indicating whether exclusion criteria were pre-established.
Reproducibility Describe the measures taken to verify the reproducibility of experimental findings. For each experiment, note whether any attempts to repeat the experiment failed OR state that all attempts to repeat the experiment were successful.
Randomization Describe how samples/organisms/participants were allocated into groups. If allocation was not random, describe how covariates were controlled. If this is not relevant to your study, explain why.
Blinding Describe the extent of blinding used during data acquisition and analysis. If blinding was not possible, describe why OR explain why blinding was not relevant to your study.
Did the study involve field work Yes

Field work, collection and transport

Field conditions Describe the study conditions for field work, providing relevant parameters (e.g. temperature, rainfall).
Location State the location of the sampling or experiment, providing relevant parameters (e.g. latitude and longitude, elevation, water depth).
Access & import/export Describe the efforts you have made to access habitats and to collect and import/export your samples in a responsible manner and in compliance with local, national and international laws, noting any permits that were obtained (give the name of the issuing authority, the date of issue, and any identifying information).
Disturbance Describe any disturbance caused by the study and how it was minimized.

Reporting for specific materials, systems and methods

We require information from authors about some types of materials, experimental systems and methods used in many studies. Here, indicate whether each material, system or method listed is relevant to your study. If you are not sure if a list item applies to your research, read the appropriate section before selecting a response.

Antibodies

Antibodies used
Validation

Eukaryotic cell lines

Policy information about cell lines and Sex and Gender in Research

Cell line source(s) State the source of each cell line used and the sex of all primary cell lines and cells derived from human participants or vertebrate models.
Authentication Describe the authentication procedures for each cell line used OR declare that none of the cell lines used were authenticated.

Mycoplasma contamination

Commonly misidentified lines (See ICLAC register)
Confirm that all cell lines tested negative for mycoplasma contamination OR describe the results of the testing for mycoplasma contamination OR declare that the cell lines were not tested for mycoplasma contamination.
Name any commonly misidentified cell lines used in the study and provide a rationale for their use.

Palaeontology and Archaeology

Specimen provenance Provide provenance information for specimens and describe permits that were obtained for the work (including the name of the issuing authority, the date of issue, and any identifying information). Permits should encompass collection and, where applicable, export.
Specimen deposition Indicate where the specimens have been deposited to permit free access by other researchers.
Dating methods If new dates are provided, describe how they were obtained (e.g. collection, storage, sample pretreatment and measurement), where they were obtained (i.e. lab name), the calibration program and the protocol for quality assurance OR state that no new dates are provided.
Tick this box to confirm that the raw and calibrated dates are available in the paper or in Supplementary Information.

Ethics oversight

Identify the organization(s) that approved or provided guidance on the study protocol, OR state that no ethical approval or guidance was required and explain why not.
Note that full information on the approval of the study protocol must also be provided in the manuscript.

Animals and other research organisms

Policy information about studies involving animals; ARRIVE guidelines recommended for reporting animal research, and Sex and Gender in Research
Laboratory animals For laboratory animals, report species, strain and age OR state that the study did not involve laboratory animals.
Wild animals Provide details on animals observed in or captured in the field; report species and age where possible. Describe how animals were caught and transported and what happened to captive animals after the study (if killed, explain why and describe method; if released, say where and when) OR state that the study did not involve wild animals.
Reporting on sex Indicate if findings apply to only one sex; describe whether sex was considered in study design, methods used for assigning sex. Provide data disaggregated for sex where this information has been collected in the source data as appropriate; provide overall numbers in this Reporting Summary. Please state if this information has not been collected. Report sex-based analyses where performed, justify reasons for lack of sex-based analysis.
Field-collected samples For laboratory work with field-collected samples, describe all relevant parameters such as housing, maintenance, temperature, photoperiod and end-of-experiment protocol OR state that the study did not involve samples collected from the field.
Ethics oversight Identify the organization(s) that approved or provided guidance on the study protocol, OR state that no ethical approval or guidance was required and explain why not.
Note that full information on the approval of the study protocol must also be provided in the manuscript.

Clinical data

Policy information about clinical studies
All manuscripts should comply with the ICMJE guidelines for publication of clinical research and a completed CONSORT checklist must be included with all submissions.
Clinical trial registration Provide the trial registration number from ClinicalTrials.gov or an equivalent agency.
Study protocol Note where the full trial protocol can be accessed OR if not available, explain why
Data collection Describe the settings and locales of data collection, noting the time periods of recruitment and data collection.
Outcomes Describe how you pre-defined primary and secondary outcome measures and how you assessed these measures.

Dual use research of concern

Policy information about dual use research of concern

Hazards

Could the accidental, deliberate or reckless misuse of agents or technologies generated in the work, or the application of information presented in the manuscript, pose a threat to:
No
Yes

Public health

National security

Crops and/or livestock

Ecosystems

Any other significant area

Experiments of concern

Does the work involve any of these experiments of concern:
No
Yes

Demonstrate how to render a vaccine ineffective

Confer resistance to therapeutically useful antibiotics or antiviral agents

Enhance the virulence of a pathogen or render a nonpathogen virulent

Increase transmissibility of a pathogen

Alter the host range of a pathogen

Enable evasion of diagnostic/detection modalities

Enable the weaponization of a biological agent or toxin

Any other potentially harmful combination of experiments and agents

Plants

Seed stocks Report on the source of all seed stocks or other plant material used. If applicable, state the seed stock centre and catalogue number. If plant specimens were collected from the field, describe the collection location, date and sampling procedures.
Novel plant genotypes Describe the methods by which all novel plant genotypes were produced. This includes those generated by transgenic approaches, gene editing, chemical/radiation-based mutagenesis and hybridization. For transgenic lines, describe the transformation method, the number of independent lines analyzed and the generation upon which experiments were performed. For gene-edited lines, describe the editor used, the endogenous sequence targeted for editing, the targeting guide RNA sequence (if applicable) and how the editor was applied.
Authentication Describe any authentication procedures for each seed stock used or novel genotype generated. Describe any experiments used to assess the effect of a mutation and, where applicable, how potential secondary effects (e.g. second site T-DNA insertions, mosiacism, off-target gene editing) were examined.

ChIP-seq

Data deposition

Confirm that both raw and final processed data have been deposited in a public database such as GEO.
Confirm that you have deposited or provided access to graph files (e.g. BED files) for the called peaks.
Data access links
May remain private before publication.
Files in database submission
Genome browser session
(e.g. UCSC)
For “Initial submission” or “Revised version” documents, provide reviewer access links. For your “Final submission” document, provide a link to the deposited data.
Provide a list of all files available in the database submission.
Provide a link to an anonymized genome browser session for “Initial submission” and “Revised version” documents only, to enable peer review. Write “no longer applicable” for “Final submission” documents.
Methodology
Replicates
Sequencing depth
Antibodies
Describe the experimental replicates, specifying number, type and replicate agreement.
Describe the sequencing depth for each experiment, providing the total number of reads, uniquely mapped reads, length of reads and whether they were paired- or single-end.
Describe the antibodies used for the ChIP-seq experiments; as applicable, provide supplier name, catalog number, clone name, and lot number.

Peak calling parameters

Data quality

Software

Specify the command line program and parameters used for read mapping and peak calling, including the ChIP, control and index files used.
Describe the methods used to ensure data quality in full detail, including how many peaks are at FDR 5% and above 5-fold enrichment.
Describe the software used to collect and analyze the ChIP-seq data. For custom code that has been deposited into a community repository, provide accession details.

Flow Cytometry

Plots

Confirm that:

The axis labels state the marker and fluorochrome used (e.g. CD4-FITC).
The axis scales are clearly visible. Include numbers along axes only for bottom left plot of group (a ‘group’ is an analysis of identical markers).
All plots are contour plots with outliers or pseudocolor plots.
A numerical value for number of cells or percentage (with statistics) is provided.

Methodology

Sample preparation Describe the sample preparation, detailing the biological source of the cells and any tissue processing steps used.
Instrument Identify the instrument used for data collection, specifying make and model number.
Software Describe the software used to collect and analyze the flow cytometry data. For custom code that has been deposited into a community repository, provide accession details.
Cell population abundance Describe the abundance of the relevant cell populations within post-sort fractions, providing details on the purity of the samples and how it was determined.
Gating strategy Describe the gating strategy used for all relevant experiments, specifying the preliminary FSC/SSC gates of the starting cell population, indicating where boundaries between “positive” and “negative” staining cell populations are defined.
Tick this box to confirm that a figure exemplifying the gating strategy is provided in the Supplementary Information.

Magnetic resonance imaging

Experimental design

Design type

Design specifications

section*{Behavioral performance measures

Behavioral performance measures}

Acquisition

Imaging type(s)

Field strength

Sequence & imaging parameters

Area of acquisition

Diffusion MRI Used

Preprocessing

Preprocessing software

Indicate task or resting state; event-related or block design.
Specify the number of blocks, trials or experimental units per session and/or subject, and specify the length of each trial or block (if trials are blocked) and interval between trials.
State number and/or type of variables recorded (e.g. correct button press, response time) and what statistics were used to establish that the subjects were performing the task as expected (e.g. mean, range, and/or standard deviation across subjects).
Specify: functional, structural, diffusion, perfusion.

Specify in Tesla

Specify the pulse sequence type (gradient echo, spin echo, etc.), imaging type (EPI, spiral, etc.), field of view, matrix size, slice thickness, orientation and TE/TR/flip angle.
State whether a whole brain scan was used OR define the area of acquisition, describing how the region was determined.
Not used
Provide detail on software version and revision number and on specific parameters (model/functions, brain extraction, segmentation, smoothing kernel size, etc.).

Normalization

Normalization template

Noise and artifact removal

Volume censoring

Statistical modeling & inference

Model type and settings

Effect(s) tested

Specify type of analysis:

Statistic type for inference

(See Eklund et al. 2016)

Correction

Whole brain ROI-based Both
Describe the type of correction and how it is obtained for multiple comparisons (e.g. FWE, FDR, permutation or Monte Carlo).
Specify type (mass univariate, multivariate, RSA, predictive, etc.) and describe essential details of the model at the first and second levels (e.g. fixed, random or mixed effects; drift or auto-correlation).
Define precise effect in terms of the task or stimulus conditions instead of psychological concepts and indicate whether ANOVA or factorial designs were used.

1
.g. FWE, FDR, permutation or Monte Carlo).
Describe the template used for normalization/transformation, specifying subject space or group standardized space (e.g. original Talairach, MNI305, ICBM152) OR indicate that the data were not normalized.
Describe your procedure(s) for artifact and structured noise removal, specifying motion parameters, tissue signals and physiological signals (heart rate, respiration).
Define your software and/or method and criteria for volume censoring, and state the extent of such censoring.

Models & analysis

n/a Involved in the study

Functional and/or effective connectivity

Graph analysis

Multivariate modeling or predictive analysis
Functional and/or effective connectivity
Graph analysis
Report the measures of dependence used and the model details (e.g. Pearson correlation, partial correlation, mutual information).
Report the dependent variable and connectivity measure, specifying weighted graph or binarized graph, subject- or group-level, and the global and/or node summaries used (e.g. clustering coefficient, efficiency, etc.).
Multivariate modeling and predictive analysis
Specify independent variables, features extraction and dimension reduction, model, training and evaluation metrics. metrics.

  1. (W) Check for updates
  2. Department of Neurology, University Medical Center Hamburg-Eppendorf, Hamburg, Germany. Cognition, Motion and Neuroscience, Italian Institute of Technology, Genoa, Italy. Center for Mind/Brain Sciences, University of Trento, Rovereto, Italy. Department of Psychology, University of Turin, Turin, Italy. Department of Management, ‘Valter Cantino’, University of Turin, Turin, Italy. Human Science and Technologies, University of Turin, Turin, Italy. Alien Technology Transfer Ltd, London, UK. Institute for Neural Information Processing, Center for Molecular Neurobiology, University Medical Center Hamburg- Eppendorf, Hamburg, Germany. Princeton Neuroscience Institute, Princeton University, Princeton, NJ, USA.