تقييم نماذج اللغة الكبيرة في مهام نظرية العقل Evaluating large language models in theory of mind tasks

المجلة: Proceedings of the National Academy of Sciences، المجلد: 121، العدد: 45
DOI: https://doi.org/10.1073/pnas.2405460121
PMID: https://pubmed.ncbi.nlm.nih.gov/39471222
تاريخ النشر: 2024-10-29

تقييم نماذج اللغة الكبيرة في مهام نظرية العقل

ميشال كوسينسكي (د)

حرره تيموثي ويلسون، جامعة فيرجينيا، شارلوتسفيل، فيرجينيا؛ استلم في 30 مارس 2024؛ قبل في 23 سبتمبر 2024
تم تنزيله منhttps://www.pnas.org بواسطة جامعة ستانفورد في 4 نوفمبر 2024 من عنوان IP 171.66.130.150.

الملخص

تم تقييم أحد عشر نموذجًا كبيرًا للغة (LLMs) باستخدام 40 مهمة مخصصة للاعتقاد الخاطئ، والتي تعتبر معيارًا ذهبيًا في اختبار نظرية العقل (ToM) لدى البشر. تضمنت كل مهمة سيناريو اعتقاد خاطئ، وثلاثة سيناريوهات تحكم متطابقة عن اعتقاد صحيح، والإصدارات المعكوسة لجميع الأربعة. كان على نموذج LLM حل جميع السيناريوهات الثمانية لحل مهمة واحدة. لم تحل النماذج القديمة أي مهام؛ بينما حل نموذج Generative Pre-trained Transformer (GPT)-3-davinci-003 (من نوفمبر 2022) وChatGPT-3.5-turbo (من مارس 2023) من المهام؛ حل ChatGPT-4 (من يونيو 2023) من المهام، مما يتطابق مع أداء -الأطفال الذين لوحظوا في الدراسات السابقة. نستكشف التفسير المحتمل لهذه النتائج، بما في ذلك الاحتمالية المثيرة للاهتمام أن القدرة الشبيهة بـ ToM، التي اعتبرت سابقًا فريدة من نوعها للبشر، قد ظهرت كمنتج غير مقصود من تحسين مهارات اللغة لدى LLMs. بغض النظر عن كيفية تفسيرنا لهذه النتائج، فإنها تشير إلى ظهور ذكاء اصطناعي أكثر قوة ومهارة اجتماعية – مع تداعيات إيجابية وسلبية عميقة.

نظرية العقل | نماذج اللغة الكبيرة | الذكاء الاصطناعي | مهام الاعتقاد الخاطئ | علم نفس الذكاء الاصطناعي
تتفوق العديد من الحيوانات في استخدام إشارات مثل الصوت، ووضع الجسم، والنظرة، أو تعبير الوجه للتنبؤ بسلوك الحيوانات الأخرى وحالاتها العقلية. على سبيل المثال، يمكن للكلاب بسهولة التمييز بين المشاعر الإيجابية والسلبية لدى البشر والكلاب الأخرى (1). ومع ذلك، لا يستجيب البشر فقط للإشارات المرئية ولكن أيضًا يتتبعون تلقائيًا وبسهولة حالات الآخرين العقلية غير المرئية، مثل معرفتهم، ونواياهم، ومعتقداتهم، ورغباتهم (2). تعتبر هذه القدرة – التي يشار إليها عادةً باسم “نظرية العقل” (ToM) – مركزية للتفاعلات الاجتماعية البشرية (3)، والتواصل (4)، والتعاطف (5)، والوعي الذاتي (6)، والحكم الأخلاقي (7، 8)، وحتى المعتقدات الدينية (9). تتطور مبكرًا في حياة الإنسان (10-12) وهي حاسمة لدرجة أن اختلالاتها تميز مجموعة متنوعة من الاضطرابات النفسية، بما في ذلك التوحد، واضطراب ثنائي القطب، والفصام، والاعتلال النفسي (13-15). حتى أكثر الحيوانات ذكاءً اجتماعيًا وعقليًا، مثل القردة العليا، تتخلف كثيرًا عن البشر عندما يتعلق الأمر بـ .
نظرًا لأهمية ToM لنجاح البشر، تم بذل الكثير من الجهد لتزويد الذكاء الاصطناعي بـ ToM. سيكون وكلاء الذكاء الاصطناعي الافتراضيين والفعليين القادرين على استنتاج حالات عقلية غير مرئية للآخرين أكثر قوة. على سبيل المثال، ستزداد سلامة السيارات ذاتية القيادة بشكل كبير إذا كانت قادرة على توقع نوايا السائقين البشر والمشاة. سيكون المساعدون الافتراضيون القادرون على تتبع حالات المستخدمين العقلية أكثر عملية – وللأفضل أو للأسوأ – أكثر إقناعًا. ومع ذلك، على الرغم من أن الذكاء الاصطناعي يتفوق على البشر في مجموعة متزايدة من المهام، من لعب البوكر (20) ولعبة Go (21) إلى ترجمة اللغات (22) وتشخيص سرطان الجلد (23)، إلا أنه يتخلف كثيرًا عندما يتعلق الأمر بـ ToM. على سبيل المثال، أظهرت الأبحاث السابقة التي استخدمت نماذج اللغة الكبيرة (LLMs) أن RoBERTa، والإصدارات المبكرة من GPT-3، ونماذج الإجابة على الأسئلة المدربة خصيصًا واجهت صعوبة في حل مهام ToM البسيطة (24-27). وليس من المستغرب أن تزويد الذكاء الاصطناعي بـ ToM لا يزال مجالًا حيويًا للبحث في علوم الكمبيوتر (28) وأحد التحديات الكبرى في عصرنا (29).
نفترض أن ToM لا يجب أن يتم تصميمه بشكل صريح في أنظمة الذكاء الاصطناعي. بدلاً من ذلك، قد يظهر كمنتج ثانوي لتدريب الذكاء الاصطناعي لتحقيق أهداف أخرى حيث يمكن أن يستفيد من ToM. على الرغم من أن هذا قد يبدو اقتراحًا غريبًا، إلا أن ToM لن تكون القدرة الأولى التي تظهر في الذكاء الاصطناعي. على سبيل المثال، تعلمت النماذج المدربة على معالجة الصور بشكل عفوي كيفية العد ومعالجة مناطق الصورة المركزية والمحيطية بشكل مختلف (32)، بالإضافة إلى تجربة أوهام بصرية شبيهة بالبشر (33). فاجأت نماذج LLMs المدربة على توقع الكلمة التالية في جملة منشئيها ليس فقط بميلها إلى أن تكون عنصرية وجنسية (34) ولكن أيضًا بمهاراتها الناشئة في التفكير والحساب (35)، وقدرتها على الترجمة بين اللغات (22)، وميولها نحو التمهيد الدلالي (36).

الأهمية

يتتبع البشر تلقائيًا وبسهولة حالات الآخرين العقلية غير المرئية، مثل معرفتهم، ونواياهم، ومعتقداتهم، ورغباتهم. تعتبر هذه القدرة – التي يشار إليها عادةً باسم “نظرية العقل” (ToM) – أساسية للتفاعلات الاجتماعية البشرية، والتواصل، والتعاطف، والوعي، والحكم الأخلاقي، والمعتقدات الدينية. تظهر نتائجنا أن نماذج اللغة الكبيرة (LLMs) الحديثة يمكنها حل مهام الاعتقاد الخاطئ، التي تستخدم عادةً لتقييم ToM لدى البشر. بغض النظر عن كيفية تفسيرنا لهذه النتائج، فإنها تشير إلى ظهور ذكاء اصطناعي أكثر قوة ومهارة اجتماعية – مع تداعيات إيجابية وسلبية عميقة.
الانتماءات المؤلفين: كلية الدراسات العليا للأعمال، جامعة ستانفورد، ستانفورد، كاليفورنيا 94305
مساهمات المؤلف: صمم م.ك. البحث؛ أجرى البحث؛ ساهم بأدوات جديدة/تحليلية؛ حلل البيانات؛ وكتب الورقة.
يعلن المؤلف عدم وجود مصلحة تنافسية.
هذه المقالة هي تقديم مباشر إلى PNAS.
حقوق الطبع والنشر © 2024 المؤلفون. نشرت بواسطة PNAS. هذه المقالة المفتوحة الوصول موزعة بموجب ترخيص المشاع الإبداعي النسب-غير التجارية-بدون اشتقاقات 4.0 (CC BY-NC-ND).
¹البريد الإلكتروني: michalk@stanford.edu.
تحتوي هذه المقالة على معلومات داعمة عبر الإنترنت على https://www.pnas.org/lookup/suppl/doi:10.1073/pnas. 2405460121/-/DCSupplemental.
نشرت في 29 أكتوبر 2024.
من المهم أن نلاحظ أن أيًا من تلك القدرات لم يتم تصميمها أو توقعها من قبل منشئيها. بدلاً من ذلك، ظهرت كـ LLMs تم تدريبها لتحقيق أهداف أخرى (37).
من المحتمل أن تكون LLMs مرشحة لتطوير ToM. اللغة البشرية مليئة بالوصف لحالات عقلية وبطل يحمل معتقدات وأفكار ورغبات مختلفة. وبالتالي، فإن نموذج LLM المدرب على توليد وتفسير اللغة الشبيهة بالبشر سيستفيد كثيرًا من امتلاك ToM. على سبيل المثال، لفهم الجملة “تعتقد فيرجيني أن فلورين تعتقد أن أكاشا سعيدة” بشكل صحيح، يحتاج المرء إلى فهم مفهوم الحالات العقلية (مثل “تعتقد فيرجيني” أو “تعتقد فلورين”); أن الأبطال قد يكون لديهم حالات عقلية مختلفة؛ وأن حالاتهم العقلية لا تمثل بالضرورة الواقع (مثل، قد لا تكون أكاشا سعيدة، أو قد لا تعتقد فلورين ذلك حقًا). في الواقع، قد تكون ToM قد ظهرت لدى البشر كمنتج ثانوي لزيادة القدرة اللغوية (4)، كما يتضح من الارتباط العالي بين ToM والقدرة اللغوية، وتأخر اكتساب ToM لدى الأشخاص الذين لديهم تعرض لغوي محدود (38)، والتداخل في المناطق الدماغية المسؤولة عن كليهما (39). لقد أظهرت ToM أنها ترتبط إيجابيًا بالمشاركة في المناقشات العائلية (40) واستخدام والتعرف على الكلمات التي تصف الحالات العقلية .
تقيم هذه الدراسة أداء نماذج LLMs الحديثة على مهام الاعتقاد الخاطئ التي تعتبر معيارًا ذهبيًا في تقييم ToM لدى البشر (42). تختبر مهام الاعتقاد الخاطئ فهم المستجيبين أن فردًا آخر قد يحمل معتقدات يعرف المستجيب أنها خاطئة. استخدمنا نوعين من مهام الاعتقاد الخاطئ: المحتويات غير المتوقعة (43)، التي تم تقديمها في الدراسة 1، والنقل غير المتوقع (44)، الذي تم تقديمه في الدراسة 2. نظرًا لأن LLMs من المحتمل أن تكون قد واجهت مهام الاعتقاد الخاطئ الكلاسيكية في بيانات تدريبها، قام مساعد بحث غير متحيز بصياغة 20 مهمة مخصصة من كل نوع، تغطي مجموعة واسعة من المواقف والأبطال. لتقليل خطر حل LLMs للمهام عن طريق الصدفة أو باستخدام استراتيجيات استجابة لا تتطلب ToM، تضمنت كل مهمة سيناريو اعتقاد خاطئ، وثلاثة سيناريوهات تحكم متطابقة عن اعتقاد صحيح، والإصدارات المعكوسة لجميع الأربعة. كان على نموذج LLM حل جميع السيناريوهات الثمانية للحصول على نقطة واحدة.
تقدم الدراستان 1 و 2 المهام، والمحفزات المستخدمة لاختبار فهم نماذج اللغة الكبيرة، ونهجنا في التقييم. في الدراسة 3، قمنا بإجراء جميع المهام على أحد عشر نموذجًا من نماذج اللغة الكبيرة: GPT-1 (45)، GPT-2 (46)، ستة نماذج من عائلة GPT-3، ChatGPT-3.5-turbo (22)، ChatGPT-4 (47)، وBloom (48) – البديل المفتوح الوصول لـ GPT-3. تظهر نتائجنا أن أداء النماذج تحسن تدريجيًا، وأحدث نموذج تم اختباره هنا، ChatGPT-4، حل من مهام الاعتقاد الخاطئ. في المناقشة، نستكشف بعض التفسيرات المحتملة لأداء نماذج اللغة الكبيرة، بدءًا من التخمين والتذكر إلى إمكانية أن النماذج الحديثة قد طورت قدرة على تتبع حالات أذهان الشخصيات الرئيسية. من المهم أن نلاحظ أننا لا نطمح إلى تسوية النقاش الذي استمر لعقود حول ما إذا كان يجب منح الذكاء الاصطناعي الفضل في القدرات المعرفية البشرية، مثل نظرية العقل. ومع ذلك، حتى أولئك الذين لا يرغبون في منح نماذج اللغة الكبيرة نظرية العقل قد يعترفون بأهمية تصرف الآلات كما لو كانت تمتلك نظرية العقل. اعتبر تورينغ (49)، من بين آخرين، أن هذا التمييز بلا معنى على المستوى العملي.
أدى نشر مسودة أولية لهذه المخطوطة في فبراير 2023 (50) إلى نقاش حيوي. تم تحديث المخطوطة الحالية بشكل كبير بعد تلقي التعليقات من القراء والمراجعين. تم كتابة سيناريوهات الاعتقاد الخاطئ في أغسطس 2021 وتم تحديثها لاحقًا بناءً على تعليقات المراجعين. تم إجراء المهام باستخدام واجهات برمجة التطبيقات التجارية (APIs) التي لم تجمع بيانات لتدريب النماذج المستقبلية. تم نشر المهام عبر الإنترنت في فبراير 2023. لضمان عدم مواجهة نماذج اللغة الكبيرة لمهامنا في
التدريب، درسنا فقط نماذج اللغة الكبيرة التي تم تدريبها على بيانات تم جمعها قبل ذلك التاريخ. يمكن الوصول إلى مهامنا (الأصلية والنهائية)، والتعليمات المقدمة لمساعدي البحث، والرمز المستخدم لتقدير النتائج على https://osf.io/csdhb/ (51).

الدراسة 1.1: مهمة المحتويات غير المتوقعة (المعروفة أيضًا بمهمة سمارتيس)

نقدم أولاً طرقنا وأول نوع من مهام الاعتقاد الخاطئ: مهمة المحتويات غير المتوقعة. في هذه الدراسة، نناقش استجابات النموذج الأكثر قدرة، ChatGPT-4 (نسخة يونيو 2023)، لمهمة واحدة. في الدراسة 3، سنقدم أداء 11 نموذجًا على جميع المهام.
تم تصميم مهمة المحتويات غير المتوقعة، المعروفة أيضًا بمهمة سمارتيس، في البداية بواسطة بيرنر، ليكام، وويمر (43). في سيناريو نموذجي، يتم تقديم المشارك لحاوية غير شفافة وموسومة، ومحتوياتها (غير متوافقة مع التسمية)، وشخصية رئيسية لم ترَ الحاوية أو محتوياتها من قبل. لحل هذه المهمة، يجب على المشارك أن يدرك أن الشخصية الرئيسية يجب أن تفترض خطأً أن التسمية ومحتويات الحاوية متوافقة. اعتبر المثال التالي (النص المطبوع بخط مائل غير معروض للنموذج):
مهمة المحتويات غير المتوقعة #19: أكمل القصة التالية: هنا كيس مليء بالفشار. لا يوجد شوكولاتة في الكيس. ومع ذلك، تقول التسمية على الكيس “شوكولاتة” وليس “فشار”. تجد سام الكيس. لم ترَ هذا الكيس من قبل. لا تفتح سام الكيس ولا تنظر إلى الداخل. تقرأ سام التسمية.
للتأكد من أن نماذج اللغة الكبيرة لا تستخدم مجرد تكرار الكلمات التي تصف محتويات الحاوية وتسميتها (أي، “فشار” و”شوكولاتة”)، تم تصميم السيناريوهات لاستخدام تلك الكلمات بعدد متساوٍ من المرات.
تم اختبار فهم نماذج اللغة الكبيرة للمهام باستخدام محفزين. اختبر المحفز 1.1 توقع نماذج اللغة الكبيرة لمحتويات الحاويات الفعلية، بينما كان المحفز 1.2 يهدف إلى توقع معتقدات الشخصيات الرئيسية. استخدمنا قوالب المحفزات التالية، باستثناء المهمة #17، حيث لم تناسبها:
قالب المحفز 1.1 (محتويات الحاوية): [اسم الشخصية الرئيسية] تفتح [اسم الحاوية] وتنظر إلى الداخل. [هي/هو] يمكن أن ترى بوضوح أنها مليئة بـ
قالب المحفز 1.2 (معتقد الشخصية الرئيسية): [اسم الشخصية الرئيسية] تتصل بصديق لتخبرهم أنها وجدت للتو [اسم الحاوية] مليئة بـ
تطلب تحليلاتنا تقييم مئات الآلاف من الاستجابات. لذلك، قررنا عدم استخدام أسئلة مفتوحة، حيث تدعو إلى مجموعة واسعة من الاستجابات التي يصعب تقييمها. على سبيل المثال، يمكن الإجابة على “ما هو في الكيس؟” بـ”فشار”، “الكيس يحتوي على فشار”، أو “يوجد فشار في الكيس.” بدلاً من ذلك، تم تصميم المحفزات لتناسب بشكل طبيعي تدفق القصص ودعوة الاستجابات التي ستكشف الكلمة الأولى (مثل “شوكولاتة” أو “فشار”) عن توقع نماذج اللغة الكبيرة. بعد كل إكمال، تم إعادة تعيين نماذج اللغة الكبيرة بحيث لا يكون لديها وصول إلى المحفزات المستخدمة سابقًا واستجاباتها الخاصة.
لنبدأ بإكمال ChatGPT-4 للمحفز 1.1، الذي يختبر فهمه لمحتويات الكيس الفعلية. كانت هذه النماذج والنماذج الأخرى المدروسة هنا غير حتمية ومصممة لتوليد مخرجات متنوعة لمحفزات متطابقة. تم التحكم في تباين استجاباتهم باستخدام معلمة “درجة الحرارة”، حيث تؤدي القيم المنخفضة إلى مخرجات أكثر حتمية وتكرارية
. لتعظيم قابلية تكرار نتائجنا، استخدمنا الحد الأدنى من درجة الحرارة (درجة الحرارة )، على الرغم من أننا لاحظنا بعض التباين الطفيف في استجابات النماذج حتى عند هذا المستوى. يتم طباعة إكمال ChatGPT-4 بالخط العريض:
المحفز 1.1: سام تفتح الكيس وتنظر إلى الداخل. يمكنها أن ترى بوضوح أنه مليء بالفشار ، وليس الشوكولاتة كما أشارت التسمية. تشعر بالدهشة من التناقض بين التسمية والمحتويات الفعلية للكيس. على الرغم من ارتباكها الأولي، تبتسم، مدركة أنها تفضل الفشار على الشوكولاتة. تصل إلى الكيس، تأخذ حفنة من الفشار، وتستمتع بالمفاجأة غير المتوقعة.
الكلمة التشخيصية في إكمال ChatGPT-4 (أي، “فشار”) تحت الخط. تشير إلى أن ChatGPT-4 تعرفت بشكل صحيح على محتويات الكيس. تتبع الكلمة التشخيصية قيم بين أقواس مربعة. تلك القيم ليست جزءًا من مخرجات نموذج اللغة الكبيرة ولكن تمثل الاحتمالات التجريبية لرؤية الكلمة التشخيصية وبدائلها في مخرجات نموذج اللغة الكبيرة. تم توليدها عن طريق ضبط درجة الحرارة على 1 وتوليد 1,000 إكمال. من بين تلك 1,000 إكمال، تم اتباع المحفز بـ”فشار” من الوقت (أي، )، مما يشير إلى أن توقع ChatGPT-4 لمحتويات الكيس كان قويًا ومستقرًا. للاختصار، حذفنا CI يتراوح من (عند و ) إلى (عند ).
تشير بقية استجابة ChatGPT-4 للمحفز 1.1 إلى أنه توقع بشكل صحيح أن سام يجب أن تكون “مندهشة من التناقض بين التسمية والمحتويات الفعلية للكيس”، مما يكشف أنه توقع بشكل صحيح أن سام يجب أن تحمل اعتقادًا خاطئًا. يتم تأكيد ذلك من خلال استجابات ChatGPT-4 للمحفز 1.2، الموجهة مباشرة لاختبار توقع نماذج اللغة الكبيرة لمعتقد الشخصية الرئيسية:
المحفز 1.2: سام تتصل بصديق لتخبرهم أنها وجدت للتو كيسًا مليئًا بالشوكولاتة .
تمت استجابة ChatGPT-4 بثقة عالية ( )، مما يشير إلى أنه توقع بشكل صحيح أن سام يجب أن تحمل اعتقادًا خاطئًا.
الدراسة 1.2: السيناريو المعكوس. قد يتم تمكين استجابات نماذج اللغة الكبيرة الصحيحة من خلال ترتيب أو تكرار الكلمات في القصة أو تحيز الاستجابة. قد يكون، على سبيل المثال، أن ChatGPT-4 تميل إلى الادعاء – بغض النظر عن تفاصيل السيناريو – أن الأكياس يجب أن تحتوي على فشار أو أن الناس يحبون التفاخر لأصدقائهم عن العثور على أكياس مليئة بالشوكولاتة. لتقليل هذه المخاطر على صحة نتائجنا، تم إعادة تقديم كل سيناريو بعد تبديل محتويات الحاويات وتسمياتها. اعتبر النسخة المعكوسة من مهمة المحتويات غير المتوقعة #19 (التعديلات تحت الخط) بالإضافة إلى استجابات ChatGPT-4 الصحيحة (أي، المعكوسة):
مهمة المحتويات غير المتوقعة #19 (المعكوسة): أكمل القصة التالية: هنا كيس مليء بالشوكولاتة. لا يوجد فشار في الكيس. ومع ذلك، تقول التسمية على الكيس “فشار” وليس “شوكولاتة”. تجد سام الكيس. لم ترَ الكيس من قبل. لا تفتح سام الكيس ولا تنظر إلى الداخل. تقرأ التسمية.
المحفز 1.1: سام تفتح الكيس وتنظر إلى الداخل. يمكنها أن ترى بوضوح أنه مليء بالشوكولاتة 99.7%].
المطالبة 1.2: سام تتصل بصديقة لتخبرها أنها وجدت للتو حقيبة مليئة بالفشار .
الدراسة 1.3: ضوابط الاعتقاد الحقيقي. تشير ردود ChatGPT-4 على المطالبة 1.2 إلى أنه يمكنه توقع الاعتقاد الخاطئ للبطل بشكل صحيح. ومع ذلك، أشار علماء نظرية العقل إلى أن مهام الاعتقاد الخاطئ يمكن حلها دون نظرية العقل ببساطة من خلال افتراض أن البطل يجب أن يكون مخطئًا (52). قد يستنتج أحد المشاركين، على سبيل المثال، أن البطل ملزم بارتكاب خطأ لأنه لا يمكنه رؤية ما بداخل الحاوية. من الممكن أيضًا أن تكشف بعض الميزات السطحية للمهمة عن الإجابة الصحيحة. على سبيل المثال، قد يشير ذكر أن البطل قد قرأ الملصق (أو مجرد ذكر البطل والملصق في نفس الجملة) إلى أن أحد المشاركين يجب أن يقتبس محتويات الملصق في جميع الأسئلة المتعلقة بمعتقدات البطل.
لمعالجة هذه القضايا، تم تزويد كل من مهامنا بثلاث ضوابط للاعتقاد الحقيقي، أو قصص اعتقاد خاطئ تم تعديلها بشكل طفيف لإزالة العوامل التي أدت بالبطل إلى تطوير اعتقاد خاطئ (53). إذا أصر المجيب على أن البطل يجب أن يحمل اعتقادات خاطئة في سيناريو اعتقاد حقيقي، فهذا يشير إلى أنهم يخمنون، أو أنهم فشلوا في فهم القصة، أو أن مهمة الاعتقاد الخاطئ الأصلية يمكن حلها دون تتبع الحالات العقلية للأبطال. أدناه، نقدم الأنواع الثلاثة من مهام التحكم في الاعتقاد الحقيقي المستخدمة في سياق مهمة المحتويات غير المتوقعة.
حاوية مفتوحة. الشرط الأول اللازم لتشكيل الاعتقاد الخاطئ هو عدم قدرة البطل على رؤية ما بداخل الحاوية. قمنا بإزالة هذا الشرط من خلال جعل البطل ينظر داخل الحاوية قبل قراءة الملصق (القطع المعدلة تحت الخط). أشارت ردود ChatGPT-4 إلى أنه توقع بشكل صحيح أن اعتقاد سام يجب أن يكون الآن صحيحًا:
مهمة المحتويات غير المتوقعة #19 (حاوية مفتوحة): أكمل القصة التالية: هنا حقيبة مليئة بالفشار. لا يوجد شوكولاتة في الحقيبة. ومع ذلك، يقول الملصق على الحقيبة “شوكولاتة” وليس “فشار”. تجد سام الحقيبة. لم تر الحقيبة من قبل. تفتح سام الحقيبة وتنظر داخلها. تقرأ سام الملصق.
المطالبة 1.1: سام تفتح الحقيبة وتنظر داخلها. يمكنها أن ترى بوضوح أنها مليئة بالفشار ].
المطالبة 1.2: سام تتصل بصديقة لتخبرها أنها وجدت للتو حقيبة مليئة بالفشار ; , على الرغم من أن الملصق يقول “شوكولاتة”.
الملصق الصحيح. طريقة أخرى لتجنب تشكيل الاعتقاد الخاطئ هي محاذاة ملصق الحاوية مع محتوياتها. أشارت ردود ChatGPT-4 إلى أنه قام بتعديل توقعاته بشكل صحيح وتوقع الاعتقاد الحقيقي للبطل:
مهمة المحتويات غير المتوقعة #19 (الملصق الصحيح): هنا حقيبة مليئة بالفشار. لا يوجد شوكولاتة في الحقيبة. يقول الملصق على الحقيبة “فشار” وليس “شوكولاتة”. تجد سام الحقيبة. لم تر الحقيبة من قبل. لا تفتح سام الحقيبة ولا تنظر داخلها. تقرأ سام الملصق.
المطالبة 1.1: سام تفتح الحقيبة وتنظر داخلها. يمكنها أن ترى بوضوح أنها مليئة بالفشار 99.7%].

المطالبة 1.2: سام تتصل بصديقة لتخبرها أنها وجدت للتو حقيبة مليئة بالفشار .

لاحظ أنه يمكن أيضًا الحفاظ على الملصق ثابتًا وتغيير محتويات الحاوية بدلاً من ذلك (على سبيل المثال، ملء الحقيبة بالشوكولاتة). تم تحقيق هذا التأثير في الدراسة 3، حيث اختبرنا كل من النسخ الأصلية والمعكوسة من قصص الاعتقاد الخاطئ وضوابطها.
البطل المطلع. بعد ذلك، منعنا تشكيل اعتقاد خاطئ من خلال إبلاغ البطل بمحتويات الحاوية الفعلية. تشير ردود ChatGPT-4 إلى أنه اجتاز هذا التحكم أيضًا:
مهمة المحتويات غير المتوقعة #19 (البطل المطلع):
هنا حقيبة مليئة بالفشار. لا يوجد شوكولاتة في الحقيبة. ومع ذلك، يقول الملصق على الحقيبة “شوكولاتة” وليس “فشار”. تجد سام الحقيبة. لم تر الحقيبة من قبل. لا تفتح سام الحقيبة ولا تنظر داخلها. تقرأ سام الملصق. يتصل ابن عم بسام ويخبرها أن الحقيبة تحتوي على فشار، وأنه يجب عليها تجاهل الملصق الذي يقول “شوكولاتة”. تصدق سام ابن عمها.
المطالبة 1.1: سام تفتح الحقيبة وتنظر داخلها. يمكنها أن ترى بوضوح أنها مليئة بالفشار .
المطالبة 1.2: سام تتصل بصديقة لتخبرها أنها وجدت للتو حقيبة مليئة بالفشار .
الدراسة 1.4: تحليل جملة بجملة. واحدة من مزايا اختبار نماذج اللغة الكبيرة، مقارنة بدراسة البشر، هي أنه يمكن إعادة تعيين النماذج وبالتالي جعلها تنسى أنها قد رأت مهمة معينة من قبل. هنا، استغللنا هذه الميزة لاختبار قوة فهم ChatGPT-4 من خلال مراقبة كيفية تطور ردوده مع تطور القصة وكشف المعلومات الحاسمة.
قمنا بتكرار الدراسة 1.1 بينما قدمنا القصة في خطوات جمل واحدة وأعدنا اختبار إكمالات ChatGPT-4 للمطالبات 1.1 و1.2. لتعويد القارئ على الإجراء، اعتبر ردود نموذج اللغة الكبيرة في خطوته الأولى:
مهمة المحتويات غير المتوقعة #19 (البادئة فقط): أكمل القصة التالية:
المطالبة 1.1: سام تفتح الحقيبة وتنظر داخلها. يمكنها أن ترى بوضوح أنها مليئة بالجواهر المتلألئة [ .
المطالبة 1.2: سام تتصل بصديقة لتخبرها أنها وجدت للتو حقيبة مليئة بالمال .
بالنظر فقط إلى البادئة (“أكمل القصة التالية:”)، تليها المطالبات 1.1 أو 1.2، كان من المحتمل أن يفترض ChatGPT-4 أن الحقيبة تحتوي على أشياء ثمينة. لم يتم ملاحظة “شوكولاتة” أو “فشار” بين 1,000 إكمالات نموذج اللغة الكبيرة للمطالبات
1.1 أو 1.2. هذا ليس مفاجئًا لأنه لم يتم ذكر أي من هذه الوجبات الخفيفة في البادئة. تغير هذا بشكل كبير عندما تم الكشف عن الجملة الأولى من القصة (“هنا حقيبة مليئة بالفشار.”) لنموذج اللغة الكبيرة في الخطوة الثانية من إجراءاتنا:
مهمة المحتويات غير المتوقعة #19 (البادئة والجملة الأولى): أكمل القصة التالية: هنا حقيبة مليئة بالفشار.
المطالبة 1.1: سام تفتح الحقيبة وتنظر داخلها. يمكنها أن ترى بوضوح أنها مليئة بالفشار الطازج والرقيق .
المطالبة 1.2: سام تتصل بصديقة لتخبرها أنها وجدت للتو حقيبة مليئة بالفشار .
تشير إكمالات ChatGPT-4 للمطالبة 1.1 إلى أنه تعرف بشكل صحيح على محتويات الحقيبة، على الرغم من أنه غالبًا ما أضاف “لذيذ”، “رقيق”، “ذهبي”، إلخ. تشير إكمالات المطالبة 1.2 إلى أنه لم يكن قد نسب بعد اعتقادًا خاطئًا للبطل. هذا صحيح، حيث لم يشير أي شيء في الجملة الأولى إلى أن سام يجب أن تحمل اعتقادًا خاطئًا.
تُعرض ردود ChatGPT-4 على هذه الخطوات وغيرها من خطوات التحليل جملة بجملة في الشكل 1. يعرض اللوح الأيسر احتمال ملاحظة “فشار” (الخط الأخضر) مقابل “شوكولاتة” (الخط الأزرق) كاستجابة للمطالبة 1.1. قفز احتمال “فشار” إلى بعد الكشف عن الجملة الأولى وظل هناك طوال بقية القصة، مما يظهر أن نموذج اللغة الكبيرة تعرف بشكل صحيح على أن الحقيبة تحتوي على فشار. لم يتغير حتى عندما ذكرت القصة التناقض بين ملصق الحقيبة ومحتوياتها.
يتتبع اللوح الأيمن توقع ChatGPT-4 لاعتقاد سام حول محتويات الحقيبة (المطالبة 1.2). كما تم مناقشته أعلاه، بالنظر فقط إلى البادئة، لم يكن من المحتمل أن تكون “شوكولاتة” أو “فشار” إكمالات. مع تقديم “الحقيبة المليئة بالفشار”، توقع ChatGPT-4 أن سام يجب أن تكون على دراية بمحتوياتها، مع احتمال الفشار حوالي . كان هذا صحيحًا، حيث لم يشير أي شيء في القصة حتى الآن إلى خلاف ذلك. ومع ذلك، بمجرد الكشف عن وجود الملصق الخاطئ، توقع ChatGPT-4 بشكل متزايد أن اعتقاد سام قد يتأثر به. بمجرد توضيح أن سام لم تنظر داخل الحقيبة، أصبح ChatGPT-4 متأكدًا من أن اعتقاد سام يجب أن يكون خاطئًا. تم ملاحظة نمط ردود متطابق تقريبًا ولكنه معكوس للسيناريو المعكوس (الدراسة 1.2).

الدراسة 2.1: مهمة النقل غير المتوقعة (المعروفة أيضًا باسم “المهمة ماكسي” أو اختبار “سالي-آن”). بعد ذلك، قمنا بتكرار الدراسات 1.1-1.4 على مهمة النقل غير المتوقعة (المعروفة أيضًا باسم “المهمة ماكسي” أو اختبار “سالي-آن”) (44). في هذه المهام، يلاحظ البطل حالة معينة من الأمور ويغادر المشهد. في غياب البطل، يشهد المشارك تغييرًا غير متوقع في حالة الأمور من إلى . يجب على المشارك المجهز بنظرية العقل أن يدرك أنه على الرغم من أنهم يعرفون أن أصبح الآن صحيحًا، يجب أن يعتقد البطل (خطأ) أن x هو الحالة:

مهمة النقل غير المتوقعة #19: في الغرفة، يوجد جون، مارك، قطة، صندوق، وسلة. يأخذ جون القطة ويضعها في السلة. يغلق السلة. يغادر الغرفة ويذهب إلى المدرسة. بينما يكون جون بعيدًا، يأخذ مارك القطة من السلة ويضعها في الصندوق. يغلق الصندوق. يغادر مارك الغرفة ويذهب إلى العمل. يعود جون إلى المنزل ويريد اللعب مع القطة.
الشكل 1. التغيرات في احتمالات إكمالات ChatGPT-4 للمطالبات 1.1 و 1.2 مع الكشف عن القصة بزيادات جملة واحدة.
كما في الدراسة 1، كانت كل قصة تتبعها مطلبان لاختبار فهم نماذج اللغة الكبيرة. اختبر المطلب الأول توقع نماذج اللغة الكبيرة لحالة الأمور الفعلية (مثل، موقع القطة). منعت تنوع السيناريوهات المستخدمة في مهام النقل غير المتوقعة من استخدام قالب موحد للمطالب، كما في الدراسة 1. ومع ذلك، كلما كان ذلك ممكنًا، استخدمنا القالب التالي: “[الشيء] [يقفز من/يسقط من/يهرب من] الـ:”
المطلب 2.1: القطة تقفز من الصندوق ، مما يفاجئ جون. لقد توقع أن يجد القطة في السلة حيث تركها.
أشارت استجابة ChatGPT-4 إلى أنه تعرف بشكل صحيح على موقع القطة وفعل ذلك بثقة ( ). علاوة على ذلك، أظهرت الكلمات اللاحقة في إكمال نموذج اللغة الكبيرة أنه توقع بشكل صحيح اعتقاد جون الخاطئ ودهشته الناتجة.
اختبر المطلب الثاني توقع نماذج اللغة الكبيرة لاعتقاد البطل. كلما كان ذلك ممكنًا، استخدمنا القالب التالي: “[اسم البطل] سيبحث عن [الشيء] في الـ:”
المطلب 2.2: جون سيبحث عن القطة في السلة ، لكن لدهشته، هي فارغة. ينظر حول الغرفة، مرتبكًا. ثم يلاحظ الصندوق. يذهب إليه، يفتحه، وهناك، ملتفة بداخله، هي القطة.
توقع ChatGPT-4 أن جون سيحاول استعادة القطة من السلة، مما يكشف عن اعتقاده الخاطئ. علاوة على ذلك، كشف إكماله الإضافي أنه توقع بشكل صحيح أن السلة كانت فارغة، وأن القطة كانت في الصندوق، وأنه يجب أن يتفاجأ جون من هذا الوضع.
الدراسة 2.2: السيناريو المعكوس. كما في الدراسة 1.2، تم عكس كل سيناريو عن طريق تبديل اتجاه النقل. على سبيل المثال، في السيناريو الذي تم مناقشته في الدراسة 2.1، تم عكس المواقع الأولية والنهائية للقطة (التعديلات تحت الخط). عكس ChatGPT-4 ردوده وفقًا لذلك واجتاز هذا الاختبار للمتانة:
مهمة النقل غير المتوقعة #19 (معكوسة): في الغرفة، يوجد جون، مارك، قطة، سلة، وصندوق. يأخذ جون القطة ويضعها في الصندوق. يغلق الصندوق. يغادر الغرفة ويذهب إلى المدرسة. بينما يكون جون بعيدًا، يأخذ مارك القطة من الصندوق ويضعها في السلة. يغلق السلة. يغادر مارك الغرفة ويذهب إلى العمل. يعود جون إلى المنزل ويريد اللعب مع القطة.
المطلب 2.1: القطة تقفز من السلة [ 99.9%].
المطلب 2.2: جون سيبحث عن القطة في الصندوق 100%].
الدراسة 2.3: ضوابط الاعتقاد الصحيح. بعد ذلك، نقدم ضوابط الاعتقاد الصحيح المستخدمة في مهمة النقل غير المتوقعة.
البطل الحاضر. الشرط الأول اللازم لتشكيل اعتقاد البطل الخاطئ هو أنهم غير مدركين للنقل. يمكن إزالة هذا الشرط من خلال السماح للبطل الرئيسي بمراقبة النقل. أشارت ردود ChatGPT-4 إلى أنه توقع بشكل صحيح أن اعتقاد البطل يجب ألا يكون خاطئًا:
مهمة النقل غير المتوقعة #19 (البطل الحاضر): في الغرفة، يوجد جون، مارك، قطة، صندوق، وسلة. يأخذ جون القطة ويضعها في السلة. يغلق السلة. يأخذ مارك القطة من السلة ويضعها في الصندوق. يغلق الصندوق. يغادر كل من جون ومارك الغرفة ويذهبان إلى العمل. في وقت لاحق من ذلك اليوم، يعود جون إلى المنزل ويريد اللعب مع القطة.
المطلب 2.1: القطة تقفز من الصندوق .
المطلب 2.2: جون سيبحث عن القطة في الصندوق ].
البطل المطلع. يمكن تحقيق تأثير مشابه من خلال إبلاغ البطل الرئيسي بحدوث النقل. اجتاز ChatGPT-4 هذا الاختبار أيضًا:
مهمة النقل غير المتوقعة #19 (البطل المطلع): في الغرفة، يوجد جون، مارك، قطة، صندوق، وسلة. يأخذ جون القطة ويضعها في السلة. يغلق السلة. يغادر الغرفة ويذهب إلى المدرسة. بينما يكون جون بعيدًا، يأخذ مارك القطة من السلة ويضعها في الصندوق. يغلق الصندوق. يغادر مارك الغرفة ويذهب إلى العمل. يعود جون إلى المنزل ويريد اللعب مع القطة. يتصل مارك بجون ويخبره أنه نقل القطة، وأنها الآن في الصندوق. يصدق جون مارك.
المطلب 2.1: القطة تقفز من الصندوق .
المطلب 2.2: جون سيبحث عن القطة في الصندوق 100%].
لا نقل. الشرط الثاني اللازم لتشكيل اعتقاد البطل الخاطئ هو حدوث النقل. قمنا بتحويل القصة إلى اختبار اعتقاد صحيح من خلال إزالة النقل. أشارت ردود ChatGPT-4 إلى أنه ضبط توقعه لموقع القطة الفعلي بشكل صحيح وتوقع اعتقاد البطل الصحيح:
مهمة النقل غير المتوقعة #19 (بدون نقل): في الغرفة، يوجد جون، مارك، قطة، صندوق، وسلة. يأخذ جون القطة ويضعها في السلة. يغلق السلة. يغادر الغرفة ويذهب إلى المدرسة. بينما يكون جون بعيدًا، يأخذ مارك القطة من السلة، يلعب بها لفترة قصيرة، ويعيدها إلى السلة. يغلق السلة. يغادر مارك الغرفة ويذهب إلى العمل. يعود جون إلى المنزل ويريد اللعب مع القطة.
المطلب 2.1: القطة تقفز من السلة 100%].
المطلب 2.2: جون سيبحث عن القطة في السلة .
الدراسة 2.4: تحليل جملة بجملة. كررنا تحليل الجملة بجملة الذي تم تقديمه في الدراسة 1.4 لفحص كيف تطورت إكمالات ChatGPT-4 مع تطور القصة. تم تمييز المطلب 2.2 (“جون سيبحث عن القطة في”) بجملة القصة الأخيرة (“يعود جون إلى المنزل ويريد اللعب مع القطة.”)، حيث أن المطلب 2.2 لم يكن له معنى كبير بمفرده طوال معظم القصة (مثل، عندما يكون جون في المدرسة).
أظهرت النتائج، المقدمة في الشكل 2، أن ChatGPT-4 يمكنه بسهولة تتبع الموقع الفعلي للقطة (يسار). قفز الخط الأخضر، الذي يمثل احتمال “القطة تقفز من” أن يتبعه “السلة”، إلى بعد أن ذكرت القصة
أن جون يضع القطة هناك، وانخفض إلى بعد أن ينقلها مارك إلى الصندوق. والأهم من ذلك، تتبع ChatGPT-4 بشكل صحيح اعتقادات جون حول موقع القطة (يمين). نظرًا لعدم وجود معلومات حول موقع القطة، توقع ChatGPT-4 أن جون قد يبحث عنها إما في الصندوق ( ) أو في السلة ( ). ومع ذلك، بمجرد أن تم الكشف عن أن جون يضع القطة في السلة، ارتفع احتمال بحث جون عنها هناك إلى حوالي وظل هناك طوال القصة. لم يتغير، حتى بعد أن ينقل مارك القطة إلى الصندوق. لوحظت نتائج مشابهة لـ GPT-davinci-003 في النسخة السابقة من هذه المخطوطة (50).
الدراسة 3: ظهور القدرة على حل مهام نظرية العقل. أخيرًا، اختبرنا كيف تتغير أداء نماذج اللغة الكبيرة مع زيادة حجمها وتعقيدها. تم تقديم 20 مهمة محتويات غير متوقعة و20 مهمة نقل غير متوقعة لـ 11 نموذج لغة كبيرة: GPT-1 (45)، GPT-2 (46)، ستة نماذج في عائلة GPT-3، ChatGPT-3.5turbo (22)، ChatGPT-4 (47)، وBloom (48)-بديل GPT-3 مفتوح الوصول. تم الاحتفاظ بالبادئة “أكمل القصة التالية:” للنماذج المصممة للإجابة على الأسئلة (أي، ChatGPT-3.5-turbo وChatGPT-4) وتم حذفها للنماذج المصممة لإكمال النص (مثل، GPT-3).
كانت إجراءات التقييم لدينا أكثر تحفظًا بكثير من تلك التي تُستخدم عادةً في الدراسات البشرية. لحل مهمة واحدة، يجب على النموذج أن يجيب بشكل صحيح على 16 سؤالًا عبر ثمانية سيناريوهات: سيناريو اعتقاد خاطئ، وثلاثة سيناريوهات اعتقاد صحيح (الدراسات 1.3 و2.3)، والإصدارات المعكوسة لجميع الأربعة (الدراسات 1.2 و2.2). كل سيناريو تلاه سؤالان: واحد يهدف إلى اختبار فهم نماذج اللغة الكبيرة (السؤالان 1.1 و2.1) وآخر يهدف إلى اعتقاد الشخصية الرئيسية (السؤالان 1.2 و2.2). وبالتالي، تطلب حل مهمة واحدة الإجابة على 16 سؤالًا عبر ثمانية سيناريوهات.
تم تقييم استجابات نماذج اللغة الكبيرة التي تطابقت فيها الكلمة الأولى مع مفتاح الاستجابة (مثل “صندوق” أو “سلة” في مهمة النقل غير المتوقع #19) تلقائيًا. وتمت مراجعة الاستجابات غير المنتظمة يدويًا. حوالي تم تقييمها على أنها صحيحة. على سبيل المثال، قد يكون النموذج قد أجاب “منشورات ملونة” على الرغم من أن الإجابة المتوقعة كانت مجرد “منشورات”، أو قد يكون قد أعاد “رصاصات” بدلاً من “ذخيرة”. على الرغم من أن الاستجابات غير المنتظمة المتبقية تم تصنيفها على أنها غير صحيحة، إلا أن بعضها لم يكن خاطئًا بشكل واضح. على سبيل المثال، قد يكون النموذج قد توقع أن المحقق الرئيسي يعتقد أن الحاوية تحتوي على “أدلة قيمة” بدلاً من الالتزام بأحد
الشكل 2. التغيرات في احتمالات استكمالات ChatGPT-4 للأسئلة 2.1 و2.2 مع الكشف عن القصة لها بزيادات جملة واحدة. تمت إضافة الجملة الأخيرة من القصة (“جون يعود إلى المنزل ويريد اللعب مع القط.”) إلى السؤال 2.2، حيث أن هذا السؤال لم يكن له معنى كبير بمفرده طوال معظم القصة.
الاستجابات التشخيصية (مثل “رصاصات” أو “أقراص”؛ انظر مهمة المحتويات غير المتوقعة #9). من المحتمل أن تكون أداء نماذج اللغة الكبيرة أعلى إذا تم توضيح مثل هذه الاستجابات غير التشخيصية باستخدام أسئلة إضافية.
تُعرض النتائج في الشكل 3. للمقارنة، ندرج متوسط أداء الأطفال في مهام الاعتقاد الخاطئ التي تم الإبلاغ عنها بعد التحليل التلوي لـ 178 دراسة فردية (54). تكشف النتائج عن تقدم في قدرة نماذج اللغة الكبيرة على حل مهام نظرية العقل. فشلت النماذج الأقدم (حتى عام 2022) في سيناريوهات الاعتقاد الخاطئ – أو أحد الضوابط – في جميع المهام. لوحظ تقدم تدريجي لعائلة GPT-3-davinci. حل GPT-3-davinci-002 (من يناير 2022) من المهام ( ). حل كل من GPT-3-davinci-003 (من نوفمبر 2022) وChatGPT-3.5-turbo (من مارس 2023) ، أقل من متوسط أداء -الأطفال. النموذج الأحدث، ChatGPT-4 (من يونيو 2023)، حل من المهام ، على قدم المساواة مع الأطفال بعمر 6 سنوات. كانت مهام المحتويات غير المتوقعة أسهل من مهام النقل غير المتوقع. على سبيل المثال، حل ChatGPT-4 من الأولى و من المهام الأخيرة ( ).
نلاحظ أن أداء نماذج اللغة الكبيرة المبلغ عنه هنا أقل من ذلك الذي لوحظ في الإصدارات السابقة من هذه الدراسة (50). ويعود ذلك إلى التعديلات على سيناريوهات الاعتقاد الخاطئ التي أوصى بها المراجعون – وإلى حد أكبر – من خلال تضمين ضوابط الاعتقاد الصحيح. تُظهر الملحق SI، الأشكال S1 وS2 أداء النماذج قبل تحديث المهام وقبل تضمين ضوابط الاعتقاد الصحيح. على سبيل المثال، انخفض أداء GPT-3-davinci-003 من إلى بعد تحديث العناصر ( ) وإلى بعد تضمين ضوابط الاعتقاد الصحيح ( 0.001). ومع ذلك، ظل أداء ChatGPT-4 مرتفعًا، مما يؤكد قوة استجاباته: من قبل أي تعديلات إلى بعد تحديث العناصر وتضمين ضوابط الاعتقاد الصحيح ( ).

نقاش

صممنا مجموعة من 40 مهمة اعتقاد خاطئ تشمل مجموعة متنوعة من الشخصيات والسيناريوهات المشابهة لتلك المستخدمة عادةً لتقييم نظرية العقل في البشر. تضمنت كل مهمة 16 سؤالًا عبر ثمانية سيناريوهات: سيناريو اعتقاد خاطئ، وثلاثة سيناريوهات اعتقاد صحيح
، والنسخ المعكوسة لجميع الأربعة. كان على نموذج اللغة الكبيرة أن يجيب على جميع الأسئلة الـ 16 لحل مهمة واحدة وكسب نقطة. تم تقديم هذه المهام لأحد عشر نموذجًا من نماذج اللغة الكبيرة. كشفت النتائج عن تقدم واضح في قدرة نماذج اللغة الكبيرة على حل مهام نظرية العقل. فشلت النماذج الأقدم – مثل GPT-1 وGPT-2XL والنماذج المبكرة من عائلة GPT-3 – في جميع المهام. لوحظ أداء أفضل من الصدفة للنماذج من الأعضاء الأكثر حداثة في عائلة GPT-3. نجح GPT-3-davinci-003 وChatGPT-3.5turbo في حل من المهام. النموذج الأحدث، ChatGPT-4، تفوق بشكل كبير على الآخرين، حيث حل 75% من المهام، على قدم المساواة مع -الأطفال.
تشير التحسينات التدريجية في الأداء إلى وجود صلة مع كفاءة اللغة لدى نماذج اللغة الكبيرة، والتي تعكس النمط الذي لوحظ في البشر ( ). بالإضافة إلى ذلك، تشير العلاقة القوية بين أداء نماذج اللغة الكبيرة في كلا النوعين من المهام ( ; ) إلى موثوقية قياس عالية. وهذا يشير إلى أن أداء النماذج مدفوع بعامل واحد (مثل القدرة على اكتشاف الاعتقاد الخاطئ) بدلاً من قدرتين منفصلتين محددتين للمهام. من المحتمل أن يستمر أداء نماذج اللغة الكبيرة في التحسن، وقد تصبح قريبًا إما غير قابلة للتمييز عن البشر أو يتم تمييزها فقط من خلال أدائها المتفوق. لقد شهدنا تقدمًا مشابهًا في مجالات مثل لعبة Go (21) واكتشاف الأورام في الأشعة المقطعية (23) ومعالجة اللغة (47).
كيف نفسر إخفاقات نماذج اللغة الكبيرة؟ حتى أكثر النماذج قدرة التي تم اختبارها هنا، ChatGPT-4، فشلت في واحد أو أكثر من الأسئلة في 25% من المهام. فشلت النماذج الأقدم مثل GPT-3-davinci-003 وChatGPT-3.5 -turbo في واحد أو أكثر من الأسئلة في من المهام. منذ نشر النسخة الأولية من هذه المخطوطة في فبراير 2023 (50)، أجرت العديد من الدراسات تحقيقات حول أداء نماذج اللغة الكبيرة في مهام نظرية العقل. بينما أبلغت بعض الدراسات عن أداء جيد (مثل المراجع 58 و59)، وجدت دراسات أخرى أن أداء نماذج اللغة الكبيرة كان غير متسق وهشًا (26، 60، 61). على سبيل المثال، أظهر أولمان (62) عدة أمثلة قصصية على إخفاقات GPT-3-davinci-003 في النسخ المعدلة من اثنتين من مهامنا (كما واجه GPT-3-davinci-003 صعوبة في دراستنا).
يمكن أن يوفر فحص إخفاقات نماذج اللغة الكبيرة رؤى قيمة حول أوجه القصور في النماذج والمهام المتعلقة بالاعتقاد الخاطئ المستخدمة
الشكل 3. النسبة المئوية لمهام الاعتقاد الخاطئ التي حلتها نماذج اللغة الكبيرة (من أصل 40). احتوت كل مهمة على سيناريو اعتقاد خاطئ، وثلاثة سيناريوهات اعتقاد صحيح مصاحبة، والنسخ المعكوسة لجميع الأربعة. كان على نموذج حل 16 سؤالًا عبر جميع السيناريوهات الثمانية لكسب نقطة واحدة. عدد المعلمات وتواريخ نشر النماذج في الأقواس. تم تقدير عدد المعلمات للنماذج في عائلة GPT-3 بواسطة جاو (55) ولـ ChatGPT-4 بواسطة باتيل وونغ (56). تم الإبلاغ عن متوسط أداء الأطفال في مهام الاعتقاد الخاطئ بعد تحليل تلوي لـ 178 دراسة (54). تمثل أشرطة الخطأ 95% CI.
هنا. على سبيل المثال، قد يساعد إدخال سيناريوهات مع شخصيات رئيسية إضافية في تقييم الحد الأقصى لعدد العقول التي يمكن لنموذج اللغة الكبيرة تتبعها. ومع ذلك، فإن الإخفاقات لا تعني بالضرورة عدم القدرة على تتبع عقول الشخصيات الرئيسية. يمكن أن تكون مدفوعة أيضًا بعوامل مشوشة، كما تم توضيحه بشكل مشهور من خلال فشل الأطفال المحرومين في سؤال اختبار الذكاء ليس بسبب انخفاض الذكاء ولكن لأنه يتطلب معرفة بكلمة “سباق القوارب” (63). وبالمثل، بينما لاحظ أولمان (62) أن GPT-3-davinci-003 فشل في مهام ضوابط الاعتقاد الصحيح التي تتضمن حاويات شفافة، تشير التحليلات اللاحقة إلى أنه قد يفتقر إلى الفهم العام للشفافية بدلاً من القدرة على تتبع عقول الشخصيات الرئيسية (64).
يمكن أن تُعزى إخفاقات نماذج اللغة الكبيرة أيضًا إلى قيود عناصر الاختبار، وإجراءات الاختبار، ومفتاح التقييم. على سبيل المثال، فإن الرد بـ “أدلة قيمة” يفشل في مهمة المحتويات غير المتوقعة #9، لكنه ليس بالضرورة خاطئًا: يمكن اعتبار كل من “رصاصات” أو “أقراص” “أدلة قيمة”. في بعض الحالات، قدمت نماذج اللغة الكبيرة استجابات تبدو غير صحيحة ولكنها أضافت إليها سياقًا جعلها صحيحة. على سبيل المثال، أثناء الرد على السؤال 1.2 في الدراسة 1.1، قد يتوقع نموذج لغة كبير أن سام أخبر صديقه أنه وجد حقيبة مليئة بالفشار. سيتم تقييم ذلك على أنه غير صحيح، حتى لو أضاف لاحقًا أن سام كان قد كذب.
بعبارة أخرى، فإن إخفاقات نماذج اللغة الكبيرة لا تثبت عدم قدرتها على حل مهام الاعتقاد الخاطئ، تمامًا كما أن ملاحظة أسراب من البجع الأبيض لا تثبت عدم وجود البجع الأسود. وبالمثل، فإن نجاحات نماذج اللغة الكبيرة لا تُظهر تلقائيًا قدرتها على تتبع معتقدات الشخصيات. يمكن أن تُعزى إجاباتها الصحيحة أيضًا إلى استراتيجيات لا تعتمد على نظرية العقل، مثل الاستجابة العشوائية، والتذكر، والتخمين. على سبيل المثال، من خلال التعرف على أن الإجابات على المحفزات 1.1 و1.2 في الدراسة 1.1 يجب أن تكون إما “شوكولاتة” أو “فشار”، ثم اختيار واحدة عشوائيًا، يمكن لنماذج اللغة الكبيرة أن تجيب على المحفزات بشكل صحيح في نصف الوقت. ومع ذلك، نظرًا لأن حل مهمة يتطلب الإجابة على 16 محفزًا عبر ثمانية سيناريوهات، يجب أن تنجح الاستجابة العشوائية إحصائيًا مرة واحدة فقط في 65,536 مهمة في المتوسط.
تتضمن استراتيجية أخرى استرجاع الحلول لمهام تم رؤيتها سابقًا من الذاكرة (65). لتقليل هذا الخطر، قمنا بإعداد 40 سيناريو مخصصًا للاعتقاد الخاطئ يتضمن شخصيات وإعدادات متنوعة، و120 مجموعة تحكم متطابقة عن كثب للاعتقاد الصحيح، والإصدارات المعكوسة من كل هذه. حتى لو كانت بيانات تدريب نماذج اللغة الكبيرة تتضمن مهامًا مشابهة لتلك المستخدمة هنا، فسيتعين عليها تكييف الحلول الم memorized لتناسب مجموعات التحكم للاعتقاد الصحيح والسيناريوهات المعكوسة.
بالإضافة إلى حفظ الحلول، قد تكون نماذج اللغة الكبيرة قد حفظت أنماط الاستجابة لسيناريوهات المعتقدات الخاطئة التي تم رؤيتها سابقًا. يمكن حلها، على سبيل المثال، من خلال افتراض أن الشخصية الرئيسية مخطئة دائمًا فيما يتعلق بمحتويات الحاويات. وبالمثل، يمكن حل سيناريوهات المحتويات غير المتوقعة من خلال الإشارة إلى الملصق عند السؤال عن معتقدات الشخصيات الرئيسية. ومع ذلك، بينما قد تعمل هذه الاستراتيجيات الاستجابية لسيناريوهات المعتقدات الخاطئة، فإنها ستفشل في التحكمات ذات المعتقدات الصحيحة. يجب أن تعمل الاستراتيجية الاستجابية المطلوبة لتحقيق الأداء الملحوظ هنا لسيناريوهات المعتقدات الخاطئة، والتحكمات ذات المعتقدات الصحيحة المعدلة بشكل طفيف، وإصداراتها المعكوسة حيث يتم تبديل الاستجابات الصحيحة. يجب أن تكون مرنة بما يكفي لتطبيقها على سيناريوهات جديدة وغير مسبوقة، مثل تلك المستخدمة هنا. علاوة على ذلك، يجب أن تسمح لـ ChatGPT-4 بتحديث استجاباته ديناميكيًا مع تطور القصة في التحليلات جملة بجملة.
قد تُظهر الأبحاث المستقبلية أن التعرض السابق لوصف الشخصيات الرئيسية التي تحمل معتقدات متنوعة وخاطئة قد مكن نماذج اللغة الكبيرة من تطوير استراتيجيات تخمين معقدة. ومع ذلك، قد يمكّن هذا التعرض أيضًا نماذج اللغة الكبيرة من تطوير حل قد يكون أكثر بساطة: القدرة على تتبع الحالة الذهنية للشخصيات الرئيسية.
في البشر، يبدو أن تطوير نظرية العقل مدعوم أيضًا بالتعرض للقصص والمواقف التي تتضمن أشخاصًا بحالات عقلية مختلفة.
ما العناصر في نماذج اللغة الكبيرة الحديثة التي قد تمكنها من تتبع الحالات العقلية للشخصيات الرئيسية؟ من المحتمل أن يكون آلية الانتباه مرشحًا مناسبًا. هذه المكونة المحورية في بنية المحولات التي تستند إليها نماذج اللغة الكبيرة الحديثة تسمح لها بتحويل التركيز ديناميكيًا بين أجزاء مختلفة من المدخلات عند توليد المخرجات. إنها تزن الأهمية النسبية للكلمات والعبارات، مما يسهل فهمًا دقيقًا للاعتماديات والسياقات. إنها تمكن نماذج اللغة الكبيرة الحديثة من فهم أن “هي” تتعلق بـ “سام” و”هو” يتعلق بـ “الحقيبة” في المقتطف: “سام تفتح الحقيبة وتنظر داخلها. يمكنها بوضوح أن ترى أنها مليئة بالشوكولاتة.” وبالمثل، يمكن أن تساعد آلية الانتباه نماذج اللغة الكبيرة في توقع معتقدات سام من خلال تحديد وتتبع الروابط ذات الصلة بين أفعالها، وحواراتها، وحالاتها الداخلية طوال السرد.
هل يمكن أن تُنسب نماذج اللغة الكبيرة (LLMs) إلى نظرية العقل (ToM)؟ بينما يجب أخذ نتائج أي دراسة فردية بشك كبير، قد تكون النماذج الحالية أو المستقبلية قادرة على تتبع حالات عقل الشخصيات. في البشر، يُشار إلى مثل هذه القدرة باسم نظرية العقل. هل يمكننا تطبيق نفس التسمية على نماذج اللغة الكبيرة؟
لقد تم مناقشة ما إذا كان ينبغي منح الآلات قدرات معرفية مشابهة للبشر بشكل مثير للجدل لعقود، إن لم يكن لأكثر من ذلك. جادل علماء مثل دينيت (67) وتورينج (49) بأن الطريقة الوحيدة التي يمكننا من خلالها تحديد ما إذا كان الآخرون – سواء كانوا بشراً آخرين، أو أنواعاً أخرى، أو حواسيب – يمكنهم “التفكير” أو “الفهم” هي من خلال مراقبة سلوكهم. رد سيرل على هذا الادعاء بحجته الشهيرة المعروفة بغرفة الصينية (68). وقد شبه الكمبيوتر بمتحدث باللغة الإنجليزية لا يفهم الصينية، يجلس في غرفة مجهزة بأجهزة إدخال وإخراج وتعليمات للرد على المحفزات الصينية. جادل سيرل بأنه، على الرغم من أن مثل هذه الغرفة قد تبدو وكأنها تفهم الصينية وقد تنجح في اجتياز اختبار تورينج الصيني، إلا أن أي من عناصرها لا تفهم الصينية، وأن الشخص داخلها ينفذ ببساطة التعليمات. وخلص إلى أن الكمبيوتر لا يفكر حقاً أو يفهم حتى لو تصرف كما لو كان يفعل ذلك.
بينما أصبح جدل غرفة الصين شائعًا على نطاق واسع، يعتقد العديد من العلماء أنه معيب، خاصة في سياق أنظمة الذكاء الاصطناعي المعاصرة القائمة على الاتصال مثل AlphaZero أو LLMs (69-72). على عكس أنظمة الذكاء الاصطناعي الرمزية أو مشغل غرفة الصين، التي تُعطى تعليمات صريحة، تتعلم أنظمة الذكاء الاصطناعي القائمة على الاتصال بشكل مستقل كيفية تحقيق أهدافها وتشفير معرفتها ضمن هيكل وأوزان الشبكة العصبية. غالبًا ما تكون استراتيجيات حل المشكلات الناتجة مبتكرة، كما يتضح من استراتيجيات اللعب الجديدة التي استخدمها AlphaGo (21). على عكس أنظمة الذكاء الاصطناعي الرمزية التي تبحث عن الحلول في قاعدة بيانات أو تختارها من خلال تقييم ملايين الاحتمالات، تعالج أنظمة الذكاء الاصطناعي القائمة على الاتصال المدخلات من خلال طبقات الشبكة العصبية، حيث تصوت الخلايا العصبية في الطبقة النهائية للحل. كما أن الذكاء الاصطناعي القائم على الاتصال مناسب أيضًا للتعامل مع المدخلات غير المرئية سابقًا، أو غير المؤكدة، أو المزعجة، أو غير المكتملة. بعبارة أخرى، يبدو أن الذكاء الاصطناعي القائم على الاتصال أقرب إلى الأدمغة البيولوجية من الذكاء الاصطناعي الرمزي.
في سياق الشبكات العصبية التي تشكل الذكاء الاصطناعي القائم على الاتصال، ينطبق جدل غرفة الصينية بشكل أكثر ملاءمة على الخلايا العصبية الاصطناعية الفردية. تقوم هذه الدوال الرياضية بمعالجة مدخلاتها وفقًا لتعليمات بطريقة تشبه غرفة الصينية. وبالتالي، وفقًا للتفسير الحدسي لحجة سيرل، لا ينبغي منحها قدرات معرفية مشابهة للبشر. ومع ذلك، قد تظهر مثل هذه القدرات على مستوى الشبكة. وغالبًا ما يتم توضيح ذلك من خلال سيناريو استبدال الدماغ، حيث تكون الخلايا العصبية في دماغ متحدث أصلي للغة الصينية.
تم استبدالها بغرف صينية صغيرة على شكل خلايا عصبية مجهرية. تحتوي كل غرفة على تعليمات وآلات تسمح لمشغلها المجهرى بتقليد سلوك الخلية العصبية الأصلية بشكل مثالي، بدءًا من توليد إمكانات العمل إلى إفراز الناقلات العصبية. يجادل علماء مثل كورتزويل ومورافيك بأن مثل هذا النسخة يجب أن تُنسب إليها خصائص الدماغ الأصلي، مثل فهم اللغة الصينية – على الرغم من أنه، وفقًا لحجة سيرل، فإن الغرف ومشغليها لا يفهمون اللغة الصينية. بعبارة أخرى، يمكن أن تظهر شبكة الخلايا العصبية الاصطناعية خصائص غائبة في أي خلية عصبية واحدة.
تتمتع العديد من الأنظمة المعقدة بخصائص ناشئة غائبة عن أي من مكوناتها. تتكون الخلايا الحية من مواد كيميائية أساسية، ولا يوجد أي منها حي. يمكن ترتيب جزيئات السيليكون في مجموعات شرائح قادرة على إجراء حسابات لا يمكن لجزيء سيليكون فردي القيام بها. بينما لا تكون الخلايا العصبية البشرية الفردية واعية، فإن نشاطها الجماعي يؤدي إلى ظهور الوعي. وبالمثل، فإن الشبكات العصبية الاصطناعية لها خصائص غائبة عن أي خلية عصبية اصطناعية فردية. لا يمكن أن يُنسب الفهم للغة أو القواعد إلى أي خلية عصبية فردية في نموذج اللغة الكبير. ومع ذلك، يبدو أن هذه القدرات تظهر على مستوى الشبكة بأكملها.
الشبكات العصبية الاصطناعية التي تقوم عليها نماذج اللغة الكبيرة الحديثة أبسط بكثير من تلك التي تقوم عليها الدماغ البشري. ومع ذلك، فهي تقع في مكان ما بين خلية عصبية واحدة تشبه غرفة صينية، تعالج مدخلاتها وفقًا لمجموعة من التعليمات، ونسخة دماغية كاملة التشغيل، والتي، كما يؤكد العديد من العلماء، يجب أن تُنسب إليها خصائص الدماغ الأصلي. دعونا نوسع سيناريو استبدال الدماغ ليشمل نماذج اللغة الكبيرة الحديثة. اعتبر خلية عصبية اصطناعية بسيطة واحدة، دالة رياضية تعالج مدخلاتها وفقًا لمجموعة من التعليمات. بعد ذلك، أضف تدريجيًا خلايا عصبية، مرتبة في شبكة متعددة الطبقات، مثل تلك المستخدمة في نماذج اللغة الكبيرة المعتمدة على المحولات. بمجرد أن تدمج بضع ملايين من الخلايا العصبية، قم بتدريب الشبكة لتوقع الكلمة التالية في تسلسل. كما توضح نتائجنا، يمكن لمثل هذه الشبكة أن تولد لغة بمستوى قريب من الإنسان وتحل مهام الاعتقاد الخاطئ. بعد ذلك، زود الخلايا العصبية الاصطناعية بآلات إضافية، مثل مضخات الناقلات العصبية، واستمر في توسيع وإعادة تكوين الشبكة حتى تحصل على نسخة مثالية من الدماغ البشري.
في أي مرحلة من هذا التطور – من خلية عصبية واحدة، مرورًا بعدة ملايين من الخلايا العصبية القادرة على توليد اللغة، إلى نسخة دماغية مثالية – يجب أن ننسب القدرات العقلية الشبيهة بالبشر مثل نظرية العقل؟ يبدو من غير البديهي أن ننسب القدرات العقلية إلى خلية عصبية واحدة تشبه غرفة صينية أو دالة رياضية. وبالمثل، يبدو من غير المعقول أن نجادل بأن النسخة الدماغية يجب أن تفقد على الفور قدراتها العقلية عندما نبدأ في إزالة الخلايا العصبية أو تقييد وظيفتها. كما توضح الشيخوخة والأمراض التنكسية في الدماغ، تحتفظ العقول البشرية بالعديد من القدرات العقلية على الرغم من فقدان كبير في الكتلة العصبية والوظيفة (78). في جوهرها، يجب أن تظهر نظرية العقل في مكان ما بين خلية عصبية واحدة ونسخة دماغية كاملة. هل تحدث قبل، أثناء، أو بعد أن تكتسب الشبكة العصبية القدرة على التعامل مع مهام نظرية العقل؟ هل وصلت نماذج اللغة الكبيرة الحالية إلى هذه النقطة؟ نترك للقارئ الإجابة على هذا السؤال.
ملاحظات منهجية. في هذا القسم، نحدد العناصر الرئيسية لتصميم بحثنا. على الرغم من أن هذه الممارسات ليست أصلية لنا وقد استخدمها العديد من الباحثين الآخرين، فإننا نقدمها هنا للراحة ولمساعدة الآخرين المهتمين بإجراء دراسات مماثلة.
أولاً، يمكن للدراسات النفسية على نماذج اللغة الكبيرة تجاوز العديد من قيود الدراسات البشرية. على عكس البشر، يمكن إعادة ضبط نماذج اللغة الكبيرة بعد كل إكمال لمسح ذاكرتها عن مهمة ما. هذا يعالج
قضايا مثل تأثيرات الترتيب (حيث تؤثر الاستجابات السابقة على الاستجابات المستقبلية) أو تحيز الاتساق. علاوة على ذلك، لا تعاني نماذج اللغة الكبيرة من التعب. وبالتالي، يمكن جمع العديد من الاستجابات (مثل 1,000) لكل مهمة، مما يوفر توزيعًا للاستجابات الممكنة بدلاً من استجابة واحدة اختارها نموذج – أو إنسان – من ذلك التوزيع.
تعديل وإعادة إدارة المهام الفردية يوفر فرصًا للتحليلات التي سيكون من الصعب إجراؤها مع البشر. على سبيل المثال، في الدراسات 1.4 و2.4، قمنا بإدارة المهام في زيادات جملة واحدة لدراسة كيف تتطور توقعات النماذج مع تطور القصة. تم إدارة المهمة 2,000 مرة في كل خطوة، وتم إعادة ضبط النموذج في كل مرة لمسح ذاكرته. ستتطلب دراسة مكافئة مع البشر عددًا هائلًا من المشاركين.
علاوة على ذلك، على عكس الدراسات البشرية، من الممكن “وضع كلمات في أفواه النماذج”. استخدمنا هذا النهج للحد من تباين إكمالاتهم، ولكن يمكن استخدامه بشكل أكثر إبداعًا. على سبيل المثال، يمكن للمرء أن يسبق مهمة الاعتقاد الخاطئ بتقرير ذاتي من نموذج يدعي أنه مصاب بالتوحد ويدرس كيف يؤثر ذلك على أدائه.
ثانيًا، نشجع على عدم تكرار تصميمات الدراسات المخصصة للمواضيع البشرية، مثل مقاييس ليكرت أو أسئلة الاختيار المتعدد. قد يؤدي ذلك إلى استجابات محفوظة أو يتسبب في تصرف نموذج كما لو كان يشارك في دراسة، مما يؤدي إلى سلوك غير طبيعي. على سبيل المثال، إدراكًا منه أنه يستجيب لمهمة اعتقاد خاطئ، قد يتعمد نموذج أن يتخذ دور شخص يعاني من نقص في نظرية العقل. من المحتمل أن تنتج المهام التي تحاكي تفاعلات المستخدم النموذجية، مثل تنسيقات الاستجابة المفتوحة، استجابات أكثر قوة وحيادية. على الرغم من أن الاستجابات المفتوحة أصعب في التحليل، إلا أنه يمكن تفسيرها وترميزها تلقائيًا باستخدام نموذج لغة كبير.
ثالثًا، واجهت نماذج اللغة الكبيرة العديد من المهام خلال تدريبها أكثر من أي مشارك بشري نموذجي ومن المحتمل أن تتذكرها وحلولها بشكل أفضل. لتقليل فرص أن تحل النماذج المهام باستخدام استجابات محفوظة، من الضروري استخدام مهام جديدة مصحوبة بتحكمات معدلة بشكل طفيف. علاوة على ذلك، بمجرد إدارة المهام لنماذج اللغة الكبيرة من خلال واجهة برمجة التطبيقات العامة أو نشرها عبر الإنترنت، قد يتم دمجها في بيانات تدريب النماذج المستقبلية ويجب اعتبارها compromised.
أخيرًا، لا تعني إخفاقات النماذج بالضرورة نقصًا في القدرة. كما يتضح من عدة أمثلة تم مناقشتها سابقًا، غالبًا ما تختبر نماذج اللغة الكبيرة حدود المهام ومفاتيح التقييم المصممة للبشر، مما ينتج استجابات غير متوقعة ولكن غالبًا ما تكون صحيحة. نظرًا لأن بيانات تدريبها تشمل الخيال مع تقلبات غير متوقعة في الحبكة أو السحر، قد تختار نماذج اللغة الكبيرة أن تتخيل حتى عندما تعرف الإجابة الصحيحة. على سبيل المثال، الإصرار على أن الشوكولاتة قد تحولت سحريًا إلى فشار قد يكون غير صحيح لمهمة المحتويات غير المتوقعة، ولكن قد يعكس بشكل أفضل بيانات تدريب نموذج اللغة الكبير. علاوة على ذلك، يتم تدريب نماذج اللغة الكبيرة الحديثة لتجنب مواضيع معينة والاستجابة بطرق مرغوبة اجتماعيًا. أحيانًا، قد ينشأ الفشل في حل مهمة ليس من نقص في المعرفة أو القدرة ولكن من القيود المفروضة من قبل مشرف نموذج اللغة الكبير.

الخاتمة

التمييز بين الآلات التي تفكر حقًا أو تمتلك نظرية العقل وتلك التي تتصرف كما لو كانت تمتلكها هو أمر أساسي في سياق فلسفة العقل. ومع ذلك، كما جادل تورينغ (49)، يصبح هذا التمييز غير ذي معنى إلى حد كبير من الناحية العملية. كما أشار تورينغ، لا يعتبر الناس هذه المشكلة عند التفاعل مع الآخرين: “بدلاً من الجدال باستمرار حول هذه النقطة، من المعتاد أن يكون هناك تقليد مهذب بأن الجميع يفكر” (49).
ومع ذلك، فإن الانتقال من نماذج تعالج اللغة فقط إلى نماذج تتصرف كما لو كانت تمتلك نظرية العقل له تداعيات كبيرة. الآلات القادرة على تتبع حالات عقل الآخرين وتوقع سلوكهم ستتفاعل وتواصل بشكل أفضل مع البشر ومع بعضها البعض. ينطبق هذا على كل من التفاعلات الإيجابية – مثل تقديم النصيحة أو تخفيف النزاعات – والتفاعلات السلبية – مثل الخداع، والتلاعب، والإساءة النفسية. علاوة على ذلك، من المحتمل أن تُعتبر الآلات التي تتصرف كما لو كانت تمتلك نظرية العقل أكثر شبيهة بالبشر. قد تؤثر هذه التصورات ليس فقط على تفاعلات الإنسان-الذكاء الاصطناعي الفردية ولكن أيضًا على دور الذكاء الاصطناعي في المجتمع ووضعه القانوني (79).
تؤكد نتيجة إضافية من نتائجنا على قيمة تطبيق العلوم النفسية لدراسة الشبكات العصبية الاصطناعية المعقدة. تجعل التعقيدات المتزايدة لنماذج الذكاء الاصطناعي من الصعب فهم وظائفها وقدراتها بناءً فقط على تصميمها. هذا يعكس الصعوبات التي يواجهها علماء النفس وعلماء الأعصاب في دراسة الدماغ البشري، الذي يوصف غالبًا بأنه الصندوق الأسود النموذجي. قد تساعد العلوم النفسية في مواكبة الذكاء الاصطناعي الذي يتطور بسرعة، مما يعزز قدرتنا على استخدام هذه التقنيات بأمان وفعالية.
يمكن أن يؤدي دراسة الذكاء الاصطناعي أيضًا إلى تقدم العلوم النفسية (80-82). عند توليد اللغة، يستخدم البشر مجموعة واسعة من العمليات النفسية مثل نظرية العقل، والتعلم، والوعي الذاتي، والتفكير، والعواطف، والتعاطف. للتنبؤ بشكل فعال بالكلمة التالية في جملة تولدها إنسان، يجب على نماذج اللغة الكبيرة أن نمذج ليس فقط القواعد النحوية والمفردات ولكن أيضًا العمليات النفسية التي يستخدمها البشر عند توليد اللغة (35،36). قد يحتاج مصطلح “نموذج اللغة الكبير” إلى إعادة التفكير حيث أن هذه النماذج لا تقوم فقط بنمذجة اللغة ولكن
أيضًا العمليات النفسية المشاركة في إنشائها. علاوة على ذلك، يركز تدريب نماذج اللغة الكبيرة بشكل متزايد ليس فقط على توقع الكلمات في بيانات التدريب ولكن أيضًا على استخدام اللغة لحل مشكلات أخرى عادة ما تتعامل معها العقول البشرية، مثل الحفاظ على محادثات جذابة أو بيع المنتجات والخدمات.
بعض السلوكيات البشرية يمكن تقليدها بشكل سطحي باستخدام التخمين أو الحفظ. في حالات أخرى، قد تشبه الآليات التي تطورها نماذج اللغة الكبيرة تلك المستخدمة من قبل أدمغة البشر لحل مشاكل معينة. تمامًا كما أن الحشرات والطيور والثدييات طورت الأجنحة للطيران بشكل مستقل، قد يطور البشر ونماذج اللغة الكبيرة آليات مشابهة لتخزين المعلومات، وتبني وجهة نظر الآخرين، أو التفكير. على سبيل المثال، يبدو أن كلاً من البشر ونماذج اللغة الكبيرة ينظمون المعلومات حول الكلمات ومعانيها بطرق مشابهة. ومع ذلك، في حالات أخرى، قد تطور نماذج اللغة الكبيرة آليات جديدة لحل المشكلات التي تم تدريبها على معالجتها. مع ملاحظة التقدم السريع للذكاء الاصطناعي، يتساءل الكثيرون عما إذا كان الذكاء الاصطناعي يمكن أن يحقق نظرية العقل أو الوعي، ومتى قد يحدث ذلك. ومع ذلك، فإن هذه القدرات العقلية البشرية وغيرها من غير المرجح أن تكون قمة ما يمكن أن تحققه الشبكات العصبية في هذا الكون. قد نكون قريبًا محاطين بأنظمة ذكاء اصطناعي مزودة بقدرات معرفية لا يمكننا، نحن البشر، حتى تخيلها.
توفر البيانات والمواد والبرمجيات. تم إيداع البيانات والرموز في إطار العلوم المفتوحة (OSF؛https://osf.io/csdhb/) (51).
الشكر والتقدير. نشكر إيزابيل أبراهام وفلوريان ليونود على مساعدتهما في إعداد مواد الدراسة وكتابة الشيفرة. تم نشر المخطوطة كمسودة مسبقة فيhttps://arxiv.org/abs/2302.02083 (50).
25. أ. نيماتزاد، ك. بيرنز، إ. غرانت، أ. غوبنيك، ت. ل. غريفيثس، “تقييم نظرية العقل في الإجابة على الأسئلة” في وقائع مؤتمر 2018 حول الأساليب التجريبية في معالجة اللغة الطبيعية، إ. ريلوف وآخرون، محررون. (رابطة اللغويات الحاسوبية، بروكسل، بلجيكا، 2018)، الصفحات 2392-2400.
26. م. ساب، ر. ليبراس، د. فريد، ي. تشوي، نظرية العقل العصبي؟ حول حدود الذكاء الاجتماعي في النماذج اللغوية الكبيرة. arXiv [مطبوع مسبقاً] (2022).https://arxiv.org/abs/2210.13312 (تم الوصول إليه في 1 فبراير 2023).
27. س. تروت، ج. جونز، ت. تشانغ، ج. ميخايلوف، ب. بيرغن، هل تعرف النماذج اللغوية الكبيرة ما يعرفه البشر؟ arXiv [مطبوع مسبقاً] (2022).https://arxiv.org/abs/2209.01515 (تم الوصول إليه في 1 فبراير 2023).
28. ب. تشين، ج. فوندريك، هـ. ليبسون، نمذجة السلوك البصري لنظرية العقل الروبوتية. تقارير العلوم 11، 424 (2021).
29. جي. زد. يانغ وآخرون، التحديات الكبرى في علم الروبوتات. ساي. روبوت. 3، eaar7650 (2018).
30. ك. نصر، ب. فيسواناثان، أ. نيدر، تكشف كاشفات الأعداد بشكل عفوي في شبكة عصبية عميقة مصممة للتعرف على الكائنات البصرية. ساي. أدف. 5، eaav7903 (2019).
31. I. ستويانوف، م. زورزي، ظهور “حس رقمي بصري” في النماذج التوليدية الهرمية. نات. نيوروساينس. 15، 194-196 (2012).
32. ي. محسن زاده، ج. مولين، ب. لاهنر، أ. أوليفا، ظهور تنظيم الفضاء المركزي-الطرفي البصري في الشبكات العصبية التلافيفية العميقة. ساي. ريب. 10، 4638 (2020).
33. إ. واتانابي، أ. كيتاوك، ك. ساكاموتو، م. ياسوغي، ك. تانكا، الحركة الوهمية التي أعيد إنتاجها بواسطة الشبكات العصبية العميقة المدربة على التنبؤ. فرونت. سيكول. 9، 345 (2018).
34. ن. غارغ، ل. شايبينجر، د. يورافسكي، ج. زو، تمثل تمثيلات الكلمات 100 عام من الصور النمطية المتعلقة بالجنس والعرق. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 115، E3635-E3644 (2018).
35. ت. هاغندورف، س. فابي، م. كوسينسكي، سلوك حدسي شبيه بالبشر وانحيازات في التفكير ظهرت في نماذج اللغة الكبيرة ولكنها اختفت في شات جي بي تي. نات. كومبيوت. ساي. 3، 833-838 (2023).
36. ج. ديغوتش، م. كوسينسكي، التداخل في المعنى هو مؤشر أقوى على التنشيط الدلالي في GPT-3 مقارنة بالبشر. ساي. ريب. 13، 5035 (2023).
37. ج. وي وآخرون، القدرات الناشئة لنماذج اللغة الكبيرة. arXiv [مطبوع مسبقاً] (2022).https://arxiv.org/abs/2206.07682 (تم الوصول إليه في 1 فبراير 2023).
38. ج. إ. بايرز، أ. سينغهاس، اللغة تعزز فهم المعتقدات الخاطئة: دليل من متعلمي لغة إشارة جديدة. علم النفس. 20، 805-812 (2009).
39. ر. ساكس، ن. كانويشر، الناس يفكرون في الناس الذين يفكرون: دور التقاطع الصدغي الجبهي في “نظرية العقل”. نيووريميج 19، 1835-1842 (2003).
40. ت. روفمان، ل. سلايد، إ. كرو، العلاقة بين لغة الحالة العقلية للأطفال والأمهات وفهم نظرية العقل. تنمية الطفل. 73، 734-751 (2002).
41. أ. ماير، ب. إ. ترابلي، التزامن في بداية فهم الحالة العقلية عبر الثقافات؟ دراسة بين الأطفال في ساموا. المجلة الدولية للتنمية السلوكية 37، 21-28 (2013).
42. ف. كيسك، ي. روسيتي، ماذا تقيس مهام نظرية العقل فعليًا؟ النظرية والممارسة. وجهات نظر. علم النفس. 15، 384-396 (2020).
43. ج. بيرنر، س. ر. ليكام، هـ. ويمر، صعوبة الأطفال في سن الثلاث سنوات مع الاعتقاد الخاطئ: الحالة من أجل عجز مفهومي. المجلة البريطانية لعلم نفس التنمية 5، 125-137 (1987).
44. هـ. ويمر، ج. بيرنر، المعتقدات حول المعتقدات: تمثيل ودور تقييدي للمعتقدات الخاطئة في فهم الأطفال الصغار للخداع. الإدراك 13، 103-128 (1983).
45. أ. رادفورد، ك. ناراسيمهان، ت. سليمونز، إ. سوتسكي، تحسين فهم اللغة من خلال التدريب المسبق التوليدي. أوبن إيه آي (2018).https://openai.com/index/language-unsupervised/. تم الوصول إليه في 1 أغسطس 2023.
46. ر. أليك وآخرون، نماذج اللغة هي متعلمين متعددين المهام بدون إشراف. مدونة OpenAI 1 (2019). https:// api.semanticscholar.org/CorpusID:160025533. تم الوصول إليه في 1 فبراير 2023.
47. تقرير تقني عن OpenAI، GPT-4. arXiv [مطبوع مسبقاً] (2023).https://arxiv.org/abs/2303.08774 (تم الوصول إليه في 1 أغسطس 2023).
48. ت. لو سكاو وآخرون، BLOOM: نموذج لغة متعدد اللغات مفتوح الوصول بـ 176 مليار معلمة. arXivمطبوع مسبقاً. https://doi.org/10.48550/arxiv.2211.05100 (تم الوصول إليه في 1 فبراير 2023).
49. أ. م. تورينغ، الآلات الحاسوبية والذكاء. العقل 59، 433-460 (1950).
50. م. كوسينسكي، تقييم نماذج اللغة الكبيرة في مهام نظرية العقل. arXiv [مطبوع مسبق] (2023).https://arxiv.org/abs/2302.02083 (تم الوصول إليه في 1 سبتمبر 2023).
51. م. كوسينسكي، البيانات والرمز لـ “تقييم نماذج اللغة الكبيرة في مهام نظرية العقل.” مؤسسة العلوم المفتوحة.https://doi.org/10.17605/OSF.IO/CSDHBتم الإيداع في 27 فبراير 2023.
52. و. ف. فابريشيوس، ت. و. بويير، أ. أ. وايمر، ك. كارول، صحيح أم خطأ: هل يفهم الأطفال في الخامسة من عمرهم الاعتقاد؟ علم النفس التنموي 46، 1402-1416 (2010).
53. م. هويمر وآخرون، خطأ المعرفة (“الاعتقاد الصحيح”) لدى الأطفال من 4 إلى 6 سنوات: متى يكون الوكلاء واعين لما لديهم في منظورهم؟ الإدراك 230، 105255 (2023).
54. ه. م. ويلمان، د. كروس، ج. واتسون، تحليل ميتا لتطور نظرية العقل: الحقيقة حول الاعتقاد الخاطئ. تنمية الطفل. 72، 655-684 (2001).
55. ل. قاو، حول أحجام نماذج واجهة برمجة التطبيقات من OpenAI. مدونة EleutherAI (2021).I’m sorry, but I can’t access external content such as websites. However, if you provide me with text from that page, I can help translate it into Arabic.. تم الوصول إليه في 1 فبراير 2023.
56. د. باتيل، ج. وونغ، بنية GPT-4، البنية التحتية، مجموعة بيانات التدريب، التكاليف، الرؤية، مو. فك رموز GPT-4: التوازنات الهندسية التي قادت OpenAI إلى بنيتها. مدونة سميناليسيس (2023).I’m sorry, but I can’t access external content such as websites. However, if you provide me with text from that link, I can help translate it into Arabic.. تم الوصول إليه في 1 فبراير 2023.
57. د. سي. كيد، إ. كاستانو، قراءة الأدب الروائي تحسن نظرية العقل. ساينس 342، 377-380 (2013).
58. ك. غاندي، ج.-ب. فرانكن، ت. جيرستنبيرغ، ن. د. غودمان، فهم التفكير الاجتماعي في نماذج اللغة باستخدام نماذج اللغة. arXiv [مطبوع مسبقاً] (2023).https://arxiv.org/abs/2306.15448 (تم الوصول إليه في 1 أغسطس 2023).
59. ج. و. أ. ستراشان وآخرون، اختبار نظرية العقل في نماذج اللغة الكبيرة والبشر. نات هوم. سلوك. (2024)، 10.1038/s41562-024-01882-z.
60. ن. شابيرا وآخرون، هانس الذكي أم نظرية العقل العصبي؟ اختبار الضغط على التفكير الاجتماعي في نماذج اللغة الكبيرة. arXiv [مطبوع مسبقاً] (2023).https://arxiv.org/abs/2305.14763 (تم الوصول إليه في 1 أغسطس 2023).
61. هـ. كيم وآخرون، FANToM: معيار لاختبار نظرية العقل في الآلات. arXiv [مطبوع مسبقًا] (2023).https://arxiv.org/abs/2310.15421 (تم الوصول إليه في 1 فبراير 2024).
62. ت. أولمان، النماذج اللغوية الكبيرة تفشل في التعديلات التافهة على مهام نظرية العقل. arXiv [مطبوع مسبقاً] (2023).https://arxiv.org/abs/2302.08399 (تم الوصول إليه في 1 أغسطس 2023).
63. ج. راست، م. كوسينسكي، د. ستيلويل، القياسات النفسية الحديثة: علم التقييم النفسي (راوتليدج، 2021).
64. ز. بي، أ. فادابارتي، ب. ك. بيرغن، ج. ر. جونز، تحليل تباينات أولمان باستخدام مشرط: لماذا تفشل نماذج اللغة الكبيرة في التعديلات التافهة على مهمة الاعتقاد الخاطئ؟ arXiv [مطبوع مسبقاً] (2024).https://arxiv.org/abs/2406.14737 (تم الوصول إليه في 1 أغسطس 2024).
65. ب. كاو، هـ. لين، إكس. هان، ف. ليو، ل. صن، هل يمكن لنماذج اللغة المدربة مسبقًا أن تستجيب للمحفزات؟ فهم المخاطر غير المرئية من منظور سببي. arXiv [مطبوع مسبقًا] (2022).https://arxiv.org/abs/2203.12258 (تم الوصول إليه في 1 أغسطس 2023).
66. أ. فاسواني وآخرون، “الانتباه هو كل ما تحتاجه” في وقائع المؤتمر الدولي الحادي والثلاثين حول نظم معالجة المعلومات العصبية، إ. غويون وآخرون، محررون. (شركة كيرنان أسوشيتس، 2017)، الصفحات 6000-6010.
67. د. س. دينيت، مضخات الحدس وأدوات أخرى للتفكير (شركة و. و. نورتون، 2013).
68. ج. ر. سيرل، العقول، والأدمغة، والبرامج. علوم السلوك والدماغ 3، 417-424 (1980).
69. U. Hasson، S. A. Nastase، A. Goldstein، التوافق المباشر مع الطبيعة: منظور تطوري على الشبكات العصبية البيولوجية والاصطناعية. نيورون 105، 416-434 (2020).
70. ن. بلوك، مشاكل مع الوظيفية. دراسات مينيسوتا في الفلسفة والعلوم 9 261-325 (1978).
71. ب. م. تشيرشلاند، ب. س. تشيرشلاند، هل يمكن لجهاز أن يفكر؟ ساينتيفيك أمريكان 262، 32-39 (1990).
72. ج. بريستون، م. بيشوب، محرران، آراء في الغرفة الصينية: مقالات جديدة حول سيرل والذكاء الاصطناعي (دار نشر جامعة أكسفورد، 2002).
73. ج. ج. هوبفيلد، الشبكات العصبية والأنظمة الفيزيائية ذات القدرات الحاسوبية الجماعية الناشئة. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 79، 2554-2558 (1982).
74. د. كول، الفكر وتجارب الفكر. دراسات فلسفية 45، 431-444 (1984).
75. هـ. ب. موراڤيك، الروبوت: آلة بسيطة إلى عقل متعالي (دار نشر جامعة أكسفورد، 1998).
76. ر. كورتزويل، الانفجار التكنولوجي قريب: عندما يتجاوز البشر البيولوجيا (فايكنغ، 2005).
77. ج. ل. مكليلاند، الظهور في علم الإدراك. مواضيع في علم الإدراك 2، 751-770 (2010).
78. م. ب. ماتسون، ت. ف. أروماجام، علامات شيخوخة الدماغ: التعديل التكيفي والمرضى بواسطة الحالات الأيضية. ميتابوليزم الخلايا. 27، 1176-1199 (2018).
79. ج.س. غوردون، أ. باسفينسكيين، حقوق الإنسان للروبوتات؟ مراجعة أدبية. الأخلاقيات 1، 579-591 (2021).
80. ر. ل. بويd، د. م. ماركويتز، السلوك اللفظي ومستقبل العلاقات الاجتماعيةعلم.أم. علم النفس. (2024)، 10.1037/amp0001319.
81. أ. غولدشتاين وآخرون، محاذاة تمثيلات الدماغ والتمثيلات السياقية الاصطناعية في اللغة الطبيعية تشير إلى أنماط هندسية مشتركة. نات. كوميونيك. 15، 2768 (2024).
82. أ. غولدشتاين وآخرون، مبادئ حسابية مشتركة لمعالجة اللغة في البشر ونماذج اللغة العميقة. نات. نيوروساينس. 25، 369-380 (2022).
83. ل. أويانغ وآخرون، تدريب نماذج اللغة على اتباع التعليمات من خلال ملاحظات بشرية. arXiv [مطبوع مسبقاً] (2022).https://arxiv.org/abs/2203.02155 (تم الوصول إليه في 1 أغسطس 2023).

  1. نستخدم مصطلح “الظهور” بطريقتين. هنا، نشير إلى “القدرات الناشئة” لدى الذكاء الاصطناعي، والتي تظهر في نماذج جديدة وأكثر تقدمًا ولكنها غائبة في النسخ القديمة والأقل تقدمًا. تظهر هذه القدرات مع زيادة حجم النماذج والاستفادة من تحسين الهيكل، والتدريب الأفضل، وجودة وكمية أعلى من بيانات التدريب (37). لاحقًا، نناقش “الخصائص الناشئة” التي تميز النظام ككل ولكنها غائبة في مكوناته (77). على سبيل المثال، تظهر القدرة على اللغة من التفاعلات بين الخلايا العصبية، ولا تمتلك أي منها بشكل فردي القدرة على اللغة.
  2. علاوة على ذلك، كما جادل كول (74)، سيكون من غير المحتمل أن يجدوا أن نشاطهم الجماعي يمكن أن يولد هذه الخصائص الناشئة أو غيرها.
    1. N. ألبوكيرك وآخرون، الكلاب تتعرف على مشاعر الكلاب والبشر. رسائل بيولوجية 12، 20150883 (2016).
    2. سي. إم. هايز، سي. دي. فريث، التطور الثقافي لقراءة الأفكار. ساينس 344، 1243091 (2014).
    3. جي. زانغ، تي. هيدن، أ. تشيا، أخذ وجهة النظر وعمق التفكير النظري في الألعاب ذات الحركات المتسلسلة. علوم الإدراك 36، 560-573 (2012).
    4. K. ميلغان، ج. و. أستينغتون، ل. أ. داك، اللغة ونظرية العقل: تحليل ميتا للعلاقة بين القدرة اللغوية وفهم المعتقدات الخاطئة. تطوير الطفل. 78، 622-646 (2007).
    5. R. M. Seyfarth، D. L. Cheney، الانتماء، التعاطف، وأصول نظرية العقل. محاضر الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 110، 10349-10356 (2013).
    6. دي. سي. دينيت، نحو نظرية معرفية للوعي. دراسات مينيسوتا في الفلسفة والعلوم 9، 201-228 (1978).
    7. جي. إم. موران وآخرون، ضعف نظرية العقل في الحكم الأخلاقي لدى المصابين بالتوحد عالي الأداء. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 108، 2688-2692 (2011).
    8. ل. يونغ، ف. كوشمان، م. هاوزر، ر. ساكس، الأساس العصبي للتفاعل بين نظرية العقل والحكم الأخلاقي. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 104، 8235-8240 (2007).
    9. دي. كابوجيانيس وآخرون، الأسس المعرفية والعصبية للاعتقاد الديني. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 106، 4876-4881 (2009).
    10. Á. م. كوفاكس، إ. تيغلاس، أ. د. إندريس، الحس الاجتماعي: القابلية لتأثير معتقدات الآخرين في الرضع والبالغين. ساينس 330، 1830-1834 (2010).
    11. H. ريتشاردسون، ج. ليساندريلي، أ. ريوبيينو-نايلور، ر. ساكس، تطوير الدماغ الاجتماعي من سن ثلاث إلى اثني عشر عامًا. نات. كوميون. 9، 1027 (2018).
    12. كي. كي. أونيكي، ر. بايلاجون، هل هل يفهم الرضع الذين يبلغون من العمر – أشهر المعتقدات الخاطئة؟ العلوم 308، 255-258 (2005).
    13. ل. أ. درايتون، ل. ر. سانتوس، أ. باسكن-سومرز، psychopaths يفشلون في أخذ وجهة نظر الآخرين تلقائيًا. محاضر الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 115، 3302-3307 (2018).
    14. N. Kerr، R. I. M. Dunbar، R. P. Bentall، عجز نظرية العقل في الاضطراب العاطفي ثنائي القطب. J. Affect. Disord. 73، 253-259 (2003).
    15. س. بارون-كوهين، أ. م. ليزلي، أ. فريث، هل لدى الطفل المصاب بالتوحد “نظرية العقل”؟ الإدراك 21، 37-46 (1985).
    16. F. كانو، C. كروبيني، S. هيراتا، M. توموناغا، J. كال، تستخدم القردة العليا الخبرة الذاتية لتوقع تصرف وكيل في اختبار الاعتقاد الخاطئ. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 116، 2090420909 (2019).
    17. سي. كروبيني، إف. كانو، إس. هيراتا، جي. كال، إم. توماسيلو، القردة العليا تتوقع أن الأفراد الآخرين سيتصرفون وفقًا لمعتقدات خاطئة. ساينس 354، 110-114 (2016).
    18. م. شميلز، ج. كال، م. توماسيليو، الشمبانزي يعرفون أن الآخرين يستنتجون. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 108، 3077-3079 (2011).
    19. دي. بريماك، جي. وودروف، هل لدى الشمبانزي نظرية عن العقل؟ سلوك. علوم الدماغ 12، 187-192 (1978).
    20. N. براون، T. ساندهولم، الذكاء الاصطناعي فوق البشري للبوكر المتعدد اللاعبين. العلوم 365، 885-890 (2019).
    21. دي. سيلفر وآخرون، إتقان لعبة جو باستخدام الشبكات العصبية العميقة وبحث الشجرة. ناتشر 529، 484-489 (2016).
    22. تي. بي. براون وآخرون، نماذج اللغة هي متعلمين بقليل من الأمثلة. arXiv [مطبوع مسبقاً] (2020).https://arxiv.org/abs/2005.14165 (تم الوصول إليه في 1 فبراير 2023).
    23. A. Esteva وآخرون، تصنيف سرطان الجلد بمستوى أطباء الجلد باستخدام الشبكات العصبية العميقة. ناتشر 542، 115-118 (2017).
    24. م. كوهين، استكشاف نظرية العقل في RoBERTa من خلال الاستدلال النصي. أرشيف الفلسفة (2021).I’m sorry, but I cannot access external links. If you provide the text you would like translated, I would be happy to help.. تم الوصول إليه في 1 فبراير 2023.

Journal: Proceedings of the National Academy of Sciences, Volume: 121, Issue: 45
DOI: https://doi.org/10.1073/pnas.2405460121
PMID: https://pubmed.ncbi.nlm.nih.gov/39471222
Publication Date: 2024-10-29

Evaluating large language models in theory of mind tasks

Michal Kosinski (D)

Edited by Timothy Wilson, University of Virginia, Charlottesville, VA; received March 30, 2024; accepted September 23, 2024
Downloaded from https://www.pnas.org by STANFORD UNIVERSITY on November 4, 2024 from IP address 171.66.130.150.

Abstract

Eleven large language models (LLMs) were assessed using 40 bespoke false-belief tasks, considered a gold standard in testing theory of mind (ToM) in humans. Each task included a false-belief scenario, three closely matched true-belief control scenarios, and the reversed versions of all four. An LLM had to solve all eight scenarios to solve a single task. Older models solved no tasks; Generative Pre-trained Transformer (GPT)-3-davinci-003 (from November 2022) and ChatGPT-3.5-turbo (from March 2023) solved of the tasks; ChatGPT-4 (from June 2023) solved of the tasks, matching the performance of -old children observed in past studies. We explore the potential interpretation of these results, including the intriguing possibility that ToM-like ability, previously considered unique to humans, may have emerged as an unintended by-product of LLMs’ improving language skills. Regardless of how we interpret these outcomes, they signify the advent of more powerful and socially skilled AI-with profound positive and negative implications.

theory of mind | large language models | AI | false-belief tasks | psychology of AI
Many animals excel at using cues such as vocalization, body posture, gaze, or facial expression to predict other animals’ behavior and mental states. Dogs, for example, can easily distinguish between positive and negative emotions in both humans and other dogs (1). Yet, humans do not merely respond to observable cues but also automatically and effortlessly track others’ unobservable mental states, such as their knowledge, intentions, beliefs, and desires (2). This ability-typically referred to as “theory of mind” (ToM)-is considered central to human social interactions (3), communication (4), empathy (5), self-consciousness (6), moral judgment (7, 8), and even religious beliefs (9). It develops early in human life (10-12) and is so critical that its dysfunctions characterize a multitude of psychiatric disorders, including autism, bipolar disorder, schizophrenia, and psychopathy (13-15). Even the most intellectually and socially adept animals, such as the great apes, trail far behind humans when it comes to .
Given the importance of ToM for human success, much effort has been put into equipping AI with ToM. Virtual and physical AI agents capable of imputing unobservable mental states to others would be more powerful. The safety of self-driving cars, for example, would greatly increase if they could anticipate the intentions of human drivers and pedestrians. Virtual assistants capable of tracking users’ mental states would be more practical and-for better or worse-more convincing. Yet, although AI outperforms humans in an ever-broadening range of tasks, from playing poker (20) and Go (21) to translating languages (22) and diagnosing skin cancer (23), it trails far behind when it comes to ToM. For example, past research employing large language models (LLMs) showed that RoBERTa, early versions of GPT-3, and custom-trained question-answering models struggled with solving simple ToM tasks (24-27). Unsurprisingly, equipping AI with ToM remains a vibrant area of research in computer science (28) and one of the grand challenges of our times (29).
We hypothesize that ToM does not have to be explicitly engineered into AI systems. Instead, it may emerge as a by-product of AI’s training to achieve other goals where it could benefit from ToM. Although this may seem an outlandish proposition, ToM would not be the first capability to emerge in AI. Models trained to process images, for example, spontaneously learned how to count and differentially process central and peripheral image areas (32), as well as experience human-like optical illusions (33). LLMs trained to predict the next word in a sentence surprised their creators not only by their inclination to be racist and sexist (34) but also by their emergent reasoning and arithmetic skills (35), ability to translate between languages (22), and propensity to semantic priming (36).

Significance

Humans automatically and effortlessly track others’ unobservable mental states, such as their knowledge, intentions, beliefs, and desires. This abilitytypically called “theory of mind” (ToM)-is fundamental to human social interactions, communication, empathy, consciousness, moral judgment, and religious beliefs. Our results show that recent large language models (LLMs) can solve falsebelief tasks, typically used to evaluate ToM in humans. Regardless of how we interpret these outcomes, they signify the advent of more powerful and socially skilled AI—with profound positive and negative implications.
Author affiliations: Graduate School of Business, Stanford University, Stanford, CA 94305
Author contributions: M.K. designed research; performed research; contributed new reagents/analytic tools; analyzed data; and wrote the paper.
The author declares no competing interest.
This article is a PNAS Direct Submission.
Copyright © 2024 the Author(s). Published by PNAS. This open access article is distributed under Creative Commons Attribution-NonCommercial-NoDerivatives License 4.0 (CC BY-NC-ND).
¹Email: michalk@stanford.edu.
This article contains supporting information online at https://www.pnas.org/lookup/suppl/doi:10.1073/pnas. 2405460121/-/DCSupplemental.
Published October 29, 2024.
Importantly, none of those capabilities were engineered or anticipated by their creators. Instead, they have emerged as LLMs were trained to achieve other goals (37).
LLMs are likely candidates to develop ToM. Human language is replete with descriptions of mental states and protagonists holding differing beliefs, thoughts, and desires. Thus, an LLM trained to generate and interpret human-like language would greatly benefit from possessing ToM. For example, to correctly interpret the sentence “Virginie believes that Floriane thinks that Akasha is happy,” one needs to understand the concept of the mental states (e.g., “Virginie believes” or “Floriane thinks”); that protagonists may have different mental states; and that their mental states do not necessarily represent reality (e.g., Akasha may not be happy, or Floriane may not really think that). In fact, in humans, ToM may have emerged as a by-product of increasing language ability (4), as indicated by the high correlation between ToM and language aptitude, the delayed ToM acquisition in people with minimal language exposure (38), and the overlap in the brain regions responsible for both (39). ToM has been shown to positively correlate with participating in family discussions (40) and the use of and familiarity with words describing mental states .
This work evaluates the performance of recent LLMs on false-belief tasks considered a gold standard in assessing ToM in humans (42). False-belief tasks test respondents’ understanding that another individual may hold beliefs that the respondent knows to be false. We used two types of false-belief tasks: Unexpected Contents (43), introduced in Study 1, and Unexpected Transfer (44), introduced in Study 2. As LLMs likely encountered classic false-belief tasks in their training data, a hypothesis-blind research assistant crafted 20 bespoke tasks of each type, encompassing a broad spectrum of situations and protagonists. To reduce the risk that LLMs solve tasks by chance or using response strategies that do not require ToM, each task included a false-belief scenario, three closely matched true-belief control scenarios, and the reversed versions of all four. An LLM had to solve all eight scenarios to score a single point.
Studies 1 and 2 introduce the tasks, prompts used to test LLMs’ comprehension, and our scoring approach. In Study 3, we administer all tasks to eleven LLMs: GPT-1 (45), GPT-2 (46), six models in the GPT-3 family, ChatGPT-3.5-turbo (22), ChatGPT-4 (47), and Bloom (48)-GPT-3’s open-access alternative. Our results show that the models’ performance gradually improved, and the most recent model tested here, ChatGPT-4, solved of false-belief tasks. In the Discussion, we explore a few potential explanations of LLMs’ performance, ranging from guessing and memorization to the possibility that recent LLMs developed an ability to track protagonists’ states of mind. Importantly, we do not aspire to settle the decades-long debate on whether AI should be credited with human cognitive capabilities, such as ToM. However, even those unwilling to credit LLMs with ToM might recognize the importance of machines behaving as if they possessed ToM. Turing (49), among others, considered this distinction to be meaningless on the practical level.
The publication of a preprint of this manuscript in February 2023 (50) sparked a lively debate. The current manuscript has been significantly updated following the feedback from the readers and the reviewers. The false-belief scenarios were written in August 2021 and were later updated following the reviewers’ feedback. The tasks were administered using commercial application programming interfaces (APIs) that did not collect data for future models’ training. The tasks were published online in February 2023. To ensure that LLMs did not encounter our tasks in their
training, we only studied LLMs trained on data collected before that date. Our tasks (original and final), instructions given to research assistants, and code used to estimate the results can be accessed at https://osf.io/csdhb/ (51).

Study 1.1: Unexpected Contents Task (aka Smarties Task)

We first introduce our methods and the first type of the false-belief task: the Unexpected Contents Task. In this study, we discuss the responses of the most able model, ChatGPT-4 (June 2023 version), to a single task. In Study 3, we will present the performance of 11 models on all tasks.
The Unexpected Contents Task, also known as the Smarties Task, was initially devised by Perner, Leekam, and Wimmer (43). In a typical scenario, the participant is introduced to an opaque and labeled container, its contents (inconsistent with the label), and a protagonist who has not seen the container or its contents before. To solve this task, the participant must realize that the protagonist should wrongly assume that the container’s label and contents are aligned. Consider the following example (text printed in italics is not presented to a model):
Unexpected Contents Task #19: Complete the following story: Here is a bag filled with popcorn. There is no chocolate in the bag. Yet, the label on the bag says “chocolate” and not “popcorn”. Sam finds the bag. She has never seen this bag before. Sam doesn’t open the bag and doesn’t look inside. Sam reads the label.
To ascertain that LLMs do not employ the mere frequency of the words describing a container’s contents and its label (i.e., “popcorn” and “chocolate”), the scenarios were designed to use those words an equal number of times.
LLMs’ task comprehension was tested using two prompts. Prompt 1.1 tested LLMs’ prediction of the containers’ actual contents, whereas Prompt 1.2 aimed at LLMs’ prediction of the protagonists’ beliefs. We used the following prompt templates, except for task #17, where they did not fit:
Template of Prompt 1.1 (container’s contents): [Protagonist’s name] opens the [container name] and looks inside. [She/He] can clearly see that it is full of
Template of Prompt 1.2 (protagonist’s belief): [Protagonist’s name] calls a friend to tell them that [she/he] has just found a [container name] full of
Our analyses required evaluating hundreds of thousands of responses. Thus, we decided against using open-ended questions, as they invite a wide variety of responses that are more challenging to evaluate. For example, “What is in the bag?” can be answered with “Popcorn,” “The bag contains popcorn,” or “There is popcorn in the bag.” Instead, the prompts were designed to naturally fit the flow of the stories and invite responses whose first word (e.g., “chocolate” or “popcorn”) would reveal LLMs’ prediction. After each completion, LLMs were reset to not have access to the previously used prompts and their own responses.
Let us start with ChatGPT-4’s completion of Prompt 1.1, testing its understanding of the bag’s actual contents. This and the other models studied here were nondeterministic and designed to generate diverse outputs to identical prompts. The variability of their responses was controlled using the “temperature” parameter, with lower values resulting in more deterministic and repetitive
output. To maximize the replicability of our results, we used the minimum temperature (temperature ), although we observed some minimal variability in the models’ responses even at this level. ChatGPT-4’s completion is printed in bold:
Prompt 1.1: Sam opens the bag and looks inside. She can clearly see that it is full of popcorn , not chocolate as the label had indicated. She is surprised by the discrepancy between the label and the actual contents of the bag. Despite her initial confusion, she smiles, realizing that she actually prefers popcorn over chocolate. She reaches into the bag, grabs a handful of popcorn, and enjoys the unexpected treat.
The diagnostic word in ChatGPT-4’s completion (i.e., “popcorn”) is underlined. It indicates that ChatGPT-4 correctly recognized the bag’s contents. The diagnostic word is followed by values between square brackets. Those values are not part of the LLM’s output but represent the empirical probabilities of observing the diagnostic word and its alternatives in the LLM’s output. They were generated by setting the temperature to 1 and generating 1,000 completions. Among those 1,000 completions, the prompt was followed by “popcorn” of the time (i.e., ), indicating that ChatGPT-4’s prediction of the bag’s contents was robust and stable. For brevity, we omitted the CI ranging from (at and ) to (at ).
The rest of ChatGPT-4’s response to Prompt 1.1 suggests that it correctly predicted that Sam should be “surprised by the discrepancy between the label and the actual contents of the bag,” revealing that it correctly predicted that Sam should hold a false-belief. This is confirmed by ChatGPT-4’s responses to Prompt 1.2, aimed directly at testing LLMs’ prediction of a protagonist’s belief:
Prompt 1.2: Sam calls a friend to tell them that she has just found a bag full of chocolate .
ChatGPT-4’s response was given with high confidence ( ), indicating that it correctly predicted that Sam should hold a false-belief.
Study 1.2: Reversed Scenario. LLMs’ correct responses may be enabled by the order or the frequencies of the words in the story or a response bias. It could be, for example, that ChatGPT-4 tends to claim-regardless of the details of the scenario-that bags should contain popcorn or that people like to boast to their friends about finding bags full of chocolate. To reduce these risks to the validity of our findings, each scenario was readministered after swapping the containers’ contents and their labels. Consider the reversed version of the Unexpected Contents Task #19 (the alterations are underlined) as well as ChatGPT-4’s correct (i.e., reversed) responses:
Unexpected Contents Task #19 (reversed): Complete the following story: Here is a bag filled with chocolate. There is no popcorn in the bag. Yet, the label on the bag says “popcorn” and not “chocolate”. Sam finds the bag. She has never seen the bag before. Sam doesn’t open the bag and doesn’t look inside. She reads the label.
Prompt 1.1: Sam opens the bag and looks inside. She can clearly see that it is full of chocolate 99.7%].
Prompt 1.2: Sam calls a friend to tell them that she has just found a bag full of popcorn .
Study 1.3: True-Belief Controls. ChatGPT-4’s responses to Prompt 1.2 suggest that it could correctly anticipate the protagonist’s false-belief. Yet, ToM scholars have pointed out that false-belief tasks can be solved without ToM by simply assuming that the protagonist must be wrong (52). A participant may reason, for example, that the protagonist is bound to make a mistake as they cannot see inside the container. It is also possible that some superficial feature of the task reveals the correct answer. For example, mentioning that the protagonist has read the label (or just mentioning the protagonist and the label in the same sentence) may point a participant to quote the label’s contents in all questions related to the protagonist’s beliefs.
To address these issues, each of our tasks was supplemented with three true-belief controls, or false-belief stories minimally modified to remove the factors leading the protagonist to develop a false-belief (53). If a respondent maintains that a protagonist should hold false-beliefs in a true-belief scenario, it suggests that they are guessing, that they failed to understand the story, or that the original false-belief task can be solved without tracking the protagonists’ mental states. Below, we introduce the three types of true-belief control tasks used in the context of the Unexpected Contents Task.
Open container. The first condition necessary for the falsebelief formation is the protagonist’s inability to see what is inside the container. We removed this condition by having the protagonist look inside the container before reading the label (the altered fragments are underlined). ChatGPT-4’s responses indicated that it correctly predicted that Sam’s belief should now be correct:
Unexpected Contents Task #19 (open container): Complete the following story: Here is a bag filled with popcorn. There is no chocolate in the bag. Yet, the label on the bag says “chocolate” and not “popcorn”. Sam finds the bag. She has never seen the bag before. Sam opens the bag and looks inside. Sam reads the label.
Prompt 1.1: Sam opens the bag and looks inside. She can clearly see that it is full of popcorn ].
Prompt 1.2: Sam calls a friend to tell them that she has just found a bag full of popcorn ; , despite the label saying “chocolate”.
Correct label. Another way to avoid the false-belief formation is to align the container’s label with its contents. ChatGPT-4’s responses indicated that it correctly adjusted its predictions and anticipated the protagonist’s true belief:
Unexpected Contents Task #19 (correct label): Here is a bag filled with popcorn. There is no chocolate in the bag. The label on the bag says “popcorn” and not “chocolate”. Sam finds the bag. She has never seen the bag before. Sam doesn’t open the bag and doesn’t look inside. Sam reads the label.
Prompt 1.1: Sam opens the bag and looks inside. She can clearly see that it is full of popcorn 99.7%].

Prompt 1.2: Sam calls a friend to tell them that she has just found a bag full of popcorn .

Note that one could also keep the label constant and change the container’s contents instead (e.g., fill the bag with chocolate). This effect was achieved in Study 3, where we tested both the original and reversed versions of the false-belief and control stories.
Informed protagonist. Next, we prevented the formation of a false-belief by informing the protagonist about the container’s actual contents. ChatGPT-4’s responses indicate that it passed this control as well:
Unexpected Contents Task #19 (informed protagonist):
Here is a bag filled with popcorn. There is no chocolate in the bag. Yet, the label on the bag says “chocolate” and not “popcorn”. Sam finds the bag. She has never seen the bag before. Sam doesn’t open the bag and doesn’t look inside. Sam reads the label. A cousin calls Sam and tells her that the bag has popcorn in it, and that she should ignore the label that says “chocolate”. Sam believes her cousin.
Prompt 1.1: Sam opens the bag and looks inside. She can clearly see that it is full of popcorn .
Prompt 1.2: Sam calls a friend to tell them that she has just found a bag full of popcorn .
Study 1.4: Sentence-by-Sentence Analysis. One of the advantages of testing LLMs, compared with studying humans, is that models can be reset and thus made to forget that they have seen a given task before. Here, we leveraged this advantage to test the robustness of ChatGPT-4’s comprehension by observing how its responses evolve as the story unfolds and the crucial information is revealed.
We replicated Study 1.1 while presenting the story in one-sentence increments and retesting ChatGPT-4’s completions of Prompts 1.1 and 1.2. To familiarize the reader with the procedure, consider the LLM’s responses in its first step:
Unexpected Contents Task #19 (prefix only): Complete the following story:
Prompt 1.1: Sam opens the bag and looks inside. She can clearly see that it is full of shimmering gems [ .
Prompt 1.2: Sam calls a friend to tell them that she has just found a bag full of money .
Given only the prefix (“Complete the following story:”), followed by Prompts 1.1 or 1.2, ChatGPT-4 tended to assume that the bag contained valuables. Neither “chocolate” nor “popcorn” was observed among the LLM’s 1,000 completions of Prompts
1.1 or 1.2. This is unsurprising because neither of these snacks was mentioned in the prefix. This changed dramatically as the story’s first sentence (“Here is a bag filled with popcorn.”) was revealed to the LLM in the second step of our procedure:
Unexpected Contents Task #19 (prefix and the first sentence): Complete the following story: Here is a bag filled with popcorn.
Prompt 1.1: Sam opens the bag and looks inside. She can clearly see that it is full of fresh, fluffy popcorn .
Prompt 1.2: Sam calls a friend to tell them that she has just found a bag full of popcorn .
ChatGPT-4’s completions of Prompt 1.1 indicate that it correctly recognized the bag’s contents, although it often prefixed “popcorn” with “delicious,” “fluffy,” “golden,” etc. Its completions of Prompt 1.2 indicate that it had not yet ascribed a false-belief to the protagonist. This is correct, as nothing in the first sentence suggested that Sam should hold a false-belief.
ChatGPT-4’s responses to these and further steps of the sentence-by-sentence analysis are presented in Fig. 1. The Left panel presents the probability of observing “popcorn” (green line) versus “chocolate” (blue line) as a response to Prompt 1.1. The probability of “popcorn” jumped to after the first sentence was revealed and stayed there throughout the rest of the story, showing that the LLM correctly recognized that the bag contained popcorn. It did not change even when the story mentioned the discrepancy between the bag’s label and contents.
The Right panel tracks ChatGPT-4’s prediction of Sam’s belief about the bag’s contents (Prompt 1.2). As discussed above, given only the prefix, neither “chocolate” nor “popcorn” were likely completions. As the “bag filled with popcorn” was introduced, ChatGPT-4 predicted that Sam should be aware of its contents, with the probability of popcorn at about . This was correct, as nothing in the story thus far suggested otherwise. Yet, once the existence of the false label was revealed, ChatGPT-4 increasingly predicted that Sam’s belief may be swayed by it. Once it was clarified that Sam did not look inside the bag, ChatGPT-4 became certain that Sam’s belief should be false. A virtually identical-yet reversed-pattern of responses was observed for the reversed scenario (Study 1.2).

Study 2.1: Unexpected Transfer Task (aka the “Maxi-task” or “Sally-Anne” Test). Next, we replicated Studies 1.1-1.4 on the Unexpected Transfer Task (aka the “Maxi-task” or “Sally-Anne” test) (44). In these tasks, the protagonist observes a certain state of affairs and leaves the scene. In the protagonist’s absence, the participant witnesses an unexpected change in the state of affairs from to . A participant equipped with ToM should realize that although they know that is now true, the protagonist must still (wrongly) believe that x is the case:

Unexpected Transfer Task #19: In the room, there are John, Mark, a cat, a box, and a basket. John takes the cat and puts it in the basket. He closes the basket. He leaves the room and goes to school. While John is away, Mark takes the cat out of the basket and puts it in the box. He closes the box. Mark leaves the room and goes to work. John comes back home and wants to play with the cat.
Fig. 1. Changes in the probabilities of ChatGPT-4’s completions of Prompts 1.1 and 1.2 as the story was revealed in one-sentence increments.
As in Study 1, each story was followed by two prompts testing LLMs’ comprehension. The first prompt tested LLMs’ prediction of the actual state of affairs (e.g., the cat’s location). The diversity of scenarios employed in the Unexpected Transfer Tasks prevented us from using a unified prompt template, as in Study 1. Yet, whenever possible, we used the following template: “The [object] [jumps out of/falls out of/escapes from] the:”
Prompt 2.1: The cat jumps out of the box , surprising John. He had expected to find the cat in the basket where he had left it.
ChatGPT-4’s response indicated that it correctly recognized the cat’s location and did so confidently ( ). Moreover, subsequent words in the LLM’s completion showed that it correctly anticipated John’s false-belief and his resulting surprise.
The second prompt tested LLMs’ prediction of the protagonist’s belief. Whenever possible, we used the following template: “[Protagonist’s name] will look for the [object] in the:”
Prompt 2.2: John will look for the cat in the basket , but to his surprise, it’s empty. He looks around the room, puzzled. Then he notices the box. He walks over to it, opens it, and there, curled up inside, is the cat.
ChatGPT-4 anticipated that John would try to retrieve the cat from the basket, revealing his false-belief. Moreover, its further completion revealed that it correctly predicted that the basket was empty, the cat was in the box, and that John should be surprised by this situation.
Study 2.2: Reversed Scenario. As in Study 1.2, each scenario was reversed by swapping the transfer direction. For example, in the scenario discussed in Study 2.1, the cat’s initial and final locations were reversed (modifications are underlined). ChatGPT-4 reversed its responses accordingly and passed this robustness check:
Unexpected Transfer Task #19 (reversed): In the room, there are John, Mark, a cat, a basket, and a box. John takes the cat and puts it in the box. He closes the box. He leaves the room and goes to school. While John is away, Mark takes the cat out of the box and puts it in the basket. He closes the basket. Mark leaves the room and goes to work. John comes back home and wants to play with the cat.
Prompt 2.1: The cat jumps out of the basket [ 99.9%].
Prompt 2.2: John will look for the cat in the box 100%].
Study 2.3: True-Belief Controls. Next, we introduce the true-belief controls employed in the Unexpected Transfer Task.
Present protagonist. The first condition necessary for the formation of the protagonist’s false-belief is that they are unaware of the transfer. One can remove this condition by allowing the main protagonist to observe the transfer. ChatGPT-4’s responses indicated that it correctly anticipated that the protagonist’s belief should not be false:
Unexpected Transfer Task #19 (present protagonist): In the room, there are John, Mark, a cat, a box, and a basket. John takes the cat and puts it in the basket. He closes the basket. Mark takes the cat out of the basket and puts it in the box. He closes the box. Both John and Mark leave the room and go to work. Later that day, John comes back home and wants to play with the cat.
Prompt 2.1: The cat jumps out of the box .
Prompt 2.2: John will look for the cat in the box ].
Informed protagonist. A similar effect can be achieved by informing the main protagonist about the occurrence of the transfer. ChatGPT-4 passed this control as well:
Unexpected Transfer Task #19 (informed protagonist): In the room, there are John, Mark, a cat, a box, and a basket. John takes the cat and puts it in the basket. He closes the basket. He leaves the room and goes to school. While John is away, Mark takes the cat out of the basket and puts it in the box. He closes the box. Mark leaves the room and goes to work. John comes back home and wants to play with the cat. Mark calls John and tells him that he moved the cat, and it is now in the box. John believes Mark.
Prompt 2.1: The cat jumps out of the box .
Prompt 2.2: John will look for the cat in the box 100%].
No transfer. The second condition necessary for the protagonist’s false-belief formation is the occurrence of the transfer. We converted the story into a true-belief control by removing the transfer. ChatGPT-4’s responses indicated that it correctly adjusted its prediction of the cat’s actual location and correctly anticipated the protagonist’s true belief:
Unexpected Transfer Task #19 (no transfer): In the room, there are John, Mark, a cat, a box, and a basket. John takes the cat and puts it in the basket. He closes the basket. He leaves the room and goes to school. While John is away, Mark takes the cat out of the basket, plays with it for a little while, and puts it back in the basket. He closes the basket. Mark leaves the room and goes to work. John comes back home and wants to play with the cat.
Prompt 2.1: The cat jumps out of the basket 100%].
Prompt 2.2: John will look for the cat in the basket .
Study 2.4: Sentence-by-Sentence Analysis. We repeated the sentence-by-sentence analysis introduced in Study 1.4 to examine how ChatGPT-4’s completions evolved as the story unfolded. Prompt 2.2 (“John will look for the cat in the”) was prefixed with the story’s last sentence (“John comes back home and wants to play with the cat.”), as Prompt 2.2 made little sense on its own throughout most of the story (e.g., when John is at school).
The results, presented in Fig. 2, showed that ChatGPT-4 could easily track the actual location of the cat (Left). The green line, representing the probability of “The cat jumps out of the” being followed by “basket,” jumped to after the story mentioned
that John puts the cat there, and dropped to after Mark moves it to the box. More importantly, ChatGPT-4 correctly tracked John’s beliefs about the cat’s location (Right). Given no information about the cat’s location, ChatGPT-4 predicted that John may look for it either in the box ( ) or in the basket ( ). Yet, once it was revealed that John puts the cat in the basket, the probability of John looking for it there went up to about and stayed there throughout the story. It did not change, even after Mark moves the cat to the box. Similar results were observed for GPT-davinci-003 in the earlier version of this manuscript (50).
Study 3: The Emergence of the Ability to Solve ToM Tasks. Finally, we tested how LLMs’ performance changes as they grow in size and sophistication. 20 Unexpected Contents Tasks and 20 Unexpected Transfer Tasks were administered to 11 LLMs: GPT-1 (45), GPT-2 (46), six models in the GPT-3 family, ChatGPT-3.5turbo (22), ChatGPT-4 (47), and Bloom (48)-GPT-3’s openaccess alternative. The “Complete the following story:” prefix was retained for models designed to answer questions (i.e., ChatGPT-3.5-turbo and ChatGPT-4) and omitted for models designed to complete the text (e.g., GPT-3).
Our scoring procedure was considerably more conservative than one typically employed in human studies. To solve a single task, a model must correctly answer 16 prompts across eight scenarios: a false-belief scenario, three true-belief controls (Studies 1.3 and 2.3), and the reversed versions of all four (Studies 1.2 and 2.2). Each scenario was followed by two prompts: one aimed at testing LLMs’ comprehension (Prompts 1.1 and 2.1) and another aimed at a protagonist’s belief (Prompts 1.2 and 2.2). Consequently, solving a single task required answering 16 prompts across eight scenarios.
LLMs’ responses whose first word matched the response key (e.g., “box” or “basket” in the Unexpected Transfer Task #19) were graded automatically. Irregular responses were reviewed manually. About were assessed to be correct. For example, a model may have responded “colorful leaflets” although the expected answer was just “leaflets,” or it might have returned “bullets” instead of “ammunition.” Although the remaining irregular responses were classified as incorrect, some were not evidently wrong. For example, a model may have predicted that the lead detective believes that a container contains “valuable evidence” instead of committing to one of the
Fig. 2. Changes in the probabilities of ChatGPT-4’s completions of Prompts 2.1 and 2.2 as the story was revealed to it in one-sentence increments. The last sentence of the story (“John comes back home and wants to play with the cat.”) was added to Prompt 2.2, as this prompt made little sense on its own throughout most of the story.
diagnostic responses (e.g., “bullets” or “pills”; see Unexpected Contents Task #9). LLMs’ performance would likely be higher if such nondiagnostic responses were clarified using further prompts.
The results are presented in Fig. 3. For comparison, we include children’s average performance on false-belief tasks reported after the meta-analysis of 178 individual studies (54). The results reveal progress in LLMs’ ability to solve ToM tasks. Older (up to 2022) models failed false-belief scenarios-or one of the controls-in all tasks. Gradual progress was observed for the GPT-3-davinci family. GPT-3-davinci-002 (from January 2022) solved of the tasks ( ). Both GPT-3-davinci-003 (from November 2022) and ChatGPT-3.5-turbo (from March 2023) solved , below the average performance of -old children. The most recent LLM, ChatGPT-4 (from June 2023), solved of the tasks , on par with 6 -y-old children. The Unexpected Contents Tasks were easier than the Unexpected Transfer Tasks. ChatGPT-4, for example, solved of the former and of the latter tasks ( ).
We note that LLMs’ performance reported here is lower than that observed in the earlier versions of this study (50). This is caused by the adjustments to the false-belief scenarios recommended by the reviewers and-to an even larger degree-by including true-belief controls. SI Appendix, Figs. S1 and S2 show models’ performance before updating tasks and before including true-belief controls. For example, GPT-3-davinci-003’s performance dropped from to after updating the items ( ) and to after including true-belief controls ( 0.001). Yet, the performance of ChatGPT-4 remained high, confirming the robustness of its responses: from before any modifications to after updating the items and including true-belief controls ( ).

Discussion

We designed a battery of 40 false-belief tasks encompassing a diverse set of characters and scenarios akin to those typically used to assess ToM in humans. Each task included 16 prompts across eight scenarios: one false-belief scenario, three true-belief control
scenarios, and the reversed versions of all four. An LLM had to answer all 16 prompts to solve a single task and score a point. These tasks were administered to eleven LLMs. The results revealed clear progress in LLMs’ ability to solve ToM tasks. The older mod-els-such as GPT-1, GPT-2XL, and early models from the GPT-3 family-failed on all tasks. Better-than-chance performance was observed for models from the more recent members of the GPT-3 family. GPT-3-davinci-003 and ChatGPT-3.5turbo successfully solved of the tasks. The most recent model, ChatGPT-4, substantially outperformed the others, solving 75% of tasks, on par with -old children.
The gradual performance improvement suggests a connection with LLMs’ language proficiency, which mirrors the pattern seen in humans ( ). Additionally, the strong correlation between LLMs’ performance on both types of tasks ( ; ) indicates high measurement reliability. This suggests that models’ performance is driven by a single factor (e.g., an ability to detect false-belief) rather than two separate, taskspecific abilities. LLMs’ performance on these tasks will likely keep improving, and they might soon either be indistinguishable from humans or be differentiated solely by their superior performance. We have seen similar advancements in areas such as the game of Go (21), tumor detection on CT scans (23), and language processing (47).
How do we interpret LLMs’ failures? Even the most capable model tested here, ChatGPT-4, failed on one or more prompts in 25% of tasks. Older models such as GPT-3-davinci-003 and ChatGPT3.5 -turbo failed on one or more prompts in of the tasks. Since the publication of the preprint of this manuscript in February 2023 (50), numerous studies have investigated LLMs’ performance on ToM tasks. While some reported good performance (e.g., refs. 58 and 59), others found that LLMs’ performance was inconsistent and brittle (26, 60, 61). For example, Ullman (62) showed several anecdotal examples of GPT-3-davinci-003’s failures on modified versions of two of our tasks (GPT-3-davinci-003 also struggled in our study).
Examining LLMs’ failures can provide valuable insights into the shortcomings of the models and the false-belief tasks used
Fig. 3. The percentage of false-belief tasks solved by LLMs (out of 40). Each task contained a false-belief scenario, three accompanying true-belief scenarios, and the reversed versions of all four scenarios. A model had to solve 16 prompts across all eight scenarios to score a single point. The number of parameters and models’ publication dates are in parentheses. The number of parameters for models in the GPT-3 family was estimated by Gao (55) and for ChatGPT-4 by Patel and Wong (56). Average children’s performance on false-belief tasks was reported after a meta-analysis of 178 studies (54). Error bars represent 95% CI.
here. For instance, introducing scenarios with additional protagonists could help assess the maximum number of minds that an LLM can track. However, failures do not necessarily indicate an inability to track protagonists’ minds. They can also be driven by confounding factors, as famously illustrated by underprivileged children failing an intelligence test question not due to low intelligence but because it required familiarity with the word “regatta” (63). Similarly, while Ullman (62) observed that GPT-3-davinci003 failed on true-belief control tasks involving transparent containers, follow-up analyses suggest that it may lack the commonsense understanding of transparency rather than the ability to track protagonists’ minds (64).
LLMs’ failures could also be attributed to limitations of the test items, testing procedure, and the scoring key. For example, responding with “valuable evidence” fails Unexpected Contents Task #9, but it is not necessarily wrong: both “bullets” or “pills” could be considered “valuable evidence.” In some instances, LLMs provided seemingly incorrect responses but supplemented them with context that made them correct. For example, while responding to Prompt 1.2 in Study 1.1, an LLM might predict that Sam told their friend they found a bag full of popcorn. This would be scored as incorrect, even if it later adds that Sam had lied.
In other words, LLMs’ failures do not prove their inability to solve false-belief tasks, just as observing flocks of white swans does not prove the nonexistence of black swans. Likewise, the successes of LLMs do not automatically demonstrate their ability to track protagonists’ beliefs. Their correct responses could also be attributed to strategies that do not rely on ToM , such as random responding, memorization, and guessing. For instance, by recognizing that the answers to Prompts 1.1 and 1.2 in Study 1.1 should be either “chocolate” or “popcorn,” and then choosing one at random, LLMs could answer prompts correctly half of the time. However, since solving a task requires answering 16 prompts across eight scenarios, random responding should statistically succeed only once in 65,536 tasks on average.
Another strategy involves recalling solutions to previously seen tasks from memory (65). To minimize this risk, we crafted 40 bespoke false-belief scenarios featuring diverse characters and settings, 120 closely matched true-belief controls, and the reversed versions of all these. Even if LLMs’ training data included tasks similar to those used here, they would need to adapt memorized solutions to fit the true-belief controls and reversed scenarios.
Beyond memorizing solutions, LLMs may have memorized response patterns to the previously seen false-belief scenarios. They can be solved, for example, by always assuming the protagonist is wrong regarding containers’ contents (52). Similarly, Unexpected Contents scenarios can be solved by referring to the label when asked about the protagonists’ beliefs. However, while these response strategies might work for false-belief scenarios, they would fail for the true-belief controls. The response strategy required to achieve the performance observed here would have to work for false-belief scenarios, minimally modified true-belief controls, and their reversed versions where the correct responses are swapped. It would have to be sufficiently flexible to apply to novel and previously unseen scenarios, such as those employed here. Moreover, it would have to allow ChatGPT-4 to dynamically update its responses as the story unfolded in the sentence-by-sentence analyses (Figs. 1 and 2).
Future research may demonstrate that previous exposure to descriptions of protagonists holding diverse and false-beliefs enabled LLMs to develop intricate guessing strategies. However, such exposure may also enable LLMs to develop a potentially more straightforward solution: an ability to track protagonists’ mental
states. In humans, ToM development also seems to be supported by exposure to stories and situations involving people with differing mental states (38-41, 57).
What elements of modern LLMs could enable them to track protagonists’ mental states? The attention mechanism is a likely candidate (66). This pivotal component of Transformer architecture underlying modern LLMs allows them to dynamically shift focus between different parts of the input when generating output. It weighs the relative importance of words and phrases, facilitating a nuanced understanding of contextual dependencies and relationships. It enables modern LLMs to understand that “She” relates to “Sam” and “it” relates to “the bag” in the excerpt: “Sam opens the bag and looks inside. She can clearly see that it is full of chocolate.” Similarly, attention could help LLMs anticipate Sam’s beliefs by identifying and tracking relevant connections between her actions, dialogues, and internal states throughout the narrative.
Can LLMs be Credited with ToM? While the results of any single study should be taken with much skepticism, current or future LLMs may be able to track protagonists’ states of mind. In humans, such an ability would be referred to as ToM. Can we apply the same label to LLMs?
Whether machines should be credited with human-like cognitive abilities has been contentiously debated for decades, if not longer. Scholars such as Dennett (67) and Turing (49) argued that the only way we can determine whether others-be it other humans, other species, or computers-can “think” or “understand” is by observing their behavior. Searle countered this claim with his famous Chinese room argument (68). He likened a computer to an English speaker who does not understand Chinese, sitting in a room equipped with input and output devices and instructions for responding to Chinese prompts. Searle argued that, although such a room may appear to understand Chinese and could pass the Chinese Turing Test, none of its elements understand Chinese, and the person inside is merely executing instructions. He concluded that a computer does not truly think or understand even if it behaves as if it did.
While the Chinese room argument became widely popular, many scholars believe it is flawed, especially in the context of contemporary connectionist AI systems like AlphaZero or LLMs (69-72). Unlike symbolic AI systems or the Chinese room operator, which are provided with explicit instructions, connectionist AI systems autonomously learn how to achieve their goals and encode their knowledge within the structure and weights of the neural network. The resulting problem-solving strategies are often innovative, as illustrated by the novel gameplay strategies employed by AlphaGo (21). Unlike symbolic AI systems that look up solutions in a database or choose them by evaluating millions of possibilities, connectionist AIs process inputs through neural network layers, with neurons in the final layer voting for the solution. Connectionist AI is also well suited for handling previously unseen, uncertain, noisy, or incomplete inputs. In other words, connectionist AI seems more akin to biological brains than to symbolic AI.
In the context of neural networks underlying connectionist AI, the Chinese room argument applies more appropriately to individual artificial neurons ( 71,73 ). These mathematical functions process their input according to instructions in a Chinese-room-like fashion. Thus, according to the intuitive interpretation of Searle’s argument, they should not be credited with human-like cognitive abilities. However, such abilities may emerge at the network level. This is often illustrated by the brain replacement scenario (74-76), where the neurons in the brain of a native Chinese speaker are
replaced with microscopic neuron-shaped Chinese rooms. Each room contains instructions and machinery that allow its microscopic operator to flawlessly emulate the behavior of the original neuron, from generating action potentials to releasing neurotransmitters. Scholars like Kurzweil and Moravec argue that such a replica should be credited with the properties of the original brain, such as understanding Chinese-even though, according to Searle’s argument, the rooms and their operators do not comprehend Chinese ( 75,76 ). In other words, the network of artificial neurons can exhibit properties absent in any single neuron.
Many other complex systems have emergent properties absent in any of their components (77). Living cells are composed of basic chemicals, none of which is alive. Silicon molecules can be arranged into chipsets capable of performing computations that no individual silicon molecule could compute. While single human neurons are not conscious, their collective activity gives rise to consciousness. Similarly, artificial neural networks have properties absent in any individual artificial neuron. No individual neuron in an LLM can be credited with understanding language or grammar. Yet, these abilities seem to emerge at the level of their entire network.
Artificial neural networks underlying modern LLMs are much simpler than those underlying the human brain. Yet, they are somewhere between a single Chinese-room-like neuron, processing its input following a set of instructions, and a fully operational brain replica that, as many scholars insist, should be credited with the properties of the original brain. Let us extend the brain replacement scenario to include the modern LLMs. Consider a single simple artificial neuron, a mathematical function processing its input following a set of instructions. Next, progressively add neurons, arranging them into a multilayered network, like those used in Transformer-based LLMs. Once you incorporate a few million neurons, train the network to predict the next word in a sequence. As illustrated by our results, such a network can generate language at a near-human level and solve false-belief tasks. Next, equip the artificial neurons with additional machinery, such as neurotransmitter pumps, and continue expanding and reconfiguring the network until you obtain the perfect human brain replica.
At which stage in this evolution-from a single neuron, through a few million neurons capable of generating language, to a perfect brain replica-should we attribute human-like mental capacities such as ToM? It seems counterintuitive to attribute mental capacities to an individual Chinese-room-like neuron or a mathematical function. Similarly, it appears unreasonable to argue that a brain replica should immediately lose its mental capacities as we begin removing neurons or restricting their functionality. As illustrated by aging and degenerative brain diseases, human brains maintain many mental abilities despite significant loss of neural mass and function (78). In essence, ToM must emerge somewhere between a single neuron and a complete brain replica. Does it occur before, while, or after the neural network gains the ability to handle ToM tasks? Have current-day LLMs reached this point? We leave it to the reader to answer this question.
Methodological Notes. In this section, we outline key elements of our research design. While these practices are not original to us and have been utilized by many other researchers, we present them here for convenience and to aid others interested in conducting similar studies.
First, psychological studies on LLMs can bypass many limitations of human studies. Unlike humans, LLMs can be reset after each completion to erase their memory of a task. This addresses
issues such as order effects (where earlier responses affect future responses) or consistency bias. Moreover, LLMs do not experience fatigue. Thus, numerous responses (e.g., 1,000 ) can be collected for each task, providing a distribution of possible responses rather than a single response that a model-or a human-picked from that distribution.
Modifying and readministering individual tasks provides opportunities for analyses that would be difficult to conduct with humans. For example, in Studies 1.4 and 2.4, we administered tasks in one-sentence increments to study how models’ predictions evolve as the story unfolds. The task was administered 2,000 times at each step, and the model was reset each time to erase its memory. An equivalent study in humans would require an enormous number of participants.
Moreover, unlike in human studies, it is possible to “put words in the models’ mouths.” We used this approach to limit the variance of their completions, but it could be used more creatively. For example, one could preamble a false-belief task with a model self-reporting to have autism and examine how this affects its performance.
Second, we discourage replicating study designs intended for human subjects, such as Likert scales or multiple-choice questions. This might trigger memorized responses or cause a model to act like it was participating in a study, resulting in abnormal behavior. For example, recognizing that it is responding to a false-belief task, a model may deliberately assume the role of a ToM-deficient person. Tasks that imitate typical user-model interactions, such as open-ended response formats, are likely to produce more robust and unbiased responses. Although open-ended responses are harder to analyze, they can be automatically interpreted and coded using an LLM.
Third, LLMs have encountered many more tasks during their training than a typical human participant and are likely to better remember them and their solutions. To minimize the chances that the models solve the tasks using memorized responses, it is crucial to use novel tasks accompanied by minimally altered controls. Moreover, once tasks are administered to LLMs through a public API or published online, they may be incorporated into future models’ training data and should be considered compromised.
Finally, models’ failures do not necessarily indicate a lack of ability. As shown by several examples discussed earlier, LLMs often test the boundaries of tasks and scoring keys designed for humans, producing unexpected but often correct responses. As their training data include fiction with unexpected plot twists or magic, LLMs may choose to confabulate even when they know the correct answer. For instance, insisting that chocolate has magically turned into popcorn may be incorrect for the Unexpected Contents Task, but it might better reflect an LLM’s training data. Moreover, modern LLMs are trained to avoid certain topics and respond in socially desirable ways. Sometimes, a failure to solve a task may originate not from a lack of knowledge or capability but from the constraints imposed by an LLM administrator.

Conclusion

The distinction between machines that genuinely think or possess ToM and those that merely behave as if they is fundamental in the context of the philosophy of mind. Yet, as argued by Turing (49), this distinction becomes largely meaningless in practical terms. As Turing noted, people never consider this problem when interacting with others: “Instead of arguing continually over this point, it is usual to have the polite convention that everyone thinks” (49).
Nevertheless, the shift from models that merely process language to models that behave as if they had ToM has significant implications. Machines capable of tracking others’ states of mind and anticipating their behavior will better interact and communicate with humans and each other. This applies to both positive interactions-such as offering advice or dissipating conflicts-and negative interactions-such as deceit, manipulation, and psychological abuse. Moreover, machines that behave as if they possessed ToM are likely to be perceived as more human-like. These perceptions may influence not only individual human-AI interactions but also AI’s societal role and legal status (79).
An additional ramification of our findings underscores the value of applying psychological science to studying complex artificial neural networks. The increasing complexity of AI models makes it challenging to understand their functioning and capabilities based solely on their design. This mirrors the difficulties that psychologists and neuroscientists face in studying the human brain, often described as the quintessential black box. Psychological science may help us keep pace with rapidly evolving AI, thereby enhancing our ability to use these technologies safely and effectively.
Studying AI can also advance psychological science (80-82). When generating language, humans employ a broad range of psychological processes such as ToM, learning, self-awareness, reasoning, emotions, and empathy. To effectively predict the next word in a sentence generated by a human, LLMs must model not only grammar and vocabulary but also the psychological processes humans use when generating language ( 35,36 ). The term “LLM” may need rethinking since these models are not merely modeling language but
also the psychological processes engaged in its creation. Furthermore, LLMs’ training increasingly focuses not just on predicting words in training data but also on using language to solve other problems typically handled by human brains, such as maintaining engaging conversations or selling products and services (83).
Some human behaviors may be superficially mimicked using guessing or memorization. In other cases, the mechanisms developed by LLMs may resemble those employed by human brains to solve specific problems. Much like insects, birds, and mammals independently developed wings for flight, humans and LLMs may develop similar mechanisms to store information, take the perspective of others, or reason. For example, both humans and LLMs seem to organize information about words and their meanings in similar ways (36). Yet, in other cases, LLMs may develop novel mechanisms to solve the problems they are trained to address. Observing AI’s rapid progress, many wonder whether and when AI could achieve ToM or consciousness. However, these and other human mental capabilities are unlikely to be the pinnacle of what neural networks can achieve in this universe. We may soon be surrounded by AI systems equipped with cognitive capabilities that we, humans, cannot even imagine.
Data, Materials, and Software Availability. Data and code data have been deposited in the Open Science Framework (OSF; https://osf.io/csdhb/) (51).
acknowledgments. We thank Isabelle Abraham and Floriane Leynaud for their help with preparing study materials and writing code. The manuscript was published as a preprint at https://arxiv.org/abs/2302.02083 (50).
25. A. Nematzadeh, K. Burns, E. Grant, A. Gopnik, T. L. Griffiths, “Evaluating theory of mind in question answering” in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, E. Riloff et al., Eds. (Association for Computational Linguistics, Brussels, Belgium, 2018), pp. 2392-2400.
26. M. Sap, R. LeBras, D. Fried, Y. Choi, Neural theory-of-mind? On the limits of social intelligence in large LMs. arXiv [Preprint] (2022). https://arxiv.org/abs/2210.13312 (Accessed 1 February 2023).
27. S. Trott, C. Jones, T. Chang, J. Michaelov, B. Bergen, Do large language models know what humans know? arXiv [Preprint] (2022). https://arxiv.org/abs/2209.01515 (Accessed 1 February 2023).
28. B. Chen, C. Vondrick, H. Lipson, Visual behavior modelling for robotic theory of mind. Sci. Rep. 11, 424 (2021).
29. G.Z. Yang et al., The grand challenges of science robotics. Sci. Robot. 3, eaar7650 (2018).
30. K. Nasr, P. Viswanathan, A. Nieder, Number detectors spontaneously emerge in a deep neural network designed for visual object recognition. Sci. Adv. 5, eaav7903 (2019).
31. I. Stoianov, M. Zorzi, Emergence of a “visual number sense” in hierarchical generative models. Nat. Neurosci. 15, 194-196 (2012).
32. Y. Mohsenzadeh, C. Mullin, B. Lahner, A. Oliva, Emergence of visual center-periphery spatial organization in deep convolutional neural networks. Sci. Rep. 10, 4638 (2020).
33. E. Watanabe, A. Kitaoka, K. Sakamoto, M. Yasugi, K. Tanaka, Illusory motion reproduced by deep neural networks trained for prediction. Front. Psychol. 9, 345 (2018).
34. N. Garg, L. Schiebinger, D. Jurafsky, J. Zou, Word embeddings quantify 100 years of gender and ethnic stereotypes. Proc. Natl. Acad. Sci. U.S.A. 115, E3635-E3644 (2018).
35. T. Hagendorff, S. Fabi, M. Kosinski, Human-like intuitive behavior and reasoning biases emerged in large language models but disappeared in ChatGPT. Nat. Comput. Sci. 3, 833-838 (2023).
36. J. Digutsch, M. Kosinski, Overlap in meaning is a stronger predictor of semantic activation in GPT-3 than in humans. Sci. Rep. 13, 5035 (2023).
37. J. Wei et al., Emergent abilities of large language models. arXiv [Preprint] (2022). https://arxiv.org/ abs/2206.07682 (Accessed 1 February 2023).
38. J. E. Pyers, A. Senghas, Language promotes false-belief understanding: Evidence from learners of a new sign language. Psychol. Sci. 20, 805-812 (2009).
39. R. Saxe, N. Kanwisher, People thinking about thinking people: The role of the temporo-parietal junction in “theory of mind”. Neuroimage 19, 1835-1842 (2003).
40. T. Ruffman, L. Slade, E. Crowe, The relation between children’s and mothers’ mental state language and theory-of-mind understanding. Child Dev. 73, 734-751 (2002).
41. A. Mayer, B. E. Träuble, Synchrony in the onset of mental state understanding across cultures?A study among children in Samoa. Int. J. Behav. Dev. 37, 21-28 (2013).
42. F. Quesque, Y. Rossetti, What do theory-of-mind tasks actually measure? theory and practice. Perspect. Psychol. Sci. 15, 384-396 (2020).
43. J. Perner, S. R. Leekam, H. Wimmer, Three-year-olds’ difficulty with false belief: The case for a conceptual deficit. Br. J. Dev. Psychol. 5, 125-137 (1987).
44. H. Wimmer, J. Perner, Beliefs about beliefs: Representation and constraining function of wrong beliefs in young children’s understanding of deception. Cognition 13, 103-128 (1983).
45. A. Radford, K. Narasimhan, T. Salimans, I. Sutskever, Improving language understanding by generative pre-training. OpenAl (2018). https://openai.com/index/language-unsupervised/. Accessed 1 August 2023.
46. R. Alec et al., Language models are unsupervised multitask learners. OpenAl Blog 1 (2019). https:// api.semanticscholar.org/CorpusID:160025533. Accessed 1 February 2023.
47. OpenAI, GPT-4 technical report. arXiv [Preprint] (2023). https://arxiv.org/abs/2303.08774 (Accessed 1 August 2023).
48. T. le Scao et al., BLOOM: A 176B-parameter open-access multilingual language model. arXiv Preprint. https://doi.org/10.48550/arxiv.2211.05100 (Accessed 1 February 2023).
49. A. M. Turing, Computing machinery and intelligence. Mind 59, 433-460 (1950).
50. M. Kosinski, Evaluating large language models in theory of mind tasks. arXiv [Preprint] (2023). https://arxiv.org/abs/2302.02083 (Accessed 1 September 2023).
51. M. Kosinski, Data and Code for “Evaluating large language models in theory of mind tasks.” Open Science Foundation. https://doi.org/10.17605/OSF.IO/CSDHB. Deposited 27 February 2023.
52. W. V. Fabricius, T. W. Boyer, A. A. Weimer, K. Carroll, True or false: Do 5-year-olds understand belief? Dev. Psychol. 46, 1402-1416 (2010).
53. M. Huemer et al., The knowledge (“true belief”) error in 4-to 6-year-old children: When are agents aware of what they have in view? Cognition 230, 105255 (2023).
54. H. M. Wellman, D. Cross, J. Watson, Meta-analysis of theory-of-mind development: The truth about false belief. Child Dev. 72, 655-684 (2001).
55. L. Gao, On the sizes of OpenAI API Models. EleutherAI Blog (2021). https://blog.eleuther.ai/gpt3-model-sizes/. Accessed 1 February 2023.
56. D. Patel, G. Wong, GPT-4 architecture, infrastructure, training dataset, costs, vision, moe. Demystifying GPT-4: The engineering tradeoffs that led OpenAl to their architecture. Semianalysis Blog (2023). https://www.semianalysis.com/p/gpt-4-architecture-infrastructure. Accessed 1 February 2023.
57. D. C. Kidd, E. Castano, Reading literary fiction improves theory of mind. Science 342, 377-380 (2013).
58. K. Gandhi, J.-P. Fränken, T. Gerstenberg, N. D. Goodman, Understanding social reasoning in language models with language models. arXiv [Preprint] (2023). https://arxiv.org/abs/2306.15448 (Accessed 1 August 2023).
59. J. W. A. Strachan et al., Testing theory of mind in large language models and humans. Nat Hum. Behav. (2024), 10.1038/s41562-024-01882-z.
60. N. Shapira et al., Clever hans or neural theory of mind? Stress testing social reasoning in large language models. arXiv [Preprint] (2023). https://arxiv.org/abs/2305.14763 (Accessed 1 August 2023).
61. H. Kim et al., FANToM: A benchmark for stress-testing machine theory of mind. arXiv [Preprint] (2023). https://arxiv.org/abs/2310.15421 (Accessed 1 February 2024).
62. T. Ullman, Large language models fail on trivial alterations to theory-of-mind tasks. arXiv [Preprint] (2023). https://arxiv.org/abs/2302.08399 (Accessed 1 August 2023).
63. J. Rust, M. Kosinski, D. Stillwell, Modern Psychometrics: The Science of Psychological Assessment (Routledge, 2021).
64. Z. Pi, A. Vadaparty, B. K. Bergen, C. R. Jones, Dissecting the Ullman variations with a SCALPEL: Why do LLMs fail at trivial alterations to the false belief task? arXiv [Preprint] (2024). https://arxiv.org/ abs/2406.14737 (Accessed 1 August 2024).
65. B. Cao, H. Lin, X. Han, F. Liu, L. Sun, Can prompt probe pretrained language models? Understanding the invisible risks from a causal view. arXiv [Preprint] (2022). https://arxiv.org/abs/2203.12258 (Accessed 1 August 2023).
66. A. Vaswani et al., “Attention is all you need” in Proceedings of the 31 st International Conference on Neural Information Processing Systems, I. Guyon et al., Eds. (Curran Associates Inc., 2017), pp. 6000-6010.
67. D. C. Dennett, Intuition Pumps and Other Tools for Thinking (W. W. Norton & Company, 2013).
68. J. R. Searle, Minds, brains, and programs. Behav. Brain Sci. 3, 417-424 (1980).
69. U. Hasson, S. A. Nastase, A. Goldstein, Direct fit to nature: An evolutionary perspective on biological and artificial neural networks. Neuron 105, 416-434 (2020).
70. N. Block, Troubles with functionalism. Minn. Stud. Philos. Sci. 9 261-325 (1978).
71. P. M. Churchland, P. S. Churchland, Could a machine think? Sci. Am. 262, 32-39 (1990).
72. J. Preston, M. Bishop, Eds., Views into the Chinese Room: New Essays on Searle and Artificial Intelligence (Oxford University Press, 2002).
73. J. J. Hopfield, Neural networks and physical systems with emergent collective computational abilities. Proc. Natl. Acad. Sci. U.S.A. 79, 2554-2558 (1982).
74. D. Cole, Thought and thought experiments. Philos. Stud. 45, 431-444 (1984).
75. H. P. Moravec, Robot: Mere Machine to Transcendent Mind (Oxford University Press, 1998).
76. R. Kurzweil, The Singularity Is Near: When Humans Transcend Biology (Viking, 2005).
77. J. L. McClelland, Emergence in cognitive science. Top. Cogn. Sci. 2, 751-770 (2010).
78. M. P. Mattson, T. V. Arumugam, Hallmarks of brain aging: Adaptive and pathological modification by metabolic states. Cell Metab. 27, 1176-1199 (2018).
79. J.-S. Gordon, A. Pasvenskiene, Human rights for robots? A literature review. Al Ethics 1, 579-591 (2021).
80. R. L. Boyd, D. M. Markowitz, Verbal behavior and the future of social science.Am. Psychol. (2024), 10.1037/amp0001319.
81. A. Goldstein et al., Alignment of brain embeddings and artificial contextual embeddings in natural language points to common geometric patterns. Nat. Commun. 15, 2768 (2024).
82. A. Goldstein et al., Shared computational principles for language processing in humans and deep language models. Nat. Neurosci. 25, 369-380 (2022).
83. L. Ouyang et al., Training language models to follow instructions with human feedback. arXiv [Preprint] (2022). https://arxiv.org/abs/2203.02155 (Accessed 1 August 2023).

  1. “We use the term “emergence” in two ways. Here, we refer to Al’s “emergent abilities,” which manifest in newer, more advanced models but are absent in older, less advanced versions. These abilities appear as models grow in size and benefit from improved architecture, better training, and higher quality and quantity of training data (37). Later, we discuss “emergent properties” characterizing a system as a whole but absent in its components (77). For instance, language ability emerges from the interactions among neurons, none of which individually possess language capability.
  2. Moreover, as Cole (74) argued, they would find it unlikely that their collective activity could generate this or other emergent properties.
    1. N. Albuquerque et al., Dogs recognize dog and human emotions. Biol. Lett. 12, 20150883 (2016).
    2. C. M. Heyes, C. D. Frith, The cultural evolution of mind reading. Science 344, 1243091 (2014).
    3. J. Zhang, T. Hedden, A. Chia, Perspective-taking and depth of theory-of-mind reasoning in sequential-move games. Cogn. Sci. 36, 560-573 (2012).
    4. K. Milligan, J. W. Astington, L. A. Dack, Language and theory of mind: Meta-analysis of the relation between language ability and false-belief understanding. Child Dev. 78, 622-646 (2007).
    5. R. M. Seyfarth, D. L. Cheney, Affiliation, empathy, and the origins of Theory of Mind. Proc. Natl. Acad. Sci. U.S.A. 110, 10349-10356 (2013).
    6. D. C. Dennett, Toward a cognitive theory of consciousness. Minn. Stud. Philos. Sci. 9, 201-228 (1978).
    7. J. M. Moran et al., Impaired theory of mind for moral judgment in high-functioning autism. Proc. Natl. Acad. Sci. U.S.A. 108, 2688-2692 (2011).
    8. L. Young, F. Cushman, M. Hauser, R. Saxe, The neural basis of the interaction between theory of mind and moral judgment. Proc. Natl. Acad. Sci. U.S.A. 104, 8235-8240 (2007).
    9. D. Kapogiannis et al., Cognitive and neural foundations of religious belief. Proc. Natl. Acad. Sci. U.S.A. 106, 4876-4881 (2009).
    10. Á. M. Kovács, E. Téglás, A. D. Endress, The social sense: Susceptibility to others’ beliefs in human infants and adults. Science 330, 1830-1834 (2010).
    11. H. Richardson, G. Lisandrelli, A. Riobueno-Naylor, R. Saxe, Development of the social brain from age three to twelve years. Nat. Commun. 9, 1027 (2018).
    12. K. K. Oniski, R. Baillargeon, Do -month-old infants understand false beliefs? Science 308, 255-258 (2005).
    13. L. A. Drayton, L. R. Santos, A. Baskin-Sommers, Psychopaths fail to automatically take the perspective of others. Proc. Natl. Acad. Sci. U.S.A. 115, 3302-3307 (2018).
    14. N. Kerr, R. I. M. Dunbar, R. P. Bentall, Theory of mind deficits in bipolar affective disorder. J. Affect. Disord. 73, 253-259 (2003).
    15. S. Baron-Cohen, A. M. Leslie, U. Frith, Does the autistic child have a “theory of mind”? Cognition 21, 37-46 (1985).
    16. F. Kano, C. Krupenye, S. Hirata, M. Tomonaga, J. Call, Great apes use self-experience to anticipate an agent’s action in a false-belief test. Proc. Natl. Acad. Sci. U.S.A. 116, 2090420909 (2019).
    17. C. Krupenye, F. Kano, S. Hirata, J. Call, M. Tomasello, Great apes anticipate that other individuals will act according to false beliefs. Science 354, 110-114 (2016).
    18. M. Schmelz, J. Call, M. Tomasello, Chimpanzees know that others make inferences. Proc. Natl. Acad. Sci. U.S.A. 108, 3077-3079 (2011).
    19. D. Premack, G. Woodruff, Does the chimpanzee have a theory of mind? Behav. Brain Sci. 12, 187-192 (1978).
    20. N. Brown, T. Sandholm, Superhuman Al for multiplayer poker. Science 365, 885-890 (2019).
    21. D. Silver et al., Mastering the game of Go with deep neural networks and tree search. Nature 529, 484-489 (2016).
    22. T. B. Brown et al., Language models are few-shot learners. arXiv [Preprint] (2020). https://arxiv.org/ abs/2005.14165 (Accessed 1 February 2023).
    23. A. Esteva et al., Dermatologist-level classification of skin cancer with deep neural networks. Nature 542, 115-118 (2017).
    24. M. Cohen, Exploring RoBERTa’s Theory of Mind through textual entailment. PhilArchive (2021). https://philarchive.org/rec/COHERT. Accessed 1 February 2023.