نموذج أساسي للتنبؤ والتقاط الإدراك البشري A foundation model to predict and capture human cognition

المجلة: Nature، المجلد: 644، العدد: 8078
DOI: https://doi.org/10.1038/s41586-025-09215-4
PMID: https://pubmed.ncbi.nlm.nih.gov/40604288
تاريخ النشر: 2025-07-02

نموذج أساسي للتنبؤ والتقاط الإدراك البشري

https://doi.org/10.1038/s41586-025-09215-4
تم الاستلام: 26 أكتوبر 2024
تم القبول: 29 مايو 2025
تم النشر على الإنترنت: 2 يوليو 2025
الوصول المفتوح
تحقق من التحديثات

مارسيل بينز , إليف أكاتا , ماتياس بيثغ , فرانزيسكا براندل , فريد كالاواي , جوليان كودا-فورنو , بيتر دايان , كان ديميركان , ماريا ك. إكشتاين , نويمي إلتتو , توماس ل. غريفيثس7، سوزان هاريدي¹،8، أكشاي ك. جاجاديش , لي جي-آن , ألكسندر كيبنيس¹، سريجان كومار , توبياس لودفيغ , مارفن ماثوني , مارسيلو ماتار , عليرضا موديرشاني , سورابهي س. ناث , جوشوا سي. بيترسون , ميلينا رموس , إيفان م. روسيك , تانكراد سانون , يوهانس أ. شوبيرت , لوكا م. شولتز بوشوف , نيشاد سينغي , شين سوي , ميركو ثالمين , فابيان ج. ثيس , فوانغ ترونغ , فيشال أودانداراو , كونستانتينوس فودوريس , روبرت ويلسون , كريستين ويت , شوشين وو , ديرك يو. وولف , هودونغ شياو & إريك شولتز

الملخص

إن إنشاء نظرية موحدة للإدراك كان هدفًا مهمًا في علم النفس . الخطوة الأولى نحو مثل هذه النظرية هي إنشاء نموذج حسابي يمكنه التنبؤ بسلوك الإنسان في مجموعة واسعة من الإعدادات. هنا نقدم سنتور، نموذجًا حسابيًا يمكنه التنبؤ ومحاكاة سلوك الإنسان في أي تجربة يمكن التعبير عنها باللغة الطبيعية. لقد استخلصنا سنتور من خلال تحسين نموذج لغوي متطور على مجموعة بيانات كبيرة تسمى Psych-101. تتمتع Psych-101 بمقياس غير مسبوق، حيث تغطي بيانات تجريبية من أكثر من 60,000 مشارك يقومون بأكثر من خيارات في 160 تجربة. لا يلتقط سنتور سلوك المشاركين المحجوزين بشكل أفضل من النماذج الإدراكية الحالية فحسب، بل إنه أيضًا يعمم على قصص تغطية غير مرئية سابقًا، وتعديلات هيكلية على المهام ومجالات جديدة تمامًا. علاوة على ذلك، تصبح التمثيلات الداخلية للنموذج أكثر توافقًا مع النشاط العصبي البشري بعد تحسينه. مجتمعة، تظهر نتائجنا أنه من الممكن اكتشاف نماذج حسابية تلتقط سلوك الإنسان عبر مجموعة واسعة من المجالات. نعتقد أن مثل هذه النماذج توفر إمكانيات هائلة لتوجيه تطوير النظريات الإدراكية، ونقدم دراسة حالة لإثبات ذلك.

العقل البشري عام بشكل ملحوظ . نحن لا نتخذ قرارات عادية فحسب، مثل اختيار حبوب الإفطار أو اختيار زي، ولكننا أيضًا نتعامل مع تحديات معقدة، مثل اكتشاف كيفية علاج السرطان أو استكشاف الفضاء الخارجي. نتعلم المهارات من خلال عدد قليل من العروض , نستنتج بشكل سببي ونغذي أفعالنا من خلال الفضول . سواء كنا نتسلق الجبال، نلعب ألعاب الفيديو، أو نخلق فنًا جذابًا، فإن مرونتنا تعرف ما يعنيه أن نكون بشرًا.
على النقيض من ذلك، فإن معظم النماذج الحسابية المعاصرة، سواء في التعلم الآلي أو العلوم الإدراكية، هي محددة المجال. تم تصميمها للتفوق في مشكلة معينة فقط. فكر، على سبيل المثال، في AlphaGo، وهو نظام كمبيوتر أنشأته Google DeepMind لإتقان لعبة . يمكن للنظام لعب هذه اللعبة المحددة بمستوى مثير للإعجاب، لكنه لا يمكنه القيام بالكثير بخلاف ذلك. يمكن ملاحظة نمط مشابه في العلوم الإدراكية. على سبيل المثال، نظرية الاحتمالات، التي تعد واحدة من أكثر الحسابات تأثيرًا للإدراك البشري، تقدم رؤى قيمة حول كيفية اتخاذ الناس للقرارات , لكنها لا تخبرنا شيئًا عن كيفية التعلم أو التخطيط أو الاستكشاف.
إذا أردنا فهم العقل البشري بالكامل، يجب أن ننتقل من النظريات المحددة المجال إلى نظرية متكاملة. لقد تم الاعتراف بأهمية مثل هذا النهج الموحد بالفعل من قبل رواد مجالنا. على سبيل المثال، في عام 1990، تم التصريح بأن “النظريات الموحدة للإدراك هي الطريقة الوحيدة لجعل [معرفتنا] الرائعة والمتزايدة تحت السيطرة الفكرية” . كيف يمكننا إحراز تقدم ذي مغزى نحو مثل هذه النظريات؟
خطوة مهمة نحو نظرية موحدة للإدراك هي بناء نموذج حسابي يمكنه التنبؤ ومحاكاة سلوك الإنسان في أي مجال . في هذه الورقة، نتناول هذا التحدي ونقدم سنتور – نموذج أساسي للإدراك البشري . تم تصميم سنتور بطريقة مدفوعة بالبيانات من خلال تحسين نموذج لغوي متطور على مجموعة كبيرة من سلوك الإنسان. لهذا الغرض، قمنا بتجميع مجموعة بيانات كبيرة تسمى Psych-101، والتي تغطي بيانات تجريبية من 160 تجربة نفسية (انظر الطرق، ‘جمع البيانات’ والشكل الممتد 1). قمنا بنسخ كل من هذه التجارب إلى اللغة الطبيعية، مما يوفر
PSYCH 101
ب
الشكل 1|نظرة عامة على Psych-101 وسنتور. أ، تتكون Psych-101 من بيانات تجريبية من 160 تجربة نفسية مع 60,092 مشاركًا يقومون بإجراء 10,681,650 خيارًا في المجموع وتضم 253,597,411 رمز نصي. تحتوي على مجالات مثل العصابات متعددة الذراعين، اتخاذ القرار، الذاكرة،
التعلم تحت الإشراف، عمليات اتخاذ القرار ماركوف وغيرها (تم تنسيق الأمثلة المعروضة واختصارها لسهولة القراءة). ب، سنتور هو نموذج أساسي للإدراك البشري يتم الحصول عليه عن طريق إضافة محولات منخفضة الرتبة إلى نموذج لغوي متطور وتحسينه على Psych-101.
تنسيق شائع للتعبير عن أنماط تجريبية مختلفة تمامًا . تحتوي مجموعة البيانات الناتجة على مقياس غير مسبوق، حيث تحتوي على أكثر من 10,000,000 خيار بشري وتضم العديد من الدراسات الكانونية من مجالات مثل العصابات متعددة الذراعين، اتخاذ القرار، الذاكرة، التعلم تحت الإشراف، عمليات اتخاذ القرار ماركوف والمزيد (انظر الشكل 1 أ للحصول على نظرة عامة وأمثلة).
خضعنا سنتور لسلسلة من الاختبارات الدقيقة ونظهر أنه يلتقط سلوك الإنسان على عدة مستويات من التعميم. أولاً، نوضح أن سنتور يتنبأ بسلوك المشاركين المحجوزين (أولئك الذين ليسوا جزءًا من بيانات التدريب) بشكل أفضل من النماذج الإدراكية الحالية في كل تجربة تقريبًا. ثم نوضح أن قدرته على التقاط سلوك الإنسان تعمم أيضًا على التجارب المحجوزة. في هذا السياق، نجد أن سنتور يتنبأ بدقة بسلوك الإنسان تحت قصص تغطية معدلة، وهياكل مشاكل وحتى في مجالات جديدة تمامًا. أخيرًا، نوضح أن التمثيلات الداخلية لسنتور تصبح أكثر توافقًا مع البشر، على الرغم من أنه لم يتم تدريبه صراحة لالتقاط النشاط العصبي البشري.
مجتمعة، تظهر نتائجنا أنه من الممكن اكتشاف نماذج حسابية تلتقط سلوك الإنسان عبر مجموعة واسعة من المجالات. نعتقد أن مثل هذا النموذج التنبؤي يوفر العديد من الفرص المباشرة للحصول على فهم أفضل للإنسان ونقدم دراسة حالة توضح هذه الإمكانية.

نظرة عامة على النموذج

قمنا ببناء سنتور على قمة نموذج اللغة مفتوح المصدر Llama 3.170 B، وهو نموذج متطور تم تدريبه مسبقًا بواسطة Meta AI (من الآن فصاعدًا، نشير إلى هذا النموذج ببساطة باسم Llama) . كان وجود نموذج لغوي كبير ك
العمود الفقري يسمح لنا بالاعتماد على كميات هائلة من المعرفة الموجودة في هذه النماذج. تضمنت عملية التدريب تحسينًا على Psych-101 باستخدام تقنية تحسين فعالة من حيث المعلمات تعرف باسم التكيف منخفض الرتبة الكمي (QLoRA) . يعتمد QLoRA على نموذج لغوي كمي مجمد بأربعة بتات كنموذج أساسي. على الرغم من أن معلمات النموذج الأساسي تظل دون تغيير، إلا أنه يضيف محولات منخفضة الرتبة، والتي تحتوي فقط على عدد قليل من المعلمات القابلة للتدريب الإضافية (عادة ما يتم تمثيلها في تنسيق نقطة عائمة نصف دقيق). في حالتنا، أضفنا محولات منخفضة الرتبة من الرتبة إلى جميع الطبقات غير المضمنة (أي، جميع الطبقات الخطية لآليات الانتباه الذاتي والشبكات الأمامية)، كما هو موضح في الشكل 1 ب. مع هذه الإعدادات، تصل المعلمات المضافة حديثًا إلى من معلمات النموذج الأساسي. ثم قمنا بتدريب النموذج لمدة حقبة واحدة على مجموعة البيانات بأكملها باستخدام خسارة تقاطع قياسية. قمنا بإخفاء الخسارة لجميع الرموز التي لا تتوافق مع استجابات البشر، مما يضمن أن يركز النموذج على التقاط سلوك الإنسان وليس على إكمال التعليمات التجريبية. استغرقت عملية التدريب الكاملة حوالي خمسة أيام على وحدة معالجة الرسومات A100 80 GB (الطرق، ‘إجراء تحسين’).

سنتور يلتقط سلوك الإنسان

قمنا بتقييم Centaur على أنواع مختلفة من البيانات المحجوزة لإظهار أنه يلتقط سلوك الإنسان بشكل قوي. في تحليلنا الأول، اختبرنا ما إذا كان بإمكانه التنبؤ بسلوك المشاركين الذين لم يكونوا جزءًا من بيانات التدريب. لهذا، قمنا بتقسيم كل تجربة مكتوبة إلى جزئين واستخدمنا المشاركين في التدريب والاحتفاظ بهم للاختبار. قمنا بقياس جودة التوافق مع البشر
الشكل 2 | جودة التوافق في علم النفس 101. أ، الفرق في لوغاريتم الاحتمالية بين السنتور واللاما بالنسبة لنموذج معرفي محدد للمجال لكل تجربة. قيمة الصفر تتوافق مع جودة التوافق لنموذج المعرفة المحدد للمجال وقيمة فوق الصفر تشير إلى تحسين جودة التوافق مع استجابات البشر. يتم حساب لوغاريتم الاحتمال كمتوسط للاستجابات. ). تشير أشرطة الخطأ إلى الخطأ المعياري للمتوسط. يتفوق سنتور على كل من لاما ومجموعة من النماذج المعرفية الخاصة بالمجال في تقريبًا كل تجربة (من جانب واحد -اختبارات: ، ، على التوالي). لقد قمنا بتضمين التجارب التي قمنا بتنفيذ نموذج معرفي محدد المجال لها فقط في هذه الرسوم البيانية ودمجنا دراسات مختلفة تستخدم نفس النموذج.
البيانات الموسعة الجدول 1 تحتوي على نتائج عددية لجميع التجارب. ب، محاكاة النموذج على مهمة الأفق. يوضح الرسم البياني كثافات الاحتمالات على المكافأة ومعامل مكافأة المعلومات لكل من الأشخاص والجولات المحاكاة لـ Centaur. ج، محاكاة النموذج على مهمة الخطوتين. يوضح الرسم البياني كثافات الاحتمالات على المكافأة ومعامل يشير إلى مدى التعلم القائم على النموذج لكل من الأشخاص والجولات المحاكاة لـ Centaur. د، محاكاة النموذج على لعبة التنبؤ الاجتماعي. يوضح الرسم البياني كثافات الاحتمالات على دقة التنبؤ باستراتيجيات البشر واستراتيجيات وكيل اصطناعي، مع إحصائيات متطابقة لكل من الأشخاص والجولات المحاكاة لـ Centaur.
اختيارات باستخدام احتمالات السجل السلبية المتوسطة عبر الاستجابات (الطرق، ‘مقياس التقييم’). تقدم الشكل 2a نتائج هذا التحليل، مقارنةً بين Centaur والنموذج الأساسي بدون تحسين ومجموعة من النماذج الخاصة بالمجال التي تمثل أحدث ما توصلت إليه الأدبيات في علم النفس المعرفي (البيانات الموسعة الجدول 1). على الرغم من وجود تباين كبير في القابلية للتنبؤ عبر التجارب (Centaur، 0.49؛ Llama، 0.47)، إلا أن تحسين النموذج أدى دائمًا إلى تحسين جودة التوافق. كان الفرق المتوسط في احتمالات السجل عبر التجارب بعد تحسين النموذج 0.14 (احتمال السجل السلبي لـ Centaur، 0.44؛ احتمال السجل السلبي لـ Llama، 0.58؛ جانب واحد -اختبار: ; كوهين .
علاوة على ذلك، قمنا بمقارنة سنتور مع مجموعة النماذج المعرفية الخاصة بالمجال التي تم ذكرها سابقًا. تشمل هذه النماذج، من بين أمور أخرى، نموذج السياق العام. نموذج نظرية الاحتمالات ونماذج التعلم المعزز المختلفة (الطرق، ‘نماذج معرفية محددة المجال’). لاحظنا أن سنتور يتفوق على النماذج المعرفية المحددة المجال في جميع التجارب ما عدا تجربة واحدة. الفرق المتوسط في التنبؤ بسلوك الإنسان
كان النموذج المعرفي الخاص بالنطاق 0.13 (النماذج المعرفية، الاحتمالية السلبية، 0.56؛ أحادي الجانب -اختبار: ، ; كوهين تحتوي الأشكال الإضافية 2 و 3 على مزيد من المقارنات مع النماذج التي تم ضبطها بدقة على بيانات غير سلوكية وتحليل سقف الضوضاء.
لقد ركزت التحليلات السابقة على توقع استجابات البشر المشروطة بالسلوكيات المنفذة سابقًا. يمكننا أن نتساءل عما إذا كان يمكن لـ Centaur أيضًا توليد سلوكيات شبيهة بالبشر عند محاكاتها بطريقة مفتوحة (أي، عند تغذية استجاباته الخاصة مرة أخرى إلى النموذج). من المحتمل أن يوفر هذا الإعداد اختبارًا أقوى بكثير لقدرات النموذج، ويشار إليه أحيانًا أيضًا باسم دحض النموذج. للتحقق مما إذا كان Centaur ينجو من هذا الاختبار، قمنا بتشغيل محاكيات مفتوحة في ثلاثة نماذج تجريبية مختلفة وفحصنا توزيعات الإحصائيات التي نتجت عن هذه المحاكيات. أولاً، قمنا بمحاكاة Centaur في نموذج مهمة الأفق، وهي مهمة ذات ذراعين تُستخدم لاكتشاف أنواع مختلفة من استراتيجيات الاستكشاف. . وجدنا أن الكنتور (المتوسط ، س.د. ) حقق أداءًComparable للمشاركين البشريين ( المتوسط ، س.د. )، التي
الشكل 3 | التقييم في إعدادات مختلفة محجوزة. أ، احتمالات السجل السلبية المتوسطة على الاستجابات للمهمة ذات الخطوتين مع قصة غلاف معدلة .ب، متوسط احتمالات السلبية اللوغاريتمية عبر الاستجابات ( ) لتجربة قمار ذات ثلاثة أذرع .ج، متوسط احتمالات السلبية المسجلة على الاستجابات ( ) لتجربة تستكشف التفكير المنطقي مع
عناصر مستندة إلى اختبار قبول كليات الحقوق (LSAT). يتفوق سنتور على كل من لاما والنماذج المعرفية الخاصة بالمجال عندما يواجه قصص غلاف معدلة، وهياكل مشكلات، ومجالات جديدة تمامًا. غير متاح، غير قابل للتطبيق. تظهر أشرطة الخطأ الانحراف المعياري. الصورة في (أ) مستنسخة من المرجع 23، دار سبرينغر ناتشر المحدودة. الصورة في (ج) مستنسخة منويكيبيديا.org.
تم دعمه من خلال اختبار التكافؤ باستخدام الاختبارين الجانبيين -إجراءات الاختبارات مع -هامش النقاط ( كما شارك سنتور في مستوى مماثل من الاستكشاف الموجه المستند إلى عدم اليقين (الشكل 2ب)، وهو نمط غائب بشكل ملحوظ في العديد من نماذج اللغة المعاصرة. .
لقد لاحظنا أيضًا أن Centaur لا يلتقط فقط سلوك المشاركين المتوسطين، بل توزيع المسارات الناتجة عن جميع الأفراد. على سبيل المثال، في مهمة الخطوتين (وهي نموذج معروف يُستخدم لتفريق التعلم المعزز غير القائم على النموذج والتعلم المعزز القائم على النموذج). كما هو الحال مع الموضوعات البشرية، أنتج Centaur مسارات حيث يكون التعلم خاليًا تمامًا من النموذج، قائمًا تمامًا على النموذج ومزيجًا من الاثنين (كما يظهر التوزيع ثنائي النمط في الشكل 2c).
أخيرًا، تحققنا من أن سنتور يفشل في التنبؤ بالسلوك غير البشري. لهذا، اعتبرنا دراسة تتطلب من المشاركين التنبؤ إما بردود فعل بشرية أو ردود فعل لوكيل اصطناعي له إحصائيات متطابقة في أربع ألعاب اقتصادية نموذجية. . عكس نتائج الدراسة البشرية الأصلية، توقع سنتور بدقة استجابات البشر (بدقة 64%) لكنه واجه صعوبة في توقع الاستجابات الاصطناعية (بدقة 35%; أحادي الجانب -اختبار: ; الشكل 2d). مجتمعة، تظهر هذه النتائج أن Centaur يظهر خصائص مشابهة للبشر في مختلف الإعدادات، مما يؤكد أنه يمكنه توليد سلوك مفتوح ذو معنى.

استكشاف قدرات التعميم

حتى الآن، أظهرنا أن سنتور يتعمق في المشاركين الذين لم يسبق لهم رؤيتهم والذين يقومون بتجارب كانت جزءًا من بيانات التدريب. ومع ذلك، يجب أن يلتقط نموذج الأساس الحقيقي للإدراك البشري السلوك في أي تجربة عشوائية، حتى لو كانت تلك التجربة
لم يكن جزءًا من بيانات التدريب. للتحقق مما إذا كان لدى سنتور هذه القدرة، عرضناه لسلسلة من التقييمات المعقدة بشكل متزايد خارج التوزيع.
أولاً، قمنا بالتحقيق فيما إذا كان سنتور قويًا في مواجهة التغييرات في قصة الغلاف. في هذا التحليل، اعتمدنا على البيانات التي تم جمعها في المرجع 23، الذي استخدم المهمة ذات الخطوتين المذكورة أعلاه. بالإضافة إلى قصة الغلاف الكلاسيكية (سفن فضائية تسافر إلى كواكب أجنبية بحثًا عن الكنوز)، قدمت الدراسة قصة غلاف جديدة تتعلق بالسجاد السحري. من المهم أن يتضمن علم النفس 101 تجارب باستخدام قصة الغلاف الكلاسيكية للسفينة الفضائية. لكن لا تجارب مع قصة الغطاء السحري. ومع ذلك، وجدنا أن Centaur قد التقط سلوك الإنسان في تجربة الغطاء السحري المشار إليها في المرجع 23 (الشكل 3أ). كما في تحليلنا السابق، لاحظنا تحسنًا بعد التعديل الدقيق، بالإضافة إلى ملاءمة جيدة عند مقارنتها بنموذج معرفي محدد المجال (الاحتمالية السلبية لـ Centaur، 0.51؛ الاحتمالية السلبية لـ Llama، 0.63؛ الاحتمالية السلبية للنموذج المعرفي، 0.61؛ من جانب واحد -اختبار يقارن بين سنتور ولما: منحاز -اختبار يقارن بين سنتور ونموذج الإدراك الخاص بالمجال: ; كان النموذج المعرفي المحدد للمجال المستخدم في هذا التحليل نموذجًا هجينًا يجمع بين التعلم المعزز القائم على النموذج والتعلم المعزز غير القائم على النموذج) .
في تقييم ثانٍ خارج التوزيع، تحققنا مما إذا كان Centaur قويًا أمام التعديلات في هيكل المهمة. لاختبار ذلك، عرضناه لنموذج يُعرف باسم مزرعة ماغي. مزرعة ماغي توسع نموذج مهمة الأفق من خلال إضافة خيار ثالث. تشمل مادة علم النفس 101 عدة تجارب لذراعين (بما في ذلك مهمة الأفق) ولكنها لا تشمل مزرعة ماغي أو أي تجارب لثلاثة أذرع أخرى.
الشكل 4 | محاذاة الإنسان. أ، تضمين القياس متعدد الأبعاد للعشرة مقاييس سلوكية في كوغ بنش لنماذج مختلفة. ب، معاملات ارتباط بيرسون التي تشير إلى مدى جودة النشاط العصبي البشري في مهمة الخطوتين يمكن فك تشفيره باستخدام التمثيلات الداخلية لـ Centaur المستخرجة من طبقات مختلفة. معاملات الارتباط بيرسون تشير إلى مدى جودة الإنسان
النشاط العصبي في مهمة قراءة الجمل يمكن فك تشفيره باستخدام التمثيلات الداخلية لـ Centaur المستخرجة من طبقات مختلفة. يشير التحكم إلى نموذج استخدم تمثيلات مستخرجة من نموذج تحويل تم تهيئته عشوائيًا مع بنية متطابقة.
(ومع ذلك، يحتوي على تجارب متعددة الأذرع مع أكثر من ثلاثة خيارات للاختيار من بينها). وبالتالي، توفر هذه التحليل اختبارًا لصلابة Centaur تجاه التعديلات الهيكلية في المهام. وجدنا أن Centaur التقط سلوك الإنسان في مزرعة ماغي، كما هو موضح في الشكل 3ب. مرة أخرى، لاحظنا فائدة من الضبط الدقيق، بالإضافة إلى ملاءمة جيدة مقارنةً بنموذج إدراكي محدد المجال، الذي لم يتعمم بشكل جيد في هذا الإعداد (الاحتمالية السلبية لـ Centaur، 0.42؛ الاحتمالية السلبية لـ Llama، 0.62؛ الاحتمالية السلبية للنموذج الإدراكي، 0.98؛ جانب واحد -اختبار يقارن بين سنتور ولما: منحاز -اختبار يقارن بين سنتور ونموذج الإدراك الخاص بالمجال: .
أخيرًا، بحثنا فيما إذا كان بإمكان سنتور التقاط سلوك الإنسان حتى في مجالات جديدة تمامًا. في هذا السياق، اعتبرنا دراسة تبحث في التفكير المنطقي. . على الرغم من أن مادة علم النفس 101 تتضمن مسائل تتعلق بالاحتمالات والتفكير السببي، فقد استبعدنا عمدًا أي دراسات تتعلق بالتفكير المنطقي. كما في التحليلات السابقة، كان هناك مرة أخرى تأثير إيجابي للتعديل الدقيق (احتمالية السلبية لسينتاور، 1.65؛ احتمالية السلبية لليما، 1.92؛ من جانب واحد -اختبار: ; كوهين ; الشكل 3ج). لاحظ أننا لم نقارن مع أي نموذج معرفي محدد المجال في هذا السياق، لأنه غير واضح كيف يمكن بناء نموذج يمكنه إجراء أي نقل ذي معنى من بيانات التدريب التي لا تتضمن أي مشاكل ذات صلة.
قمنا بتوحيد هذه النتائج من خلال تحليل Centaur في ستة نماذج تجريبية إضافية خارج التوزيع لم تكن جزءًا من بيانات التدريب بأي شكل من الأشكال (بما في ذلك اتخاذ القرارات الأخلاقية). الألعاب الاقتصادية فئة طبيعية وتعلم المكافآت ميول سلوكية ومهمة قرار تسلسلي عميقة لقد التقطت Centaur سلوك الإنسان بشكل قوي في جميع هذه الإعدادات، بينما لم تفعل النماذج الأصغر وغير المضبوطة بدقة ذلك بشكل متسق (الشكل 4 من البيانات الموسعة).
بالإضافة إلى تحليل بيانات اختيار الإنسان، قمنا أيضًا بفحص ما إذا كان يمكن لـ Centaur التنبؤ بأوقات استجابة الإنسان. قانون هيك تشير إلى أن أوقات استجابة الأفراد هي دالة خطية من انتروبيا الاستجابة. لذلك، قمنا باستخراج ما يقرب من 4,000,000 وقت استجابة لمجموعة فرعية من التجارب في علم النفس 101 وقمنا بتناسب ثلاثة نماذج مختلطة خطية، كل منها يتنبأ بأوقات الاستجابة المحولة لوغاريتمياً بناءً على انتروبيا الاستجابة المحولة لوغاريتمياً المستمدة من نموذج حسابي مختلف. وجدنا أن انتروبيا الاستجابة المستمدة من Centaur تلتقط نسبة أكبر من التباين في أوقات الاستجابة (شرطية ) من تلك المشتقة من اللاما (شرطية ، ) ونماذج الإدراك (شرطية
مما يبرز قدرة سنتور على التنبؤ بالتدابير التي تتجاوز بيانات الاختيار البحتة.
لإثبات أن النموذج لا يتدهور في المشكلات التي تم تدريبه مسبقًا عليها، قمنا أيضًا بالتحقق منه على مجموعة من المعايير من أدبيات تعلم الآلة. وجدنا أن Centaur يظل مستقرًا في معايير الأداء، بل يتحسن في بعض منها مقارنة بالنموذج الأساسي. (الشكل البياني الممتد 5a، b). أخيرًا، في المعايير التي تقيس التوافق البشري، لاحظنا تحولًا نحو خصائص تشبه البشر (الشكل البياني الممتد 5c). يوضح الشكل 4a هذا التوافق المحسن على تمثيل منخفض الأبعاد مستمد من عشرة مقاييس سلوكية في CogBench، وهو معيار لاختبار القدرات المعرفية لنماذج اللغة الكبيرة. .

محاذاة مع النشاط العصبي البشري

على الرغم من تدريبها لتطابق سلوك الإنسان فقط، تساءلنا أيضًا عما إذا كانت التمثيلات الداخلية لـ Centaur تصبح أكثر توافقًا مع النشاط العصبي البشري. للتحقق مما إذا كان هذا هو الحال، أجرينا تحليلين توقعنا فيهما النشاط العصبي البشري باستخدام التمثيلات الداخلية للنموذج. قمنا أولاً بإجراء تحليل شامل للدماغ حيث توقعنا قياسات التصوير بالرنين المغناطيسي الوظيفي (fMRI) للأشخاص الذين يؤدون مهمة الخطوتين. . لهذا، اعتمدنا على البيانات التي تم جمعها في دراسة سابقة شمل 94 مشاركًا، كل منهم يقوم بـ 300 اختيار. تم اختبار المشاركين إما على قصة الغلاف السجادة السحرية (التي استخدمناها بالفعل في إحدى تحليلات التعميم السابقة) أو قصة غلاف مجردة. لم يكن أي من هذين الغلافين جزءًا من بيانات تدريب سنتور. قمنا باستخراج تسجيلات من تيار النماذج المتبقي قبل كل اختيار وبعد التغذية الراجعة. ثم قمنا بتجميع النشاط العصبي البشري في كل منطقة وقمنا بتراجع النشاط المجمع على التمثيلات الداخلية لسنتور. ثم تم تكرار هذه العملية بشكل منفصل لكل مشارك ومنطقة (الطرق، ‘محاذاة عصبية’). توضح الشكل 4ب معاملات الارتباط بيرسون الناتجة عبر الطبقات لكل من سنتور ولما، متوسطة على القياسات. ). وجدنا أن تمثيلات سنتور كانت تتفوق باستمرار على تمثيلات لاما في التنبؤ بالنشاط العصبي البشري (جميع المقارنات الثنائية ذات الاتجاه الواحد -اختبارات، )، مما يشير إلى أن ضبط نموذج على بيانات سلوكية واسعة النطاق قد جعل تمثيلاته الداخلية متوافقة مع النشاط العصبي البشري. ومن الجدير بالذكر أن هذا النوع من التحليل كان ممكنًا فقط بسبب تعبير تمثيلات سنتور، وأن استخدام تمثيلات نموذج معرفي تقليدي أدى إلى انخفاض كبير في الأداء (الخط المتقطع في الشكل 4b). يتم تقديم تقرير أكثر تفصيلاً عن نتائجنا في الشكل 6 من البيانات الموسعة.
الشكل 5 | الاكتشاف العلمي الموجه بالنموذج. أ، استخدمنا Psych-101 و Centaur لتوجيه تطوير نموذج معرفي لدراسة اتخاذ القرار متعدد السمات. . كل لوحة تظهر AIC لمجموعة النماذج التي تم النظر فيها في المرحلة المعطاة، بدءًا من النماذج التي تم النظر فيها في الدراسة الأصلية. ب، طلبنا من DeepSeek-R1 توليد تفسير للاستجابات البشرية وصغنا الاستراتيجية اللفظية الناتجة في شكل رسمي.
نموذج حسابي. ج، قمنا بتحسين هذا النموذج من خلال تقليل الندم العلمي باستخدام Centaur كنموذج مرجعي. يتم عرض ست نقاط بيانات حيث يقوم Centaur بعمل توقعات دقيقة بينما لا يقوم النموذج المكتشف بواسطة DeepSeek-R1 بذلك. ثم استخدمنا هذه المعلومات لتصميم نموذج معرفي محدد المجال يكون بنفس دقة Centaur ولكنه لا يزال قابلًا للتفسير. تم إعادة إنتاج صور الدراجة في أ منفلاتيكون.كوم.
قمنا بتوسيع هذه النتائج في تحليل ثانٍ، حيث اعتمدنا على مجموعة بيانات تم جمعها سابقًا تتضمن قياسات fMRI لأشخاص يقرؤون جمل بسيطة مكونة من ست كلمات، مثل “هذه صورة جميلة جدًا!”. . الهدف الرئيسي من هذا التحليل هو إظهار أن المحاذاة العصبية في بيئات غير مرتبطة تظل سليمة بعد التعديل الدقيق على التجارب المعرفية. ركزنا على مجموعة فرعية من خمسة مشاركين قرأ كل منهم بشكل سلبي 1,000 جملة، موزعة على 20 تجربة تجريبية وجلستي مسح. تم استخراج الجمل المقدمة من تسع مجموعات بيانات وتم اختيارها لتعظيم التنوع الدلالي. اتبعنا عن كثب بروتوكول الدراسة الأصلية وتوقعنا النشاط العصبي المجمع عبر المشاركين في شبكة اللغة. كررنا هذه العملية للتمثيلات المستخرجة من طبقات مختلفة في كل من Centaur وLlama. بلغت القابلية للتنبؤ ذروتها عند حوالي الطبقة 20، كما هو موضح في الشكل 4c. هذه الذروة تتماشى مع الفرضية القائلة بأن الطبقات المتوسطة من مثل هذه النماذج تحتوي على أكبر قدر من المعلومات. قمنا بإجراء تحليل ميتا مقلوب الوزن على الفرق في الارتباطات بين Centaur وLlama، وأشار ذلك إلى أن هناك فائدة كبيرة من التعديل الدقيق عند التجميع عبر الطبقات ( فترة الثقة [0.0002، 0.013]، ). على الرغم من أن هذا التأثير كان متسقًا عبر الطبقات، إلا أنه لم يكن ذا دلالة إحصائية لأي طبقة فردية.

الاكتشاف العلمي الموجه بواسطة النموذج

تشكل Psych-101 وCentaur أدوات قيمة للاكتشاف العلمي. في القسم التالي، نقدم مثالًا على كيفية استخدام كل منهما لتحسين فهمنا لصنع القرار البشري. يتم توضيح الخطوات الفردية لهذه العملية في الشكل 5.
تحتوي Psych-101 على بيانات سلوكية بشرية بتنسيق لغة طبيعية، مما يعني أنه يمكن معالجتها وتحليلها بسهولة بواسطة نموذج استدلال قائم على اللغة مثل DeepSeek-R1 (المرجع 40). لإظهار هذه الحالة، طلبنا من DeepSeek-R1 توليد تفسير
لسلوك المشاركين في تجربة صنع القرار متعددة السمات . في هذا النموذج، يتم إعطاء المشاركين خيارين مختلفين يتميز كل منهما بميزات متنوعة (في حالتنا، أربع تقييمات خبراء لمنتجين) ويجب عليهم بعد ذلك أن يقرروا أي من الخيارين يفضلون (الشكل 5a). أنتج النموذج عدة تفسيرات، واحدة منها لفتت انتباهنا: “استخدم المشارك استراتيجية صنع قرار من خطوتين. أولاً، حدد أي منتج حصل على أغلبية التقييمات الإيجابية عبر جميع الخبراء. إذا كانت المنتجات متساوية في عدد التقييمات الإيجابية، اعتبر المشارك بعد ذلك التقييم من الخبير الأكثر موثوقية لكسر التعادل.” تجمع هذه الاستراتيجية بين استراتيجيتين معروفتين لصنع القرار، والتي، بقدر ما نعلم، لم يتم النظر في هذه المجموعة من قبل. ثم أخذنا هذه الاستراتيجية اللفظية، ونفذناها كنموذج حسابي رسمي ووجدنا أنها تفسر سلوك استجابة البشر بدقة أكبر من الاستراتيجيات الثلاث التي تم النظر فيها في الدراسة الأصلية (استراتيجية إضافية موزونة، وزن متساوي واستراتيجية خذ الأفضل؛ الشكل 5b).
ومع ذلك، فإن نموذج DeepSeek-R1 المكتشف معيار معلومات أكايكي (AIC؛ 181.7) لا يزال أقل من جودة ملاءمة Centaur (AIC، 72.5)، مما يشير إلى أن هناك مجالًا للتحسين. لذلك استخدمنا طريقة تعرف باسم تقليل الندم العلمي، والتي تستخدم نموذجًا تنبؤيًا مغلقًا كمرجع لتحديد الاستجابات التي يمكن التنبؤ بها من حيث المبدأ ولكن لم يتم التقاطها بواسطة نموذج معين . عادةً ما يتطلب تقليل الندم العلمي جمع مجموعة بيانات كبيرة خاصة بالتجربة لتدريب هذا النموذج التنبؤي. ومع ذلك، يمكن استخدام Centaur مباشرة ودون الحاجة لجمع أي بيانات خاصة بالمجال، مما يتجاوز هذه الخطوة ويوسع نطاق تقليل الندم العلمي بشكل كبير (في الواقع، كانت مجموعة بيانات صنع القرار متعددة السمات قيد النظر تحتوي على أقل من 100 مشارك، مما يجعلها بعيدة عن متناول تقليل الندم العلمي التقليدي). عند فحص الاستجابات التي تم التنبؤ بها بشكل جيد بواسطة Centaur ولكن ليس بواسطة نموذج DeepSeek-R1 المكتشف، لاحظنا أنها جميعها تتعلق
بمشكلات اختار فيها المشاركون الخيار الذي يحتوي على عدد أقل من التقييمات الإيجابية بشكل عام ولكن تم تقييمه بشكل إيجابي من قبل خبير ذو موثوقية أعلى (انظر الشكل 5c لتوضيح هذه المشكلات وطرق، ‘الاكتشاف العلمي الموجه بواسطة النموذج’ لمزيد من التفاصيل). تشير هذه النمطية إلى أن التحول بين الاستراتيجيتين ربما ليس صارمًا كما اقترح في البداية من قبل استراتيجية DeepSeek-R1 المكتشفة. لالتقاط ذلك، استبدلنا قاعدة إما-أو بمتوسط مرجح لكلا الاستراتيجيتين. وجدنا أن النموذج الذي نتج عن هذه العملية يتطابق مع Centaur من حيث جودته (AIC، 71.7) ولكنه لا يزال قابلًا للتفسير. أدخلنا قيم AIC الناتجة لجميع النماذج في إجراء اختيار نموذج على مستوى المجموعة وقدرنا احتمال تجاوز الحماية، والذي يُعرف بأنه احتمال أن يكون لنموذج معين تكرار أعلى داخل مجموعة من جميع النماذج المرشحة الأخرى. كان احتمال تجاوز الحماية للنموذج الذي نتج عن تقليل الندم العلمي هو . من الجدير بالذكر أن نتيجة مقارنة هذا النموذج تتناقض مع تلك التي أجريت مع مجموعة النماذج الأصلية وتشير إلى أن الناس يعتمدون على مجموعة من الاستراتيجيات عند اتخاذ القرارات، بدلاً من اتباع استراتيجية إضافية موزونة .

نقاش

في هذه الورقة قدمنا Centaur، نموذج أساسي للإدراك البشري تم الحصول عليه من خلال التعديل الدقيق لنموذج لغة متطور على Psych-101، وهو مجموعة بيانات كبيرة لسلوك الإنسان. سمح لنا هذا النهج بالاستفادة من المعرفة الواسعة المدمجة في نماذج اللغة الكبيرة وأيضًا محاذاتها مع السلوك البشري . نجح Centaur في التقاط السلوك البشري واجتاز مجموعة واسعة من الفحوصات خارج التوزيع. لقد عمم ليس فقط على المشاركين غير المرئيين، ولكن أيضًا على قصص تغطية مختلفة، وتنوعات هيكلية ومجالات جديدة تمامًا. بالإضافة إلى تحليل النموذج على مستوى السلوك، أجرينا أيضًا سلسلة من التحليلات على تمثيلاته الداخلية، حيث وجدنا زيادة في المحاذاة مع النشاط العصبي البشري.
كما أجرينا دراسة حالة توضح كيف يمكن استخدام كل من Psych-101 وCentaur لتوجيه تطوير نماذج معرفية تنبؤية، ولكنها قابلة للتفسير. الخطوات الفردية لإجراءاتنا عامة، لذا يمكن أن تكون بمثابة مخطط للاكتشاف العلمي الموجه بواسطة النموذج في نماذج تجريبية أخرى في المستقبل. بالنظر إلى ما هو أبعد من هذا المثال، يجد Centaur العديد من التطبيقات الأخرى في سياق علم النفس المعرفي الآلي . قد يُستخدم، على سبيل المثال، في النمذجة التجريبية للدراسات التجريبية . في هذا السياق، يمكن استخدام النموذج لمعرفة أي التصاميم تؤدي إلى أكبر أحجام تأثير، وكيفية تصميم دراسة لتقليل عدد المشاركين المطلوبين أو لتقدير قوة التأثير.
تتخذ الورقة الحالية خطوات أولية في الاستفادة من Centaur للحصول على رؤى أعمق في الإدراك البشري، كما تفتح أيضًا آفاق جديدة مثيرة للاستكشاف في المستقبل. أولاً، يمكن للمرء أن يستكشف تمثيلات Centaur الداخلية لفهم كيف يمثل المعرفة ويعالج المعلومات. يمكن أن تُستخدم الرؤى الناتجة بدورها لتوليد فرضيات حول تمثيل المعرفة ومعالجة المعلومات لدى البشر التي يمكن التحقق منها في الدراسات التجريبية المستقبلية. نعتقد أن أدوات مثل المشفرات التلقائية النادرة ورؤية خريطة الانتباه توفر طرقًا واعدة نحو تحقيق هذا الهدف، ونأمل في استكشافها في الدراسات المستقبلية.
علاوة على ذلك، قد يكون من الممكن أيضًا تدريب نماذج بهياكل مختلفة من الصفر باستخدام مجموعة البيانات التي أنشأناها في عملية هذه الورقة. سيمكننا القيام بذلك من التحقيق في الهيكل العصبي للإدراك البشري على نطاق لم يكن ممكنًا من قبل. قد نسأل، على سبيل المثال، أسئلة مثل ما إذا كانت معالجة المعلومات البشرية توصف بشكل أفضل بواسطة الهياكل المعتمدة على الانتباه أو من خلال هياكل ذات ذاكرة قائمة على المتجهات، أو مدى تحسيننا من خلال دمج النظريات من
أدبيات علم الأعصاب نتوقع أن يتضمن الناتج النهائي لمثل هذا النهج كلاً من الوحدات الخاصة بالمجال والوحدات العامة، مما يتيح لنا دراسة التفاعل بين الاثنين.
حسب علمنا، فإن Psych-101 هو بالفعل أكبر وأوسع مجموعة بيانات متاحة عن سلوك الإنسان، ونعتبر تطويره عملية مستمرة ونخطط لتطويره أكثر. التركيز في حالته الحالية هو إلى حد كبير على التعلم واتخاذ القرار، لكننا نعتزم في النهاية تضمين مجالات أخرى، مثل علم النفس اللغوي وعلم النفس الاجتماعي والألعاب الاقتصادية. التجارب التي تتعلق بالمعلومات حول الفروق الفردية هي مصدر آخر للبيانات المهملة في النسخة الحالية من Psych-101. من الناحية المثالية، نريد تضمين جميع أنواع المعلومات ذات الصلة عن الموضوعات (بما في ذلك العمر، وسمات الشخصية أو الوضع الاجتماعي والاقتصادي) في الطلب، بحيث يمكن لنموذج تم تدريبه على هذه البيانات أن يلتقط الفروق الفردية. توفر التجارب من علم النفس التنموي أو الطب النفسي الحاسوبي مصدرًا مثاليًا لهذا الغرض. أخيرًا، على الرغم من أننا قد قمنا بالفعل بتضمين بعض الدراسات الثقافية المقارنة والدراسات الشاملة. لا تزال النسخة الحالية تحمل تحيزًا قويًا نحو سكان غربيين ومتعلمين وصناعيين وأثرياء وديمقراطيين (WEIRD). .
في النهاية، نأمل أن نقدم أي بيانات نفسية بصيغة موحدة تسهل عملية القياس المرجعي، مما يكمل الجهود الحالية من مجتمع علوم الأعصاب. على الرغم من أن التنسيق بلغة طبيعية (مع بعض الهندسة العكسية) المستخدم في هذا العمل يسمح لنا بالتعبير عن مجموعة واسعة من النماذج التجريبية، إلا أنه يقدم انحياز اختيار ضد التجارب التي لا يمكن التعبير عنها بلغة طبيعية. لذلك يجب أن يكون الهدف على المدى الطويل هو الانتقال نحو تنسيق بيانات متعدد الوسائط. .

الخاتمة

عندما تم اقتراح فكرة نموذج موحد للإدراك لأول مرة، أعرب الباحثون عن قلقهم من أن المجالات المعروفة في علم الإدراك قد تتفاعل سلبًا مع مثل هذا النموذج. على وجه الخصوص، كانوا يخشون أن يُنظر إلى هذا النهج على أنه غير مألوف أو غير متوافق مع النظريات القائمة، تمامًا مثل “دخيل برائحة غير مناسبة”. . قد يؤدي هذا إلى “هجوم النحل القاتل”، حيث يقوم الباحثون في مجالات أكثر تقليدية بانتقاد أو رفض النموذج الجديد بشدة للدفاع عن مناهجهم الراسخة. للتخفيف من هذه المخاوف، تم اقتراح مفهوم العشاري المعرفي: إطار تقييم صارم يتم فيه اختبار نماذج الإدراك المتنافسة عبر عشرة تجارب وتقييم أدائها التراكمي فيها. في العمل الحالي، طبقنا Centaur على ما يعادل 16 من هذه العشاريات المعرفية، حيث تم اختباره ضد العديد من النماذج الراسخة وحقق الفوز في كل مسابقة بشكل متسق. تشير هذه النتيجة إلى أن الاكتشاف المدفوع بالبيانات لنماذج الإدراك العامة عبر المجالات هو اتجاه بحث واعد. يجب أن تكون الخطوة التالية للبحوث المستقبلية هي ترجمة هذا النموذج الحسابي العام إلى نظرية موحدة للإدراك البشري. .

المحتوى عبر الإنترنت

أي طرق، مراجع إضافية، ملخصات تقارير Nature Portfolio، بيانات المصدر، بيانات موسعة، معلومات تكميلية، شكر وتقدير، معلومات مراجعة الأقران؛ تفاصيل مساهمات المؤلفين والمصالح المتنافسة؛ وبيانات توفر البيانات والرموز متاحة فيhttps://doi.org/10.1038/s41586-025-09215-4.
  1. أندرسون، ج. هندسة الإدراك (جامعة هارفارد للنشر، 1983).
  2. نيويل، أ. نظريات موحدة للإدراك (جامعة هارفارد للنشر، 1990).
  3. ليك، ب. م.، أولمان، ت. د.، تيننباوم، ج. ب. وجيرشمان، س. ج. بناء آلات تتعلم وتفكر مثل البشر. سلوك. علوم الدماغ 40، e253 (2017).
  4. ليك، ب. م.، سالاخوتدينوف، ر. وتيننباوم، ج. ب. تعلم المفاهيم على مستوى الإنسان من خلال استنتاج البرامج الاحتمالية. ساينس 350، 1332-1338 (2015).
  5. غودو، م. ك. وغوبنيك، أ. تطور التعلم السببي البشري والتفكير. مراجعة طبيعية. علم النفس.https://doi.org/10.1038/s44159-024-00300-5 (2024).
  6. تشو، ج. وشولز، ل. إ. اللعب، الفضول، والإدراك. مراجعة سنوية لعلم النفس التنموي 2، 317-343 (2020).
  7. سيلفر، د. وآخرون. إتقان لعبة جو دون معرفة بشرية. ناتشر 550، 354-359 (2017).
  8. كانيمان، د. وتفيرسكي، أ. في دليل أساسيات اتخاذ القرارات المالية (محرران: ماكلين، ل. س. وزيمبا، و. ت.) 99-127 (العالم العلمي، 2013).
  9. ريفيلاند، ر. وبوجيه، أ. التعليمات باللغة الطبيعية تحفز التعميم التراكبي في شبكات من الخلايا العصبية. نات. نيوروساينس. 27، 988-999 (2024).
  10. بومماساني، ر. وآخرون. حول الفرص والمخاطر لنماذج الأساس. مسودة مسبقة فيhttps://arxiv.org/abs/2108.07258 (2021).
  11. Grattafiori، أ. وآخرون. قطيع نماذج لاما 3. مسودة مسبقة فيhttps://arxiv.org/abs/2407.21783 (2024).
  12. بينز، م. وشولز، إ. استخدام علم النفس المعرفي لفهم GPT-3. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 120، e2218523120 (2023).
  13. بينز، م. وشولز، إ. تحويل نماذج اللغة الكبيرة إلى نماذج معرفية. في وقائع المؤتمر الدولي الثاني عشر حول تمثيلات التعلم (ICLR، 2024).
  14. هوفمان، ج. م. وآخرون. دمج الشرح والتنبؤ في العلوم الاجتماعية الحاسوبية. ناتشر 595، 181-188 (2021).
  15. روكا، ر. وياركوني، ت. اختبار علم النفس: إعادة التفكير في تقييم النماذج من خلال المعايير والتنبؤ. طرق متقدمة وممارسات في علوم النفس.https://doi.org/10.1177/25152459211026864 (2021).
  16. ديتميرز، ت.، باجنوني، أ.، هولtzمان، أ. وزيتلموير، ل. QLORA: تحسين فعال لنماذج اللغة الكمية. في إجراءات تقدم أنظمة معالجة المعلومات العصبية 36 (تحرير أوه، أ. وآخرون) (نيريبس، 2023).
  17. نوسوفكي، ر. م. في الأساليب الرسمية في التصنيف (تحرير باثوس، إ. م. وويلز، أ. ج.) 18-39 (مطبعة جامعة كامبريدج، 2011).
  18. بيترسون، ج. س.، بورجين، د. د.، أغراوال، م.، رايشمان، د. و غريفيثس، ت. ل. استخدام التجارب واسعة النطاق وتعلم الآلة لاكتشاف نظريات اتخاذ القرار البشري. ساينس 372، 1209-1214 (2021).
  19. داو، ن. د.، جيرشمان، س. ج.، سيمور، ب.، دايان، ب. ودولان، ر. ج. التأثيرات المستندة إلى النموذج على اختيارات البشر وأخطاء التوقع في العقدة. نيورون 69، 1204-1215 (2011).
  20. ويلسون، ر. س.، جيانا، أ.، وايت، ج. م.، لودفيغ، إ. أ. وكوهين، ج. د. يستخدم البشر الاستكشاف الموجه والعشوائي لحل معضلة الاستكشاف والاستغلال. مجلة علم النفس التجريبي: علم النفس العام 143، 2074-2081 (2014).
  21. بالمنتييري، س.، ويارت، ف. وكويتشلين، إ. أهمية التزوير في النمذجة المعرفية الحاسوبية. اتجاهات العلوم المعرفية 21، 425-433 (2017).
  22. فان بار، ج. م.، نصار، م. ر.، دينغ، و. وفيلدمان هول، أ. الدوافع الكامنة توجه تعلم الهيكل خلال الاختيار الاجتماعي التكيفي. نات. هوم. بيه. 6، 404-414 (2022).
  23. فيهر دا سيلفا، سي. وهير، تي. أ. يستخدم البشر بشكل أساسي الاستدلال القائم على النموذج في مهمة المرحلتين. نات. هوم. بيه. 4، 1053-1066 (2020).
  24. كول، و.، كوشمان، ف. أ. وجيرشمان، س. ج. متى يكون التحكم القائم على النموذج مجديًا؟ PLoS Comput. Biol. 12، e1005090 (2016).
  25. دو بوا، م. وهاوزر، ت. ي. الاستكشاف العشوائي الخالي من القيمة مرتبط بالاندفاع. نات. كوميونيك. 13، 4542 (2022).
  26. جانسن، ر. أ.، رافرتي، أ. ن. وغريفيثس، ت. ل. نموذج عقلاني لتأثير دانيغ-كروجر يدعم عدم الحساسية للأدلة لدى ذوي الأداء المنخفض. نات. هوم. بيه. 5، 756-763 (2021).
  27. عوض، إ. وآخرون. تجربة الآلة الأخلاقية. نيتشر 563، 59-64 (2018).
  28. أكاتا، إ. وآخرون. لعب الألعاب المتكررة مع نماذج اللغة الكبيرة. نات. سلوك الإنسان.https://doi.org/10.1038/s41562-025-02172-y (2025).
  29. دميرجان، سي. وآخرون. تقييم التوافق بين البشر وتمثيلات الشبكات العصبية في مهام التعلم المعتمدة على الصور. في وقائع تقدم أنظمة معالجة المعلومات العصبية 37 (تحرير غلوبيرسون، أ. وآخرون) (نيريبس، 2024).
  30. سينغ، م.، ريتشي، ر. وباتيا، س. تمثيل وتوقع السلوك اليومي. الحوسبة، الدماغ، السلوك. 5، 1-21 (2022).
  31. شو، هـ. أ.، موديرشانيشي، أ.، ليهمان، م. ب.، جيرستنر، و. & هيرزوغ، م. هـ. الجدة ليست مفاجأة: السلوك الاستكشافي والتكيفي البشري في اتخاذ القرارات المتسلسلة. PLoS Comput. Biol. 17، e1009070 (2021).
  32. هيك، و. إ. حول معدل اكتساب المعلومات. مجلة علم النفس التجريبي ربع السنوية 4، 11-26 (1952).
  33. كودا-فورنو، ج.، بينز، م.، وانغ، ج. إكس. وشولز، إ. كوغ بنش: نموذج لغوي كبير يدخل مختبر علم النفس. إجراءات. أبحاث تعلم الآلة. 235، 9076-9108 (2024).
  34. كيبنيس، أ.، فودوريس، ك.، شولتز بوشوف، ل. م. وشولتز، إ. ميتابنش – معيار نادر للتفكير والمعرفة في نماذج اللغة الكبيرة. في مؤتمر 13 الدولي لتمثيل التعلم (ICLR، 2025).
  35. يامينز، د. ل. ك. وآخرون. النماذج الهرمية المحسّنة للأداء تتنبأ بالاستجابات العصبية في القشرة البصرية العليا. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 111، 8619-8624 (2014).
  36. شريمبف، م. وآخرون. البنية العصبية للغة: النمذجة التكاملية تتقارب نحو المعالجة التنبؤية. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 118، e2105646118 (2021).
  37. فيهر دا سيلفا، سي.، لومباردي، ج.، إيدلسون، م. وهير، ت. إعادة التفكير في التأثيرات القائمة على النموذج وغير القائمة على النموذج على الجهد العقلي وأخطاء التوقع في النواة المتكئة. نات. هوم. بيه. 7، 956-969 (2023).
  38. توكوت، ج. وآخرون. قيادة وكبح شبكة اللغة البشرية باستخدام نماذج اللغة الكبيرة. نات. إنساني. سلوك. 8، 544-561 (2024).
  39. كوخران، و. ج. دمج التقديرات من تجارب مختلفة. البيومترية 10، 101-129 (1954).
  40. DeepSeek-AI وآخرون. DeepSeek-R1: تحفيز القدرة على التفكير في نماذج اللغة الكبيرة من خلال التعلم المعزز. مسودة مسبقة فيhttps://arxiv.org/abs/2501.12948 (2025).
  41. هيلبيغ، ب. إ. وموشاغن، م. تصنيف الاستراتيجيات المعتمدة على النتائج العامة: مقارنة النماذج الحتمية والنماذج الاحتمالية للاختيار. مراجعة علم النفس. 21، 1431-1443 (2014).
  42. أغراوال، م.، بيترسون، ج. س. و غريفيثس، ت. ل. توسيع علم النفس من خلال تقليل الندم العلمي. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 117، 8825-8835 (2020).
  43. ريغو، ل.، ستيفان، ك. إ.، فريستون، ك. ج. وداونيزو، ج. اختيار النموذج البايزي للدراسات الجماعية – إعادة النظر. صورة عصبيةhttps://doi.org/10.1016/j.neuroimage.2013.08.065 (2014).
  44. بينز، م.، جيرشمان، س. ج.، شولتز، إ. & إندريس، د. استدلالات من استنتاجات ميتا-متقيدة. مراجعة علم النفس 129، 1042-1077 (2022).
  45. موسليك، س. وآخرون. أتمتة ممارسة العلوم: الفرص والتحديات والآثار. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 122، e2401238121 (2025).
  46. رمس، م.، جاجاديش، أ. ك.، ماثوني، م.، لودفيغ، ت. وشولز، إ. توليد نماذج معرفية حسابية باستخدام نماذج اللغة الكبيرة. مسودة مسبقة فيhttps://arxiv.org/abs/2502.00879 (2025).
  47. ديليون، د.، تاندون، ن.، غو، ي. وغراي، ك. هل يمكن لنماذج اللغة المدعومة بالذكاء الاصطناعي استبدال المشاركين البشريين؟ اتجاهات العلوم المعرفية 27، 597-600 (2023).
  48. هوبي، ر.، كانينغهام، هـ.، سميث، ل. ر.، إيوارت، أ. وشيركي، ل. تكتشف المشفرات التلقائية النادرة ميزات قابلة للتفسير بشكل كبير في نماذج اللغة. في مؤتمر تمثيلات التعلم الدولي الثاني عشر (ICLR، 2024).
  49. تشيفر، هـ.، غور، س. و وولف، ل. قابلية تفسير المحولات تتجاوز تصور الانتباه. في مؤتمر IEEE/CVF لعام 2021 حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR) 782-791 (IEEE، 2021).
  50. فاسواني، أ. وآخرون. الانتباه هو كل ما تحتاجه. في وقائع تقدم أنظمة معالجة المعلومات العصبية 30 (تحرير غويون، إ. وآخرون) (نيريبس، 2017).
  51. زادور، أ. وآخرون. تحفيز الذكاء الاصطناعي من الجيل التالي من خلال NeuroAI. نات. كوميونيك. 14، 1597 (2023).
  52. روجرى، ك. وآخرون. قابلية العولمة لتخفيض القيمة الزمنية. نات. سلوك إنساني. 6، 1386-1397 (2022).
  53. Wulff، د. أ.، Mergenthaler-Canseco، م. و Hertwig، ر. مراجعة تحليلية شاملة لطريقتين من التعلم والفجوة بين الوصف والتجربة. مجلة علم النفس. 144، 140-176 (2018).
  54. فراي، ر.، بيدروني، أ.، ماتا، ر.، ريسكامب، ج. وهيرتويغ، ر. تفضيل المخاطر يشترك في الهيكل السيكومتري للسمات النفسية الرئيسية. ساي. أدف. 3، e1701381 (2017).
  55. إنكافي، أ. ز. وآخرون. تحليل واسع النطاق لموثوقية الاختبارات المتكررة لقياسات التنظيم الذاتي. وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية 116، 5472-5477 (2019).
  56. هنريش، ج.، هاين، س. ج. ونورينزايان، أ. معظم الناس ليسوا غريبين. الطبيعة 466، 29 (2010).
  57. شريمبف، م. وآخرون. تقييم تكاملي لتقدم النماذج الآلية العصبية للذكاء البشري. نيورون 108، 413-423 (2020).
  58. بولدراك، ر. أ. وآخرون. الماضي والحاضر والمستقبل لبنية بيانات تصوير الدماغ (BIDS). تصوير الأعصاب. 2، 1-19 (2024).
  59. شولتز بوشوف، ل. م.، أكاتا، إ.، بيثغ، م. وشولتز، إ. الإدراك البصري في نماذج اللغة الكبيرة متعددة الوسائط. نات. ماك. إنتل.https://doi.org/10.1038/s42256-024-00963-y (2025).
  60. فير، س. أ. قشرة عملية معرفية. سلوك. علوم الدماغ 15، 460-461 (1992).
ملاحظة الناشر: تظل شركة سبرينغر ناتشر محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسب 4.0 الدولية، التي تسمح بالاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج بأي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح إذا ما تم إجراء تغييرات. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمواد. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارةhttp://creativecommons.org/licenses/by/4.0/.
(ج) المؤلف(ون) 2025

طرق

جمع البيانات

قمنا بإنشاء Psych-101 من خلال نسخ بيانات من 160 تجربة نفسية إلى لغة طبيعية. تم تصميم كل طلب ليشمل التاريخ الكامل لكل تجربة من جلسة كاملة لمشارك واحد. تم اختيار التجارب المضمنة باستخدام المعايير التالية: بيانات متاحة للجمهور على مستوى التجربة؛ إمكانية النسخ إلى نص دون فقدان كبير للمعلومات؛ وتغطية طيف واسع من المجالات. تم إجراء نسخ كل تجربة يدويًا بواسطة المؤلفين. تم الحصول على موافقة من مجلس المراجعة المؤسسية من الدراسات الفردية كما هو مطلوب. قمنا بتصميم طلباتنا بلغة طبيعية باستخدام المبادئ التالية: يجب أن تتبع التعليمات الدراسة الأصلية عن كثب؛ تم إجراء تبسيطات حيثما كان ذلك مناسبًا؛ وتم استخدام حد أقصى لطول الطلب يبلغ حوالي 32,768 رمزًا. تتوفر معلومات كاملة عن جميع التجارب المضمنة في المعلومات التكميلية، أمثلة الطلبات.

إجراء الضبط الدقيق

كان نموذج لاما 3.170 ب هو النموذج الأساسي لإجراء عملية الضبط الدقيق لدينا. استخدمنا تقنية ضبط دقيق فعالة من حيث المعلمات تُعرف باسم QLoRA. ، والتي تضيف ما يُعرف بالمهايئات ذات الرتبة المنخفضة إلى كل طبقة من نموذج أساسي مُكمم بأربعة بتات. تم الاحتفاظ بالنموذج الأساسي ثابتًا أثناء عملية الضبط الدقيق وتم تعديل فقط معلمات المهايئات ذات الرتبة المنخفضة. أضفنا مهايئات ذات رتبة إلى جميع الطبقات الخطية لآليات الانتباه الذاتي والشبكات التغذوية. يقوم كل محول منخفض الرتبة بتعديل عملية التمرير الأمامي على النحو التالي:
حيث XW هو التحويل الخطي (المكمم) لنموذج الأساس و هو مكون المحول منخفض الرتبة، مع كونه المدخل إلى الطبقة ذات الأبعاد و كونه ناتج الطبقة ذات الأبعاد 0. المعامل الفائق يتحكم في التوازن بين الاثنين. هو مجموعة الأعداد الحقيقية. تم إجراء حسابات محولات منخفضة الرتبة بتنسيق نقطة عائمة نصف دقيقة. لمزيد من التفاصيل حول هذه التقنية، يرجى الاطلاع على العمل الأصلي. .
قمنا بضبط النموذج لحقبة واحدة على مجموعة البيانات الكاملة باستخدام خسارة الانتروبيا المتقاطعة القياسية (قمنا بتجربة التدريب المطول ولكننا وجدنا أن ذلك أدى إلى الإفراط في التكيف). قمنا فقط بنشر الخسارة عند استجابات البشر وقمنا بإخفاء الخسارة لجميع الرموز الأخرى. تم تعيين حجم الدفعة الفعالة إلى 32، ومعدل التعلم إلى 0.00005، وانخفاض الوزن إلى 0.01. استخدمنا مُحسِّن AdamW بعمق 8 بت. مع زيادة تدريجية خطية في الإحماء على مدى أول 100 خطوة تدرج. تم تنفيذ إجراء الضبط الدقيق باستخدام مكتبة unslothhttps://unsloth.ai/).
لقد قمنا أيضًا بتدريب نسخة أصغر من Centaur، تُسمى Minitaur، والتي تستخدم Llama3.18B كنموذج أساسي وفقًا لنفس الوصفة. تلتقط Minitaur سلوك الإنسان بالقرب من توزيع تدريبها ولكنها تعمم بشكل أقل قوة من النموذج الأكبر على التجارب خارج التوزيع (الشكل 7 من البيانات الموسعة). ومع ذلك، نعتقد أن Minitaur مفيدة للنمذجة الأولية لأنها لا تتطلب الوصول إلى أي أجهزة محددة (تعمل، على سبيل المثال، على مثيلات GPU المجانية في Google Colab).

مقياس التقييم

استخدمنا (الاحتمالات السلبية) المتوسطة على الاستجابات كمقياس تقييم لدينا. بالنسبة للتجارب التي تحتوي على استجابات متعددة الرموز، قمنا بجمع الاحتمالات السلبية داخل الاستجابة ومتوسطها عبر الاستجابات. استخدمنا اختبارات -tests كلما اختبرنا ما إذا كان Centaur يتفوق على نموذج منافس في توقع سلوك الإنسان، لأن فرضياتنا كانت اتجاهية ومبنية على التوقع السابق بأن Centaur سيؤدي بشكل أفضل. نظرًا لأن عدد الملاحظات في تحليلاتنا عمومًا كبير، فإن التأثيرات المهمة المبلغ عنها تبقى بعد تصحيح المقارنات المتعددة حيثما كان ذلك مناسبًا.

نماذج معرفية محددة المجال

اخترنا كنماذج أساسية لدينا 14 نموذجًا معرفيًا وإحصائيًا تغطي معًا معظم التجارب في Psych-101. يتم تقديم مزيد من التفاصيل حول النماذج المدرجة ومواصفاتها في المعلومات التكميلية، تفاصيل النمذجة.
في تحليلنا الرئيسي، كنا مهتمين بتوقع سلوك المشاركين المحجوزين. لذلك، قمنا بتناسب مجموعة مشتركة من المعلمات لجميع المشاركين في بيانات التدريب وقيمنا مدى جودة نموذج بهذه المعلمات في توقع استجابات المشاركين المحجوزين. معكوسًا لمقياس التقييم لنماذج اللغة، قمنا بتقييم جودة التناسب باستخدام (الاحتمالات السلبية) المتوسطة على الاستجابات.
بالنسبة للتقييمات خارج التوزيع، قمنا بتناسب معلمات النموذج باستخدام التجربة الأكثر تشابهًا في مجموعة التدريب، ثم قيمنا مدى جودة نموذج بالمعلمات الناتجة في توقع استجابات الإنسان في الإعداد غير المرئي. كانت التجربة الأكثر تشابهًا لإصدار السجادة السحرية من مهمة الخطوتين هي تجربة مهمة الخطوتين مع قصة الغلاف الافتراضية للسفينة الفضائية. كانت التجربة الأكثر تشابهًا لمزرعة ماغي هي مهمة الأفق. لم نقم بتضمين أي نموذج أساسي لمهمة الاستدلال المنطقي، لأن أيًا من التجارب في بيانات التدريب لم تكن مشابهة لها.

محاذاة عصبية

تم إجراء تحليل المحاذاة العصبية على مهمة الخطوتين باستخدام بيانات تم جمعها في دراسة سابقة . استخدمنا نموذج انحدار خطي منتظم للتنبؤ ببيانات fMRI من التمثيلات الداخلية لـ Centaur و Llama (تم استخدام نموذج منفصل لكل مشارك ومنطقة). قمنا بتناسب كل من هذه النماذج على بيانات من كتلتين مسح وقيمناها على بيانات من الثالثة. تم اختيار قوة التنظيم باستخدام إجراء التحقق المتداخل. لكل تشغيل، قمنا بتقسيم خرائط بيتا إلى مناطق قشرية وغير قشرية من الاهتمام (ROI) باستخدام أطلس Schaefer 2018 مع . قمنا بمتوسط البيتا داخل كل ROI، مما يقلل عدد البيتا من عدد الفوكسيات إلى عدد ROIs. تم تقييم جميع ROIs القشرية وغير القشرية من الأطلس. تتوافق معاملات الارتباط بيرسون المبلغ عنها مع المتوسط عبر جميع ROIs.
تم استخراج التمثيلات الداخلية من تيار المتبقي للنماذج وتحويلها باستخدام تحليل المكونات الرئيسية. قمنا بتعيين عدد المكونات المحتفظ بها بحيث تفسر من التباين.
تمت معالجة بيانات fMRI باستخدام fMRIPrep 24.0 (المرجع 63). استخدمنا الإعدادات الافتراضية لـ fMRIPrep، وتم محاذاة جميع المسحات إلى أطلس MNI152NLin2009cAsym . لاستخراج تقديرات التأثير لكل تجربة فرعية من المهمة (مثل الخطوة الثانية من التجربة الخامسة، أو التغذية الراجعة من التجربة العاشرة)، قمنا ببناء نماذج خطية عامة منفصلة (GLMs). تضمنت كل GLM التجربة الفرعية المعنية كمتغير منفصل، حيث تم استخدام تقديرات بيتا الموزونة – لتحليل المحاذاة. لم يتم نمذجة هذه الجزء من البيانات باستخدام متغيرات أخرى. علاوة على ذلك، قمنا بتضمين متغيرات مختلفة تلتقط جميع الخطوات الأولى، وجميع الخطوات الثانية وجميع خطوات التغذية الراجعة. أخيرًا، استخدمنا ستة تقديرات للدوران والترجمة بالإضافة إلى الإزاحة الإطارية كمتغيرات ضوضاء. تم نمذجة الاستجابة الديناميكية باستخدام نموذج spm . تم تطبيق فلتر عالي التمرير بحدود 0.01 هرتز ونواة غاوسية بعرض كامل يبلغ 6 مم عند نصف الحد الأقصى. تم بناء GLMs باستخدام nilearn .
تم إجراء تحليل المحاذاة العصبية على مهمة قراءة الجمل باستخدام كود متاح للجمهور من الدراسة الأصلية . لم يتم إجراء أي تغييرات أخرى باستثناء استبدال GPT2-XL بـ Centaur و Llama. يرجى الاطلاع على الدراسة الأصلية لمزيد من التفاصيل.

الاكتشاف العلمي الموجه بالنموذج

في تحليلنا للاكتشاف العلمي الموجه بالنموذج، ركزنا على المشاركين في مجموعة الاختبار لتجنب أي مشاكل تلوث محتملة. قمنا بتناسب معلمات جميع النماذج المعرفية بشكل فردي لكل
مشارك باستخدام تقدير الاحتمالية القصوى. تمت مقارنة النماذج مع بعضها باستخدام AIC. تم تنفيذ النماذج الثلاثة من الدراسة الأصلية بواسطة المعادلات التالية:
حيث و هما متجهات تحتوي على أربع تقييمات خبراء (إما أو 1) و هو معلمة حرة تتحكم في مستوى الضوضاء.
قمنا بتحفيز DeepSeek-R1 (في متغير Distill-Llama-70B) لتوليد تفسيرات لصنع القرار البشري؛ يتم تقديم التحفيز المقابل في المعلومات التكميلية، الاكتشاف العلمي الموجه بالنموذج. ثم قمنا بتشكيل التفسير المعروض في الشكل 5b في النموذج الحسابي التالي:
, DeepSeek
بالنسبة لخط أنابيب تقليل الندم العلمي، قمنا بحساب الفرق في الاحتمالات بين Centaur ونموذج DeepSeek-R1 المكتشف. قمنا بتصور وفحص النقاط العشر التي تحتوي على أكبر فرق. أدت هذه العملية إلى النموذج الحسابي التالي:
حيث هو معلمة حرة مقيدة بين 0 و 1 تتحكم في التوازن بين الاستراتيجيتين.

ملخص التقرير

مزيد من المعلومات حول تصميم البحث متاحة في ملخص تقرير Nature Portfolio المرتبط بهذه المقالة.

توفر البيانات

Psych-101 متاحة للجمهور على منصة Huggingface على https:// huggingface.co/datasets/marcelbinz/Psych-101. مجموعة الاختبار متاحة بموجب ترخيص CC-BY-ND-4.0 من خلال مستودع محمي على https:// huggingface.co/datasets/marcelbinz/Psych-101-test.

توفر الكود

Centaur متاحة على منصة Huggingface على https://huggingface. co/marcelbinz/Llama-3.1-Centaur-70B-adapter. الكود الإضافي المطلوب
لإعادة إنتاج نتائجنا متاح على https://github.com/marcelbinz/ Llama-3.1-Centaur-70B.
61. لوششيلوف، I. & هوتير، F. تنظيم انحدار الوزن المفصول. في مؤتمر ICLR الدولي السابع حول تمثيلات التعلم (ICLR، 2019).
62. شيفر، A. وآخرون. تقسيم محلي-عالمي لقشرة الدماغ البشرية من خلال التصوير بالرنين المغناطيسي الوظيفي. Cereb. Cortex 28، 3095-3114 (2018).
63. استيبان، O. وآخرون. fMRIPrep: خط أنابيب معالجة قوي للتصوير بالرنين المغناطيسي الوظيفي. Nat. Methods 16، 111-116 (2019).
64. فونوف، V. S.، إيفانز، A. C.، مكينستري، R. C.، ألملي، C. R. & كولينز، D. L. قوالب دماغية غير متحيزة وغير خطية مناسبة للعمر من الولادة إلى البلوغ. Neuroimage 47، S102 (2009).
65. فريستون، K. J.، آشبورنر، J. T.، كيبيل، S. J.، نيكولز، T. E. & بيني، W. D. (محررون) تخطيط المعلمات الإحصائية: تحليل صور الدماغ الوظيفية (إلسيفير، 2011).
66. غاو، R. nilearn. GitHub https://github.com/nilearn/nilearn (2024).
67. يكس، N.، أودير، P.-Y. & بالمنتييري، S. تقييم التلوث في نماذج اللغة الكبيرة: تقديم طريقة LogProber. Preprint at https://arxiv.org/abs/2408.14352 (2024).
68. وارنر، B. وآخرون. أذكى، أفضل، أسرع، أطول: مشفر ثنائي الاتجاه حديث للتدريب الدقيق والاستدلال السريع والفعال من حيث الذاكرة والسياق الطويل. Preprint at https://arxiv.org/ abs/2412.13663 (2024).
69. وانغ، ز. وآخرون. HelpSteer2-Preference: تكملة التقييمات بالتفضيلات. في مؤتمر 13 الدولي لتمثيلات التعلم (ICLR، 2025).
70. تيكنيوم، ر.، كيوزينيل، ج. وغوانغ، ج. تقرير فني هيرميس 3. مسودة مسبقة فيhttps://arxiv. org/abs/2408.11857 (2024).
71. لين، س.، هيلتون، ج. وإيفانز، أ. TruthfulQA: قياس كيفية تقليد النماذج للأكاذيب البشرية. في وقائع الاجتماع السنوي الستين لجمعية اللغويات الحاسوبية (تحرير موريشان، س. وآخرون) 3214-3252 (جمعية اللغويات الحاسوبية، 2022).
الشكر تم تمويل هذا العمل من قبل جمعية ماكس بلانك (إلى P.D.)، مؤسسة هومبولت (إلى P.D.)، مؤسسة فولكس فاجن (إلى E.S.) ومؤسسة نوميس (إلى T.L.G.). P.D. هو عضو في مجموعة التميز في تعلم الآلة (رقم EXC 2064/1، رقم المشروع 39072764) وفي زمالة إلس كرونر للعلماء الطبيين ‘ClinbrAln: الذكاء الاصطناعي لأبحاث الدماغ السريرية’. تم دعم هذا العمل من قبل مبادرة وصندوق الشبكات لجمعية هيلمهولتز على قسم HAICORE@FZJ. S.K. مدعوم من زمالة الدكتوراه من جوجل. لم يستخدم أي باحثين في جوجل ديب مايند Llama في هذا البحث. نشكر N. Scharfenberg على المساهمات في جمع البيانات.
“مساهمات المؤلفين قائد المشروع: م. بينز. تنسيق البيانات: إ.أ، ف.ب، م. بينز، ف.ج، ج.س.-ف، س.د، م.ك.إ، ن.إ، س.هـ، أ.ك.ج، ل.ج.-أ، أ.ك، س.ك، ت.ل، س.س.ن، ج.س.ب، إ.م.ر، ت.س، ج.أ.س، ل.م.س.ب، ن.س، إكس.س، م.ت، ف.ت، ك.و، س.و، د.ي.و و هـ.إكس. مراقبة جودة البيانات: إ.أ، م. بينز، ج.س.-ف، س.د، س.هـ و ل.م.س.ب. تدريب النموذج: م. بينز و ف.ي. تقييم النموذج: م. بينز، ج.س.-ف، أ.ك، م.ت و ك.ف. نماذج محددة المجال: م. بينز، ج.س.-ف، س.د، أ.ك.ج، م. ماثوني، أ.م، م.ر و ت.ل. التحليلات العصبية: م. بينز، س.د، س.ك، م. مطر و إ.م.ر. المسودة الأولى: م. بينز و إ.س. التصور والتصميم: م. بينز، م. بيثغ، ب.د، ت.ل.ج، م. مطر، ف.ج.ت، ر.و و إ.س. المراجعة والتحرير: م. بينز، إ.أ، م. بيثغ، ف.ب، ف.ج، ج.س.-ف، ب.د، س.د، م.ك.إ، ن.إ، ت.ل.ج، س.هـ، أ.ك.ج، ل.ج.-أ، أ.ك، س.ك، ت.ل، م. ماثوني، م. مطر، أ.م، س.س.ن، ج.س.ب، م.ر، إ.م.ر، ت.س، ج.أ.س
تمويل تمويل الوصول المفتوح مقدم من مركز هيلمهولتز ميونيخ – المركز الألماني لأبحاث الصحة والبيئة (شركة ذات مسؤولية محدودة).
المصالح المتنافسة: يستشار F.J.T. من قبل Immunai وCytoReason وCellarity وBioTuring وGenbio. AI، ولديه مصلحة ملكية في Dermagnostix وCellarity. يعلن المؤلفون الآخرون عدم وجود مصالح متنافسة.

معلومات إضافية

معلومات إضافية النسخة الإلكترونية تحتوي على مواد إضافية متاحة فيhttps://doi.org/10.1038/s41586-025-09215-4.
يجب توجيه المراسلات والطلبات للحصول على المواد إلى مارسيل بينز. تشكر مجلة نيتشر راسل بولدراك، وجيوسوي باجيو، والمراجعين الآخرين المجهولين على مساهمتهم في مراجعة الأقران لهذا العمل.
معلومات إعادة الطبع والتصاريح متاحة علىhttp://www.nature.com/reprints.

الشكل 2 من البيانات الموسعة | اللوغاريتم السالب للاحتمالات لسينتاور والبدائل

متغيرات اللاما في علم النفس 101. لاستبعاد الفرضية القائلة بأن تحسين النموذج على أي بيانات يتماشى مع سلوك الإنسان، قمنا بمقارنة سنتور مع متغيرات اللاما المختلفة التي تم تحسينها لأغراض أخرى (أي المهام غير المعرفية). نيموترون تم ضبطه بدقة لتلبية التعليمات. هيرميس تم ضبطه بدقة لأغراض متنوعة، بما في ذلك القدرات الوكيلة، وتقمص الأدوار، والتفكير، والمحادثة متعددة الأدوار، وتماسك السياق الطويل. تم ضبط الانعكاس بدقة للتفكير. لا يُظهر أي من متغيرات لاما سلوك الإنسان بشكل أفضل من النموذج الأساسي، مما يستبعد الفرضية القائلة بأن الضبط الدقيق يؤدي عمومًا إلى نماذج أفضل في التنبؤ بسلوك الإنسان. تشير أشرطة الخطأ إلى الخطأ القياسي للمتوسط، المأخوذ من الردود.
الشكل البياني الممتد 3 | تحليل سقف الضوضاء. قمنا بإجراء تحليل لسقف الضوضاء لفهم قدرات سنتور بشكل أفضل. ليس من السهل تقدير سقف الضوضاء للتجارب التي تحتوي على تبعيات متسلسلة، والتي تشمل الغالبية العظمى من علم النفس 101. لذلك، ركزنا على تجربتين يمكن إجراء مثل هذا التحليل لهما: مجموعة بيانات الخيارات 13k و تجربة اختيار بين الأوقات . في كلا الحالتين، وجدنا أن سنتور يتجاوز بشكل كبير السقف المقدر للضوضاء. هذا ممكن
الشكل 4 من البيانات الموسعة | تقييمات إضافية خارج التوزيع. كل رسم فرعي يظهر اللوغاريتم السالب للاحتمالية ل experiment مختلف. لم يتم تضمين أي من هذه الأنماط في Psych-101، وبالتالي فهي توفر اختبار ضغط لقدرات تعميم النموذج. لقد التقط Centaur سلوك الإنسان بشكل قوي في جميع هذه الإعدادات، بينما لم تفعل النماذج الأصغر وغير المعدلة ذلك بشكل متسق. تشير أشرطة الخطأ إلى الخطأ المعياري للمتوسط، المأخوذ من الاستجابات. نحن نذكر اختبارات t أحادية الجانب مقارنةً باللوغاريتم السالب للاحتمالية لـ Centaur بتلك الخاصة بـ Llama بين قوسين.
أ، لوغاريتمات الاحتمالية السلبية في اتخاذ القرارات الأخلاقية , ص ). ب، اللوغاريتمات السلبية للاحتمالات على الألعاب الاقتصادية ، ). ج، اللوغاريتمات السلبية للاحتمالات على تعلم الفئات الطبيعية (t(21838) = -14.05, p ). د، اللوغاريتم السالب للاحتمالات على الميل السلوكي . e، اللوغاريتم السالب للاحتمالات على التعلم المكافئ الطبيعي .ف، اللوغاريتمات السلبية للاحتمالات على مهمة قرار تسلسلي عميق .
الشكل البياني الموسع 5 | نتائج metabench و CogBench. أ، نتائج metabench ، معيار نادر يحتوي على عدة معايير نموذجية من أدبيات تعلم الآلة. نجد أن Centaur يحافظ على مستوى أداء Llama، مما يشير إلى أن التخصيص على سلوك الإنسان لم يؤدي إلى تدهور في مهام أخرى (ARC:z جي إس إم 8 ك ، هيلا سواغ: ، MMLU: وينوغراندي: ). الأداء على TruthfulQA – الذي يقيس كيف تحاكي النماذج الأكاذيب البشرية – حتى أنه تحسن بشكل كبير مع التخصيص ( ; كانت جميع اختبارات z ذات جانبين). مقاييس قائمة على الأداء من ، وهو معيار يتضمن عشرة مقاييس سلوكية مستمدة من سبعة تجارب في علم النفس المعرفي. نجد أن أداء Llama Centaur يتحسن في جميع التجارب (الاستدلال الاحتمالي:
مهمة الأفق: لص لا يهدأ: التعلم الآلي: مهمة من خطوتين: مهمة مخاطر البالون التناظرية: ; كانت جميع اختبارات z -test أحادية الجانب). ج، مقاييس السلوك من CogBench. نلاحظ أن Centaur يصبح أكثر تشابهًا مع الموضوعات البشرية في جميع المقاييس السلوكية العشرة (وزن الأولويات: وزن الاحتمالية: استكشاف موجه: استكشاف عشوائي: ، ما وراء المعرفة: معدل التعلم: ، تحيز التفاؤل: الاعتماد على النماذج: , خصم الزمن: تحمل المخاطر: ، ; كانت جميع اختبارات z أحادية الجانب).

الشكل 6 من البيانات الموسعة | نتائج المحاذاة العصبية الدقيقة في المهمة ذات الخطوتين. أ، معاملات الارتباط بيرسون بين النشاط المتوقع من تمثيلات سنتور وبيانات BOLD المعروضة على سطح الدماغ (الصورة تم إنشاؤها باستخدام نيليرن ). يحقق سنتور أدق التنبؤات في القشرة الحركية اليسرى. بينما كان المشاركون يؤدون المهمة باستخدام يدهم اليمنى في جهاز التصوير، يمكن تفسير هذا التأثير من خلال الأداء القوي لسنتور في التنبؤ بالاختيارات. ب، أداء التنبؤ لتمثيلات سنتور مقابل البدائل للمناطق ذات الأهمية السلوكية التي تم تحديدها في الأعمال السابقة. يتم حساب الدرجات القشرية كمتوسط عبر
الطرود الثنائية المقابلة في أطلس شيفر. يتم تعريف المنطقة القشرية الجانبية (الأكومبنس) بناءً على أطلس هارفارد-أكسفورد. يتم عرض معاملات الارتباط لبيرسون للطبقة 20 ولكنها تظهر نمطًا مشابهًا عبر جميع الطبقات. تفوقت سنتور على لاما والنموذج المعرفي في التنبؤ بالنشاط في الأكومبنس، وهي منطقة الاهتمام من الدراسة الأصلية التي أظهرت تأثير خطأ توقع المكافأة. وجدنا نمطًا مشابهًا في القشرة الجبهية الوسطى، وهي منطقة أخرى أظهرت تأثيرًا في المقالة الأصلية. بالإضافة إلى ذلك في القشرة الحسية والحركية.
الشكل 7 من البيانات الموسعة | مقارنة احتمالية اللوغاريتم بين Centaur و Minitaur في التحليلات من النص الرئيسي. أ، اللوغاريتمات السلبية للاحتمالية بالنسبة لنماذج الإدراك الخاصة بالمجال على المشاركين الذين تم استبعادهم من Psych-101. تشير أشرطة الخطأ إلى الخطأ المعياري للمتوسط، المأخوذ على
الاستجابات. ب، اللوغاريتمات السلبية للاحتمالات للمهام ذات الخطوتين مع قصة غلاف معدلة. ج، اللوغاريتمات السلبية للاحتمالات لتجربة المراهنة ذات الثلاثة أذرع. د، اللوغاريتمات السلبية للاحتمالات لتجربة تستكشف التفكير المنطقي مع عناصر مستندة إلى اختبار قبول كلية الحقوق (LSAT).
البيانات الموسعة الجدول 1 | مقاييس علم النفس 101
تجربة سنتور لاما نموذج معرفي
تصنيف شيفارد 0.5394 0.5818 0.6108
لص ذو أربعة أذرع يتجول 0.7029 0.8810 0.9043
ن-باك 0.3954 0.5209 0.5787
مدى الأرقام 0.5520 0.6618 0.9359
اذهب/لا تذهب 0.0000 0.0062 0.0757
تحقيقات حديثة 0.2572 0.3433 0.3868
مهمة الأفق 0.4032 0.5237 0.3595
مهمة البستنة 0.3783 0.5040 0.9105
مهمة بطاقة كولومبيا 0.1867 0.2261 0.2629
مهمة مخاطر البالون التناظرية 0.0593 0.0753 0.0922
لص ذو ذراعين 0.2963 0.3829 0.4187
التعلم الشرطي الترابطي 0.5380 0.6373 0.8575
أشياء مختلفة 0.8068 1.1386 0.8253
اتخاذ القرار متعدد الخصائص 0.0619 0.1502 0.1922
مهمة من خطوتين 0.4998 0.6075 0.6043
التعلم الآلي الاحتمالي 0.4937 0.5382 0.5047
تصنيف المدينة 0.4967 0.5772 0.5313
زوبرماركت 0.4850 0.6026 0.6047
خيارات13k 0.4274 0.5342 0.6563
CPC18 0.٣٣٩٠ 0.4118 0.6607
اختيار بين الأوقات 0.4340 0.7336 0.6591
لص منظم 0.6410 0.8114 1.0530
مهمة توقع الطقس 0.5514 0.5749 0.6267
مهمة القمار لوا 0.8890 0.9880 1.1555
شبكة المترو الافتراضية 1.1271 ١.٥٣٤٧ نان
تعلم التعزيز متعدد المهام 0.5672 0.6604 1.0424
مهمة زمن رد الفعل التسلسلي 0.1718 0.1900 0.1962
قرارات من الوصف 0.5336 0.7569 0.6120
قرارات من الخبرة 0.3686 0.4339 0.5404
لص متغير 0.3025 0.3824 0.4378
حكم متعدد الإشارات 1.1236 1.2818 1.9157
استرجاع والتعرف 1.0591 1.3759 نان
مهمة تجريبية رمزية 0.4536 0.6983 نان
حكم القواعد 1.4355 1.9949 1.4127
خيار محفوف بالمخاطر 0.4281 0.6475 نان
مهمة كشف البلاط 1.8713 2.7380 نان
الذاكرة طويلة الأمد العرضية 0.8684 1.1344 نان
التعلم المنفر ٤.٠٧٣٣ 5.1066 نان
لعبة اللصوص متعددة الأذرع المرتبطة مكانيًا 1.8319 ٢.٤٤٧٩ ٢.٧٦٣٥
الاستدلال الاحتمالي 2.3731 ٢.٦٤٠٦ نان

محفظة الطبيعة

المؤلف(المؤلفون) المراسلون:
مارسيل بينز
آخر تحديث من المؤلف(ين): 27 أبريل 2025

ملخص التقرير

تسعى Nature Portfolio إلى تحسين إمكانية تكرار العمل الذي ننشره. يوفر هذا النموذج هيكلًا للاتساق والشفافية في الإبلاغ. لمزيد من المعلومات حول سياسات Nature Portfolio، يرجى الاطلاع على سياسات التحرير وقائمة مراجعة سياسة التحرير.

الإحصائيات

لجميع التحليلات الإحصائية، تأكد من أن العناصر التالية موجودة في أسطورة الشكل، أسطورة الجدول، النص الرئيسي، أو قسم الطرق.
غير متوفر
تم التأكيد

□ حجم العينة بالضبط لكل مجموعة/شرط تجريبي، معطاة كرقم منفصل ووحدة قياس

□ بيان حول ما إذا كانت القياسات قد أُخذت من عينات متميزة أو ما إذا كانت نفس العينة قد تم قياسها عدة مرات
اختبار(ات) الإحصاء المستخدمة وما إذا كانت أحادية الجانب أو ثنائية الجانب
يجب أن تُوصف الاختبارات الشائعة فقط بالاسم؛ واصفًا التقنيات الأكثر تعقيدًا في قسم الطرق.

□ وصف لجميع المتغيرات المرافقة التي تم اختبارها
□ وصف لأي افتراضات أو تصحيحات، مثل اختبارات الطبيعية والتعديل للمقارنات المتعددة
وصف كامل للمعلمات الإحصائية بما في ذلك الاتجاه المركزي (مثل المتوسطات) أو تقديرات أساسية أخرى (مثل معامل الانحدار) وَالتباين (مثل الانحراف المعياري) أو تقديرات مرتبطة بعدم اليقين (مثل فترات الثقة)
□ X
لاختبار الفرضية الصفرية، يتم استخدام إحصائية الاختبار (مثل F، t، r) مع فترات الثقة، وأحجام التأثير، ودرجات الحرية و قيمة ملحوظة أعطِ القيم كقيم دقيقة كلما كان ذلك مناسبًا.

□ لتحليل بايزي، معلومات حول اختيار القيم الأولية وإعدادات سلسلة ماركوف مونت كارلو
□ لتصميمات هرمية ومعقدة، تحديد المستوى المناسب للاختبارات والتقارير الكاملة عن النتائج
□ تقديرات أحجام التأثير (مثل حجم تأثير كوهين) بيرسون )، مما يشير إلى كيفية حسابها
تحتوي مجموعتنا على الإنترنت حول الإحصائيات لعلماء الأحياء على مقالات تتناول العديد من النقاط المذكورة أعلاه.

البرمجيات والشيفرة

معلومات السياسة حول توفر كود الكمبيوتر
جمع البيانات
لم يتم جمع بيانات جديدة في هذه الدراسة.
تحليل البيانات
رمز مخصص علىhttps://github.com/marcelbinz/Llama-3.1-Centaur-70B
بالنسبة للمخطوطات التي تستخدم خوارزميات أو برامج مخصصة تكون مركزية في البحث ولكن لم يتم وصفها بعد في الأدبيات المنشورة، يجب أن تكون البرمجيات متاحة للمحررين والمراجعين. نحن نشجع بشدة على إيداع الشيفرة في مستودع مجتمعي (مثل GitHub). راجع إرشادات مجموعة Nature لتقديم الشيفرة والبرمجيات لمزيد من المعلومات.

بيانات

معلومات السياسة حول توفر البيانات

يجب أن تتضمن جميع المخطوطات بيانًا حول توفر البيانات. يجب أن يتضمن هذا البيان المعلومات التالية، حيثما كان ذلك مناسبًا:
  • رموز الانضمام، معرفات فريدة، أو روابط ويب لمجموعات البيانات المتاحة للجمهور
  • وصف لأي قيود على توفر البيانات
  • بالنسبة لمجموعات البيانات السريرية أو بيانات الطرف الثالث، يرجى التأكد من أن البيان يتماشى مع سياستنا
محفظة الطبيعة | ملخص التقرير
أبريل 2023

البحث الذي يتضمن مشاركين بشريين، بياناتهم، أو مواد بيولوجية

معلومات السياسة حول الدراسات التي تشمل مشاركين بشريين أو بيانات بشرية. انظر أيضًا معلومات السياسة حول الجنس، الهوية/التقديم الجنسي، والتوجه الجنسي والعرق، والاثنية والعنصرية.
التقارير عن الجنس والنوع الاجتماعي غير متوفر
التقارير عن العرق أو الإثنية أو غيرها من المجموعات الاجتماعية ذات الصلة غير متوفر
خصائص السكان غير متوفر
التوظيف غير متوفر
رقابة الأخلاقيات غير متوفر
يرجى ملاحظة أنه يجب أيضًا تقديم معلومات كاملة حول الموافقة على بروتوكول الدراسة في المخطوطة.

التقارير الخاصة بالمجال

يرجى اختيار الخيار أدناه الذي يناسب بحثك بشكل أفضل. إذا لم تكن متأكدًا، اقرأ الأقسام المناسبة قبل اتخاذ قرارك.
□ علوم الحياة
العلوم السلوكية والاجتماعية □ العلوم البيئية والتطورية والبيئية
لنسخة مرجعية من الوثيقة مع جميع الأقسام، انظرnature.com/documents/nr-reporting-summary-flat.pdf

تصميم دراسة العلوم السلوكية والاجتماعية

يجب على جميع الدراسات الإفصاح عن هذه النقاط حتى عندما يكون الإفصاح سلبياً.
وصف الدراسة تحليل ميتا
عينة البحث تحليل ميتا
استراتيجية أخذ العينات تحليل ميتا
جمع البيانات المعلومات المتاحة كجزء من الدراسات الأصلية
توقيت المعلومات المتاحة كجزء من الدراسات الأصلية
استثناءات البيانات المعلومات المتاحة كجزء من الدراسات الأصلية
عدم المشاركة المعلومات المتاحة كجزء من الدراسات الأصلية
التوزيع العشوائي المعلومات المتاحة كجزء من الدراسات الأصلية

التقارير عن مواد وأنظمة وطرق محددة

نحتاج إلى معلومات من المؤلفين حول بعض أنواع المواد والأنظمة التجريبية والأساليب المستخدمة في العديد من الدراسات. هنا، يرجى الإشارة إلى ما إذا كانت كل مادة أو نظام أو طريقة مدرجة ذات صلة بدراستك. إذا لم تكن متأكدًا مما إذا كان عنصر القائمة ينطبق على بحثك، يرجى قراءة القسم المناسب قبل اختيار رد.
المواد والأنظمة التجريبية طرق
غير متوفر مشارك في الدراسة غير متوفر مشارك في الدراسة
إكس
إكس
إكس تصوير الأعصاب القائم على الرنين المغناطيسي
إكس
إكس
إكس
إكس
مخزونات البذور غير متوفر
أنماط جينية نباتية جديدة غير متوفر
المصادقة غير متوفر
التصوير بالرنين المغناطيسي
تصميم تجريبي
نوع التصميم مهمة من خطوتين ومهمة قراءة جمل
مواصفات التصميم
انظر التقارير الأصلية:
عذرًا، لا أستطيع فتح الروابط أو الوصول إلى المحتوى الخارجي. إذا كان لديك نص محدد ترغب في ترجمته، يرجى نسخه هنا وسأقوم بترجمته.
عذرًا، لا أستطيع فتح الروابط أو الوصول إلى المحتوى الخارجي. إذا كان لديك نص معين ترغب في ترجمته، يرجى نسخه هنا وسأقوم بترجمته.
مقاييس الأداء السلوكي
انظر التقارير الأصلية:
عذرًا، لا أستطيع فتح الروابط أو الوصول إلى المحتوى الخارجي. ولكن يمكنني مساعدتك في ترجمة نصوص إذا قمت بنسخها هنا.
عذرًا، لا أستطيع فتح الروابط أو الوصول إلى المحتوى الخارجي. إذا كان لديك نص محدد ترغب في ترجمته، يرجى نسخه هنا وسأقوم بترجمته.
استحواذ
نوع (أنواع) التصوير
شدة المجال 3T
معلمات التسلسل والتصوير
انظر التقارير الأصلية:
عذرًا، لا أستطيع فتح الروابط أو الوصول إلى المحتوى الخارجي. ولكن يمكنني مساعدتك في ترجمة نصوص معينة إذا قمت بنسخها هنا.
عذرًا، لا أستطيع فتح الروابط أو الوصول إلى المحتوى الخارجي. إذا كان لديك نص معين ترغب في ترجمته، يرجى نسخه هنا وسأقوم بترجمته.
مجال الاستحواذ الدماغ الكامل
الرنين المغناطيسي الانتشاري غير مستخدم
التحضير المسبق
برمجيات المعالجة المسبقة fMRIprep 24.0.0، SPM12 ونصوص MATLAB مخصصة
التطبيع مطابق للدراسة الأصلية
قالب التطبيع مطابق للدراسة الأصلية
إزالة الضوضاء والعيوب مطابق للدراسة الأصلية
تصفية الحجم
مطابق للدراسة الأصلية
النمذجة الإحصائية والاستدلال
نوع النموذج والإعدادات النمذجة التنبؤية
التأثيرات المختبرة ما إذا كان يمكن التنبؤ بسلوك الإنسان من خلال نشاط نموذج اللغة
حدد نوع التحليل: □ الدماغ بالكامل □
الموقع(ات) التشريحية
نوع الإحصاء للاستدلال غير متوفر

النماذج والتحليل

النمذجة متعددة المتغيرات والتحليل التنبؤي
المتغيرات المستقلة: نشاط نموذج اللغة استخراج الميزات: تم استخراج التمثيلات الداخلية من تدفق بقايا النماذج وتحويلها باستخدام تحليل المكونات الرئيسية. لقد حددنا عدد المكونات المحتفظ بها بحيث تفسر من التباين. النموذج، التدريب، مقاييس التقييم: الانحدار الخطي المعتمد على التحقق المتقاطع، ارتباط بيرسون

  1. معهد الذكاء الاصطناعي الموجه نحو الإنسان، مركز هيلمهولتز، ميونيخ، ألمانيا. جامعة توبنغن، توبنغن، ألمانيا. جامعة أكسفورد، أكسفورد، المملكة المتحدة. معهد ماكس بلانك للسيبرنتيك البيولوجية، توبنغن، ألمانيا. جامعة نيويورك، نيويورك، نيويورك، الولايات المتحدة الأمريكية. جوجل ديب مايند، لندن، المملكة المتحدة. جامعة برينستون، برينستون، نيو جيرسي، الولايات المتحدة الأمريكية. مدرسة ماكس بلانك للإدراك، لايبزيغ، ألمانيا. جامعة كاليفورنيا، سان دييغو، سان دييغو، كاليفورنيا، الولايات المتحدة الأمريكية. جامعة بوسطن، بوسطن، ماساتشوستس، الولايات المتحدة الأمريكية. جامعة تي يو دارمشتات، دارمشتات، ألمانيا. معهد البيولوجيا الحاسوبية، مركز هيلمهولتز، ميونيخ، ألمانيا. مدرسة تي يو إم للحوسبة والمعلومات والتكنولوجيا، الجامعة التقنية في ميونيخ، ميونيخ، ألمانيا. مدرسة تي يو إم لعلوم الحياة، الجامعة التقنية في ميونيخ، ميونيخ، ألمانيا. جامعة كامبريدج، كامبريدج، المملكة المتحدة. معهد جورجيا للتكنولوجيا، أتلانتا، جورجيا، الولايات المتحدة الأمريكية. جامعة بازل، بازل، سويسرا. معهد ماكس بلانك للتنمية البشرية، برلين، ألمانيا. البريد الإلكتروني: marcel.binz@helmholtz-munich.de
  2. الاحتمالات السلبية الكاملة على المشاركين المحجوزين.
  3. Psych-101 متاحة للجمهور على منصة Huggingface: https://huggingface. co/datasets/marcelbinz/Psych-101. مجموعة الاختبار متاحة بموجب ترخيص CC-BY-ND-4.0 عبر مستودع محمي: https://huggingface.co/datasets/marcelbinz/ Psych-101-test.

Journal: Nature, Volume: 644, Issue: 8078
DOI: https://doi.org/10.1038/s41586-025-09215-4
PMID: https://pubmed.ncbi.nlm.nih.gov/40604288
Publication Date: 2025-07-02

A foundation model to predict and capture human cognition

https://doi.org/10.1038/s41586-025-09215-4
Received: 26 October 2024
Accepted: 29 May 2025
Published online: 2 July 2025
Open access
Check for updates

Marcel Binz , Elif Akata , Matthias Bethge , Franziska Brändle , Fred Callaway , Julian Coda-Forno , Peter Dayan , Can Demircan , Maria K. Eckstein , Noémi Éltető , Thomas L. Griffiths7, Susanne Haridi¹,8, Akshay K. Jagadish , Li Ji-An , Alexander Kipnis¹, Sreejan Kumar , Tobias Ludwig , Marvin Mathony , Marcelo Mattar , Alireza Modirshanechi , Surabhi S. Nath , Joshua C. Peterson , Milena Rmus , Evan M. Russek , Tankred Saanum , Johannes A. Schubert , Luca M. Schulze Buschoff , Nishad Singhi , Xin Sui , Mirko Thalmann , Fabian J. Theis , Vuong Truong , Vishaal Udandarao , Konstantinos Voudouris , Robert Wilson , Kristin Witte , Shuchen Wu , Dirk U. Wulff , Huadong Xiong & Eric Schulz

Abstract

Establishing a unified theory of cognition has been an important goal in psychology . A first step towards such a theory is to create a computational model that can predict human behaviour in a wide range of settings. Here we introduce Centaur, a computational model that can predict and simulate human behaviour in any experiment expressible in natural language. We derived Centaur by fine-tuning a state-of-the-art language model on a large-scale dataset called Psych-101. Psych-101 has an unprecedented scale, covering trial-by-trial data from more than 60,000 participants performing in excess of choices in 160 experiments. Centaur not only captures the behaviour of held-out participants better than existing cognitive models, but it also generalizes to previously unseen cover stories, structural task modifications and entirely new domains. Furthermore, the model’s internal representations become more aligned with human neural activity after fine-tuning. Taken together, our results demonstrate that it is possible to discover computational models that capture human behaviour across a wide range of domains. We believe that such models provide tremendous potential for guiding the development of cognitive theories, and we present a case study to demonstrate this.

The human mind is remarkably general . Not only do we routinely make mundane decisions, such as choosing a breakfast cereal or selecting an outfit, but we also tackle complex challenges, such as figuring out how to cure cancer or explore outer space. We learn skills from only a few demonstrations , reason causally and fuel our actions through curiosity . Whether we are climbing mountains, playing video games, or creating captivating art, our versatility defines what it means to be human.
By contrast, most contemporary computational models, whether in machine learning or the cognitive sciences, are domain specific. They are designed to excel at one particular problem and only that problem. Consider, for instance, AlphaGo, which is a computer system created by Google DeepMind to master the game of . The system can play this particular game at an impressive level, but it cannot do much beyond that. A similar pattern can be observed in the cognitive sciences. For instance, prospect theory, which is one of the most influential accounts of human cognition, offers valuable insights into how people make choices , but it tells us nothing about how we learn, plan or explore.
If we want to understand the human mind in its entirety, we must move from domain-specific theories to an integrated one. The importance of such a unified approach has already been recognized by the pioneers of our field. For example, in 1990, it was stated that “unified theories of cognition are the only way to bring [our] wonderful, increasing fund of knowledge under intellectual control” . How can we make meaningful progress towards such theories?
An important step towards a unified theory of cognition is to build a computational model that can predict and simulate human behaviour in any domain . In this paper, we take up this challenge and introduce Centaur-a foundation model of human cognition . Centaur was designed in a data-driven manner by fine-tuning a state-of-the-art large language model on a large corpus of human behaviour. For this purpose, we curated a large-scale dataset called Psych-101, which covers trial-by-trial data from 160 psychological experiments (see Methods, ‘Data collection’ and Extended Data Fig. 1). We transcribed each of these experiments into natural language, which provides a
PSYCH 101
b
Fig.1|Overview of Psych-101 and Centaur. a, Psych-101 comprises trial-bytrial data from 160 psychological experiments with 60,092 participants making 10,681,650 choices in total and involving 253,597,411 text tokens. It contains domains such as multi-armed bandits, decision-making, memory,
supervised learning, Markov decision processes and others (the examples shown have been stylized and abbreviated for readability).b, Centaur is a foundation of model human cognition that is obtained by adding low-rank adapters to a state-of-the-art language model and fine-tuning it on Psych-101.
common format for expressing vastly different experimental paradigms . The resulting dataset has an unprecedented scale, containing more than 10,000,000 human choices and including many canonical studies from domains such as multi-armed bandits, decision-making, memory, supervised learning, Markov decision processes and more (see Fig. 1a for an overview and examples).
We subjected Centaur to a series of rigorous tests and demonstrate that it captures human behaviour at several levels of generalization. First, we show that Centaur predicts behaviour of held-out participants (those who are not part of the training data) better than existing cognitive models in almost every single experiment. We then demonstrate that its ability to capture human behaviour also generalizes to held-out experiments. In this context, we find that Centaur accurately predicts human behaviour under modified cover stories, problem structures and even in entirely new domains. Finally, we show that Centaur’s internal representations become more human aligned, even though it was never explicitly trained to capture human neural activity.
Taken together, our results demonstrate that it is possible to discover computational models that capture human behaviour across a wide range of domains. We think that such a predictive model offers many direct opportunities to obtain a better understanding of the human and we present a case study that demonstrates this potential.

Model overview

We built Centaur on top of the open-source language model Llama 3.170 B , a state-of-the-art model pretrained by Meta AI (hereafter, we refer to this model simply as Llama) . Having a large language model as
the backbone allowed us to rely on the vast amounts of knowledge that is present in these models. The training process involved fine-tuning on Psych-101 using a parameter-efficient fine-tuning technique known as quantized low-rank adaptation (QLoRA) . QLoRA relies on a frozen four-bit quantized language model as a base model. Although the parameters of the base model are left unchanged, it adds low-rank adapters, which contain only a few additional, trainable parameters (typically represented in a half-precision floating-point format). In our case, we added low-rank adapters of rank to all non-embedding layers (that is, all linear layers of the self-attention mechanisms and the feedforward networks), as illustrated in Fig. 1b. With these settings, the newly added parameters amount to of the base model’s parameters. We then trained the model for one epoch on the entire dataset using a standard cross-entropy loss. We masked out the loss for all tokens that do not correspond to human responses, thereby ensuring that the model focuses on capturing human behaviour and not on completing experimental instructions. The entire training process took approximately five days on an A100 80 GB GPU (Methods, ‘Fine-tuning procedure’).

Centaur captures human behaviour

We evaluated Centaur on different types of held-out data to demonstrate that it robustly captures human behaviour. In our first analysis, we tested whether it could predict the behaviour of participants who were not part of the training data. For this, we split each transcribed experiment into two parts and used of participants for training and retained for testing. We measured goodness-of-fit to human
Fig. 2 | Goodness-of-fit on Psych-101. a, Difference in log-likelihood of Centaur and Llama relative to a domain-specific cognitive model for each experiment. A value of zero corresponds to the goodness-of-fit of the domainspecific cognitive model and a value above zero indicates improved goodness-of-fit to human responses. Log-likelihoods are averaged over responses ( ). Error bars correspond to the standard error of the mean. Centaur outperforms both Llama and a collection of domain-specific cognitive models in almost every experiment (one-sided -tests: , , respectively). We only included experiments for which we have implemented a domain-specific cognitive model in this graphic and merged different studies using the same paradigm.
Extended Data Table 1 contains numerical results for all experiments. b, Model simulations on the horizon task. The plot shows the probability densities over reward and an information bonus parameter for both people and simulated runs of Centaur. c, Model simulations on the two-step task. The plot shows the probability densities over reward and a parameter indicating how model-based learning was for both people and simulated runs of Centaur. d, Model simulations on a social prediction game. The plot shows the probability densities over accuracies of predicting human strategies and strategies of an artificial agent, with matched statistics for both people and simulated runs of Centaur.
choices using negative log-likelihoods averaged across responses (Methods, ‘Evaluation metric’). Figure 2a presents the results of this analysis, comparing Centaur with the base model without fine-tuning and a collection of domain-specific models that represent the state-of-the-art in the cognitive-science literature (Extended Data Table 1). Although there was substantial variance in predictability across experiments (Centaur, 0.49; Llama, 0.47), fine-tuning always improved goodness-of-fit. The average difference in log-likelihoods across experiments after fine-tuning was 0.14 (Centaur negative log-likelihood, 0.44; Llama negative log-likelihood, 0.58; one-sided -test: ; Cohen’s .
Furthermore, we compared Centaur with the previously mentioned collection of domain-specific cognitive models. These models include, among others, the generalized context model , a prospect theory model and various reinforcement learning models (Methods, ‘Domain-specific cognitive models’). We observed that Centaur outperforms domain-specific cognitive models in all but one experiment. The average difference in predicting human behaviour
to the domain-specific cognitive models was 0.13 (cognitive models, negative log-likelihood, 0.56 ; one-sided -test: , ; Cohen’s ). Extended Data Figs. 2 and 3 contain more comparisons to models fine-tuned on non-behavioural data and a noise-ceiling analysis.
The previous analyses have focused on predicting human responses conditioned on previously executed behaviour. We may ask whether Centaur can also generate human-like behaviour when simulated in an open-loop fashion (that is, when feeding its own responses back into the model). This setting arguably provides a much stronger test of the model’s capabilities and is sometimes also referred to as model falsification . To check whether Centaur survives this test, we ran open-loop simulations in three different experimental paradigms and inspected the distributions of statistics that resulted from these simulations. First, we simulated Centaur on the horizon-task paradigm, a two-armed bandit task used to detect different types of exploration strategies . We found that Centaur (mean , s.d. ) achieved a performance comparable to human participants ( mean , s.d. ), which
Fig. 3 | Evaluation in different held-out settings. a, Negative log-likelihoods averaged over responses for the two-step task with a modified cover story .b, Negative log-likelihoods averaged over responses ( ) for a three-armed bandit experiment .c, Negative log-likelihoods averaged over responses ( ) for an experiment probing logical reasoning with
items based on the Law School Admission Test (LSAT). Centaur outperforms both Llama and domain-specific cognitive models when faced with modified cover stories, problem structures and entirely new domains. N/A, not applicable. Error bars show the s.e.m. The image in a is reproduced from ref. 23, Springer Nature Limited. The image in c is reproduced from Wikipedia.org.
was supported by an equivalence test using the two one-sided -tests procedure with a -point margin ( ). Centaur also engaged in a similar level of uncertainty-guided directed exploration (Fig. 2b), a pattern that is notably absent in many contemporary language models .
We also observed that Centaur does not merely capture the behaviour of the average participant, but rather the distribution over trajectories produced by the entire population. For example, in the two-step task (a well-known paradigm used to tease apart model-free and model-based reinforcement learning ), Centaur, just like human subjects, produced trajectories in which learning is purely model-free, purely model-based and mixtures thereof (as the bimodal distribution in Fig. 2c shows).
Finally, we verified that Centaur fails at predicting non-human behaviour. For this, we considered a study that required participants to predict either human responses or responses of an artificial agent with matched statistics in four canonical economic games . Mirroring the results of the original human study, Centaur accurately predicted human responses (64% accuracy) but struggled to predict artificial responses (35% accuracy; one-sided -test: ; Fig. 2d). Taken together, these results demonstrate that Centaur exhibits human-like characteristics across various settings, confirming that it can generate meaningful open-loop behaviour.

Probing generalization abilities

So far, we have shown that Centaur generalizes to previously unseen participants performing experiments that were part of the training data. A true foundation model of human cognition, however, must also capture behaviour in any arbitrary experiment, even if that experiment
was not part of the training data. To probe whether Centaur has this ability, we exposed it to a series of increasingly complex out-of-distribution evaluations.
First, we investigated whether Centaur is robust in the face of changes to the cover story. For this analysis, we relied on data collected in ref. 23, which used the aforementioned two-step task. In addition to the canonical cover story (spaceships travelling to foreign planets in search of treasures), the study introduced a new cover story involving magical carpets. Importantly, Psych-101 includes experiments using the canonical spaceship cover story but no experiments with the magic-carpet cover story. Even so, we found that Centaur captured human behaviour in the magic-carpet experiment of ref. 23 (Fig. 3a). As in our previous analysis, we observed an improvement after fine-tuning, as well as a favourable goodness-of-fit when compared with a domain-specific cognitive model (Centaur negative log-likelihood, 0.51; Llama negative log-likelihood, 0.63; cognitive model negative log-likelihood, 0.61; one-sided -test comparing Centaur with Llama: ; one-sided -test comparing Centaur with the domain-specific cognitive model: ; the domain-specific cognitive model used in this analysis was a hybrid model that combined model-based and model-free reinforcement learning) .
In a second out-of-distribution evaluation, we probed whether Centaur is robust to modifications in task structure. To test this, we exposed it to a paradigm known as Maggie’s farm . Maggie’s farm extends the horizon task paradigm by adding a third option. Psych-101 encompasses several two-armed bandit experiments (including the horizon task) but not Maggie’s farm or any other three-armed bandit experiments
Fig. 4 | Human alignment. a, Multidimensional scaling embedding of the ten behavioural metrics in CogBench for different models.b, Pearson correlation coefficients indicating how well human neural activity in the two-step task can be decoded using Centaur’s internal representations extracted from different layers.c, Pearson correlation coefficients indicating how well human
neural activity in a sentence-reading task can be decoded using Centaur’s internal representations extracted from different layers. Control refers to a model that used representations extracted from a randomly initialized transformer model with matched architecture.
(it does, however, contain multi-armed bandit experiments with more than three options to choose between). Thus, this analysis provides a test of Centaur’s robustness to structural task modifications. We found that Centaur captured human behaviour on Maggie’s farm, as shown in Fig. 3b. We again observed a benefit of fine-tuning, as well as a favourable goodness-of-fit compared with a domain-specific cognitive model, which did not generalize well to this setting (Centaur negative log-likelihood, 0.42; Llama negative log-likelihood, 0.62; cognitive model negative log-likelihood, 0.98; one-sided -test comparing Centaur with Llama: ; one-sided -test comparing Centaur with the domain-specific cognitive model: .
Finally, we investigated whether Centaur could capture human behaviour even in entirely new domains. In this context, we considered a study investigating logical reasoning . Although Psych-101 includes probabilistic and causal reasoning problems, we purposefully excluded any studies involving logical reasoning. As in the previous analyses, there was again a positive effect of fine-tuning (Centaur negative log-likelihood,1.65; Llama negative log-likelihood,1.92; one-sided -test: ; Cohen’s ; Fig. 3c). Note that we did not compare with any domain-specific cognitive model in this setting, because it is unclear how to construct a model that would make any meaningful transfer from training data that does not include any related problems.
We consolidated these results by analysing Centaur on six more out-of-distribution experimental paradigms that were not part of the training data in any shape or form (including moral decision-making , economic games , naturalistic category and reward learning , behavioural propensities and a deep sequential decision task ). Centaur robustly captured human behaviour in all these settings, whereas smaller and non-fine-tuned models did not do so consistently (Extended Data Fig. 4).
As well as analysing human choice data, we also examined whether Centaur could predict human response times. Hick’s law indicates that individual response times are a linear function of response entropies. Therefore, we extracted nearly 4,000,000 response times for a subset of experiments in Psych-101 and fitted three linear mixed effects models, each predicting log-transformed response times based on log-transformed response entropies derived from a different computational model. We found that the response entropies derived from Centaur captured a larger proportion of the variance in response times (conditional ) than those derived from Llama (conditional , ) and the cognitive models (conditional
, thereby highlighting Centaur’s ability to predict measures beyond pure choice data.
To demonstrate that the model does not degrade on problems it was pretrained for, we furthermore verified it on a collection of benchmarks from the machine-learning literature . We found that Centaur remains stable in performance-based benchmarks, even improving over the base model in some of them (Extended Data Fig. 5a,b). Finally, in benchmarks that measure human alignment, we observed a shift towards human-like characteristics (Extended Data Fig. 5c). Figure 4a depicts this improved alignment on a low-dimensional embedding derived from ten behavioural metrics in CogBench, a benchmark to test the cognitive abilities of large language models .

Alignment to human neural activity

Despite being trained to match only human behaviour, we also wondered whether Centaur’s internal representations become more aligned with human neural activity. To check whether this is the case, we conducted two analyses in which we predicted human neural activity using the model’s internal representations . We first conducted a whole-brain analysis in which we predicted functional magnetic resonance imaging (fMRI) measurements of people performing the two-step task . For this, we relied on data collected in a previous study involving 94 participants each making 300 choices. Participants were tested on either the magic-carpet cover story (which we had already used in one of our earlier generalization analyses) or an abstract cover story. Neither of these two cover stories was part of Centaur’s training data. We extracted recordings from models’ residual stream before each choice and after feedback. We then aggregated human neural activity in each region and regressed the aggregated activity on Centaur’s internal representations. This procedure was then repeated separately for each participant and region (Methods, ‘Neural alignment’). Figure 4b shows the resulting Pearson correlation coefficients across layers for both Centaur and Llama averaged over measurements ( ). We found that Centaur’s representations consistently outperformed Llama’s representations in predicting human neural activity (all pairwise one-sided -tests, ), indicating that fine-tuning a model on large-scale behavioural data aligned its internal representations to human neural activity. It is worth noting that this type of analysis was possible only because of the expressivity of Centaur’s representations, and that using representations of a conventional cognitive model led to a substantial drop in performance (dashed line in Fig. 4b). A more fine-grained report of our results is given in Extended Data Fig. 6.
Fig.5|Model-guided scientific discovery. a, We used Psych-101 and Centaur to guide the development of a cognitive model for a multi-attribute decision-making study . Each panel shows the AIC for the set of models considered at the given stage, starting with the models considered in the original study.b, We asked DeepSeek-R1 to generate an explanation for the human responses and formalized the resulting verbal strategy into a formal
computational model. c, We refined this model through scientific regret minimization using Centaur as a reference model. Six data points are shown for which Centaur makes accurate predictions but the DeepSeek-R1-discovered model does not. We then used this information to design a domain-specific cognitive model that is as predictive as Centaur but is still interpretable. The bicycle images in a are reproduced from Flaticon.com.
We expanded these results in a second analysis, for which we relied on a previously collected dataset involving fMRI measurements of people reading simple six-word sentences, such as “That is such a beautiful picture!” . The primary goal of this analysis was to show that neural alignment in unrelated settings remains intact after fine-tuning on cognitive experiments. We focused on a subset of five participants who each passively read 1,000 sentences, spread across 20 experimental runs and two scanning sessions. The presented sentences were extracted from nine corpora and selected to maximize semantic diversity. We closely followed the protocol of the original study and predicted aggregated neural activity across participants in the language network. We repeated this procedure for representations extracted from different layers in both Centaur and Llama. Predictability peaked at around layer 20, as shown in Fig. 4c. This peak is consistent with the hypothesis that the intermediate layers of such models contain the most information. We performed an inverse-weighted meta-analysis on the difference in correlations between Centaur and Llama, and this indicated that there was a significant benefit of fine-tuning when pooling across layers ( confidence interval [0.0002, 0.013], ). Although this effect was consistent across layers, it was not statistically significant for any individual layer.

Model-guided scientific discovery

Psych-101 and Centaur both constitute valuable tools for scientific discovery. In the following section, we present an example of how each of them can be used to improve our understanding of human decision-making. The individual steps of this process are illustrated in Fig. 5.
Psych-101 contains human behavioural data in a natural-language format, which means it can be readily processed and analysed by a language-based reasoning model such as DeepSeek-R1(ref.40). To demonstrate this use case, we asked DeepSeek-R1 to generate an explanation
of participants’ behaviour in a multi-attribute decision-making experiment . In this paradigm, participants are given two different options that are each characterized by various features (in our case, four expert ratings for two products) and they must then decide which of the two options they prefer (Fig. 5a). The model produced several explanations, one of which caught our attention: “The participant employed a two-step decision-making strategy. First, they determined which product had the majority of positive ratings across all experts. If the products were tied in the number of positive ratings, the participant then considered the rating from the highest validity expert to break the tie.” This strategy combines two well-known heuristic decision-making strategies that, as far as we know, have not been considered in this combination before. We then took this verbal strategy, implemented it as a formal computational model and found that it explained human response behaviour more accurately than the three strategies considered in the original study (a weighted-additive strategy, equal weighting and take-the-best heuristic;Fig.5b).
However, the DeepSeek-R1-discovered model Akaike information criterion (AIC;181.7) still fell short of the goodness-of-fit of Centaur (AIC, 72.5), indicating that there is still room for improvement. We therefore used a method known as scientific regret minimization, which uses a black-box predictive model as a reference to identify responses that are in principle predictable but are not captured by a given model . Typically, scientific regret minimization requires the collection of a large-scale experiment-specific dataset to train this predictive model. Centaur, however, can be used out-of-the-box and without the need to collect any domain-specific data, thereby circumventing this step and broadening the scope of scientific regret minimization considerably (indeed, the multi-attribute decision-making data set under consideration contained fewer than 100 participants, placing it far out of reach for conventional scientific regret minimization). When inspecting the responses that were well predicted by Centaur but not by the DeepSeek-R1-discovered model, we observed that they all involved
problems in which participants chose the option with fewer positive ratings overall but which was rated positively by a higher-validity expert (see Fig. 5c for an illustration of these problems and Methods, ‘Model-guided scientific discovery’ for further details). This pattern indicates that the switch between the two heuristics is probably not as strict as initially suggested by the DeepSeek-R1-discovered strategy. To capture this, we replaced the either-or rule with a weighted average of both heuristics. We found that the model that resulted from this process matched Centaur in terms of its goodness-of-fit (AIC, 71.7) but was still interpretable. We entered the resulting AIC values of all the models in a group-level model-selection procedure and estimated the protected exceedance probability, which is defined as the probability that a particular model has a higher frequency within a group than all the other candidate models. The protected exceedance probability of the model that resulted from scientific regret minimization was . Notably, the result of this model comparison stands in contrast to the one that was conducted with the original set of models and indicates that people rely on a combination of heuristics when making decisions, as opposed to following a weightedadditive strategy .

Discussion

In this paper we have introduced Centaur, a foundation model of human cognition that was obtained by fine-tuning a state-of-the-art language model on Psych-101, which is a large-scale dataset of human behaviour. This approach allowed us to leverage the vast knowledge embedded in large language models and also align them with human behaviour . Centaur successfully captured human behaviour and passed a wide range of out-of-distribution checks. It generalized not only to unseen participants, but also to different cover stories, structural variations and entirely new domains. In addition to analysing the model on a behavioural level, we also conducted a series of analyses on its internal representations, in which we found increased alignment with human neural activity.
We also conducted a case study demonstrating how both Psych-101 and Centaur can be used for guiding the development of predictive, yet interpretable, cognitive models. The individual steps of our procedure are generic, so it could serve as a blueprint for model-guided scientific discovery in other experimental paradigms in the future. Looking beyond this example, Centaur finds many more applications in the context of automated cognitive science . It may, for instance, be used for in silico prototyping of experimental studies . In this context, one could use the model to figure out which designs lead to the largest effect sizes, how to design a study to reduce the number of required participants or to estimate the power of an effect.
The present paper takes initial steps in leveraging Centaur to gain deeper insights into human cognition, and it also opens up exciting new avenues for future exploration. First, one could further probe Centaur’s internal representations to understand how it represents knowledge and processes information. The resulting insights could, in turn, be used to generate hypotheses about knowledge representation and information processing in humans that could be validated in future experimental studies. We believe that tools such as sparse auto-encoders and attention map visualization provide promising avenues towards accomplishing this goal, and we hope to explore them in future studies.
Furthermore, it might also be possible to train models with different architectures from scratch using the dataset that we created in the process of this paper. Doing so would enable us to investigate the neural architecture of human cognition at a scale that could not have been done before. We might, for example, ask questions such as whether human information processing is better described by attention-based architectures or by architectures with a vector-based memory, or how much we can improve by incorporating theories from
the neuroscience literature . We expect an eventual outcome of such an approach to contain both domain-specific and domain-general modules, thereby allowing us to investigate the interplay between the two.
As far as we know, Psych-101 is already the broadest and largest dataset of human behaviour available, and we view its development as an ongoing process and plan to develop it further. The focus in its current state is largely on learning and decision-making, but we intend to eventually include more domains, such as psycholinguistics, social psychology and economic games. Experiments with information about individual differences are another source of neglected data in the current iteration of Psych-101. Ideally, we want to include all types of relevant information about subjects (including age, personality traits or socioeconomic status) in the prompt, such that a model trained on these data can capture individual differences. Experiments from developmental psychology or computational psychiatry provide an ideal source for this purpose. Finally, although we have already included some cross-cultural and meta-studies , the current iteration still has a strong bias towards a Western, educated, industrialized, rich and democratic (WEIRD) population .
Eventually, we hope to provide any psychological data in a standardized format that facilitates benchmarking, thereby complementing existing efforts from the neuroscience community . Although the natural-language format (together with quite a bit of reverse-engineering) used in this work allows us to express a vast range of experimental paradigms, it introduces a selection bias against experiments that cannot be expressed in natural language. The long-term objective should therefore be to move towards a multimodal data format .

Conclusion

When the idea of a unified model of cognition was first proposed, researchers expressed concern that established areas of cognitive science might react negatively to such a model. In particular, they feared that the approach might be seen as unfamiliar or incompatible with existing theories, just like an “intruder with improper pheromones” . This could lead to an “attack of the killer bees”, in which researchers in more-conventional fields would fiercely critique or reject the new model to defend their established approaches. To mitigate these concerns, the concept of a cognitive decathlon was proposed: a rigorous evaluation framework in which competing models of cognition are tested across ten experiments and judged on their cumulative performance in them. In the current work, we applied Centaur to the equivalent of 16 such cognitive decathlons, in which it was tested against numerous established models and consistently won every competition. This outcome indicates that the data-driven discovery of domain-general models of cognition is a promising research direction. The next step for future research should be to translate this domain-general computational model into a unified theory of human cognition .

Online content

Any methods, additional references, Nature Portfolio reporting summaries, source data, extended data, supplementary information, acknowledgements, peer review information; details of author contributions and competing interests; and statements of data and code availability are available at https://doi.org/10.1038/s41586-025-09215-4.
  1. Anderson, J. The Architecture of Cognition (Harvard Univ. Press, 1983).
  2. Newell, A. Unified Theories of Cognition (Harvard Univ. Press, 1990).
  3. Lake, B. M., Ullman, T. D., Tenenbaum, J. B. & Gershman, S. J. Building machines that learn and think like people. Behav. Brain Sci. 40, e253 (2017).
  4. Lake, B. M., Salakhutdinov, R. & Tenenbaum, J. B. Human-level concept learning through probabilistic program induction. Science 350, 1332-1338 (2015).
  5. Goddu, M. K. & Gopnik, A. The development of human causal learning and reasoning. Nat. Rev. Psychol. https://doi.org/10.1038/s44159-024-00300-5 (2024).
  6. Chu, J. & Schulz, L. E. Play, curiosity, and cognition. Annu. Rev. Dev. Psychol. 2, 317-343 (2020).
  7. Silver, D. et al. Mastering the game of Go without human knowledge. Nature 550, 354-359 (2017).
  8. Kahneman, D. & Tversky, A. in Handbook of the Fundamentals of Financial Decision Making (eds MacLean, L. C. & Ziemba, W. T.) 99-127 (World Scientific, 2013).
  9. Riveland, R. & Pouget, A. Natural language instructions induce compositional generalization in networks of neurons. Nat. Neurosci. 27, 988-999 (2024).
  10. Bommasani, R. et al. On the opportunities and risks of foundation models. Preprint at https://arxiv.org/abs/2108.07258 (2021).
  11. Grattafiori, A. et al. The Llama 3 herd of models. Preprint at https://arxiv.org/abs/2407.21783 (2024).
  12. Binz, M. & Schulz, E. Using cognitive psychology to understand GPT-3. Proc. Natl Acad. Sci. USA 120, e2218523120 (2023).
  13. Binz, M. & Schulz, E. Turning large language models into cognitive models. In Proc. 12th International Conference on Learning Representations (ICLR, 2024).
  14. Hofman, J. M. et al. Integrating explanation and prediction in computational social science. Nature 595, 181-188 (2021).
  15. Rocca, R. & Yarkoni, T. Putting psychology to the test: rethinking model evaluation through benchmarking and prediction. Adv. Methods Pract. Psychol. Sci. https://doi.org/ 10.1177/25152459211026864 (2021).
  16. Dettmers, T., Pagnoni, A., Holtzman, A. & Zettlemoyer, L. QLORA: efficient finetuning of quantized LLMs. In Proc. Advances in Neural Information Processing Systems 36 (eds Oh, A. et al.) (NeurIPS, 2023).
  17. Nosofsky, R. M. in Formal Approaches in Categorization (eds Pothos, E. M. & Wills, A. J.) 18-39 (Cambridge Univ. Press, 2011).
  18. Peterson, J. C., Bourgin, D. D., Agrawal, M., Reichman, D. & Griffiths, T. L. Using large-scale experiments and machine learning to discover theories of human decision-making. Science 372, 1209-1214 (2021).
  19. Daw, N. D., Gershman, S. J., Seymour, B., Dayan, P. & Dolan, R. J. Model-based influences on humans’ choices and striatal prediction errors. Neuron 69, 1204-1215 (2011).
  20. Wilson, R. C., Geana, A., White, J. M., Ludvig, E. A. & Cohen, J. D. Humans use directed and random exploration to solve the explore-exploit dilemma. J. Exp. Psychol. Gen. 143, 2074-2081 (2014).
  21. Palminteri, S., Wyart, V. & Koechlin, E. The importance of falsification in computational cognitive modeling. Trends Cogn. Sci. 21, 425-433 (2017).
  22. van Baar, J. M., Nassar, M. R., Deng, W. & FeldmanHall, O. Latent motives guide structure learning during adaptive social choice. Nat. Hum. Behav. 6, 404-414 (2022).
  23. Feher da Silva, C. & Hare, T. A. Humans primarily use model-based inference in the two-stage task. Nat. Hum. Behav. 4, 1053-1066 (2020).
  24. Kool, W., Cushman, F. A. & Gershman, S. J. When does model-based control pay off? PLoS Comput. Biol. 12, e1005090 (2016).
  25. Dubois, M. & Hauser, T. U. Value-free random exploration is linked to impulsivity. Nat. Commun. 13, 4542 (2022).
  26. Jansen, R. A., Rafferty, A. N. & Griffiths, T. L. A rational model of the Dunning-Kruger effect supports insensitivity to evidence in low performers. Nat. Hum. Behav. 5, 756-763 (2021).
  27. Awad, E. et al. The Moral Machine experiment. Nature 563, 59-64 (2018).
  28. Akata, E. et al. Playing repeated games with large language models. Nat. Hum. Behav. https://doi.org/10.1038/s41562-025-02172-y (2025).
  29. Demircan, C. et al. Evaluating alignment between humans and neural network representations in image-based learning tasks. In Proc. Advances in Neural Information Processing Systems 37 (eds Globerson, A. et al.) (NeurIPS, 2024).
  30. Singh, M., Richie, R. & Bhatia, S. Representing and predicting everyday behavior. Comput. Brain Behav. 5, 1-21 (2022).
  31. Xu, H. A., Modirshanechi, A., Lehmann, M. P., Gerstner, W. & Herzog, M. H. Novelty is not surprise: human exploratory and adaptive behavior in sequential decision-making. PLoS Comput. Biol. 17, e1009070 (2021).
  32. Hick, W. E. On the rate of gain of information. Q. J. Exp. Psychol. 4, 11-26 (1952).
  33. Coda-Forno, J., Binz, M., Wang, J. X. & Schulz, E. CogBench: a large language model walks into a psychology lab. Proc. Mach. Learn. Res. 235, 9076-9108 (2024).
  34. Kipnis, A., Voudouris, K., Schulze Buschoff, L. M. & Schulz, E. metabench – a sparse benchmark of reasoning and knowledge in large language models. In Proc. 13th International Conference on Learning Representations (ICLR, 2025).
  35. Yamins, D. L. K. et al. Performance-optimized hierarchical models predict neural responses in higher visual cortex. Proc. Natl Acad. Sci. USA 111, 8619-8624 (2014).
  36. Schrimpf, M. et al. The neural architecture of language: integrative modeling converges on predictive processing. Proc. Natl Acad. Sci. USA 118, e2105646118 (2021).
  37. Feher da Silva, C., Lombardi, G., Edelson, M. & Hare, T. A. Rethinking model-based and model-free influences on mental effort and striatal prediction errors. Nat. Hum. Behav. 7, 956-969 (2023).
  38. Tuckute, G. et al. Driving and suppressing the human language network using large language models. Nat. Hum. Behav. 8, 544-561 (2024).
  39. Cochran, W. G. The combination of estimates from different experiments. Biometrics 10, 101-129 (1954).
  40. DeepSeek-AI et al. DeepSeek-R1: incentivizing reasoning capability in LLMs via reinforcement learning. Preprint at https://arxiv.org/abs/2501.12948 (2025).
  41. Hilbig, B. E. & Moshagen, M. Generalized outcome-based strategy classification: comparing deterministic and probabilistic choice models. Psychon. Bull. Rev. 21, 1431-1443 (2014).
  42. Agrawal, M., Peterson, J. C. & Griffiths, T. L. Scaling up psychology via scientific regret minimization. Proc. Natl Acad. Sci. USA 117, 8825-8835 (2020).
  43. Rigoux, L., Stephan, K. E., Friston, K. J. & Daunizeau, J. Bayesian model selection for group studies – revisited. Neuroimage https://doi.org/10.1016/j.neuroimage.2013.08.065 (2014).
  44. Binz, M., Gershman, S. J., Schulz, E. & Endres, D. Heuristics from bounded meta-learned inference. Psychol. Rev. 129, 1042-1077 (2022).
  45. Musslick, S. et al. Automating the practice of science: opportunities, challenges, and implications. Proc. Natl. Acad. Sci. USA 122, e2401238121 (2025).
  46. Rmus, M., Jagadish, A. K., Mathony, M., Ludwig, T. & Schulz, E. Generating computational cognitive models using large language models. Preprint at https://arxiv.org/abs/2502.00879 (2025).
  47. Dillion, D., Tandon, N., Gu, Y. & Gray, K. Can AI language models replace human participants? Trends Cogn. Sci. 27, 597-600 (2023).
  48. Huben, R., Cunningham, H., Smith, L. R., Ewart, A. & Sharkey, L. Sparse autoencoders find highly interpretable features in language models. In Proc. 12th International Conference on Learning Representations (ICLR, 2024).
  49. Chefer, H., Gur, S. & Wolf, L. Transformer interpretability beyond attention visualization. In Proc. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 782-791 (IEEE, 2021).
  50. Vaswani, A. et al. Attention is all you need. In Proc. Advances in Neural Information Processing Systems 30 (eds Guyon, I. et al.) (NeurIPS, 2017).
  51. Zador, A. et al. Catalyzing next-generation artificial intelligence through NeuroAI. Nat. Commun. 14, 1597 (2023).
  52. Ruggeri, K. et al. The globalizability of temporal discounting. Nat. Hum. Behav. 6, 1386-1397 (2022).
  53. Wulff, D. U., Mergenthaler-Canseco, M. & Hertwig, R. A meta-analytic review of two modes of learning and the description-experience gap. Psychol. Bull. 144, 140-176 (2018).
  54. Frey, R., Pedroni, A., Mata, R., Rieskamp, J. & Hertwig, R. Risk preference shares the psychometric structure of major psychological traits. Sci. Adv. 3, e1701381 (2017).
  55. Enkavi, A. Z. et al. Large-scale analysis of test-retest reliabilities of self-regulation measures. Proc. Natl Acad. Sci. USA 116, 5472-5477 (2019).
  56. Henrich, J., Heine, S. J. & Norenzayan, A. Most people are not WEIRD. Nature 466, 29 (2010).
  57. Schrimpf, M. et al. Integrative benchmarking to advance neurally mechanistic models of human intelligence. Neuron 108, 413-423 (2020).
  58. Poldrack, R. A. et al. The past, present, and future of the brain imaging data structure (BIDS). Imaging Neurosci. 2, 1-19 (2024).
  59. Schulze Buschoff, L. M., Akata, E., Bethge, M. & Schulz, E. Visual cognition in multimodal large language models. Nat. Mach. Intell. https://doi.org/10.1038/s42256-024-00963-y (2025).
  60. Vere, S. A. A cognitive process shell. Behav. Brain Sci. 15, 460-461 (1992).
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by/4.0/.
(c) The Author(s) 2025

Methods

Data collection

We constructed Psych-101 by transcribing data from 160 psychological experiments into natural language. Each prompt was designed to include the entire trial-by-trial history of a complete session from a single participant. The experiments included were selected using the following criteria: publicly available data on a trial-by-trial level; the possibility of transcription into text without a significant loss of information; and coverage of a broad spectrum of domains. The transcription of each experiment was done manually by the authors. Approval from the institutional review board was obtained by the individual studies as required. We designed our natural-language prompts using the following principles: instructions should follow the original study as closely as possible; simplifications were made where appropriate; and a maximum prompt length of roughly 32,768 tokens was used. Full information about all the experiments included is provided in the Supplementary Information, Example prompts.

Fine-tuning procedure

Llama 3.170 B was the base model for our fine-tuning procedure. We used a parameter-efficient fine-tuning technique known as QLoRA , which adds so-called low-rank adapters to each layer of a four-bit quantized base model. The base model was kept fixed during fine-tuning and only the parameters of the low-rank adapters were adjusted. We added low-rank adapters of rank to all linear layers of the self-attention mechanisms and the feedforward networks. Each low-rank adapter modifies the forward pass as follows:
where XW is the (quantized) linear transformation of the base model and is the low-rank adapter component, with being the input to the layer with dimensionality and being the output of the layer with dimensionality 0 . The hyperparameter controls the trade-off between the two. is the set of real numbers. Low-rank adapter computations were performed in half-precision floating-point format. For further details on this technique, please see the original work .
We fine-tuned the model for one epoch on the entire dataset using a standard cross-entropy loss (we experimented with prolonged training but found that this led to overfitting). We only back-propagated the loss at human responses and masked out the loss for all other tokens. The effective batch size was set to 32 , the learning rate to 0.00005 and the weight decay to 0.01 . We used an 8 -bit AdamW optimizer with a linearly increasing warm up over the first 100 gradient steps. The fine-tuning procedure was implemented using the unsloth library (https://unsloth.ai/).
We have also trained a smaller version of Centaur, called Minitaur, that uses Llama3.18B as the base model following the same recipe. Minitaur captures human behaviour close to its training distribution but generalizes less robustly than the larger model to out-of-distribution experiments (Extended Data Fig. 7). Nevertheless, we believe that Minitaur is useful for prototyping because it does not require access to any specific hardware (it runs, for instance, on the free GPU instances in Google Colab).

Evaluation metric

We used (negative) log-likelihoods averaged over responses as our evaluation metric. For experiments with multi-token responses, we summed log-likelihoods within a response and averaged across responses. We used one-sided -tests whenever we tested whether Centaur outperformed a competing model in predicting human behaviour, because our hypotheses were directional and based on the prior expectation that Centaur would perform better. Because the number of observations in our analyses is generally large, reported significant effects survive after correcting for multiple comparisons where appropriate.

Domain-specific cognitive models

We selected as our baseline models 14 cognitive and statistical models that together cover most of the experiments in Psych-101. Further details regarding the included models and their specifications are provided in Supplementary Information, Modelling details.
For our main analysis, we were interested in predicting the behaviour of held-out participants. Therefore, we fitted a joint set of parameters for all participants in the training data and evaluated how well a model with these parameters predicts the responses of held-out participants. Mirroring the evaluation metric for the language-based models, we evaluated goodness-of-fit using (negative) log-likelihoods averaged over responses.
For the out-of-distribution evaluations, we fitted model parameters using the most similar experiment in the training set, and then we evaluated how well a model with the resulting parameters predicts human responses in the unseen setting. The most similar experiment for the magic-carpet version of the two-step task was a two-step task experiment with the default spaceship cover story. The most similar experiment for Maggie’s farm was the horizon task. We included no baseline model for the logical reasoning task, because none of the experiments in the training data were similar to it.

Neural alignment

The neural alignment analysis on the two-step task was conducted using data collected in a previous study . We used a regularized linear regression model to predict fMRI data from internal representations of Centaur and Llama (a separate model was used for each participant and region). We fitted each of these models on data from two scanning blocks and evaluated them on data from the third. The regularization strength was selected using a nested cross-validation procedure. For each run, we split the beta maps into cortical and subcortical regions of interest (ROI) using the Schaefer 2018 atlas with . We averaged the betas within each ROI, reducing the number of betas from the number of voxels to the number of ROIs. All cortical and subcortical ROIs from the atlas were evaluated. Reported Pearson correlation coefficients correspond to the average across all ROIs.
Internal representations were extracted from the models’ residual stream and transformed using a principal component analysis. We set the number of retained components such that they explained of the variance.
The fMRI data were preprocessed using fMRIPrep 24.0 (ref. 63). We used the default settings of fMRIPrep, and all the scans were aligned to the MNI152NLin2009cAsym atlas . To extract effect estimates for each subtrial of the task (such as the second step of the fifth trial, or the feedback of the tenth trial), we built separate general linear models (GLMs). Each GLM included the subtrial of interest as a separate regressor, whose -scored beta estimates were used for the alignment analysis. This part of the data was not modelled using other regressors. Furthermore, we included different regressors capturing all the first steps, all the second steps and all the feedback steps. Finally, we used six rotation and translation estimates as well as framewise displacement as noise regressors. The haemodynamic response was modelled using the spm model. A high-pass filter of 0.01 Hz and a Gaussian kernel with 6 mm full-width at half-maximum was applied. The GLMs were built using nilearn .
The neural alignment analysis on the sentence-reading task was conducted using publicly available code from the original study . No other changes were made apart from replacing GPT2-XL with Centaur and Llama. Please see the original study for further details.

Model-guided scientific discovery

In our model-guided scientific discovery analysis, we focused on participants in the test set to avoid any potential contamination issues. We fitted parameters of all cognitive models individually for each
participant using a maximum-likelihood estimation. Models were compared with each other using the AIC. The three models from the original study were implemented by the following equations:
where and are vectors containing four expert ratings (either or 1 ) and is a free parameter controlling the noise level.
We prompted DeepSeek-R1 (in the Distill-Llama-70B variant) to generate explanations of human decision-making; the corresponding prompt is provided in Supplementary Information, Model-guided scientific discovery. We then formalized the explanation shown in Fig. 5b into the following computational model:
, DeepSeek
For the scientific regret minimization pipeline, we computed the difference in log-likelihoods between Centaur and the DeepSeek-R1-discovered model. We visualized and inspected the ten data points with the greatest difference. This process resulted in the following computational model:
where is a free parameter constrained between 0 and 1 that controls the trade-off between the two strategies.

Reporting summary

Further information on research design is available in the Nature Portfolio Reporting Summary linked to this article.

Data availability

Psych-101 is publicly available on the Huggingface platform at https:// huggingface.co/datasets/marcelbinz/Psych-101. The test set is accessible under a CC-BY-ND-4.0 licence through a gated repository at https:// huggingface.co/datasets/marcelbinz/Psych-101-test.

Code availability

Centaur is available on the Huggingface platform at https://huggingface. co/marcelbinz/Llama-3.1-Centaur-70B-adapter. The extra code needed
to reproduce our results is available at https://github.com/marcelbinz/ Llama-3.1-Centaur-70B.
61. Loshchilov, I. & Hutter, F. Decoupled weight decay regularization. In Proc. 7th International Conference on Learning Representations (ICLR, 2019).
62. Schaefer, A. et al. Local-global parcellation of the human cerebral cortex from intrinsic functional connectivity MRI. Cereb. Cortex 28, 3095-3114 (2018).
63. Esteban, O. et al. fMRIPrep: a robust preprocessing pipeline for functional MRI. Nat. Methods 16, 111-116 (2019).
64. Fonov, V. S., Evans, A. C., McKinstry, R. C., Almli, C. R. & Collins, D. L. Unbiased nonlinear average age-appropriate brain templates from birth to adulthood. Neuroimage 47, S102 (2009).
65. Friston, K. J., Ashburner, J. T., Kiebel, S. J., Nichols, T. E. & Penny, W. D. (eds) Statistical Parametric Mapping: The Analysis of Functional Brain Images (Elsevier, 2011).
66. Gau, R. nilearn. GitHub https://github.com/nilearn/nilearn (2024).
67. Yax, N., Oudeyer, P.-Y. & Palminteri, S. Assessing contamination in large language models: introducing the LogProber method. Preprint at https://arxiv.org/abs/2408.14352 (2024).
68. Warner, B. et al. Smarter, better, faster, longer: a modern bidirectional encoder for fast, memory efficient, and long context finetuning and inference. Preprint at https://arxiv.org/ abs/2412.13663 (2024).
69. Wang, Z. et al. HelpSteer2-Preference: complementing ratings with preferences. In Proc. 13th International Conference on Learning Representations (ICLR, 2025).
70. Teknium, R., Quesnelle, J. & Guang, C. Hermes 3 technical report. Preprint at https://arxiv. org/abs/2408.11857 (2024).
71. Lin, S., Hilton, J. & Evans, O. TruthfulQA: measuring how models mimic human falsehoods. In Proc. 60th Annual Meeting of the Association for Computational Linguistics (eds Muresan, S. et al.) 3214-3252 (Association for Computational Linguistics, 2022).
Acknowledgements Funding was from the Max Planck Society (to P.D.), the Humboldt Foundation (to P.D.), the Volkswagen Foundation (to E.S.) and the NOMIS Foundation (to T.L.G.). P.D. is a member of the Machine Learning Cluster of Excellence (EXC number 2064/1, project number 39072764) and of the Else Kröner Medical Scientist Kolleg ‘ClinbrAln: Artificial Intelligence for Clinical Brain Research’. This work was supported by the Helmholtz Association’s Initiative and Networking Fund on the HAICORE@FZJ partition. S.K. is supported by a Google PhD Fellowship. No researchers at Google DeepMind used Llama for this research. We thank N. Scharfenberg for contributions to the data collection.
Author contributions Project lead: M. Binz. Data curation: E.A., F.B., M. Binz, F.C., J.C.-F., C.D., M.K.E., N.É., S.H., A.K.J., L.J.-A., A.K., S.K., T.L., S.S.N., J.C.P., E.M.R., T.S., J.A.S., L.M.S.B., N.S., X.S., M.T., V.T., K.W., S.W., D.U.W. and H.X. Data quality control: E.A., M. Binz, J.C.-F., C.D., S.H. and L.M.S.B. Model training: M. Binz and V.U. Model evaluation: M. Binz, J.C.-F., A.K., M.T. and K.V. Domain-specific models: M. Binz, J.C.-F., C.D., A.K.J., M. Mathony, A.M., M.R. and T.L. Neural analyses: M. Binz, C.D., S.K., M. Mattar and E.M.R. First draft: M. Binz and E.S. Conception and design: M. Binz, M. Bethge, P.D., T.L.G., M. Mattar, F.J.T., R.W. and E.S. Review and editing: M. Binz, E.A., M. Bethge, F.B., F.C., J.C.-F., P.D., C.D., M.K.E., N.E., T.L.G., S.H., A.K.J., L.J.-A., A.K., S.K., T.L., M. Mathony, M. Mattar, A.M., S.S.N., J.C.P., M.R., E.M.R., T.S., J.A.S., L.M.S.B., N.S., X.S., M.T., F.J.T., V.T., V.U., K.V., R.W., K.W., S.W., D.U.W., H.X. and E.S.
Funding Open access funding provided by Helmholtz Zentrum München – Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH).
Competing interests F.J.T. consults for Immunai, CytoReason, Cellarity, BioTuring and Genbio. AI, and has an ownership interest in Dermagnostix and Cellarity. The remaining authors declare no competing interests.

Additional information

Supplementary information The online version contains supplementary material available at https://doi.org/10.1038/s41586-025-09215-4.
Correspondence and requests for materials should be addressed to Marcel Binz. Peer review information Nature thanks Russell Poldrack, Giosue Baggio and the other, anonymous, reviewer(s) for their contribution to the peer review of this work.
Reprints and permissions information is available at http://www.nature.com/reprints.

Extended Data Fig. 2 | Negative log-likelihoods of Centaur and alternative

Llama variants on Psych-101. To rule out the hypothesis that finetuning on any data aligns a model with human behavior, we compared Centaur to various Llama variants finetuned for other purposes (i.e. non-cognitive tasks). Nemotron is finetuned for instruction-following. Hermes is finetuned for various purposes, including agentic capabilities, roleplaying, reasoning, multiturn conversation, and long context coherence. Reflection is finetuned for reasoning. None of the Llama variants captures human behavior better than the base model, ruling out the hypothesis that finetuning generally leads to models that are better at predicting human behavior. Error bars correspond to the standard error of the mean, taken over responses.
Extended Data Fig. 3 | Noise ceiling analysis. We conducted a noise ceiling analysis to better understand the capabilities of Centaur. It is not straightforward to estimate the noise ceiling for experiments with sequential dependencies, which includes the majority of Psych-101. Hence, we focused on two experiments for which such an analysis is possible: , the choices13k data set and , an intertemporal choice experiment . In both cases, we found that Centaur substantially exceeds the estimated noise ceiling. This is possible
Extended Data Fig. 4 | Further out-of-distribution evaluations. Each subplot shows negative log-likelihoods for a different experiment. None of these paradigms were included in Psych-101, hence they provide a stress test for a model’s generalization capabilities. Centaur robustly captured human behavior in all of these settings, while smaller and non-finetuned models did not do so consistently. Error bars correspond to the standard error of the mean, taken over responses. We state one-sided t-tests comparing the negative log-likelihoods of Centaur to those of Llama in brackets.
a, Negative log-likelihoods on moral decision-making , p ). b, Negative log-likelihoods on economic games , ). c, Negative log-likelihoods on naturalistic category learning (t(21838) = -14.05, p ). d, Negative log-likelihoods on behavioral propensities . e, Negative log-likelihoods on naturalistic reward learning .f, Negative loglikelihoods on a deep sequential decision task .
Extended Data Fig. 5 | metabench and CogBench results. a, Results for metabench , a sparse benchmark containing several canonical benchmarks from the machine learning literature. We find that Centaur maintains the level of performance of Llama, indicating that finetuning on human behavior did not lead to deterioration in other tasks (ARC:z , GSM8K: , , HellaSwag: , MMLU: , Winogrande: ). Performance on TruthfulQA – which measures how models mimic human falsehoods – even improved significantly with finetuning ( ; all z -test were two-sided). , Performance-based metrics from , a benchmark that includes ten behavioral metrics derived from seven cognitive psychology experiments. We find that – relative to Llama Centaur’s performance improves in all experiments (Probabilistic reasoning:
, Horizon task: , Restless bandit: , Instrumental learning: , Two-step task: , Balloon analog risk task: ; all z -test were one-sided). c, Behavioral metrics from CogBench. We observe that Centaur becomes more similar to human subjects in all ten behavioral metrics (Prior weighting: , Likelihood weighting: , Directed exploration: , Random exploration: , , Meta-cognition: , Learning rate: , , Optimism bias: , Model-basedness: , , Temporal discounting: , Risk taking: , ; all z-test were one-sided).

Extended Data Fig. 6 | Finegrained neural alignment results in the two-step task. a, Pearson correlation coefficients between the predicted activity from Centaur’s representations and the BOLD data shown on a surface brain (image created with nilearn ). Centaur achieves the most accurate predictions in the left motor cortex. As participants performed the task with their right hand in the scanner, this effect may be explained by Centaur’s strong performance in predicting choices. b, Predictive performance of Centaur’s representations against alternatives for ROIs that have been identified as behaviorally relevant in previous work. Cortical scores are averaged over the
corresponding bilateral parcels in the Schaefer atlas. The accumbens is defined based on the Harvard-Oxford atlas. Pearson correlation coefficients are shown for layer 20 but exhibit a similar pattern across all layers. Centaur outperformed Llama and the cognitive model in predicting activity in accumbens, the ROI from the original study that showed a reward prediction error effect . We found a similar pattern in the medial PFC, another region that showed an effect in the original article , as well as in the sensory and motor cortices.
Extended Data Fig. 7| Log-likelihood comparison between Centaur and Minitaur on the analyses from the main text. a, Negative log-likelihoods relative to the domain-specific cognitive models on held-out participants from Psych-101. Error bars correspond to the standard error of the mean, taken over
responses. b, Negative log-likelihoods for the two-step task with a modified cover story. c, Negative log-likelihoods for a three-armed bandit experiment. d, Negative log-likelihoods for an experiment probing logical reasoning with items based on the Law School Admission Test (LSAT).
Extended Data Table 1 | Psych-101 metrics
Experiment Centaur Llama Cognitive model
Shepard categorization 0.5394 0.5818 0.6108
Drifting four-armed bandit 0.7029 0.8810 0.9043
N-back 0.3954 0.5209 0.5787
Digit span 0.5520 0.6618 0.9359
Go/no-go 0.0000 0.0062 0.0757
Recent probes 0.2572 0.3433 0.3868
Horizon task 0.4032 0.5237 0.3595
Gardening task 0.3783 0.5040 0.9105
Columbia card task 0.1867 0.2261 0.2629
Balloon analog risk task 0.0593 0.0753 0.0922
Two-armed bandit 0.2963 0.3829 0.4187
Conditional associative learning 0.5380 0.6373 0.8575
THINGS odd-one-out 0.8068 1.1386 0.8253
Multi-attribute decision-making 0.0619 0.1502 0.1922
Two-step task 0.4998 0.6075 0.6043
Probabilistic instrumental learning 0.4937 0.5382 0.5047
Medin categorization 0.4967 0.5772 0.5313
Zoopermarket 0.4850 0.6026 0.6047
choices13k 0.4274 0.5342 0.6563
CPC18 0.3390 0.4118 0.6607
Intertemporal choice 0.4340 0.7336 0.6591
Structured bandit 0.6410 0.8114 1.0530
Weather prediction task 0.5514 0.5749 0.6267
lowa gambling task 0.8890 0.9880 1.1555
Virtual subway network 1.1271 1.5347 nan
Multi-task reinforcement learning 0.5672 0.6604 1.0424
Serial reaction time task 0.1718 0.1900 0.1962
Decisions from description 0.5336 0.7569 0.6120
Decisions from experience 0.3686 0.4339 0.5404
Changing bandit 0.3025 0.3824 0.4378
Multiple-cue judgment 1.1236 1.2818 1.9157
Recall and recognition 1.0591 1.3759 nan
Experiential-symbolic task 0.4536 0.6983 nan
Grammar judgement 1.4355 1.9949 1.4127
Risky choice 0.4281 0.6475 nan
Tile-revealing task 1.8713 2.7380 nan
Episodic long-term memory 0.8684 1.1344 nan
Aversive learning 4.0733 5.1066 nan
Spatially correlated multi-armed bandit 1.8319 2.4479 2.7635
Probabilistic reasoning 2.3731 2.6406 nan

natureportfolio

Corresponding author(s):
Marcel Binz
Last updated by author(s): Apr 27, 2025

Reporting Summary

Nature Portfolio wishes to improve the reproducibility of the work that we publish. This form provides structure for consistency and transparency in reporting. For further information on Nature Portfolio policies, see our Editorial Policies and the Editorial Policy Checklist.

Statistics

For all statistical analyses, confirm that the following items are present in the figure legend, table legend, main text, or Methods section.
n/a
Confirmed

□ The exact sample size for each experimental group/condition, given as a discrete number and unit of measurement

□ A statement on whether measurements were taken from distinct samples or whether the same sample was measured repeatedly
The statistical test(s) used AND whether they are one- or two-sided
Only common tests should be described solely by name; describe more complex techniques in the Methods section.

□ A description of all covariates tested
□ A description of any assumptions or corrections, such as tests of normality and adjustment for multiple comparisons
A full description of the statistical parameters including central tendency (e.g. means) or other basic estimates (e.g. regression coefficient) AND variation (e.g. standard deviation) or associated estimates of uncertainty (e.g. confidence intervals)
□ X
For null hypothesis testing, the test statistic (e.g. F, t, r) with confidence intervals, effect sizes, degrees of freedom and value noted Give values as exact values whenever suitable.

□ For Bayesian analysis, information on the choice of priors and Markov chain Monte Carlo settings
□ For hierarchical and complex designs, identification of the appropriate level for tests and full reporting of outcomes
□ Estimates of effect sizes (e.g. Cohen’s , Pearson’s ), indicating how they were calculated
Our web collection on statistics for biologists contains articles on many of the points above.

Software and code

Policy information about availability of computer code
Data collection
No new data was collected in this study.
Data analysis
custom code on https://github.com/marcelbinz/Llama-3.1-Centaur-70B
For manuscripts utilizing custom algorithms or software that are central to the research but not yet described in published literature, software must be made available to editors and reviewers. We strongly encourage code deposition in a community repository (e.g. GitHub). See the Nature Portfolio guidelines for submitting code & software for further information.

Data

Policy information about availability of data

All manuscripts must include a data availability statement. This statement should provide the following information, where applicable:
  • Accession codes, unique identifiers, or web links for publicly available datasets
  • A description of any restrictions on data availability
  • For clinical datasets or third party data, please ensure that the statement adheres to our policy
nature portfolio | reporting summary
April 2023

Research involving human participants, their data, or biological material

Policy information about studies with human participants or human data. See also policy information about sex, gender (identity/presentation), and sexual orientation and race, ethnicity and racism.
Reporting on sex and gender N/A
Reporting on race, ethnicity, or other socially relevant groupings N/A
Population characteristics N/A
Recruitment N/A
Ethics oversight N/A
Note that full information on the approval of the study protocol must also be provided in the manuscript.

Field-specific reporting

Please select the one below that is the best fit for your research. If you are not sure, read the appropriate sections before making your selection.
□ Life sciences
Behavioural & social sciences □ Ecological, evolutionary & environmental sciences
For a reference copy of the document with all sections, see nature.com/documents/nr-reporting-summary-flat.pdf

Behavioural & social sciences study design

All studies must disclose on these points even when the disclosure is negative.
Study description Meta-analysis
Research sample Meta-analysis
Sampling strategy Meta-analysis
Data collection information available as part of the original studies
Timing information available as part of the original studies
Data exclusions information available as part of the original studies
Non-participation information available as part of the original studies
Randomization information available as part of the original studies

Reporting for specific materials, systems and methods

We require information from authors about some types of materials, experimental systems and methods used in many studies. Here, indicate whether each material, system or method listed is relevant to your study. If you are not sure if a list item applies to your research, read the appropriate section before selecting a response.
Materials & experimental systems Methods
n/a Involved in the study n/a Involved in the study
X
X
X 【 MRI-based neuroimaging
X
X
X
X
Seed stocks N/A
Novel plant genotypes N/A
Authentication N/A
Magnetic resonance imaging
Experimental design
Design type two-step task and sentence-reading task
Design specifications
see original reports:
https://www.nature.com/articles/s41562-023-01573-1
https://www.nature.com/articles/s41562-023-01783-7
Behavioral performance measures
see original reports:
https://www.nature.com/articles/s41562-023-01573-1
https://www.nature.com/articles/s41562-023-01783-7
Acquisition
Imaging type(s)
Field strength 3T
Sequence & imaging parameters
see original reports:
https://www.nature.com/articles/s41562-023-01573-1
https://www.nature.com/articles/s41562-023-01783-7
Area of acquisition Whole brain
Diffusion MRI Not used
Preprocessing
Preprocessing software fMRIprep 24.0.0, SPM12 and custom MATLAB scripts
Normalization identical to original study
Normalization template identical to original study
Noise and artifact removal identical to original study
Volume censoring
identical to original study
Statistical modeling & inference
Model type and settings predictive modeling
Effect(s) tested whether human behavior can be predicted by language model activity
Specify type of analysis: □ Whole brain □
Anatomical location(s)
Statistic type for inference N/A

Models & analysis

Multivariate modeling and predictive analysis
independent variables: language model activity feature extraction: internal representations were extracted from the models’ residual stream and transformed using a principal component analysis. We set the number of retained components such that they explain of the variance. model, training, evaluation metrics: cross-validated linear regression, Pearson correlation

  1. Institute for Human-Centered AI, Helmholtz Center, Munich, Germany. University of Tübingen, Tübingen, Germany. University of Oxford, Oxford, UK. Max Planck Institute for Biological Cybernetics, Tübingen, Germany. New York University, New York, NY, USA. Google DeepMind, London, UK. Princeton University, Princeton, NJ, USA. Max Planck School of Cognition, Leipzig, Germany. University of California, San Diego, San Diego, CA, USA. Boston University, Boston, MA, USA. TU Darmstadt, Darmstadt, Germany. Institute of Computational Biology, Helmholtz Center, Munich, Germany. TUM School of Computation, Information and Technology, Technical University of Munich, Munich, Germany. TUM School of Life Sciences, Technical University of Munich, Munich, Germany. University of Cambridge, Cambridge, UK. Georgia Institute of Technology, Atlanta, GA, USA. University of Basel, Basel, Switzerland. Max Planck Institute for Human Development, Berlin, Germany. e-mail: marcel.binz@helmholtz-munich.de
  2. Full negative log-likelihoods on held-out participants.
  3. Psych-101 is publicly available on the Huggingface platform: https://huggingface. co/datasets/marcelbinz/Psych-101. The test set is accessible under a CC-BY-ND-4.0 license via a gated repository: https://huggingface.co/datasets/marcelbinz/ Psych-101-test.