الإدراك البصري في نماذج اللغة الكبيرة متعددة الوسائط
Visual cognition in multimodal large language models

المجلة: Nature Machine Intelligence، المجلد: 7، العدد: 1
DOI: https://doi.org/10.1038/s42256-024-00963-y
تاريخ النشر: 2025-01-15
المؤلف: Luca M. Schulze Buschoff وآخرون
الموضوع الرئيسي: اللغة والاستعارة والإدراك

نظرة عامة

الهدف الرئيسي من الذكاء الاصطناعي (AI) هو تطوير آلات يمكنها محاكاة عمليات التفكير البشرية. ومع ذلك، تم انتقاد هياكل الشبكات العصبية العميقة لنقصها في مجالات مثل التفكير السببي، والفيزياء الحدسية، وعلم النفس الحدسي. أثارت التقدمات الأخيرة، وخاصة في نماذج اللغة الكبيرة (LLMs) ذات القدرات المعالجة البصرية، اهتمامًا متجددًا في إمكانياتها لتكرار الوظائف المعرفية الشبيهة بالبشر. تقيم هذه الورقة أداء نماذج LLMs المعتمدة على الرؤية في فهم التفاعلات الفيزيائية المعقدة، والعلاقات السببية، والإدراك الاجتماعي من خلال تجارب محكومة.

تشير النتائج إلى أنه بينما تظهر بعض النماذج كفاءة كبيرة في تفسير البيانات البصرية، إلا أنها لا تزال لا تتطابق مع القدرات البشرية في هذه المجالات. تسلط النتائج الضوء على ضرورة تعزيز هذه النماذج بآليات أكثر تعقيدًا لفهم السببية والديناميات الفيزيائية، بالإضافة إلى أهمية تطوير معايير مستوحاة من الإدراك. تناقش الورقة أيضًا الاتجاه المتزايد لتجسيد أنظمة الذكاء الاصطناعي، حيث تظهر نماذج LLMs بشكل متزايد استجابات شبيهة بالبشر وقدرات ناشئة عند توسيع نطاقها، مما يؤدي إلى استخدامها في اتخاذ القرارات المعقدة والمهام الإبداعية. في النهاية، تظل مسألة ما إذا كانت الآلات يمكن أن تفكر حقًا مثل البشر مركزية في علم الإدراك، مما يتطلب استكشافًا إضافيًا لقدرات وقيود وكلاء الذكاء الاصطناعي.

الطرق

تحدد قسم “الطرق” في ورقة البحث التصميم التجريبي والتقنيات التحليلية المستخدمة للتحقيق في سؤال البحث. استخدمت الدراسة نهجًا كميًا، حيث تم دمج التحليلات الإحصائية لتقييم العلاقات بين المتغيرات. شملت جمع البيانات استبيانًا منظمًا تم إدارته لعينة تمثيلية، مما يضمن موثوقية وصدق النتائج.

شمل التحليل تطبيق نماذج الانحدار لتقييم تأثير المتغيرات المستقلة على المتغير التابع، مع تحديد مستويات الدلالة عند p < 0.05. بالإضافة إلى ذلك، استخدم الباحثون اختبارات تشخيصية متنوعة لتأكيد فرضيات النماذج الإحصائية المستخدمة. بشكل عام، تم تصميم الإطار المنهجي لاختبار الفرضيات بدقة وتقديم استنتاجات قوية بناءً على البيانات المجمعة.

النتائج

في هذه الدراسة، تم تقييم خمسة نماذج لغة كبيرة متميزة (LLMs) عبر ثلاثة مكونات أساسية من الذكاء الشبيه بالبشر، كما هو موضح في المرجع 22. تدمج هذه النماذج متعددة الوسائط قدرات معالجة الصور، مما يمكّن المستخدمين من المشاركة في الإجابة على الأسئلة البصرية من خلال تحميل الصور وطرح الاستفسارات ذات الصلة. استخدمت البحث مهام مستمدة من أدبيات علم الإدراك لتقييم قدرات التفكير البصري لنماذج LLMs، مع زيادة تعقيد الأسئلة المطروحة بشكل منهجي.

تضمنت المرحلة الأولية استجواب النماذج حول ميزات الصورة الأساسية، مثل لون الخلفية وعدد الكائنات. بعد ذلك، تم تقديم أسئلة أكثر تعقيدًا، تعكس مهام من تجارب علم الإدراك المعروفة. تم تحليل النتائج من خلال مقارنة استجابات النماذج مع بيانات الحقيقة الأساسية وتقييم توافقها مع الأداء البشري، مما يوفر رؤى حول قدرات التفكير البصري للنماذج وإمكاناتها لمحاكاة الذكاء الشبيه بالبشر.

المناقشة

في هذا القسم، يناقش المؤلفون تحقيقهم في القدرات المعرفية لأربعة نماذج لغة كبيرة متعددة الوسائط (LLMs) حديثة عبر ثلاثة مجالات أساسية: الفيزياء الحدسية، والتفكير السببي، وعلم النفس الحدسي. بينما أظهرت النماذج بعض القدرة في مهام الفيزياء الحدسية والتفكير السببي، أظهر فقط GPT-4V ارتباطًا طفيفًا مع الأداء البشري. بالمقابل، لم تظهر أي من النماذج توافقًا قويًا مع بيانات البشر في مهام علم النفس الحدسي. يستنتج المؤلفون أنه، على الرغم من بعض النتائج الواعدة، لا تزال النماذج الحالية لا تعيد إنتاج التفكير الشبيه بالبشر، مما يشير إلى أن الإجابة على ما إذا كانت هذه النماذج تفكر مثل الناس هي “لا” أو “ليس تمامًا”.

يعترف المؤلفون بعدة قيود في دراستهم، بما في ذلك التركيز الضيق على عدد قليل من النماذج والمجالات المعرفية. يؤكدون على الحاجة إلى مزيد من البحث لاستكشاف مجموعة أوسع من النماذج والمهام لفهم أفضل للشروط التي يمكن أن تحاكي فيها نماذج LLMs التفكير البشري. بالإضافة إلى ذلك، يشيرون إلى أن أداء النماذج قد يتعطل بسبب قدراتها الأساسية في معالجة الصور وبساطة المحفزات المستخدمة في التجارب. يدعون إلى استخدام صور أكثر واقعية ومحفزات ديناميكية، مثل مقاطع الفيديو، لتعزيز تقييم القدرات المعرفية في نماذج LLMs. بشكل عام، بينما تشير النتائج إلى تقدم في نماذج LLMs متعددة الوسائط، لا تزال هناك فجوات كبيرة في أدائها المعرفي مقارنة بالبشر.

Journal: Nature Machine Intelligence, Volume: 7, Issue: 1
DOI: https://doi.org/10.1038/s42256-024-00963-y
Publication Date: 2025-01-15
Author(s): Luca M. Schulze Buschoff et al.
Primary Topic: Language, Metaphor, and Cognition

Overview

The primary objective of artificial intelligence (AI) is to develop machines that can emulate human thought processes. However, deep neural network architectures have been criticized for their shortcomings in areas such as causal reasoning, intuitive physics, and intuitive psychology. Recent advancements, particularly in large language models (LLMs) with visual processing capabilities, have sparked renewed interest in their potential to replicate human-like cognitive functions. This paper assesses the performance of vision-based LLMs in understanding complex physical interactions, causal relationships, and social cognition through controlled experiments.

The findings indicate that while some models exhibit significant proficiency in interpreting visual data, they still do not match human capabilities in these domains. The results highlight the necessity for enhancing these models with more sophisticated mechanisms for understanding causality and physical dynamics, as well as the importance of developing cognitively inspired benchmarks. The paper also discusses the growing tendency to anthropomorphize AI systems, as LLMs increasingly demonstrate human-like responses and emergent abilities when scaled, leading to their use in complex decision-making and creative tasks. Ultimately, the question of whether machines can truly think like humans remains central to cognitive science, necessitating further exploration of the capabilities and limitations of AI agents.

Methods

The “Methods” section of the research paper outlines the experimental design and analytical techniques employed to investigate the research question. The study utilized a quantitative approach, incorporating statistical analyses to assess the relationships between variables. Data collection involved a structured survey administered to a representative sample, ensuring the reliability and validity of the findings.

The analysis included the application of regression models to evaluate the impact of independent variables on the dependent variable, with significance levels set at p < 0.05. Additionally, the researchers employed various diagnostic tests to confirm the assumptions of the statistical models used. Overall, the methodological framework was designed to rigorously test the hypotheses and provide robust conclusions based on the collected data.

Results

In this study, five distinct vision large language models (LLMs) were evaluated across three fundamental components of human-like intelligence, as delineated in reference 22. These multimodal models integrate image processing capabilities, enabling users to engage in visual question answering by uploading images and posing related inquiries. The research employed tasks derived from cognitive science literature to assess the visual reasoning capabilities of the LLMs, systematically increasing the complexity of the questions posed.

The initial phase involved querying the models about basic image features, such as background color and object count. Subsequently, more complex questions were introduced, reflecting tasks from established cognitive science experiments. The results were analyzed by comparing the models’ responses to ground truth data and assessing their alignment with human performance, thereby providing insights into the models’ visual reasoning abilities and their potential to emulate human-like intelligence.

Discussion

In this section, the authors discuss their investigation into the cognitive abilities of four recent multimodal large language models (LLMs) across three core domains: intuitive physics, causal reasoning, and intuitive psychology. While the models demonstrated some capability in intuitive physics and causal reasoning tasks, only GPT-4V showed a slight correlation with human performance. In contrast, none of the models exhibited strong alignment with human data in intuitive psychology tasks. The authors conclude that, despite some promising results, the current models do not yet replicate human-like reasoning, suggesting that the answer to whether these LLMs think like people is “No” or “Not quite.”

The authors acknowledge several limitations in their study, including the narrow focus on only a few models and cognitive domains. They emphasize the need for future research to explore a broader range of models and tasks to better understand the conditions under which LLMs can mimic human reasoning. Additionally, they note that the models’ performance may be hindered by their basic visual processing capabilities and the simplicity of the stimuli used in the experiments. They advocate for the use of more realistic images and dynamic stimuli, such as videos, to enhance the assessment of cognitive abilities in LLMs. Overall, while the findings indicate progress in multimodal LLMs, significant gaps remain in their cognitive performance compared to humans.