من اللغة إلى الفعل: مراجعة لنماذج اللغة الكبيرة كعملاء مستقلين ومستخدمي أدوات
From language to action: a review of large language models as autonomous agents and tool users

المجلة: Artificial Intelligence Review، المجلد: 59، العدد: 2
DOI: https://doi.org/10.1007/s10462-025-11471-9
تاريخ النشر: 2026-01-06
المؤلف: Sadia Sultana Chowa وآخرون
الموضوع الرئيسي: تطبيقات تعلم الآلة متعددة الوسائط

نظرة عامة

تقدم هذه القسم نظرة شاملة على التقدم في نماذج اللغة الكبيرة (LLMs) كعملاء مستقلين، مع التركيز على قدراتهم في اتخاذ القرار والتكيف. تركز المراجعة على الأدبيات المنشورة بين عامي 2023 و2025، وتتناول سبعة أسئلة بحثية رئيسية تتعلق بتصميم هيكلية عملاء LLM، والتي يتم تصنيفها إلى أنظمة عميل واحد وأنظمة متعددة العملاء. تستكشف الآليات المعرفية لـ LLMs، بما في ذلك التفكير والتخطيط والذاكرة، بينما تقيم أيضًا تأثير طرق التحفيز وإجراءات الضبط الدقيق على أداء العملاء. تم تضمين تحليل منظم لـ 68 مجموعة بيانات متاحة للجمهور لتقييم فعالية العملاء المعتمدين على LLM عبر مهام متنوعة.

تسلط الخاتمة الضوء على الفروق بين أنظمة العميل الواحد وأنظمة العملاء المتعددة، مشيرة إلى أن الأخيرة تتفوق في المجالات التي تتطلب الذكاء الاجتماعي وحل المشكلات التعاوني، مثل الرعاية الصحية والهندسة. يُعتبر دمج الأدوات الخارجية والبيانات في الوقت الفعلي أمرًا ضروريًا لتعزيز قدرات عملاء LLM بما يتجاوز قيودهم المدربة مسبقًا. يتغير تقييم هؤلاء العملاء من مقاييس الدقة الثابتة إلى تقييمات ديناميكية تأخذ في الاعتبار جودة التفكير والتكيف. يتناول القسم أيضًا القيود الحرجة ومخاوف السلامة، بما في ذلك مخاطر الأمان والتحديات في الثقة والقدرة على التفسير. يُحث البحث المستقبلي على التركيز على تعزيز الشفافية وقابلية التحقق من تفكير العملاء وتطوير طرق موثوقة للتحسين الذاتي، خاصة في البيئات ذات المخاطر العالية حيث يمكن أن تكون الأخطاء لها عواقب كبيرة.

مقدمة

تسلط مقدمة ورقة البحث الضوء على الدور التحويلي لنماذج اللغة الكبيرة (LLMs) في الذكاء الاصطناعي (AI)، لا سيما في معالجة اللغة الطبيعية (NLP). تم استخدام LLMs في البداية كمولدات نصوص، لكنها تطورت إلى عملاء مستقلين متطورين قادرين على تنفيذ مهام معقدة مثل التخطيط واتخاذ القرار والتفاعل مع الأدوات عبر مجالات متنوعة، بما في ذلك الرعاية الصحية وتطوير البرمجيات والمحاكاة العلمية. لقد عززت تقنيات مثل التحفيز القليل من اللقطات والتحفيز عبر سلسلة الأفكار قدراتهم، مما يمكنهم من العمل بفعالية في البيئات الديناميكية. ومع ذلك، تواجه أنظمة العميل الواحد تحديات في تتبع السياق واستخدام الأدوات التكيفية، مما يدفع نحو التحول نحو أنظمة LLM متعددة العملاء التي تستفيد من التعاون والتخصص لمعالجة مشكلات أكثر تعقيدًا.

تهدف الورقة إلى تقديم مراجعة منهجية للتقدم في LLMs كعملاء وأدوات، موضحة أسسها الهيكلية، وأنماط التفاعل، والقيود الرئيسية. تؤكد على أهمية الضبط الدقيق والتحفيز في تعزيز أداء العملاء وتحدد التحديات الأساسية مثل المحاذاة والتعميم. تشمل مساهمات الاستطلاع تصنيفًا شاملاً لهياكل LLM، وتحليلًا لقدرات التفكير والتخطيط، ومراجعة نقدية لطرق التقييم. من خلال رسم خريطة لمشهد عملاء LLM، يسعى المؤلفون إلى إنشاء أساس قوي للبحث والتطوير المستقبلي في هذا المجال المتطور بسرعة.

طرق

المنهجية المستخدمة في هذه الدراسة منهجية منظمة ومرتبة، تهدف إلى التحقيق في المجال الديناميكي لعملاء نماذج اللغة الكبيرة (LLM). يتم توجيه البحث بواسطة أسئلة بحثية محددة (RQs) تسعى لتوضيح الهياكل الأساسية والقدرات والبيئات التشغيلية لهؤلاء العملاء. تم إجراء عملية اختيار أدبيات شاملة، تشمل مجموعة متنوعة من الدراسات التي تتناول الأطر الأساسية، والأساليب المبتكرة، واستراتيجيات التنفيذ العملية.

تم تصنيف الأدبيات المختارة بشكل منهجي لتسهيل الفحص المتعمق للاتجاهات الناشئة، وهياكل الأنظمة، والآليات التي تمكّن السلوكيات الشبيهة بالعملاء في LLMs. لا تبرز هذه الطريقة المنظمة التقدم في المجال فحسب، بل توفر أيضًا رؤى حول التطبيقات العملية والأسس النظرية لعملاء LLM.

مناقشة

في قسم المناقشة من الورقة، يقدم المؤلفون تحليلًا شاملاً للمنهجيات والهياكل الأساسية لأنظمة العملاء المتعددة، لا سيما تلك التي تستخدم نماذج اللغة الكبيرة (LLMs). يصنفون الأطر التعاونية إلى هياكل عامة وهياكل محددة المجال، مع التأكيد على أهمية التعاون الهرمي والمعتمد على الأدوار. يسلط القسم أيضًا الضوء على أنماط التدريب المختلفة، بما في ذلك التعلم المعزز والأساليب التطورية الذاتية، بالإضافة إلى أساليب التدريب غير المتصلة والمودولية. من الجدير بالذكر أن دمج معرفة LLM في تدريب العملاء يُعتبر تقدمًا حاسمًا في تعزيز قدرات العملاء.

يقوم المؤلفون بتقييم نقدي للأدبيات الحالية حول LLMs كعملاء مستقلين، مع تحديد الفجوات في فهم LLMs الأساسية، وتقنيات التحفيز، وطرق التقييم. يقترحون تصنيفًا جديدًا للأنظمة العميلية ينظم المجال إلى منهجيات أساسية، وقدرات، وتطبيقات، مما يوفر منظورًا موحدًا حول هياكل LLM واتجاهاتها المستقبلية. تهدف المراجعة إلى معالجة سبعة أسئلة بحثية رئيسية تتعلق بالهياكل، والتفاعلات، والوظائف المعرفية، وتقييم عملاء LLM، مع مراعاة الآثار الأخلاقية المرتبطة بنشرها. لا تدمج هذه الطريقة المنهجية المعرفة الحالية فحسب، بل تضع أيضًا الأساس للبحث المستقبلي في المجال المتطور بسرعة لعملاء LLM المعتمدين.

القيود

تسلط القيود المحددة في البحث الضوء على التحديات الكبيرة المرتبطة بمجموعات البيانات المختلفة المستخدمة في تقييم التفكير العميل في الروبوتات والملاحة. تظهر مجموعات بيانات مثل HumanEval ضوضاء وعدم قابلية للتنبؤ، مما يمكن أن يؤدي إلى الإفراط في التكيف وانخفاض الأداء. بالإضافة إلى ذلك، تعاني مجموعات بيانات مثل Street View وAndroidArena من نقص في تنوع سلوك المستخدم وديناميات البيئة، مما يؤدي إلى نماذج متحيزة تفتقر إلى القوة. يتم انتقاد المعايير القياسية، بما في ذلك HumanEval وMBPP وGSM8K وMATH وWebShop، لكونها محددة المهام وتفتقر إلى قابلية التطبيق عبر المجالات واللغات المتعددة، مما يحد من قابليتها للتعميم.

علاوة على ذلك، لا تلتقط المعايير الحالية تعقيدات السيناريوهات الواقعية بشكل كافٍ، حيث غالبًا ما تقيم الأداء في بيئات مبسطة وثابتة. تعطي هذه الطريقة الأولوية للتقييمات الذاتية على التقييمات الموضوعية لفعالية العميل في تحقيق الأهداف. توفر مقاييس مثل معدلات النجاح النهائية رؤى محدودة حول عمليات التفكير للعملاء وتفشل في معالجة التحديات الحرجة، بما في ذلك الملاحة في فضاءات العمل الديناميكية. بالإضافة إلى ذلك، غالبًا ما تتجاهل هذه المعايير القيود الأساسية في العالم الحقيقي، مثل الديناميات الزمنية، والتي تعتبر حيوية لتقييم قدرات التخطيط ومتعددة المهام للعميل بشكل فعال.

Journal: Artificial Intelligence Review, Volume: 59, Issue: 2
DOI: https://doi.org/10.1007/s10462-025-11471-9
Publication Date: 2026-01-06
Author(s): Sadia Sultana Chowa et al.
Primary Topic: Multimodal Machine Learning Applications

Overview

This section provides a comprehensive overview of the advancements in Large Language Models (LLMs) as autonomous agents, emphasizing their decision-making capabilities and adaptability. The review focuses on literature published between 2023 and 2025, addressing seven key research questions related to the architectural design of LLM agents, which are categorized into single-agent and multi-agent systems. It explores the cognitive mechanisms of LLMs, including reasoning, planning, and memory, while also evaluating the impact of prompting methods and fine-tuning procedures on agent performance. A structured analysis of 68 publicly available datasets is included to assess the efficacy of LLM-based agents across various tasks.

The conclusion highlights the distinctions between single-agent and multi-agent systems, noting that the latter excels in domains requiring social intelligence and collaborative problem-solving, such as healthcare and engineering. The integration of external tools and real-time data is deemed essential for enhancing LLM agents’ capabilities beyond their pre-trained limitations. The evaluation of these agents is shifting from static accuracy metrics to dynamic assessments that consider reasoning quality and adaptability. The section also addresses critical limitations and safety concerns, including security risks and challenges in trust and explainability. Future research is urged to focus on enhancing the transparency and verifiability of agent reasoning and developing reliable self-improvement methods, particularly in high-stakes environments where errors can have significant consequences.

Introduction

The introduction of the research paper highlights the transformative role of large language models (LLMs) in artificial intelligence (AI), particularly in natural language processing (NLP). Initially utilized as text generators, LLMs have evolved into sophisticated autonomous agents capable of complex tasks such as planning, decision-making, and tool interaction across various domains, including healthcare, software development, and scientific simulations. Techniques like few-shot prompting and chain-of-thought prompting have enhanced their capabilities, enabling them to operate effectively in dynamic environments. However, single-agent systems face challenges in context tracking and adaptive tool usage, prompting a shift towards multi-agent LLM systems that leverage collaboration and specialization to tackle more intricate problems.

The paper aims to provide a systematic review of the advancements in LLMs as agents and tools, outlining their architectural foundations, interaction paradigms, and key limitations. It emphasizes the importance of fine-tuning and prompting in enhancing agentic performance and identifies fundamental challenges such as alignment and generalization. The survey’s contributions include a comprehensive taxonomy of LLM architectures, an analysis of reasoning and planning capabilities, and a critical review of evaluation methods. By mapping the landscape of LLM agents, the authors seek to establish a solid foundation for future research and development in this rapidly evolving field.

Methods

The methodology employed in this study is systematic and structured, aimed at investigating the dynamic domain of Large Language Model (LLM) agents. The research is driven by specific research questions (RQs) that seek to elucidate the fundamental structures, capabilities, and operational environments of these agents. A comprehensive literature selection process was conducted, encompassing a diverse array of studies that address foundational frameworks, innovative methodologies, and practical implementation strategies.

The selected literature was systematically categorized to facilitate an in-depth examination of emerging trends, system architectures, and mechanisms that enable agent-like behaviors in LLMs. This organized approach not only highlights the advancements in the field but also provides insights into the practical applications and theoretical underpinnings of LLM agents.

Discussion

In the discussion section of the paper, the authors provide a comprehensive analysis of the methodologies and architectures underlying multi-agent systems, particularly those utilizing Large Language Models (LLMs). They categorize collaborative frameworks into general and domain-specific architectures, emphasizing the significance of hierarchical and role-based collaboration. The section also highlights various training paradigms, including reinforcement learning and self-evolutionary methods, as well as offline and modular training approaches. Notably, the integration of LLM knowledge into agent training is underscored as a critical advancement in enhancing agent capabilities.

The authors critically assess existing literature on LLMs as autonomous agents, identifying gaps in the understanding of baseline LLMs, prompting techniques, and evaluation methodologies. They propose a new taxonomy of agentic systems that organizes the field into core methodologies, capabilities, and applications, thereby offering a unified perspective on LLM architectures and their future directions. The review aims to address seven key research questions concerning the architectures, interactions, cognitive functions, and evaluation of LLM agents, while also considering ethical implications associated with their deployment. This systematic approach not only synthesizes current knowledge but also sets the stage for future research in the rapidly evolving domain of LLM-based agents.

Limitations

The limitations identified in the research highlight significant challenges associated with various datasets used in evaluating agentic reasoning in robotics and navigation. Datasets such as HumanEval exhibit inherent noise and unpredictability, which can lead to overfitting and diminished performance. Additionally, datasets like Street View and AndroidArena suffer from a lack of diversity in user behavior and environmental dynamics, resulting in biased models that lack robustness. Standard benchmarks, including HumanEval, MBPP, GSM8K, MATH, and WebShop, are criticized for being task-specific and lacking cross-domain and multilingual applicability, which limits their generalizability.

Moreover, existing benchmarks inadequately capture the complexities of real-world scenarios, as they often assess performance in simplified, static environments. This approach prioritizes subjective evaluations over objective assessments of an agent’s effectiveness in achieving goals. Metrics such as final success rates provide limited insight into the reasoning processes of agents and fail to address critical challenges, including navigation in dynamic action spaces. Additionally, these benchmarks frequently neglect essential real-world constraints, such as temporal dynamics, which are vital for evaluating an agent’s planning and multitasking capabilities effectively.