SurgRAW: سير العمل متعدد الوكلاء مع التفكير المتسلسل لتحليل الفيديو الجراحي الروبوتي
SurgRAW: Multi-Agent Workflow With Chain of Thought Reasoning for Robotic Surgical Video Analysis

المجلة: IEEE Robotics and Automation Letters، المجلد: 11، العدد: 4
DOI: https://doi.org/10.1109/lra.2026.3665443
تاريخ النشر: 2026-02-16
المؤلف: Chang Han Low وآخرون
الموضوع الرئيسي: تطبيقات تعلم الآلة متعددة الوسائط

نظرة عامة

يقدم هذا القسم نظرة عامة على التقدم في جراحة الروبوت المدعومة (RAS) من خلال تقديم SurgCoTBench وSurgRAW. غالبًا ما تعتمد طرق الذكاء الاصطناعي الجراحية الحالية على نماذج معزولة، مما يؤدي إلى أساليب مجزأة ذات قابلية تفسير محدودة. لمعالجة هذه التحديات، تم تقديم SurgCoTBench كأول معيار يركز على التفكير في RAS، ويتكون من 14,256 زوج من الأسئلة والأجوبة مع تعليقات على مستوى الإطار عبر خمس مهام جراحية رئيسية. يهدف هذا المعيار إلى توحيد البيانات لتحسين فهم المشهد في RAS.

استنادًا إلى هذا الأساس، تم اقتراح SurgRAW كعملية عمل مدفوعة بسلسلة من الأفكار (CoT) متوافقة مع العيادات، تسهل التفكير المتعدد المهام بدون تدريب في السياقات الجراحية. يتميز بهيكل تفكير هرمي حيث يدير منسق وكلاء محددين للمهام لتوليد تفكير مفصل بينما يلتقط أيضًا الاعتماد المتبادل بين المهام. يتضمن النظام آلية مناقشة جماعية للتفكير التعاوني بين الوكلاء ووحدة توليد معززة بالاسترجاع لتعزيز المعرفة وتقليل الفجوات في المجال. تم تصميم مطالبات CoT المحددة للمهام لضمان التفكير ذي الصلة بالعيادة، وتقليل الهلوسات، وتحسين قابلية التفسير. تظهر النتائج التجريبية أن SurgRAW يتفوق على نماذج الرؤية واللغة الحالية وأنظمة الوكلاء، محققًا تحسينًا في الدقة بنسبة 14.61% مقارنة بنموذج تحت الإشراف. تتوفر مجموعة البيانات والشيفرة للجمهور لمزيد من البحث.

مقدمة

تسلط مقدمة هذه الورقة البحثية الضوء على التكامل المتزايد لأنظمة الجراحة الروبوتية، مثل دافنشي، في غرف العمليات الحديثة، مع التأكيد على فوائدها في الدقة والوصول إلى مناطق تشريحية معقدة. ومع ذلك، فإن فعالية الجراحة المدعومة بالروبوت (RAS) تعتمد على قدرة الجراح على تفسير المشاهد المعقدة داخل العملية، والتي تتميز بتعقيد بصري عالٍ وتغيرات سريعة في العلاقات المكانية. يتطلب هذا التعقيد تطوير أساليب موثوقة مدعومة بالحاسوب لفهم المشهد الجراحي. بينما ظهرت طرق مدفوعة بالذكاء الاصطناعي لمعالجة مهام الرؤية الجراحية المختلفة، فإنها غالبًا ما تفتقر إلى قابلية التفسير وتعتمد على هياكل محددة للمهام، مما يؤدي إلى مجموعات بيانات مجزأة تعيق إنشاء إطار عمل موحد للذكاء الجراحي.

لتجاوز هذه التحديات، يقترح المؤلفون إطار عمل جديد، SurgRAW، الذي يستخدم نهج تفكير هرمي لتعزيز فهم المشهد الجراحي. يتضمن هذا الإطار منسقًا مركزيًا يقسم المهام إلى تدفقات بصرية-دلالية (VS) واستنتاجات معرفية (CI)، مما يسمح لوكلاء نموذج الرؤية واللغة (VLM) المتخصصين بالتعامل مع التفكير على مستوى المهام مع الحفاظ على الاعتماد المتبادل في سير العمل. تشمل الابتكارات الرئيسية آلية مناقشة جماعية للتفكير التعاوني بين الوكلاء ووحدة توليد معززة بالاسترجاع (RAG) لضمان توافق القرارات مع الإرشادات السريرية. بالإضافة إلى ذلك، يقدم المؤلفون مطالبات سلسلة من الأفكار (CoT) المحددة للمهام لتحسين القابلية للتفسير وتقليل الهلوسات. بشكل عام، تقدم الورقة SurgCoTBench، معيارًا لتقييم سيناريوهات الجراحة الروبوتية الموحدة، وتضع SurgRAW كإطار رائد لتعزيز التفكير المنظم في RAS.

طرق

في هذا القسم، يتم تفصيل المنهجية لتقييم SurgRAW، مع التركيز على أدائه مقارنةً بمختلف النماذج المتطورة في سياق مهام التفكير الجراحي. تشمل التقييم أربع فئات: نماذج الرؤية واللغة العامة (VLMs)، ونماذج VLM الطبية المعدلة حسب المجال، والطرق المعتمدة على سلسلة الأفكار (CoT)، وإطارات التفكير الوكيلة. تشير النتائج إلى أن نماذج VLM العامة تظهر أداءً معتدلاً في مهام الرؤية-الدلالية (VS) لكنها تواجه صعوبة في مهام الاستنتاج المعرفي (CI) بسبب نقص السياق الجراحي. تفشل نماذج VLM الطبية المعدلة حسب المجال في سد هذه الفجوة، وغالبًا ما تكون أداؤها أقل مقارنة بالنماذج العامة. توفر الطرق المعتمدة على CoT تحسينات محدودة، بينما لا تترجم الإطارات الوكيلة الحالية بشكل فعال إلى سير العمل الجراحي.

على النقيض من ذلك، يظهر SurgRAW تحسينات كبيرة، محققًا متوسط تحسين بنسبة 29.32% مقارنة بنماذج VLM القياسية عبر الهياكل المتطابقة. من الجدير بالذكر أن SurgRAW-GPT4o يظهر زيادة بنسبة 37.50% في توقع الإجراءات وزيادة مثيرة للإعجاب بنسبة 86.77% في استخراج تفاصيل المرضى مقارنةً بأساسه. علاوة على ذلك، يتفوق SurgRAW باستمرار على نموذج Surgical-VQA تحت الإشراف عبر جميع المقاييس في إعداد بدون تدريب، مع الحفاظ على انحراف معياري منخفض (±1.51%) وإظهار موثوقية في الأداء. توضح الأمثلة النوعية قدرة SurgRAW على توليد آثار تفكير متماسكة وذات صلة سريرية، مما يبرز فعاليته في مهام التفكير الجراحي.

مناقشة

تسلط قسم المناقشة في الورقة الضوء على تطور فهم المشهد الجراحي وتقديم SurgCoTBench، مجموعة بيانات جديدة مصممة لمعالجة قيود مجموعات بيانات الفيديو الجراحية الحالية. غالبًا ما تفشل الأساليب الحالية في فهم المشهد الجراحي، بما في ذلك طرق تقسيم المهام المحددة والتعرف على الإجراءات، في التقاط العلاقات المعقدة بين المهام الجراحية، وهو أمر ضروري للتطبيقات الواقعية. تتكون مجموعة بيانات SurgCoTBench من 12 فيديو لمريض من إجراءات استئصال البروستاتا واستئصال الفص، وتتضمن 2,277 إطارًا منسقًا و14,256 زوجًا من الأسئلة والأجوبة بين الرؤية واللغة عبر خمس مهام تفكير أساسية: التعرف على الأدوات، التعرف على الإجراءات، توقع الإجراءات، استخراج تفاصيل المرضى، وتقييم النتائج الجراحية. يضمن هذا النهج المنظم تغطية شاملة لمتطلبات التفكير داخل العملية، مما يمكّن النماذج من التعميم عبر مهام جراحية متنوعة.

تقدم الورقة أيضًا SurgRAW، نظام متعدد الوكلاء هرمي يدمج تدفقات التفكير البصري-الدلالي (VS) والاستنتاج المعرفي (CI). يستخدم SurgRAW منسقًا على مستوى عالٍ لتصنيف الأسئلة الواردة وتوجيهها إلى وكلاء متخصصين لمعالجة محددة للمهام. يعزز النظام الدقة من خلال آلية مناقشة جماعية بين الوكلاء، مدعومة برسم بياني للمعرفة الجراحية لمهام VS ووحدة توليد معززة بالاسترجاع (RAG) لمهام CI. يساهم دمج مطالبات سلسلة الأفكار (CoT) المنظمة والمخصصة لكل نوع من المهام في تحسين شفافية التفكير وتقليل الهلوسات. بشكل عام، يظهر SurgRAW أداءً متفوقًا مقارنة بالأساليب الحالية، مما يضع معيارًا جديدًا لفهم الفيديو الجراحي الروبوتي ويمهد الطريق للتقدم المستقبلي في أنظمة الذكاء الاصطناعي الجراحية.

Journal: IEEE Robotics and Automation Letters, Volume: 11, Issue: 4
DOI: https://doi.org/10.1109/lra.2026.3665443
Publication Date: 2026-02-16
Author(s): Chang Han Low et al.
Primary Topic: Multimodal Machine Learning Applications

Overview

The section presents an overview of advancements in robotic-assisted surgery (RAS) through the introduction of SurgCoTBench and SurgRAW. Current surgical AI methods often rely on isolated models, leading to fragmented approaches with limited interpretability. To address these challenges, SurgCoTBench is introduced as the first reasoning-focused benchmark in RAS, comprising 14,256 question-answer pairs with frame-level annotations across five major surgical tasks. This benchmark aims to unify data for improved scene understanding in RAS.

Building on this foundation, SurgRAW is proposed as a clinically aligned Chain-of-Thought (CoT) driven workflow that facilitates zero-shot multi-task reasoning in surgical contexts. It features a hierarchical reasoning structure where an orchestrator manages task-specific agents to generate detailed reasoning while also capturing interdependencies among tasks. The system incorporates a panel discussion mechanism for collaborative reasoning among agents and a retrieval-augmented generation module to enhance knowledge and mitigate domain gaps. Task-specific CoT prompts are designed to ensure clinically relevant reasoning, reduce hallucinations, and improve interpretability. Experimental results demonstrate that SurgRAW outperforms existing vision-language models and agentic systems, achieving a 14.61% accuracy improvement over a supervised model. The dataset and code are publicly available for further research.

Introduction

The introduction of this research paper highlights the growing integration of robotic surgical systems, such as the da Vinci, into modern operating rooms, emphasizing their benefits in precision and access to complex anatomical regions. However, the effectiveness of robot-assisted surgery (RAS) is contingent upon the surgeon’s ability to interpret intricate intraoperative scenes, which are characterized by high visual complexity and rapid changes in spatial relationships. This complexity necessitates the development of reliable computer-assisted approaches for surgical scene understanding. While AI-driven methods have emerged to address various surgical vision tasks, they often lack interpretability and rely on task-specific architectures, leading to fragmented datasets that hinder the establishment of a cohesive surgical intelligence framework.

To overcome these challenges, the authors propose a novel framework, SurgRAW, which employs a hierarchical reasoning approach to enhance surgical scene understanding. This framework incorporates a central orchestrator that divides tasks into Visual-Semantic (VS) and Cognitive-Inference (CI) streams, allowing specialized Vision-Language Model (VLM) agents to handle task-level reasoning while maintaining workflow dependencies. Key innovations include a panel discussion mechanism for collaborative reasoning among agents and a Retrieval-Augmented Generation (RAG) module to ensure decisions align with clinical guidelines. Additionally, the authors introduce task-specific Chain-of-Thought (CoT) prompts to improve explainability and reduce hallucinations. Overall, the paper presents SurgCoTBench, a benchmark for evaluating unified robotic surgical scenarios, and positions SurgRAW as a pioneering framework for enhancing structured reasoning in RAS.

Methods

In this section, the methodology for evaluating SurgRAW is detailed, focusing on its performance compared to various state-of-the-art models in the context of surgical reasoning tasks. The evaluation encompasses four categories: general Vision-Language Models (VLMs), domain-adapted medical VLMs, Chain-of-Thought (CoT) based approaches, and agentic reasoning frameworks. The findings indicate that general VLMs exhibit moderate performance on visual-semantic (VS) tasks but struggle with cognitive inference (CI) tasks due to a lack of surgical context. Domain-adapted medical VLMs fail to bridge this gap, often underperforming relative to general models. CoT-based methods provide limited improvements, while existing agentic frameworks do not effectively translate to surgical workflows.

In contrast, SurgRAW demonstrates significant enhancements, achieving an average improvement of 29.32% over standard VLMs across matched backbones. Notably, SurgRAW-GPT4o shows a 37.50% increase in Action Prediction and an impressive 86.77% boost in Patient Detail Extraction compared to its baseline. Furthermore, SurgRAW consistently outperforms the supervised Surgical-VQA across all metrics in a zero-shot setting, maintaining a low standard deviation (±1.51%) and demonstrating reliability in performance. Qualitative examples illustrate SurgRAW’s ability to generate coherent and clinically relevant reasoning traces, underscoring its effectiveness in surgical reasoning tasks.

Discussion

The discussion section of the paper highlights the evolution of surgical scene understanding and the introduction of SurgCoTBench, a novel dataset designed to address the limitations of existing surgical video datasets. Current approaches in surgical scene understanding, including task-specific segmentation and action recognition methods, often fail to capture the intricate relationships among surgical tasks, which is essential for real-world applications. The SurgCoTBench dataset, constructed from 12 patient videos of prostatectomy and lobectomy procedures, includes 2,277 curated frames and 14,256 vision-language question-answer pairs across five core reasoning tasks: instrument recognition, action recognition, action prediction, patient detail extraction, and surgical outcome assessment. This structured approach ensures comprehensive coverage of intraoperative reasoning demands, enabling models to generalize across various surgical tasks.

The paper also introduces SurgRAW, a hierarchical multi-agent system that integrates visual-semantic (VS) and cognitive-inference (CI) reasoning streams. SurgRAW employs a top-level orchestrator to classify incoming questions and route them to specialized agents for task-specific processing. The system enhances accuracy through a panel discussion mechanism among agents, supported by a surgical knowledge graph for VS tasks and a retrieval-augmented generation (RAG) module for CI tasks. The incorporation of structured chain-of-thought (CoT) prompts tailored to each task type further improves reasoning transparency and reduces hallucinations. Overall, SurgRAW demonstrates superior performance compared to existing methods, setting a new benchmark for robotic surgical video understanding and paving the way for future advancements in surgical AI systems.