LG-H-PPO: PPO هرمية غير متصلة للتخطيط لمسار الروبوت على رسم بياني كامن
LG-H-PPO: offline hierarchical PPO for robot path planning on a latent graph

المجلة: Frontiers in Robotics and AI، المجلد: 12
DOI: https://doi.org/10.3389/frobt.2025.1737238
PMID: https://pubmed.ncbi.nlm.nih.gov/41574201
تاريخ النشر: 2026-01-07
المؤلف: Xiang Han
الموضوع الرئيسي: تعلم التعزيز في الروبوتات

نظرة عامة

تقدم ورقة البحث إطار عمل جديد للتعلم المعزز الهرمي غير المتصل (HRL)، يسمى LG-H-PPO (التعلم المعزز الهرمي القائم على الرسم البياني الكامن)، يهدف إلى تعزيز قدرات تخطيط المسار للروبوتات المستقلة في البيئات المعقدة. تواجه طرق التعلم المعزز التقليدية تحديات في اتخاذ القرارات على المدى الطويل وإشارات المكافأة النادرة، خاصة عند استخدام المساحات الكامنة المستمرة لتوليد الأهداف الفرعية عالية المستوى. يتناول LG-H-PPO هذه القضايا من خلال تحويل المساحة الكامنة المستمرة إلى “رسم بياني كامن” منظم، مما يبسط عملية التخطيط عالية المستوى من “الإنشاء المستمر” إلى “الاختيار المنفصل”. تحسن هذه التحويلة بشكل كبير من كفاءة التعلم واستقرار السياسة عالية المستوى، كما يتضح من التجارب الأولية على معايير التنقل غير المتصلة D4RL، حيث تفوق LG-H-PPO على الأسس المتقدمة مثل Guider و HIQL في كل من سرعة التقارب ومعدلات نجاح المهام.

تختتم الورقة بتسليط الضوء على الإمكانيات المستقبلية للبحث المستند إلى إطار عمل LG-H-PPO. تشمل الاتجاهات الرئيسية استكشاف وزن الحواف في الرسم البياني لتعزيز اتخاذ القرار، وتطوير آليات توسيع الرسم البياني الديناميكي عبر الإنترنت للتكيف مع التجارب الجديدة، وتوسيع الإطار ليشمل مهام التنقل عالية الأبعاد، مثل تلك التي تتضمن مدخلات بصرية. يمكن أن تؤدي هذه التطورات إلى خوارزميات HRL غير متصلة أكثر كفاءة وموثوقية، تجمع بين مزايا تمثيلات المتغيرات الكامنة مع التخطيط المنظم، مما يحسن التطبيقات الروبوتية التي تتطلب تفكيرًا طويل الأمد واستخدامًا مثاليًا للبيانات.

مقدمة

تتناول مقدمة ورقة البحث هذه التحديات التي تواجه تمكين الروبوتات من التنقل بشكل مستقل في البيئات المعقدة، وهو جانب حاسم من الذكاء الاصطناعي والروبوتات. تسلط الضوء على قيود التعلم الخاضع للإشراف التقليدي وطرق التخطيط القائمة على النماذج في سياق اتخاذ القرارات على المدى الطويل والمكافآت النادرة، حيث يكون التغذية الراجعة الفعالة نادرة. يُعتبر التعلم المعزز (RL)، وخاصة التعلم المعزز العميق (DRL)، نهجًا واعدًا بسبب قدرته على التعلم من خلال التجربة والخطأ. ومع ذلك، تتطلب طرق RL عبر الإنترنت القياسية، مثل تحسين السياسة القريبة (PPO)، تفاعلات واسعة مع البيئة، مما قد يكون غير عملي وخطير. للتخفيف من هذه القضايا، ظهر التعلم المعزز غير المتصل (Offline RL)، مما يسمح بتعلم السياسة من مجموعات بيانات تم جمعها مسبقًا، على الرغم من أنه يواجه تحديات مثل مشكلة العمل خارج التوزيع (OOD).

تقدم الورقة إطار عمل PPO الهرمي القائم على الرسم البياني الكامن (LG-H-PPO) كنهج جديد للتعلم المعزز الهرمي غير المتصل (HRL). من خلال تحويل مساحة المتغيرات الكامنة المستمرة إلى رسم بياني للمتغيرات الكامنة المنفصلة، يمكّن LG-H-PPO التخطيط عالي المستوى على هذا الرسم البياني، مما يبسط مساحة العمل للسياسة عالية المستوى. يعزز هذه الطريقة من القوة والعمومية مقارنة بالأساليب الحالية، مثل Guider و HIQL، من خلال السماح للسياسة المتعلمة بالتنقل بين الحالات التي لا تتماشى تمامًا مع عقد الرسم البياني. تظهر التجارب الأولية أن LG-H-PPO يتفوق على هذه الأساليب الحالية في سرعة التقارب ومعدل النجاح، مما يقلل بشكل كبير من التباين في تقدير تدرج السياسة ويحسن كفاءة العينة. تضع الدراسة الأساس للتقدم المستقبلي في خوارزميات HRL غير المتصلة القائمة على الرسم البياني والمتغيرات الكامنة.

طرق

في هذا القسم، يحدد المؤلفون تصميم التجربة والمنهجية لتقييم خوارزمية LG-H-PPO المقترحة، على معيار تنقل Antmaze، مستهدفين بشكل خاص بيئات antmaze-medium-diverse-v2 و antmaze-large-diverse-v2. تتميز هذه البيئات بمساحة حالة عالية الأبعاد (29 بعدًا)، مساحة عمل مستمرة (8 أبعاد)، مكافآت نادرة (فقط +1 عند الوصول إلى الهدف)، وفترات مهام ممتدة (تصل إلى 1,000 خطوة). يستفيد التدريب من مجموعات بيانات غير متصلة تحتوي على حوالي مليون عينة انتقال، والتي تشمل مجموعة متنوعة من المسارات غير المثلى، مما يتحدى قدرة الخوارزمية على تجميع المسارات وتعلم السياسة المثلى من البيانات غير المثلى.

لتقييم أداء LG-H-PPO، يقارن المؤلفون بينها وبين عدة أسس متطورة: Guider و HIQL و GAS و CQL + HER، وتنفيذ أساسي لـ H-PPO (مستمر). تشمل مقاييس التقييم درجات طبيعية تعكس الأداء بالنسبة للسياسات العشوائية والخبراء، مع نتائج متوسطة على 100 جولة تقييم عبر خمسة بذور عشوائية. كما يوضح المؤلفون تنفيذهم لبناء الرسم البياني الكامن باستخدام وحدة KMeans من Scikit-learn، مشددين على أهمية استراتيجية التهيئة ‘k-means++’ للتجميع الفعال في المساحات الكامنة عالية الأبعاد. تم تحديد العدد الأمثل لعقد الرسم البياني، K، تجريبيًا ليكون 200، مما يوازن بين دقة التخطيط وتعقيد الحساب. تم إجراء جميع التجارب على خادم مزود ببطاقة رسومات NVIDIA RTX 4090.

نتائج

تظهر نتائج الدراسة الأداء المتفوق لخوارزمية LG-H-PPO مقارنة بمختلف طرق الأساس على مهمة D4RL Antmaze، كما هو ملخص في الجدول 2. في بيئة antmaze-medium، حقق LG-H-PPO متوسط درجة 90.5، متفوقًا بشكل كبير على طريقة CQL + HER غير الهرمية ومطابقًا لأداء الخوارزميات الرائدة مثل HIQL و GAS. تفوقت الطرق الهرمية باستمرار على الأساليب غير الهرمية، مما يبرز مزايا الهياكل الهرمية في إدارة التسلسلات الزمنية طويلة الأمد.

في بيئة antmaze-large الأكثر تحديًا، حافظ LG-H-PPO على درجة عالية قدرها 85.6، بينما شهدت CQL + HER و Guider و H-PPO (مستمر) انخفاضات كبيرة في الأداء، مما يشير إلى زيادة صعوبة التخطيط على المدى الطويل في المساحات الكامنة المستمرة. تشير النتائج إلى أن الهياكل الرسومية للمتغيرات الكامنة التي يستخدمها LG-H-PPO ضرورية للتغلب على التحديات في التخطيط للتعلم المعزز الهرمي غير المتصل (HRL). تسمح قدرة الخوارزمية على تحويل مساحة العمل إلى تعلم أكثر فعالية للاعتماديات طويلة المدى وتسلسل الأهداف الفرعية المثلى. بالإضافة إلى ذلك، أظهر LG-H-PPO أداءً مستقرًا عبر بذور عشوائية مختلفة، كما يتضح من انحرافه المعياري المنخفض والفجوة الضئيلة بين الدرجات القصوى والدنيا. توضح التصورات للطرق المخططة فعالية الهيكل الهرمي ذي المستويين في تقسيم المهام المعقدة إلى مشكلات فرعية قابلة للإدارة.

نقاش

يتم تقديم إطار عمل LG-H-PPO (التعلم المعزز الهرمي القائم على الرسم البياني الكامن) كنهج جديد لتعزيز التخطيط على المدى الطويل في التعلم المعزز الهرمي غير المتصل (HRL). من خلال استخدام هيكل رسم بياني للمتغيرات الكامنة، يبسط LG-H-PPO مهمة السياسة عالية المستوى من توليد الأهداف الفرعية الكامنة في مساحة مستمرة إلى اختيار العقد المجاورة في رسم بياني تم إنشاؤه مسبقًا. يتم تشكيل هذا الرسم البياني، المسمى \( G = (V, E) \)، من خلال تجميع K-Means للتمثيلات الكامنة من مجموعة بيانات غير متصلة، حيث تمثل العقد \( V \) الحالات الرئيسية وتشير الحواف \( E \) إلى الجوار الزمني. يتكون الإطار من ثلاث مراحل: تدريب مسبق لمشفّر المتغيرات الكامنة، بناء الرسم البياني، وتدريب PPO القائم على الرسم البياني، مما يحسن في النهاية كفاءة العينة ويعالج تحديات المكافآت النادرة في مهام التنقل المعقدة.

تشمل عملية التدريب مشفّر متغيرات كامن يلتقط المعلومات الأساسية عن الحالة والعلاقات، تليها بناء الرسم البياني للمتغيرات الكامنة. تختار السياسة عالية المستوى \( \pi_h \) الأهداف الفرعية بناءً على عقدة الرسم البياني الحالية والهدف النهائي، بينما تنفذ السياسة منخفضة المستوى \( \pi_l \) الإجراءات للانتقال بين هذه العقد. يتم تقييم الإطار مقابل خوارزميات HRL غير المتصلة الحالية على معيار D4RL Antmaze، مما يظهر مزايا في سرعة التقارب والأداء والاستقرار. ستستكشف الأعمال المستقبلية تعلم أوزان الحواف لتحسين اتخاذ القرار، وتوسيع الرسم البياني الديناميكي للتعلم مدى الحياة، وتوسيع الإطار ليشمل مهام الملاحظة عالية الأبعاد، مثل تلك التي تتضمن مدخلات بصرية.

Journal: Frontiers in Robotics and AI, Volume: 12
DOI: https://doi.org/10.3389/frobt.2025.1737238
PMID: https://pubmed.ncbi.nlm.nih.gov/41574201
Publication Date: 2026-01-07
Author(s): Xiang Han
Primary Topic: Reinforcement Learning in Robotics

Overview

The research paper presents a novel offline hierarchical reinforcement learning (HRL) framework, termed LG-H-PPO (Latent Graph-based Hierarchical PPO), aimed at enhancing the path planning capabilities of autonomous robots in complex environments. Traditional reinforcement learning methods face challenges in long-term decision-making and sparse reward signals, particularly when utilizing continuous latent spaces for high-level subgoal generation. LG-H-PPO addresses these issues by discretizing the continuous latent space into a structured “latent graph,” simplifying the high-level planning process from “continuous creation” to “discrete selection.” This transformation significantly improves the learning efficiency and stability of the high-level policy, as demonstrated by preliminary experiments on D4RL offline navigation benchmarks, where LG-H-PPO outperformed advanced baselines like Guider and HIQL in both convergence speed and task success rates.

The paper concludes by highlighting the potential for future research stemming from the LG-H-PPO framework. Key directions include the exploration of learning edge weights in the graph to enhance decision-making, the development of online dynamic graph expansion mechanisms for adapting to new experiences, and extending the framework to high-dimensional navigation tasks, such as those involving visual inputs. These advancements could lead to more efficient and robust offline HRL algorithms, integrating the strengths of latent variable representations with structured planning, thereby improving robotic applications that require long-term reasoning and optimal data utilization.

Introduction

The introduction of this research paper addresses the challenges of enabling robots to autonomously navigate complex environments, a critical aspect of artificial intelligence and robotics. It highlights the limitations of traditional supervised learning and model-based planning methods in the context of long-horizon decision-making and sparse rewards, where effective feedback is infrequent. Reinforcement learning (RL), particularly deep reinforcement learning (DRL), is identified as a promising approach due to its trial-and-error learning capability. However, standard online RL methods, such as Proximal Policy Optimization (PPO), require extensive interactions with the environment, which can be impractical and hazardous. To mitigate these issues, offline reinforcement learning (Offline RL) has emerged, allowing for policy learning from pre-collected datasets, though it faces challenges like the out-of-distribution (OOD) action problem.

The paper introduces the Latent Graph-based Hierarchical PPO (LG-H-PPO) framework as a novel approach to offline hierarchical reinforcement learning (HRL). By transforming the continuous latent variable space into a discrete latent variable graph, LG-H-PPO enables high-level planning on this graph, thus simplifying the action space for the high-level policy. This method enhances robustness and generalization compared to existing approaches, such as Guider and HIQL, by allowing the learned policy to navigate states that do not align perfectly with graph nodes. Preliminary experiments demonstrate that LG-H-PPO outperforms these existing methods in convergence speed and success rate, significantly reducing the variance in policy gradient estimation and improving sample efficiency. The study lays the groundwork for future advancements in graph- and latent variable-based offline HRL algorithms.

Methods

In this section, the authors outline the experimental design and methodology for evaluating their proposed algorithm, LG-H-PPO, on the Antmaze navigation benchmark, specifically targeting the antmaze-medium-diverse-v2 and antmaze-large-diverse-v2 environments. These environments are characterized by a high-dimensional state space (29 dimensions), continuous action space (8 dimensions), sparse rewards (only +1 for reaching the goal), and extended task durations (up to 1,000 steps). The training leverages offline datasets containing approximately one million transition samples, which include a variety of suboptimal trajectories, thereby challenging the algorithm’s capacity for trajectory stitching and optimal policy learning from suboptimal data.

To assess LG-H-PPO’s performance, the authors compare it against several state-of-the-art baselines: Guider, HIQL, GAS, CQL + HER, and a baseline implementation of H-PPO (Continuous). The evaluation metrics include normalized scores that reflect the performance relative to random and expert policies, with results averaged over 100 evaluation rounds across five random seeds. The authors also detail their implementation of the latent graph construction using the KMeans module from Scikit-learn, emphasizing the importance of the ‘k-means++’ initialization strategy for effective clustering in high-dimensional latent spaces. The optimal number of graph nodes, K, was empirically determined to be 200, balancing planning resolution and computational complexity. All experiments were conducted on a server equipped with an NVIDIA RTX 4090 GPU.

Results

The results of the study demonstrate the superior performance of the LG-H-PPO algorithm compared to various baseline methods on the D4RL Antmaze task, as summarized in Table 2. In the antmaze-medium environment, LG-H-PPO achieved an average score of 90.5, significantly outperforming the non-hierarchical CQL + HER method and matching the performance of leading algorithms such as HIQL and GAS. The hierarchical methods consistently outperformed non-hierarchical approaches, underscoring the advantages of hierarchical structures in managing long-term temporal sequences.

In the more challenging antmaze-large environment, LG-H-PPO maintained a high score of 85.6, while CQL + HER, Guider, and H-PPO (Cont.) experienced significant declines in performance, indicating the increased difficulty of long-term planning in continuous latent spaces. The results suggest that the latent variable graph structures employed by LG-H-PPO are crucial for overcoming challenges in offline hierarchical reinforcement learning (HRL) planning. The algorithm’s ability to discretize the action space allows for more effective learning of long-range dependencies and optimal subgoal sequences. Additionally, LG-H-PPO exhibited stable performance across different random seeds, as evidenced by its low standard deviation and minimal gap between maximum and minimum scores. Visualizations of planned trajectories further illustrate the effectiveness of the two-level hierarchical structure in decomposing complex tasks into manageable subproblems.

Discussion

The LG-H-PPO (Latent Graph-based Hierarchical PPO) framework is introduced as a novel approach to enhance long-term planning in offline hierarchical reinforcement learning (HRL). By employing a latent variable graph structure, LG-H-PPO simplifies the high-level policy’s task from generating latent subgoals in a continuous space to selecting adjacent nodes in a pre-constructed graph. This graph, denoted as \( G = (V, E) \), is formed through K-Means clustering of latent representations from an offline dataset, where nodes \( V \) represent key states and edges \( E \) indicate temporal adjacency. The framework comprises three stages: latent variable encoder pre-training, graph construction, and graph-based PPO training, ultimately improving sample efficiency and addressing the challenges of sparse rewards in complex navigation tasks.

The training process involves a latent variable encoder that captures essential state information and relationships, followed by the construction of the latent variable graph. The high-level policy \( \pi_h \) selects subgoals based on the current graph node and the final objective, while the low-level policy \( \pi_l \) executes actions to transition between these nodes. The framework is evaluated against existing offline HRL algorithms on the D4RL Antmaze benchmark, demonstrating advantages in convergence speed, performance, and stability. Future work will explore learning edge weights for improved decision-making, dynamic graph expansion for lifelong learning, and extending the framework to high-dimensional observation tasks, such as those involving visual inputs.