التعلم العميق المعزز وقرارات تحميل المهام المدفوعة بـ SQP في شبكات الحوسبة الحافة للمركبات
Deep Reinforcement Learning and SQP-driven task offloading decisions in vehicular edge computing networks

المجلة: Computer Networks، المجلد: 262
DOI: https://doi.org/10.1016/j.comnet.2025.111180
تاريخ النشر: 2025-03-11
المؤلف: Ehzaz Mustafa وآخرون
الموضوع الرئيسي: إنترنت الأشياء والحوسبة الحافة/الضباب

نظرة عامة

تقدم البحث نهجًا جديدًا لتحميل الحسابات المثلى وتخصيص الموارد في الحوسبة الحافة للمركبات من خلال بنية ثلاثية الطبقات وخوارزمية من مستويين تُسمى برمجة تربيعية متسلسلة تعتمد على الشبكات العصبية المزدوجة العميقة (SQ-DDTO). تم تأطير المشكلة كتحدي برمجة غير خطية مختلطة للأعداد الصحيحة، والتي يتم التعامل معها من خلال فصل قرار تحميل الحسابات عن تخصيص الموارد. يتم استخدام إطار عمل DDQN المزدوج لتعزيز اتخاذ القرار من خلال تقييم قيم الحالة ومزايا الإجراءات بشكل منفصل، مما يؤدي إلى تحسين التحكم في مهام الحساب. بالإضافة إلى ذلك، يتم استخدام إعادة تشغيل التجارب ذات الأولوية (PER) لتعزيز كفاءة العينة، مما يسمح للخوارزمية بالتكيف بسرعة مع الظروف الديناميكية.

تشير النتائج التجريبية إلى أن خوارزمية SQ-DDTO تتفوق بشكل كبير على الطرق الحالية، بما في ذلك DQN وDDQN وDDPG، حيث تحقق انخفاضًا بنسبة 25.1% في تكلفة النظام وانخفاضًا بنسبة 37.06% في معدل فقدان المهام. تستنتج الدراسة أن الخوارزمية المقترحة تقلل بشكل فعال من متوسط التأخير واستهلاك الطاقة وفقدان المهام، مما يوضح إمكانياتها للتطبيقات في الوقت الحقيقي في الشبكات المركبات. ستستكشف الأعمال المستقبلية تطبيق خوارزميات تعتمد على التعلم المعزز العميق في سيناريوهات حركة المرور الحضرية باستخدام أدوات محاكاة متقدمة مثل محاكاة التنقل الحضري (SUMO).

مقدمة

تناقش مقدمة الورقة دمج الحوسبة الحافة المحمولة (MEC) وإنترنت المركبات (IoV) لتشكيل الحوسبة الحافة للمركبات (VEC)، والتي تهدف إلى تعزيز أداء المركبات الذاتية القيادة من خلال وضع الموارد الحاسوبية بالقرب من حافة الشبكة. يسهل هذا الدمج معالجة أسرع وتقليل زمن الانتظار لمجموعة متنوعة من التطبيقات، بما في ذلك إدارة حركة المرور وتجنب التصادم، من خلال تمكين المركبات من التواصل مع بعضها البعض ومع البنية التحتية على جانب الطريق. ومع ذلك، فإن الطبيعة الديناميكية لـ IoV تقدم تحديات في تحميل الحسابات وتخصيص الموارد، لا سيما بسبب الحركة العالية وظروف القناة المتغيرة، مما يمكن أن يؤدي إلى فقدان المهام وانقطاع الاتصالات.

لمعالجة هذه التحديات، يقترح المؤلفون خوارزمية جديدة من مستويين، برمجة تربيعية متسلسلة تعتمد على الشبكات العصبية المزدوجة العميقة (SQ-DDTO)، والتي تعمل على تحسين قرارات التحميل وتخصيص الموارد في الشبكات المركبات الديناميكية. تتضمن الخوارزمية بنية ثلاثية الطبقات تقوم بنمذجة المركبات ووحدات جانب الطريق (RSUs) وخادم الحافة، مما يسمح باتخاذ قرارات في الوقت الحقيقي بناءً على عوامل مثل سرعة المركبة والموقع وجودة القناة. يتم تسليط الضوء على استخدام البرمجة التربيعية المتسلسلة (SQP) لفعاليتها في التعامل مع عدم التحدب والقيود المعقدة المرتبطة بتحميل المهام الديناميكية. يتم مقارنة خوارزمية SQ-DDTO المقترحة مع الأنظمة الحالية المعتمدة على القواعد وأنظمة التعلم المعزز العميق، مما يظهر أداءً متفوقًا من حيث التأخير وكفاءة الطاقة ومعدل فقدان المهام.

النتائج

في هذا القسم، يقدم المؤلفون نتائج خوارزميتهم المقترحة، التي تم تنفيذها بلغة بايثون، والتي تحاكي SQ-DDTO (من المحتمل أن تكون نموذج تحسين حركة المرور) ضمن بيئة مصممة خصيصًا. تتضمن المحاكاة نمذجة المركبات بسرعات ومواقع متغيرة على طول مسار مستقيم، مما يعيد تمثيل سيناريوهات حركة المرور في العالم الحقيقي بشكل فعال.

من المتوقع أن توفر النتائج من هذه التجارب رؤى حول أداء الخوارزمية وقابليتها للتطبيق في سياقات إدارة حركة المرور، على الرغم من عدم تفصيل نتائج كمية محددة وتقييمات في هذا المقتطف. يسمح استخدام بيئة محاكاة خاضعة للرقابة بتحليل منهجي لفعالية الخوارزمية تحت ظروف حركة مرور مختلفة.

المناقشة

تناقش ورقة البحث بنية نظام ثلاثية الطبقات مصممة للحوسبة الحافة للمركبات، وتتكون من المركبات ووحدات جانب الطريق (RSUs) وخوادم الحافة. تتواصل المركبات المجهزة بوحدات على متنها (OBUs) مع RSUs، التي تم وضعها استراتيجيًا على طول طريق مقسم إلى مناطق. تخدم كل RSU منطقة معينة دون تداخل في التغطية، مما يسمح للمركبات باتخاذ قرارات تحميل ثنائية بناءً على عوامل مختلفة مثل الحمل الحاسوبي ومستويات الطاقة. تصيغ الورقة نموذج حساب حيث يجب على المركبات إكمال المهام ضمن منطقة RSU الخاصة بها، مع تأثير قرارات التحميل على زمن الانتظار واستهلاك الطاقة ومعدلات فقدان المهام. يستخدم نموذج الاتصال الوصول المتعدد بتقسيم الترددات المتعامدة (OFDMA) لتسهيل نقل البيانات بكفاءة بين المركبات وRSUs، بينما يتم تحليل استهلاك الطاقة وتكاليف المعالجة لكل من تنفيذ المهام المحلية والبعيدة.

تم تأطير المشكلة كتحدي برمجة غير خطية مختلطة للأعداد الصحيحة (MINLP)، بهدف تحسين تحميل المهام وتخصيص الموارد لتقليل التكاليف الإجمالية المرتبطة بالطاقة وزمن الانتظار وفقدان المهام. تستخدم الحل المقترح برمجة تربيعية متسلسلة تعتمد على الشبكة العصبية العميقة المزدوجة (SQ-DDQN) لاشتقاق استراتيجيات تحميل مثلى. يفصل هذا النهج تخصيص الموارد عن قرارات التحميل، مما يمكّن من إدارة فعالة للموارد الحاسوبية في بيئة المركبات الديناميكية. تتضمن الخوارزمية بنية مزدوجة لتقدير قيمة Q، مما يعزز عملية التعلم من خلال تقييم قيم الحالة ومزايا الإجراءات بشكل مستقل. بشكل عام، تقدم الدراسة إطارًا شاملاً لتحسين تحميل المهام في الشبكات المركبات، مع معالجة التحديات الحرجة في كفاءة الطاقة وإدارة الموارد الحاسوبية.

Journal: Computer Networks, Volume: 262
DOI: https://doi.org/10.1016/j.comnet.2025.111180
Publication Date: 2025-03-11
Author(s): Ehzaz Mustafa et al.
Primary Topic: IoT and Edge/Fog Computing

Overview

The research introduces a novel approach to optimal computation offloading and resource allocation in Vehicular Edge Computing through a three-layered architecture and a two-level algorithm termed Sequential Quadratic Programming-based Dueling Double Deep Q Networks (SQ-DDTO). The problem is framed as a mixed integer nonlinear programming challenge, which is addressed by decoupling the computation offloading decision from resource allocation. The Dueling DDQN framework is employed to enhance decision-making by separately evaluating state values and action advantages, leading to improved control over computation tasks. Additionally, Prioritized Experience Replay (PER) is utilized to enhance sample efficiency, allowing the algorithm to adapt swiftly to dynamic conditions.

Experimental results indicate that the SQ-DDTO algorithm significantly outperforms existing methods, including DQN, DDQN, and DDPG, achieving a 25.1% reduction in system cost and a 37.06% decrease in task loss rate. The study concludes that the proposed algorithm effectively minimizes average delay, energy consumption, and task loss, demonstrating its potential for real-time applications in vehicular networks. Future work will explore the application of DRL-based algorithms in urban traffic scenarios using advanced simulation tools like Simulation of Urban Mobility (SUMO).

Introduction

The introduction of the paper discusses the integration of Mobile Edge Computing (MEC) and the Internet of Vehicles (IoV) to form Vehicular Edge Computing (VEC), which aims to enhance the performance of autonomous vehicles by positioning computational resources closer to the network edge. This integration facilitates faster processing and reduced latency for various applications, including traffic management and collision avoidance, by enabling vehicles to communicate with each other and with roadside infrastructure. However, the dynamic nature of IoV presents challenges in computation offloading and resource allocation, particularly due to high mobility and varying channel conditions, which can lead to task loss and communication disruptions.

To address these challenges, the authors propose a novel two-level algorithm, Sequential Quadratic Programming-based Dueling Double Deep Q Networks (SQ-DDTO), which optimizes offloading decisions and resource allocations in dynamic vehicular networks. The algorithm incorporates a three-layered architecture that models vehicles, Road Side Units (RSUs), and an edge server, allowing for real-time decision-making based on factors such as vehicle speed, location, and channel quality. The use of Sequential Quadratic Programming (SQP) is highlighted for its effectiveness in handling non-convexity and complex constraints associated with dynamic task offloading. The proposed SQ-DDTO algorithm is compared with existing rule-based and DRL-based schemes, demonstrating superior performance in terms of delay, energy efficiency, and task loss rate.

Results

In this section, the authors present the results of their proposed algorithm, implemented in Python, which simulates the SQ-DDTO (presumably a traffic optimization model) within a custom-built environment. The simulation involves modeling vehicles with varying speeds and locations along a straight path, effectively replicating real-world traffic scenarios.

The findings from these experiments are expected to provide insights into the algorithm’s performance and its applicability in traffic management contexts, although specific quantitative results and evaluations are not detailed in this excerpt. The use of a controlled simulation environment allows for a systematic analysis of the algorithm’s effectiveness under different traffic conditions.

Discussion

The research paper discusses a three-layered system architecture designed for vehicular edge computing, comprising vehicles, Roadside Units (RSUs), and edge servers. Vehicles equipped with On-Board Units (OBUs) communicate with RSUs, which are strategically placed along a road divided into zones. Each RSU serves a specific zone without overlapping coverage, allowing vehicles to make binary offloading decisions based on various factors like computational load and energy levels. The paper formulates a computation model where vehicles must complete tasks within their RSU zone, with offloading decisions impacting latency, energy consumption, and task loss rates. The communication model employs Orthogonal Frequency Division Multiple Access (OFDMA) to facilitate efficient data transmission between vehicles and RSUs, while the energy consumption and processing costs are analyzed for both local and remote task execution.

The problem is framed as a mixed integer non-linear programming (MINLP) challenge, aiming to optimize task offloading and resource allocation to minimize total costs associated with energy, latency, and task loss. The proposed solution utilizes a Sequential Quadratic Programming-based Dueling Deep Q-Network (SQ-DDQN) to derive optimal offloading strategies. This approach decouples the resource allocation from offloading decisions, enabling effective management of computational resources in a dynamic vehicular environment. The algorithm incorporates a dual-stream architecture for Q-value estimation, enhancing the learning process by independently evaluating state values and action advantages. Overall, the study presents a comprehensive framework for optimizing task offloading in vehicular networks, addressing critical challenges in energy efficiency and computational resource management.