DOI: https://doi.org/10.1109/tnsm.2026.3652304
تاريخ النشر: 2026-01-01
المؤلف: P. D. W. Moens وآخرون
الموضوع الرئيسي: أداء وموثوقية أنظمة البرمجيات
نظرة عامة
تقدم الورقة نهجًا قائمًا على الرسم البياني الديناميكي للمعرفة (KG) لاكتشاف الشذوذ (AD) في سياق الذكاء الاصطناعي لعمليات تكنولوجيا المعلومات (AIOps) مصمم خصيصًا للخدمات الصغيرة. تؤكد على ضرورة الوعي السياقي في أنظمة المراقبة، منتقدة الحلول الحالية التي تعالج طوبولوجيا النظام على أنها ثابتة. يجادل المؤلفون بأن معالجة تعقيدات تطبيقات الخدمات الصغيرة الديناميكية أمر أساسي لنشرها الفعال في القطاعات الحيوية مثل التجارة الإلكترونية والرعاية الصحية.
بالإضافة إلى الحل المقترح لاكتشاف الشذوذ الديناميكي، توضح الورقة بنية شاملة تتضمن أدوات مفتوحة المصدر للمراقبة، وهندسة الفوضى، وجمع البيانات. تم تصميم هذه البنية لتكون غير متطفلة وسهلة التكامل ضمن بيئات Kubernetes. يُلاحظ أن مجموعة البيانات التي تم إنشاؤها خلال البحث لديها القدرة على أن تكون معيارًا للدراسات المستقبلية حول اكتشاف الشذوذ في الخدمات الصغيرة وقد تساهم أيضًا في أبحاث الرسم البياني الديناميكي خارج نطاق مراقبة الخدمات الصغيرة. علاوة على ذلك، تسهل البنية توسيع هذه المجموعة من البيانات، سواء من حيث الحجم أو تنوع أنواع الأخطاء المضمنة.
مقدمة
في العصر الرقمي، تعتمد الشركات عبر مختلف القطاعات، بما في ذلك التجارة الإلكترونية والرعاية الصحية، بشكل متزايد على أنظمة البرمجيات لتوفير تجارب مستخدم فعالة. لتعزيز القابلية للتوسع والصيانة، انتقلت العديد من المنظمات من الهياكل التقليدية الأحادية إلى هياكل الخدمات الصغيرة (MSA)، حيث يتم تقسيم التطبيقات إلى خدمات صغيرة، محددة المهام، تتواصل عبر واجهات برمجة التطبيقات (APIs). يسمح هذا النهج المعياري بالتوسع المستقل وتحديث الخدمات، وهو مفيد بشكل خاص خلال أوقات الاستخدام القصوى. ومع ذلك، فإن تعقيد مراقبة وصيانة هذه المكونات المترابطة يمثل تحديات كبيرة، حيث يمكن أن تنتشر الأخطاء في خدمة صغيرة واحدة وتؤثر على النظام بأكمله، مما يؤدي إلى عدم كفاءة تشغيلية واحتمالية انقطاع الخدمة.
لمعالجة هذه التحديات، تؤكد الورقة على الحاجة إلى حلول مراقبة متقدمة تتجاوز أنظمة التنبيه التقليدية المعتمدة على العتبات. تدعو إلى استخدام الذكاء الاصطناعي لعمليات تكنولوجيا المعلومات (AIOps) وتقنيات التعلم الآلي (ML)، مثل اكتشاف الشذوذ (AD) وتحليل السبب الجذري (RCA)، لأتمتة توقع الأخطاء واكتشافها. يحدد المؤلفون المتطلبات الأساسية لحل AD فعال، بما في ذلك القدرة على مراقبة كل من طبقات التطبيق والبنية التحتية، وعدم التطفل، والقدرة على التكيف مع الظروف الديناميكية، وقدرات اكتشاف الأخطاء في الوقت الحقيقي. تقدم الورقة مساهمتين رئيسيتين: مجموعة بيانات معيارية تلتقط الطبيعة متعددة الطبقات لبيئات الخدمات الصغيرة ونهج جديد لاكتشاف الشذوذ يستخدم الرسوم البيانية المعرفية غير المتجانسة لنمذجة ديناميات النظام. تهدف هذه المساهمات إلى تعزيز موثوقية وكفاءة التطبيقات القائمة على الخدمات الصغيرة في السيناريوهات الواقعية.
نقاش
يتناول قسم النقاش في الورقة تحديات اكتشاف الشذوذ في هياكل الخدمات الصغيرة، مؤكدًا على قيود المنهجيات الحالية التي تفترض طوبولوجيا تطبيق ثابتة. يقترح المؤلفون نهج اكتشاف الشذوذ الواعي بالسياق باستخدام الرسوم البيانية الديناميكية للمعرفة (KGs) لالتقاط الحالة المتطورة للخدمات الصغيرة واعتمادها. يدمج هذا المنهج مراقبة الموارد والشبكات، مما يسمح بفهم أكثر دقة لسلوك النظام وتحسين اكتشاف الشذوذ الذي قد يكون طبيعيًا سياقيًا تحت ظروف تشغيل مختلفة.
تقدم الورقة أيضًا إطارًا معياريًا مفتوح المصدر مصممًا لاكتشاف الشذوذ الواعي بالسياق، والذي يتضمن ميزات مثل المراقبة، حقن الأخطاء، وجمع البيانات. تظهر نتائج التقييم أن المنهجية المقترحة تتفوق باستمرار على الأسس غير السياقية، مما يبرز أهمية الوعي السياقي في تعزيز قوة اكتشاف الشذوذ في الأنظمة المعقدة المدفوعة بالطوبولوجيا. علاوة على ذلك، يؤسس الإطار المعياري أساسًا قابلًا للتكرار والتوسع للبحوث المستقبلية، مما يسهل التجريب مع مجموعة واسعة من النماذج ويدفع مجال اكتشاف الشذوذ الواعي بالسياق في الخدمات الصغيرة إلى الأمام.
DOI: https://doi.org/10.1109/tnsm.2026.3652304
Publication Date: 2026-01-01
Author(s): P. D. W. Moens et al.
Primary Topic: Software System Performance and Reliability
Overview
The paper presents a dynamic knowledge graph (KG)-based approach to anomaly detection (AD) in the context of artificial intelligence for IT operations (AIOps) specifically tailored for microservices. It emphasizes the necessity of contextual awareness in monitoring systems, critiquing existing solutions that treat system topology as static. The authors argue that addressing the complexities of dynamic microservice applications is essential for their effective deployment in critical sectors such as e-commerce and healthcare.
In addition to the proposed dynamic AD solution, the paper outlines a comprehensive architecture that incorporates open-source tools for monitoring, chaos engineering, and data collection. This architecture is designed to be non-intrusive and easily integrable within Kubernetes environments. The dataset generated during the research is noted for its potential to serve as a benchmark for future studies on anomaly detection in microservices and could also contribute to dynamic graph research beyond the scope of microservice monitoring. Furthermore, the architecture facilitates the expansion of this dataset, both in terms of volume and the variety of fault types included.
Introduction
In the digital era, businesses across various sectors, including e-commerce and healthcare, increasingly depend on software systems to provide efficient user experiences. To enhance scalability and maintenance, many organizations have shifted from traditional monolithic architectures to Microservice Architectures (MSA), where applications are divided into smaller, task-specific microservices that communicate via APIs. This modular approach allows for independent scaling and updating of services, which is particularly beneficial during peak usage times. However, the complexity of monitoring and maintaining these interconnected components poses significant challenges, as faults in one microservice can propagate and affect the entire system, leading to operational inefficiencies and potential service disruptions.
To address these challenges, the paper emphasizes the need for advanced monitoring solutions that move beyond traditional threshold-based alerting systems. It advocates for the use of Artificial Intelligence for IT Operations (AIOps) and Machine Learning (ML) techniques, such as Anomaly Detection (AD) and Root Cause Analysis (RCA), to automate fault prediction and detection. The authors identify key requirements for an effective AD solution, including the ability to monitor both application and infrastructure layers, non-invasiveness, adaptability to dynamic conditions, and real-time fault detection capabilities. The paper presents two main contributions: a benchmark dataset that captures the multi-layered nature of microservice environments and a novel anomaly detection approach utilizing heterogeneous knowledge graphs to model system dynamics. These contributions aim to enhance the reliability and efficiency of microservice-based applications in real-world scenarios.
Discussion
The discussion section of the paper addresses the challenges of anomaly detection in microservice architectures, emphasizing the limitations of existing methodologies that assume a static application topology. The authors propose a context-aware anomaly detection approach utilizing dynamic knowledge graphs (KGs) to capture the evolving state of microservices and their dependencies. This methodology integrates resource and network monitoring, allowing for a more nuanced understanding of system behavior and improved detection of anomalies that may be contextually normal under different operational conditions.
The paper also introduces an open-source benchmark framework designed for context-aware anomaly detection, which includes features such as monitoring, fault injection, and data collection. Evaluation results demonstrate that the proposed methodology consistently outperforms non-contextual baselines, highlighting the significance of contextual awareness in enhancing the robustness of anomaly detection in complex, topology-driven systems. Furthermore, the benchmark framework establishes a reproducible and extensible foundation for future research, facilitating experimentation with a wider range of models and advancing the field of context-aware anomaly detection in microservices.
