DOI: https://doi.org/10.1109/tnsm.2025.3525554
تاريخ النشر: 2025-01-03
المؤلف: Ehsan Nowroozi وآخرون
الموضوع الرئيسي: الصلابة ضد الهجمات في تعلم الآلة
نظرة عامة
يوفر هذا القسم نظرة عامة على نقاط الضعف في أنظمة التعلم الفيدرالي (FL) تجاه هجمات تسميم البيانات، مع التركيز بشكل خاص على قلب العلامات (LF)، وتسميم الميزات (FP)، وهجمات VagueGAN. تم اختبار هذه الهجمات على نماذج FL باستخدام مجموعات بيانات CIC و UNSW، حيث تضمنت LF تعديل عشوائي لعلامات البيانات الحميدة، و FP استهداف الميزات المؤثرة التي حددها Random Forest، و VagueGAN توليد أمثلة عدائية من خلال الشبكات التنافسية التوليدية. قامت الدراسة بتغيير مدى تعديلات مجموعة البيانات من قبل المعتدين لتقييم تأثيرها على أداء العميل والخادم.
أشارت النتائج التجريبية إلى أن هجمات LF و VagueGAN لم تؤثر بشكل كبير على دقة الخادم، حيث كانت قابلة للاكتشاف بسهولة. على العكس من ذلك، أدت هجمات FP إلى تدهور أداء النموذج بشكل خفي مع الحفاظ على دقة عالية ومعدلات نجاح، مما يكشف عن نقطة ضعف حاسمة في أنظمة FL. لمعالجة هذه التهديدات، استكشفت الدراسة آلية الدفاع Random Deep Feature Selection (RDFS)، التي تقلل بشكل فعال من تأثير هجمات FP من خلال عشوائية ميزات الخادم أثناء التدريب. تؤكد النتائج على الحاجة إلى استراتيجيات دفاع شاملة لتعزيز قوة نماذج FL ضد مجموعة واسعة من الهجمات المتطورة، بما في ذلك الأبواب الخلفية وتقنيات التهرب.
طرق
في هذه الدراسة، استخدم المؤلفون مجموعات بيانات CIC و UNSW، التي توفر مجموعة شاملة من أنواع حركة المرور الشبكية وسيناريوهات الهجوم، لتقييم هجمات تسميم البيانات على التعلم الفيدرالي (FL). على عكس مجموعات البيانات الأبسط مثل NSL-KDD و DARPA 1998، تشمل مجموعات بيانات CIC و UNSW مجموعة متنوعة من الميزات وأنواع الهجمات التي تعكس الظروف الواقعية. تضمنت الإعدادات التجريبية تدريب عدة نماذج تعلم عميق (DL) على هذه المجموعات، مع التركيز بشكل خاص على سيناريو حيث تم تطبيق هجمات تسميم البيانات (LF، FP، و VagueGAN) على عميل واحد (Client1)، بينما تدرب العملاء الآخرون (Client2 إلى Client10) على مجموعة البيانات الأصلية غير المعدلة.
شملت المنهجية تقسيم مجموعة البيانات إلى مجموعات تدريب (80%)، والتحقق، والاختبار، مع إجمالي 838,861 عينة للتدريب. نفذ المؤلفون سيناريو هجوم صندوق أبيض، حيث كان لدى المهاجم معرفة كاملة ببيانات التدريب والنموذج. تم تطوير الشبكة العصبية باستخدام PyTorch، مع إجراء التدريب على مدى 20 حقبة باستخدام مُحسّن Stochastic Gradient Descent (SGD). تم تعيين حجم الدفعة إلى 1000، وتم استخدام خوارزمية Federated Averaging (FedAvg) لتسهيل تدريب النموذج التعاوني بين العملاء العشرة مع الحفاظ على خصوصية البيانات. من المتوقع أن تسهم نتائج الدراسة في فهم أفضل لنقاط الضعف في أنظمة FL تحت ظروف عدائية متنوعة.
نتائج
في قسم النتائج، تقيم الدراسة تأثير مختلف هجمات تسميم البيانات—قلب العلامات (LF)، وتسميم الميزات (FP)، و VagueGAN—على نماذج التعلم الفيدرالي (FL) باستخدام مجموعات بيانات CIC و UNSW. أظهرت هجمة LF أنه حتى نسبة صغيرة من البيانات المعدلة (1-2%) تقلل بشكل كبير من دقة الخادم (إلى 0.0428) بينما تزيد من معدل نجاح الهجوم (ASR) (حتى 0.9564)، مما يشير إلى أن مثل هذه الهجمات قابلة للاكتشاف بسهولة. ومع ذلك، مع زيادة نسبة البيانات المسمومة إلى 3-4%، أظهر النموذج مقاومة، حيث تحسنت الدقة على الرغم من الهجوم، مما يشير إلى أن نموذج FL يمكنه تحمل هجمات LF ذات المستوى المنخفض. على العكس من ذلك، أدت النسب الأعلى (7-25%) إلى نتائج مختلطة، حيث تحسنت الدقة أحيانًا، مما يشير إلى أن هجمات LF قد لا تؤدي بشكل فعال إلى تدهور أداء النموذج دون اكتشاف.
في المقابل، أثبتت هجمات FP أنها أكثر خفاءً، حيث حافظت على دقة عالية (على سبيل المثال، 0.9642 عند 1% تسميم) و ASR (0.9628)، مما يظهر فعاليتها و stealth. حتى عند معدلات تسميم أعلى (20-25%)، ظل أداء النموذج قويًا، مما يبرز الحاجة إلى تعزيز الدفاعات ضد مثل هذه الهجمات الخفية. ومع ذلك، أظهرت هجمة VagueGAN نمطًا مميزًا، مما أدى إلى دقة أقل بكثير (0.1961 عند 1% تسميم) مع الحفاظ على ASR عالية (0.9752)، مما يجعل من السهل تحديدها بسبب تأثيرها على جميع الميزات. بشكل عام، تؤكد النتائج على فعالية واكتشاف أنواع الهجمات المختلفة، حيث تكون هجمات LF أكثر وضوحًا، وهجمات FP خفية، وهجمات VagueGAN مؤثرة ولكن قابلة للتحديد.
مناقشة
تحدد قسم المناقشة في ورقة البحث عدة مساهمات ونتائج رئيسية تتعلق بهجمات تسميم البيانات في نماذج التعلم الفيدرالي (FL)، مع التركيز بشكل خاص على قلب العلامات (LF)، وتسميم الميزات (FP)، وهجمات VagueGAN. تقدم الدراسة منهجية جديدة لهجوم FP باستخدام Random Forests لتحديد والتلاعب بالميزات الحاسمة التي تؤثر على قرارات المصنف، مما يعزز الفهم لكيفية تأثير هذه الهجمات على دقة نموذج FL. تكشف التجارب التي أجريت على مجموعات بيانات CIC و UNSW أن هجمات FP أكثر فعالية بشكل ملحوظ من هجمات LF و VagueGAN، حيث تؤدي حتى التعديلات الطفيفة على الميزات إلى تقليل كبير في الدقة. كما تسلط الدراسة الضوء على فعالية تقنية Random Deep Feature Selection (RDFS)، التي تعزز قوة النموذج ضد هجمات FP من خلال عشوائية اختيار الميزات أثناء التدريب، مما يحسن أمان الخادم.
علاوة على ذلك، تعترف الورقة بالقيود، مثل التركيز على أنواع هجمات محددة والحاجة إلى تعميم أوسع عبر مجموعات بيانات مختلفة وطرق هجوم. يتم اقتراح اتجاهات البحث المستقبلية، بما في ذلك استكشاف منهجيات هجوم أكثر تعقيدًا وتطوير استراتيجيات دفاع شاملة يمكن أن تعالج مجموعة أوسع من التهديدات. بشكل عام، تؤكد النتائج على نقاط الضعف في نماذج FL تجاه تسميم البيانات وإمكانية آليات الدفاع المبتكرة مثل RDFS للتخفيف من هذه المخاطر بشكل فعال.
DOI: https://doi.org/10.1109/tnsm.2025.3525554
Publication Date: 2025-01-03
Author(s): Ehsan Nowroozi et al.
Primary Topic: Adversarial Robustness in Machine Learning
Overview
The section provides an overview of the vulnerabilities of Federated Learning (FL) systems to data-poisoning attacks, specifically focusing on label flipping (LF), feature poisoning (FP), and VagueGAN attacks. These attacks were tested on FL models using the CIC and UNSW datasets, with LF involving the random modification of benign data labels, FP targeting influential features identified by Random Forest, and VagueGAN generating adversarial examples through Generative Adversarial Networks. The study varied the extent of dataset modifications by adversaries to assess their impact on both client and server performance.
The experimental results indicated that LF and VagueGAN attacks did not significantly compromise server accuracy, as they were easily detectable. Conversely, FP attacks subtly degraded model performance while maintaining high accuracy and success rates, revealing a critical vulnerability in FL systems. To address these threats, the study explored the Random Deep Feature Selection (RDFS) defense mechanism, which effectively minimizes the impact of FP attacks by randomizing server features during training. The findings underscore the need for comprehensive defense strategies to enhance the robustness of FL models against a wider array of sophisticated attacks, including backdoors and evasion techniques.
Methods
In this study, the authors utilized the CIC and UNSW datasets, which provide a comprehensive range of network traffic types and attack scenarios, to evaluate data-poisoning attacks on federated learning (FL). Unlike simpler datasets such as NSL-KDD and DARPA 1998, the CIC and UNSW datasets encompass a variety of features and attack types that reflect real-world conditions. The experimental setup involved training several deep learning (DL) models on these datasets, specifically focusing on a scenario where data-poisoning attacks (LF, FP, and VagueGAN) were applied to a single client (Client1), while the other clients (Client2 to Client10) trained on the original, unmanipulated dataset.
The methodology included partitioning the dataset into training (80%), validation, and test sets, with a total of 838,861 samples for training. The authors implemented a white-box attack scenario, where the attacker had complete knowledge of the training data and model. The neural network was developed using PyTorch, with training conducted over 20 epochs using the Stochastic Gradient Descent (SGD) optimizer. The batch size was set to 1000, and the Federated Averaging (FedAvg) algorithm was employed to facilitate collaborative model training among the ten clients while maintaining data privacy. The study’s findings are expected to contribute to a better understanding of the vulnerabilities in FL systems under various adversarial conditions.
Results
In the results section, the study evaluates the impact of various data poisoning attacks—Label Flipping (LF), Feature Poisoning (FP), and VagueGAN—on Federated Learning (FL) models using the CIC and UNSW datasets. The LF attack demonstrated that even a small percentage of tampered data (1-2%) significantly reduced server accuracy (to as low as 0.0428) while increasing the Attack Success Rate (ASR) (up to 0.9564), indicating that such attacks are easily detectable. However, as the percentage of poisoned data increased to 3-4%, the model showed resilience, with accuracy improving despite the attack, suggesting that the FL model can withstand low-level LF attacks. Conversely, higher percentages (7-25%) resulted in mixed outcomes, where accuracy sometimes improved, indicating that LF attacks may not effectively degrade model performance without detection.
In contrast, FP attacks proved more insidious, maintaining high accuracy (e.g., 0.9642 at 1% poisoning) and ASR (0.9628), thus demonstrating their effectiveness and stealth. Even at higher poisoning rates (20-25%), the model’s performance remained robust, highlighting the need for enhanced defenses against such subtle attacks. The VagueGAN attack, however, exhibited a distinct pattern, leading to significantly lower accuracy (0.1961 at 1% poisoning) while maintaining high ASR (0.9752), making it easier to identify due to its impact on all features. Overall, the findings underscore the varying effectiveness and detectability of different attack types, with LF attacks being more apparent, FP attacks being stealthy, and VagueGAN attacks being impactful yet identifiable.
Discussion
The discussion section of the research paper outlines several key contributions and findings regarding data-poisoning attacks in federated learning (FL) models, particularly focusing on Label Flipping (LF), Feature Poisoning (FP), and VagueGAN attacks. The study introduces a novel FP attack methodology utilizing Random Forests to identify and manipulate critical features that influence classifier decisions, thereby enhancing the understanding of how these attacks compromise FL model accuracy. The experiments conducted on the CIC and UNSW datasets reveal that FP attacks are significantly more effective than LF and VagueGAN attacks, with even minor feature modifications leading to substantial accuracy reductions. The study also highlights the effectiveness of the Random Deep Feature Selection (RDFS) technique, which enhances model robustness against FP attacks by randomizing feature selection during training, thereby improving server security.
Furthermore, the paper acknowledges limitations, such as the focus on specific attack types and the need for broader generalizability across different datasets and attack vectors. Future research directions are suggested, including the exploration of more complex attack methodologies and the development of comprehensive defense strategies that can address a wider range of threats. Overall, the findings underscore the vulnerabilities of FL models to data poisoning and the potential of innovative defense mechanisms like RDFS to mitigate these risks effectively.
