DOI: https://doi.org/10.1038/s41598-025-94936-9
PMID: https://pubmed.ncbi.nlm.nih.gov/40169663
تاريخ النشر: 2025-04-01
المؤلف: Yuan Liu وآخرون
الموضوع الرئيسي: تطبيقات الشبكات العصبية المتقدمة
نظرة عامة
تقدم هذه الورقة SLF-YOLO، نموذج كشف كائنات خفيف الوزن مصمم للكشف الدقيق والفعال عن عيوب سطح المعدن في البيئات ذات الموارد المحدودة. تشمل الابتكارات الرئيسية وحدة SC_C2f، التي تستخدم آلية بوابة القناة لتعزيز تمثيل الميزات وتنظيم تدفق المعلومات، وهيكل Light-SSF_Neck، الذي يحسن دمج الميزات متعددة المقاييس واستخراج الميزات الشكلية. يعزز إدخال دالة خسارة FIMetal-IoU الأداء العام، خاصة بالنسبة للعيوب الدقيقة والأهداف الصغيرة. تظهر النتائج التجريبية أن SLF-YOLO يحقق متوسط دقة (mAP) يبلغ 80.0% على مجموعة بيانات NEU-DET و86.8% على مجموعة بيانات AL10-DET، متجاوزًا أداء YOLOv8 ويظهر توازنًا قويًا بين دقة الكشف وكفاءة الحوسبة.
في الختام، يعالج SLF-YOLO بفعالية الحاجة الصناعية للكشف عن العيوب بدقة عالية مع الحفاظ على هيكل خفيف الوزن. تؤدي تحسيناته في دمج الميزات متعددة المقاييس وانحدار الصناديق المحيطة إلى تحسينات كبيرة في دقة الكشف، خاصة بالنسبة للأشياء الصغيرة. على الرغم من أدائه القوي، يواجه النموذج تحديات تتعلق بجودة بيانات التدريب، وعدم توازن الفئات، وكشف الأهداف الصغيرة جدًا في خلفيات معقدة. ستركز الأبحاث المستقبلية على تحسين هيكل SLF-YOLO واستكشاف قابليته للتطبيق في سيناريوهات العالم الحقيقي المتنوعة، مع التركيز على تحسين المتانة والكفاءة من خلال تقنيات متقدمة مثل زيادة البيانات، وآليات الانتباه، وضغط النموذج. بشكل عام، يقدم SLF-YOLO حلاً واعدًا للكشف عن العيوب الصناعية، مع تطبيقات محتملة في القيادة الذاتية، والمراقبة بالفيديو، والتفتيش الصناعي.
الطرق
في هذه الدراسة، تم استخدام مجموعتين من البيانات لتدريب وتقييم النماذج لكشف عيوب السطح: مجموعة بيانات NEU-DET ومجموعة بيانات AL10-DET. تتكون مجموعة بيانات NEU-DET، التي تضم 1,800 صورة رمادية عبر ستة أنواع من العيوب (التشقق، البقع، الشوائب، السطح المثقوب، القشور المدحرجة، والخدوش)، منقسمة إلى مجموعات تدريب، والتحقق، والاختبار بنسبة 8:1:1. تحتوي مجموعة بيانات AL10-DET، المصممة لعيوب سطح الألمنيوم، على أكثر من 10,000 صورة عالية الدقة تصور عشرة أنواع من العيوب. بالنسبة للتجارب، تم وضع علامات على حوالي 3,700 صورة من هذه المجموعة وزيادتها باستخدام تقنيات مثل الدوران العشوائي، والتكبير، والقص، ومحاكاة الطقس، وإضافة الضوضاء، مما أدى إلى مجموعة بيانات موسعة من حوالي 4,650 صورة، تم تقسيمها أيضًا بنسبة 8:1:1.
تم إجراء التجارب باستخدام إطار عمل PyTorch 2.2.2، مستفيدًا من وحدة معالجة الرسوميات NVIDIA RTX 3090 مع CUDA 11.8 وcuDNN 7.0 لتعزيز كفاءة التدريب. كانت بيئة التطوير مبنية على Python 3.10.14، مع إدارة التبعيات عبر pip. لتحسين أداء النموذج، خاصة بالنسبة للأشياء الصغيرة، تم تعديل أحجام المدخلات بشكل تكيفي إلى 640 × 640 بكسل. تلخص المنهجيات والتفاصيل التجريبية في الجدول 1، مما يبرز النهج المنهجي المتبع لتحسين متانة النموذج وقدرات الكشف في سيناريوهات صناعية حقيقية.
المناقشة
تسلط قسم المناقشة في ورقة البحث الضوء على أهمية الشبكات متعددة المقاييس، وتقنيات الالتفاف الخفيفة، ودوال خسارة IoU المتقدمة في تعزيز أداء كشف الكائنات، خاصة في البيئات ذات الموارد المحدودة. تدمج الشبكات متعددة المقاييس، مثل شبكات هرم الميزات (FPN) وشبكات هرم الميزات ثنائية الاتجاه (BiFPN)، الميزات عبر مقاييس مختلفة بفعالية، مما يسمح للنماذج بالتقاط المعلومات العالمية والمحلية. تعمل الابتكارات مثل شبكة ScaleSeq على تحسين قدرات الكشف، خاصة بالنسبة للأشياء الصغيرة، من خلال استخدام الالتفافات ثلاثية الأبعاد واستراتيجيات تكيفية للتخفيف من مشاكل مثل تلاشي التدرج.
تهدف تقنيات الالتفاف الخفيفة، بما في ذلك الالتفافات القابلة للفصل (DSC) والالتفافات الجماعية، إلى تقليل التعقيد الحسابي مع الحفاظ على تمثيل الميزات. هذه الطرق ضرورية لنشر نماذج التعلم العميق على الأجهزة المحمولة وفي التطبيقات الزمنية الحقيقية. تناقش الورقة أيضًا مجموعة متنوعة من دوال خسارة IoU، مثل IoU المعمم (GIoU) وIoU الكامل (CIoU)، التي تعزز دقة انحدار الصناديق المحيطة من خلال توفير إشارات تعلم فعالة حتى عندما لا يوجد تداخل بين الصناديق المتوقعة وصناديق الحقيقة الأرضية. تعالج دالة خسارة FIMetal-IoU المقترحة بشكل خاص التحديات في كشف عيوب سطح المعدن، مما يحسن متانة النموذج ودقته في السيناريوهات المعقدة. بشكل عام، تؤكد هذه التقدمات على الدور الحاسم للهياكل المبتكرة ودوال الخسارة في تطوير أنظمة كشف الكائنات الفعالة والفعالة.
DOI: https://doi.org/10.1038/s41598-025-94936-9
PMID: https://pubmed.ncbi.nlm.nih.gov/40169663
Publication Date: 2025-04-01
Author(s): Yuan Liu et al.
Primary Topic: Advanced Neural Network Applications
Overview
This paper presents SLF-YOLO, a lightweight object detection model tailored for precise and efficient detection of metal surface defects in resource-constrained environments. Key innovations include the SC_C2f module, which employs a channel gating mechanism to enhance feature representation and regulate information flow, and the Light-SSF_Neck structure, which improves multi-scale feature fusion and morphological feature extraction. The introduction of the FIMetal-IoU loss function further enhances generalization performance, particularly for fine-grained and small-target defects. Experimental results show that SLF-YOLO achieves a mean Average Precision (mAP) of 80.0% on the NEU-DET dataset and 86.8% on the AL10-DET dataset, surpassing the performance of YOLOv8 and demonstrating a strong balance between detection accuracy and computational efficiency.
In conclusion, SLF-YOLO effectively addresses the industrial need for high-precision defect detection while maintaining a lightweight architecture. Its enhancements in multi-scale feature fusion and bounding box regression lead to significant improvements in detection accuracy, particularly for small objects. Despite its strong performance, the model faces challenges related to the quality of training data, class imbalance, and detection of extremely small targets in complex backgrounds. Future research will focus on optimizing SLF-YOLO’s architecture and exploring its applicability in diverse real-world scenarios, with an emphasis on improving robustness and efficiency through advanced techniques such as data augmentation, attention mechanisms, and model compression. Overall, SLF-YOLO offers a promising solution for industrial defect detection, with potential applications in autonomous driving, video surveillance, and industrial inspection.
Methods
In this study, two datasets were utilized for training and evaluating models for surface defect detection: the NEU-DET dataset and the AL10-DET dataset. The NEU-DET dataset, consisting of 1,800 grayscale images across six defect types (Crazing, Patches, Inclusion, Pitted Surface, Rolled-in Scale, and Scratches), was divided into training, validation, and testing sets in an 8:1:1 ratio. The AL10-DET dataset, designed for aluminum surface defects, contains over 10,000 high-resolution images depicting ten defect types. For the experiments, approximately 3,700 images from this dataset were annotated and augmented using techniques such as random rotation, scaling, cropping, weather simulations, and noise addition, resulting in an expanded dataset of around 4,650 images, also split in an 8:1:1 ratio.
The experiments were conducted using the PyTorch 2.2.2 framework, leveraging an NVIDIA RTX 3090 GPU with CUDA 11.8 and cuDNN 7.0 to enhance training efficiency. The development environment was based on Python 3.10.14, with dependencies managed via pip. To optimize model performance, particularly for small objects, input sizes were adaptively adjusted to 640 × 640 pixels. The methodologies and experimental details are summarized in Table 1, highlighting the systematic approach taken to improve the model’s robustness and detection capabilities in real-world industrial scenarios.
Discussion
The discussion section of the research paper highlights the significance of multi-scale fusion networks, lightweight convolution techniques, and advanced IoU loss functions in enhancing object detection performance, particularly in resource-constrained environments. Multi-scale fusion networks, such as Feature Pyramid Networks (FPN) and Bi-directional Feature Pyramid Networks (BiFPN), effectively integrate features across different scales, allowing models to capture both global and local information. Innovations like the ScaleSeq Network further improve detection capabilities, especially for small objects, by employing 3D convolutions and adaptive strategies to mitigate issues like gradient vanishing.
Lightweight convolution techniques, including Depthwise Separable Convolutions (DSC) and Group Convolutions, aim to reduce computational complexity while maintaining feature representation. These methods are crucial for deploying deep learning models on mobile devices and in real-time applications. The paper also discusses various IoU loss functions, such as Generalized IoU (GIoU) and Complete IoU (CIoU), which enhance bounding box regression accuracy by providing effective learning signals even when there is no overlap between predicted and ground truth boxes. The proposed FIMetal-IoU loss function specifically addresses challenges in metal surface defect detection, improving model robustness and accuracy in complex scenarios. Overall, these advancements underscore the critical role of innovative architectures and loss functions in developing efficient and effective object detection systems.
