DOI: https://doi.org/10.1038/s41598-025-99634-0
PMID: https://pubmed.ncbi.nlm.nih.gov/40369214
تاريخ النشر: 2025-05-14
المؤلف: Chengcheng Wang وآخرون
الموضوع الرئيسي: تطبيقات الشبكات العصبية المتقدمة
نظرة عامة
تتناول هذه الورقة البحثية تحديات الكشف عن الأهداف الصغيرة في صور الطائرات بدون طيار، والتي تعيقها اختلافات الحجم الكبيرة ووجود العديد من الأجسام الصغيرة ذات التفاصيل المحدودة. لمواجهة هذه القضايا، يقترح المؤلفون كاشف أهداف صغيرة عن بُعد جديد يسمى CF-YOLO، مبني على نموذج YOLOv11. تشمل الابتكارات الرئيسية تقديم شبكة هرمية للميزات عبر المقاييس (CS-FPN) لتخفيف فقدان المعلومات من الهياكل التلافيفية الهرمية، وتطوير وحدة إعادة معايرة الميزات (FRM) جنبًا إلى جنب مع وحدة دمج السندويتش لتعزيز دمج الميزات متعددة المقاييس مع معالجة انحرافات المعلومات الموضعية والازدواجية في الميزات. تم تحسين النموذج بشكل أكبر باستخدام وحدة RFAConv ورأس كشف LSDECD خفيف الوزن.
تظهر النتائج التجريبية أن CF-YOLO يتفوق بشكل كبير على النموذج الأساسي عبر مجموعات بيانات متعددة، محققًا تحسينات في متوسط الدقة (mAP50) بنسبة 12.7%، 10.1%، و3.5% على مجموعات بيانات VisDrone وTinyPerson وHIT-UAV، على التوالي. تشير النتائج إلى أن CF-YOLO يعزز بشكل فعال قدرة الشبكة على الكشف عن الأهداف الصغيرة من خلال دمج تقنيات متقدمة، مما يحسن دقة الكشف. يعبر المؤلفون عن التزامهم بمزيد من تحسين هياكل الكشف عن الأهداف لصور الطائرات بدون طيار في جهود البحث المستقبلية.
النتائج
يقدم قسم النتائج في الدراسة تقييمًا شاملاً لأداء نموذج CF-YOLO في كشف الأجسام، خصوصًا في ظل ظروف صعبة، باستخدام مجموعات بيانات VisDrone وTinyPerson. في مجموعة بيانات VisDrone، أظهر CF-YOLO قدرات استثنائية في كشف الأجسام متعددة المقاييس، حيث نجح في تحديد الأجسام الصغيرة بأبعاد أقل من $20 \times 20$ بكسل، بينما عانت نماذج أخرى مثل YOLOv5 وYOLOv8 وYOLOv11 من نتائج سلبية خاطئة. ومن الجدير بالذكر أن CF-YOLO أظهر قوة في الكشف عن الأجسام المحجوبة جزئيًا، مثل الدراجات النارية التي تحجبها الأشجار والشاحنات المقطوعة، بالإضافة إلى الحفاظ على دقة تحديد المواقع العالية في مشاهد ذات إضاءة منخفضة وكثافة سكانية عالية.
في مجموعة بيانات TinyPerson، تم مقارنة CF-YOLO بشكل منهجي مع النماذج السائدة، مما كشف عن أدائه المتفوق في الكشف عبر سيناريوهات متنوعة. في الكشف عن السباحين في المدى المتوسط، حدد CF-YOLO الأهداف التي تتراوح متوسطها بين $8-16$ بكسل، بينما فاتت المنافسون العديد من الكشف. في إعداد شاطئ بعيد المدى، التقط مستلقي الشمس في أوضاع متنوعة بشكل أكبر. بالإضافة إلى ذلك، في الحشود الكثيفة في المدى المتوسط، حافظ CF-YOLO على أداء كشف مستقر على الرغم من الحجب الكبير، مما يبرز مزاياه على النماذج الأساسية في البيئات المعقدة.
المناقشة
في قسم المناقشة، تسلط الورقة الضوء على التقدم في كشف الأجسام الصغيرة ضمن صور الطائرات بدون طيار، مع التأكيد على فعالية إطار عمل YOLO وتكيفاته، مثل دمج نماذج Transformer لتعزيز قدرات استخراج الميزات. لقد أظهرت هياكل YOLO المعدلة المختلفة، بما في ذلك FFCA-YOLO وSFFEF-YOLO، دقة محسنة من خلال معالجة مشكلات مثل الإيجابيات الكاذبة والسلبية، ومن خلال تعزيز الفهم السياقي من خلال تقنيات دمج الميزات الجديدة. ومع ذلك، على الرغم من هذه التحسينات، لا تزال الطرق الحالية تعاني من استخراج المعلومات متعددة المقاييس، خاصة في الخلفيات المعقدة، مما يمكن أن يعيق الدقة والموثوقية.
تتناول الفقرة أيضًا أهمية شبكات هرمية الميزات (FPN) في كشف الأجسام، مشيرة إلى أنه بينما تسهل استخراج كل من المعلومات الدلالية والتفصيلية، فإنها غالبًا ما تفشل في دمج الميزات متعددة المقاييس بشكل فعال. لقد حاولت الابتكارات مثل PANet وBiFPN معالجة هذه القيود، ومع ذلك، فهي ليست مصممة خصيصًا لتطبيقات الاستشعار عن بُعد. تقدم الورقة نموذج CF-YOLO، الذي يبني على YOLOv11 ويشمل شبكة هرمية للميزات عبر المقاييس (CS-FPN) ووحدة انتباه مجال الاستقبال (RFAConv) لتعزيز استخراج الميزات متعددة المقاييس وتخفيف فقدان المعلومات. يهدف هذا النموذج إلى تحسين أداء الكشف عن الأجسام الصغيرة من خلال ضمان استخدام كل من المعلومات الدلالية عالية المستوى والمعلومات التفصيلية منخفضة المستوى بشكل فعال، مما يؤدي في النهاية إلى تحسين تحديد المواقع والتصنيف للأجسام في سياقات الصور الجوية الصعبة.
DOI: https://doi.org/10.1038/s41598-025-99634-0
PMID: https://pubmed.ncbi.nlm.nih.gov/40369214
Publication Date: 2025-05-14
Author(s): Chengcheng Wang et al.
Primary Topic: Advanced Neural Network Applications
Overview
This research paper addresses the challenges of small target detection in drone imagery, which is hindered by significant scale variations and the presence of numerous small objects with limited detail. To tackle these issues, the authors propose a novel Remote Sensing Small Target Detector named CF-YOLO, built upon the YOLOv11 model. Key innovations include the introduction of a Cross-Scale Feature Pyramid Network (CS-FPN) to mitigate information loss from hierarchical convolutional structures, and the development of a Feature Recalibration Module (FRM) alongside a Sandwich Fusion Module to enhance multi-scale feature fusion while addressing positional information deviations and feature redundancy. The model is further optimized with the RFAConv module and a lightweight LSDECD detection head.
Experimental results demonstrate that CF-YOLO significantly outperforms the baseline model across multiple datasets, achieving improvements in mean Average Precision (mAP50) of 12.7%, 10.1%, and 3.5% on the VisDrone, TinyPerson, and HIT-UAV datasets, respectively. The findings indicate that CF-YOLO effectively enhances the network’s capability to detect small targets by integrating advanced techniques, thereby improving detection accuracy. The authors express their commitment to further refining target detection architectures for drone imagery in future research endeavors.
Results
The results section of the study presents a comprehensive evaluation of the CF-YOLO model’s performance in object detection, particularly under challenging conditions, using the VisDrone and TinyPerson datasets. In the VisDrone dataset, CF-YOLO exhibited exceptional capabilities in multi-scale object detection, successfully identifying small objects with dimensions below $20 \times 20$ pixels, while other models like YOLOv5, YOLOv8, and YOLOv11 struggled with false negatives. Notably, CF-YOLO demonstrated robustness in detecting partially occluded objects, such as motorcycles obscured by trees and truncated trucks, as well as maintaining high localization accuracy in low-light, densely populated scenes.
In the TinyPerson dataset, CF-YOLO was systematically compared against mainstream models, revealing its superior detection performance across various scenarios. In medium-range detection of swimmers, CF-YOLO effectively identified targets averaging $8-16$ pixels, while competitors missed several detections. In a long-range beach setting, it captured sunbathers in diverse postures with greater completeness. Additionally, in medium-range dense crowds, CF-YOLO maintained stable detection performance despite significant occlusion, further underscoring its advantages over baseline models in complex environments.
Discussion
In the discussion section, the paper highlights advancements in small object detection within drone aerial imagery, emphasizing the effectiveness of the YOLO framework and its adaptations, such as the integration of Transformer models to enhance feature extraction capabilities. Various modified YOLO architectures, including FFCA-YOLO and SFFEF-YOLO, have demonstrated improved accuracy by addressing issues like false positives and negatives, and by enhancing contextual understanding through novel feature fusion techniques. However, despite these improvements, existing methods still struggle with multi-scale information extraction, particularly in complex backgrounds, which can hinder accuracy and robustness.
The section further elaborates on the significance of Feature Pyramid Networks (FPN) in object detection, noting that while they facilitate the extraction of both semantic and detailed information, they often fall short in efficient multi-scale feature fusion. Innovations such as PANet and BiFPN have attempted to address these limitations, yet they are not specifically tailored for remote sensing applications. The paper introduces the CF-YOLO model, which builds upon YOLOv11n and incorporates a Cross-Scale Feature Pyramid Network (CS-FPN) and a Receptive Field Attention Convolution (RFAConv) module to enhance multi-scale feature extraction and mitigate information loss. This model aims to improve detection performance for small objects by ensuring that both high-level semantic and low-level detail information are effectively utilized, ultimately leading to more accurate object localization and classification in challenging aerial imagery contexts.
