DOI: https://doi.org/10.1016/j.iswa.2025.200561
تاريخ النشر: 2025-07-31
المؤلف: Mahya Nikouei وآخرون
الموضوع الرئيسي: تطبيقات الشبكات العصبية المتقدمة
نظرة عامة
تشير القسم المعنون “نظرة عامة” إلى أن مؤلفي ورقة البحث قد كشفوا أنه لا توجد أي تضارب في المصالح يتعلق بعملهم. هذه العبارة حاسمة للحفاظ على الشفافية والنزاهة في البحث الأكاديمي، حيث تضمن للقراء أن النتائج والاستنتاجات المقدمة في الورقة ليست متأثرة بعوامل خارجية أو مصالح شخصية. مثل هذه التصريحات هي ممارسة قياسية في المنشورات العلمية للحفاظ على المعايير الأخلاقية وتعزيز الثقة في مجتمع البحث.
مقدمة
تسلط مقدمة ورقة البحث الضوء على التحديات المرتبطة بالكشف عن الأجسام الصغيرة في الصور، والتي غالبًا ما تتميز بحجمها المحدود وعدد البكسلات القليل الذي تشغله. يختلف تعريف الأجسام الصغيرة اعتمادًا على مجموعة البيانات وسياق التطبيق، مما يتطلب فهمًا دقيقًا لخصائصها. تناقش الورقة كيف أن تقليل دقة الصور في الشبكات التلافيفية يؤدي إلى فقدان معلومات تمييزية حاسمة، مثل القوام والحواف، مما يؤثر سلبًا على دقة التصنيف للأجسام الصغيرة. تتفاقم هذه المشكلة بسبب تداخل الخلفية الكثيف، مما يؤدي إلى انخفاض نسبة الإشارة إلى الضوضاء (SNR) التي تعقد تحديد الأجسام الصغيرة في البيئات المعقدة، مثل اكتشاف العيوب الصناعية ومراقبة الطائرات بدون طيار.
علاوة على ذلك، تتناول الورقة القيود الهيكلية لشبكات الكشف، وخاصة شبكات هرم الميزات (FPNs)، التي تكافح لتحقيق توازن بين دقة التحديد وغنى المعنى. توفر الطبقات السطحية تحديدًا دقيقًا ولكن تفتقر إلى معلومات دلالية مفصلة، بينما توفر الطبقات الأعمق سياقًا قيمًا على حساب دقة التحديد. تؤدي هذه المقايضة إلى أداء كشف دون المستوى الأمثل، خاصة في السيناريوهات التي تتفاوت فيها أحجام الأجسام وتعقيد الخلفية بشكل كبير. للتخفيف من هذه التحديات، تم اقتراح دمج البيانات متعددة الأنماط—مثل LiDAR والرادار والأشعة تحت الحمراء والصور المرئية—لتحسين استخراج الميزات ودقة الكشف، وبالتالي تحسين فعالية أنظمة الكشف في التطبيقات الواقعية.
طرق
تناقش هذه القسم قيود طرق الكشف عن الأجسام الحالية، وخاصة تلك المعتمدة على الشبكات العصبية التلافيفية (CNNs)، في سياق الكشف عن الأجسام البارزة (SOD). تم تحسين هذه الطرق بشكل أساسي للأجسام الأكبر وتكافح للحفاظ على التفاصيل الدقيقة الضرورية لـ SOD، مما يؤدي إلى أداء دون المستوى الأمثل. بالإضافة إلى ذلك، تزداد الكثافة الحاسوبية لهذه النماذج بشكل كبير عند معالجة الصور عالية الدقة، مما يؤدي إلى زيادة متطلبات الموارد وأوقات المعالجة الممتدة (J. Liu et al., 2024).
علاوة على ذلك، تسلط هذه القسم الضوء على القضايا المتعلقة بإعدادات التعلم المتعدد المهام، حيث يمكن أن تعيق المساهمة غير المتوازنة بين المهام قدرة النموذج على تعلم الميزات المتعلقة بـ SOD بشكل فعال، مما يؤثر في النهاية على الدقة (S. Li et al., 2024). غالبًا ما يتطلب إعادة تدريب النماذج الحالية لـ SOD تعديلات كبيرة على هيكلها أو عمليات التدريب أو دوال الخسارة، مما يمكن أن يكون مكلفًا من حيث الموارد والحوسبة (C. Chen et al., 2024).
نقاش
في مناقشة الكشف عن الأجسام الصغيرة (SOD)، توضح الورقة تعريفات وتحديات مختلفة مرتبطة بتحديد الأجسام الصغيرة في الصور. تعتمد التعريفات بشكل أساسي على معايير قائمة على البكسلات، حيث تصنف مجموعات البيانات مثل MS COCO الأجسام الصغيرة على أنها تلك التي تشغل أقل من 1,024 بكسل مربع. في صور الأقمار الصناعية، يكون العتبة أقل، حيث تظهر الأجسام الصغيرة غالبًا كعدد قليل يصل إلى 20×20 بكسل. تُستخدم أيضًا معايير الحجم النسبي، حيث تُعتبر الأجسام التي تشغل أقل من 1% من مساحة الصورة صغيرة. هذه المرونة في التعريفات ضرورية للتكيف مع ظروف التصوير المختلفة، خاصة في السياقات عالية الدقة.
تسلط الورقة الضوء على عدة تحديات في SOD، بما في ذلك المعلومات المحدودة عن المظهر، والاحتجاب، وتغير المقياس. غالبًا ما تفتقر الأجسام الصغيرة إلى ميزات مميزة، مما يجعل من الصعب تمييزها عن الخلفيات، خاصة في البيئات المزدحمة. بالإضافة إلى ذلك، فإن تحديد مواقع الأجسام الصغيرة معقد بسبب عدم اليقين المكاني العالي والحاجة إلى توقعات دقيقة لصناديق الحدود. تتفاقم الفجوة في الأداء بين الكشف عن الأجسام الصغيرة والكبيرة عندما تختلف مجموعات بيانات التدريب والاختبار بشكل كبير في المقياس. لمعالجة هذه التحديات، تناقش الورقة الحلول الناشئة مثل التعلم المستوحى من الحركة، وأطر الكشف متعددة الدقة، والتقدم في هياكل الشبكات العصبية التي تعزز استخراج الميزات والدمج. تهدف هذه الأساليب المبتكرة إلى تحسين دقة وموثوقية أنظمة SOD عبر تطبيقات وبيئات مختلفة.
القيود
تسلط القسم المتعلق بالقيود الضوء على التحديات الكبيرة التي تواجهها في مجال الكشف عن الأجسام البارزة (SOD)، خاصة في معالجة الصور عالية الدقة والتحليل في الوقت الحقيقي في البيئات المقيدة مثل التصوير الجوي باستخدام الطائرات بدون طيار (UAVs). تعيق التكاليف الحاسوبية العالية المرتبطة بمعالجة مجموعات البيانات الكبيرة نشر خوارزميات SOD الفعالة، خاصة على الأجهزة المدمجة التي لديها موارد أجهزة محدودة. تتفاقم هذه القيود بسبب الحاجة إلى تحليل فعال في الوقت الحقيقي، حيث غالبًا ما تفتقر الأجسام الصغيرة الملتقطة من زوايا كاميرا مختلفة إلى معلومات تفصيلية، مما يؤدي إلى عدم اتساق في مقياس وكثافة الأجسام (Z. Chen, Ji, et al., 2024).
علاوة على ذلك، فإن نشر نماذج الإدراك المعقدة على المركبات السطحية غير المأهولة (USVs) أو في بيئات صعبة مثل مناجم الفحم يتعذر بسبب القدرة الحاسوبية المحدودة لهذه الأجهزة. تفرض الحاجة إلى أن تتكيف هذه الأنظمة مع فئات الأجسام الجديدة مع عينات محدودة تحديات إضافية، خاصة في سيناريوهات التعلم القليل. تميل خوارزميات SOD الحالية، رغم فعاليتها، إلى أن تكون مكلفة من حيث الموارد لتطبيقات الحوسبة الطرفية، حيث تكون الاستجابة السريعة والوقت الحقيقي أمرًا أساسيًا (Gao, Wang, et al., 2024; B. Liu & Jiang, 2024; R. Wang et al., 2024b; W. Wang et al., 2024).
DOI: https://doi.org/10.1016/j.iswa.2025.200561
Publication Date: 2025-07-31
Author(s): Mahya Nikouei et al.
Primary Topic: Advanced Neural Network Applications
Overview
The section titled “Overview” indicates that the authors of the research paper have disclosed that there are no conflicts of interest related to their work. This statement is crucial for maintaining transparency and integrity in academic research, as it assures readers that the findings and conclusions presented in the paper are not influenced by external factors or personal interests. Such declarations are standard practice in scholarly publications to uphold ethical standards and foster trust in the research community.
Introduction
The introduction of the research paper highlights the challenges associated with detecting small objects in images, which are often characterized by their limited size and the minimal number of pixels they occupy. The definition of small objects varies depending on the dataset and application context, necessitating a nuanced understanding of their characteristics. The paper discusses how the downsampling of images in convolutional networks leads to a loss of critical discriminative information, such as textures and edges, which adversely impacts classification accuracy for small objects. This issue is exacerbated by dense background interference, resulting in a low Signal-to-Noise Ratio (SNR) that complicates the identification of small objects in complex environments, such as industrial defect detection and UAV surveillance.
Furthermore, the paper addresses the structural limitations of detection networks, particularly Feature Pyramid Networks (FPNs), which struggle to balance localization accuracy and semantic richness. Shallow layers offer precise localization but lack detailed semantic information, while deeper layers provide valuable context at the cost of localization precision. This trade-off results in suboptimal detection performance, especially in scenarios with significant variations in object size and background complexity. To mitigate these challenges, the integration of multi-modal data—such as LiDAR, radar, infrared, and visual images—has been proposed to enhance feature extraction and detection accuracy, thereby improving the effectiveness of detection systems in real-world applications.
Methods
The section discusses the limitations of existing object detection methods, particularly those based on Convolutional Neural Networks (CNNs), in the context of Salient Object Detection (SOD). These methods are primarily optimized for larger objects and struggle to maintain the fine-grained details essential for SOD, leading to suboptimal performance. Additionally, the computational intensity of these models increases significantly when processing high-resolution images, resulting in elevated resource demands and extended processing times (J. Liu et al., 2024).
Moreover, the section highlights issues related to multi-task learning setups, where an imbalanced contribution between tasks can impede the model’s ability to effectively learn features pertinent to SOD, ultimately affecting accuracy (S. Li et al., 2024). The retraining of existing models for SOD often necessitates substantial modifications to their architecture, training processes, or loss functions, which can be resource-intensive and computationally costly (C. Chen et al., 2024).
Discussion
In the discussion of small object detection (SOD), the paper outlines various definitions and challenges associated with identifying small objects in images. The definitions primarily hinge on pixel-based criteria, with datasets like MS COCO categorizing small objects as those occupying fewer than 1,024 square pixels. In satellite imagery, the threshold is even lower, with small objects often appearing as few as 20×20 pixels. Relative size criteria are also employed, where objects occupying less than 1% of the image area are deemed small. This flexibility in definitions is crucial for adapting to different imaging conditions, particularly in high-resolution contexts.
The paper highlights several challenges in SOD, including limited appearance information, occlusion, and scale variability. Small objects often lack distinctive features, making them difficult to differentiate from backgrounds, especially in cluttered environments. Additionally, the localization of small objects is complicated by high spatial uncertainty and the need for precise bounding box predictions. The performance gap between small and large object detection is exacerbated when training and testing datasets differ significantly in scale. To address these challenges, the paper discusses emerging solutions such as motion-inspired learning, multi-granularity detection frameworks, and advancements in neural network architectures that enhance feature extraction and fusion. These innovative approaches aim to improve the accuracy and robustness of SOD systems across various applications and environments.
Limitations
The section on limitations highlights significant challenges faced in the field of Salient Object Detection (SOD), particularly in high-resolution image processing and real-time analysis in constrained environments such as aerial imaging with Unmanned Aerial Vehicles (UAVs). The high computational costs associated with processing large datasets hinder the deployment of effective SOD algorithms, especially on embedded devices that have limited hardware resources. This limitation is exacerbated by the need for efficient real-time analysis, as small-scale objects captured from varying camera angles often lack detailed information, leading to inconsistencies in object scale and density (Z. Chen, Ji, et al., 2024).
Furthermore, the deployment of complex perception models on unmanned surface vehicles (USVs) or in challenging environments like coal mines is impeded by the restricted computational power of these devices. The necessity for these systems to adapt to new object categories with limited samples poses additional challenges, particularly in few-shot learning scenarios. Existing SOD algorithms, while effective, tend to be too resource-intensive for edge computing applications, where low latency and real-time responsiveness are essential (Gao, Wang, et al., 2024; B. Liu & Jiang, 2024; R. Wang et al., 2024b; W. Wang et al., 2024).
