DOI: https://doi.org/10.1109/cvpr52734.2025.00021
تاريخ النشر: 2025-06-10
المؤلف: Meng Lou وآخرون
الموضوع الرئيسي: تقنيات الكشف عن الشذوذ وتطبيقاتها
نظرة عامة
تقدم ورقة البحث OverLoCK، وهي بنية جديدة لشبكة عصبية تلافيفية (ConvNet) تدمج آلية انتباه من أعلى إلى أسفل، تعكس نهج النظام البصري البشري في تحليل المشاهد. تتكون هذه البنية من ثلاثة شبكات فرعية مترابطة: Base-Net لتشفير الميزات على المستوى المنخفض/المتوسط، وOverview-Net لتوليد انتباه ديناميكي من أعلى إلى أسفل من خلال نمذجة السياق العالمي، وFocus-Net للإدراك التفصيلي الموجه بواسطة هذا الانتباه. يتناول التصميم قيود الهياكل الهرمية التقليدية في ConvNets، التي عادةً ما تقلل من دقة الميزات دون الاستفادة من الانتباه من أعلى إلى أسفل.
بالإضافة إلى ذلك، يقترح المؤلفون تلافيف ديناميكية جديدة لخلط السياق (ContMix) التي تلتقط بشكل فعال الاعتماديات بعيدة المدى مع الحفاظ على التحيزات الاستقرائية المحلية، حتى مع زيادة دقة الإدخال. يتم عرض أداء OverLoCK من خلال معايير مختلفة، حيث تحقق دقة Top-1 تبلغ 84.2% مع OverLoCK-T، متفوقة بشكل ملحوظ على ConvNeXt-B مع عدد أقل من FLOPs والمعلمات. علاوة على ذلك، يتفوق OverLoCK-S على MogaNet-B في اكتشاف الكائنات وOverLoCK-T يحسن من UniRepLKNet-T في تقسيم الدلالات، مما يبرز فعالية البنية وإمكاناتها في تعزيز مهام رؤية الكمبيوتر.
مقدمة
تناقش المقدمة أهمية الانتباه العصبي من أعلى إلى أسفل في الرؤية البشرية، مما يسمح بالتكوين السريع للإدراكات عالية المستوى التي تعزز دقة تحديد مواقع الكائنات وتصنيفها. بينما حاولت النماذج السابقة دمج هذه الآلية، فإن العديد منها إما غير متوافق مع الهياكل البصرية الحديثة أو يعتمد بشكل كبير على الهياكل المتكررة، مما يؤدي إلى زيادة المتطلبات الحسابية. يبرز المؤلفون قيود النماذج الهرمية الحالية في تحديد مواقع الكائنات بدقة، خاصة في الطبقات الأعمق، ويقترحون نهجًا جديدًا يستفيد من الانتباه من أعلى إلى أسفل لتحسين تمثيل الميزات في الشبكات التلافيفية.
لمعالجة هذه التحديات، يقدم المؤلفون استراتيجية تفكيك عميقة بيوميميتكية (DDS) تتكون من ثلاث شبكات فرعية: Base-Net وOverview-Net وFocus-Net. تهدف هذه البنية إلى تعزيز خرائط الميزات وأوزان النواة من خلال توجيه دلالي ديناميكي من أعلى إلى أسفل. تستخدم Focus-Net تلافيف ديناميكية جديدة لخلط السياق (ContMix) التي تسمح بنمذجة الاعتماديات بعيدة المدى مع الحفاظ على تحيزات استقرائية محلية قوية. تظهر البنية المقترحة Overview-first-Look-Closely-next Con-vNet (OverLoCK) أداءً متفوقًا على مجموعة بيانات ImageNet-1K وغيرها من المهام اللاحقة، محققة تحسينات ملحوظة في الدقة مقارنة بالنماذج الحالية مع تحقيق توازن فعال بين السرعة والدقة.
طرق البحث
تحدد قسم المنهجية النهج المنهجي المستخدم في البحث للتحقيق في الفرضيات المحددة. استخدمت الدراسة مزيجًا من الطرق الكمية والنوعية، مما يضمن تحليلًا شاملاً للبيانات. على وجه التحديد، شملت جمع البيانات استبيانات وتجارب، مع تطبيق أدوات إحصائية لتحليل النتائج.
تم اختيار عينة السكان بعناية لتمثيل التركيبة السكانية الأوسع ذات الصلة بالدراسة، وتم استخدام تقنيات أخذ عينات مناسبة لتقليل التحيز. بالإضافة إلى ذلك، شمل تصميم البحث مجموعات ضابطة لتعزيز صلاحية النتائج. تم إجراء التحليل باستخدام أدوات برمجية سهلت تطبيق طرق إحصائية متقدمة، مما يضمن نتائج قوية وموثوقة.
بشكل عام، تم تصميم المنهجية لاختبار الفرضيات بدقة مع الحفاظ على المعايير الأخلاقية وضمان إمكانية تكرار نتائج البحث.
النتائج
تشير النتائج المعروضة في الجداول 3 و4 إلى أن OverLoCK يظهر مزايا كبيرة على الطرق المنافسة في مهام مختلفة. على وجه الخصوص، عند استخدام جدول Mask R-CNN 1×، يتفوق OverLoCK-S على BiFormer-B وMogaNet-B بنسبة 0.8% و1.5% في دقة المتوسط (AP) لاكتشاف الصناديق، على التوالي. وبالمثل، مع Cascade Mask R-CNN، يظهر OverLoCK-S تحسينات بنسبة 1.4% و0.6% في AP مقارنة بـ PeLK-S وUniRepLKNet-S، على التوالي. تسلط النتائج الضوء على الفجوة الملحوظة في الأداء بين الطرق المعتمدة على ConvNet والطرق المعتمدة على Transformer، خاصة في مهام الكشف، حيث تكافح ConvNets بسبب أحجام النواة الثابتة التي تحد من مجالات الاستقبال، مما يؤدي إلى تدهور الأداء عند دقة إدخال أكبر. في المقابل، يلتقط OverLoCK بشكل فعال الاعتماديات بعيدة المدى، مما يعزز أدائه.
علاوة على ذلك، كما هو موضح في الجدول 5، يحقق OverLoCK نتائج متفوقة في تقسيم الدلالات، حيث يتفوق OverLoCK-T على MogaNet-S وUniRepLKNet-T بنسبة 1.1% و1.7% من حيث متوسط التقاطع على الاتحاد (mIoU)، على التوالي، ويتجاوز VMamba-T بنسبة 2.3% في mIoU. هذا الاتجاه متسق عبر كل من النماذج الصغيرة والأساسية. تؤكد النتائج أيضًا أن مجالات الاستقبال المحدودة لـ ConvNets تؤثر سلبًا على أدائها في مهام التقسيم، كما يتضح من عجز MogaNet-B بنسبة 0.9% مقارنة بـ BiFormer-B على الرغم من دقة التصنيف المتطابقة. يعالج OverLoCK هذه القيود بشكل فعال، مما يؤدي إلى تحسين الأداء عبر كل من مهام الكشف والتقسيم.
المناقشة
تحدد قسم المناقشة في الورقة تطور الشبكات التلافيفية (ConvNets) ومنافستها مع Transformers البصرية في مهام رؤية الكمبيوتر. يبرز التقدم الذي أحرزته الهياكل مثل VGGNet وResNet وDenseNet، التي قدمت تقنيات مثل تكديس النوى الصغيرة والاتصالات المتجاوزة للتخفيف من مشاكل التدرج. شهدت الاتجاهات الحديثة إدخال أحجام نوى أكبر لمحاكاة آليات الانتباه الذاتي، مع تحقيق نماذج مثل ConvNeXt وRe-pLKNet تحسينات كبيرة في الأداء. تؤكد الورقة أيضًا على استكشاف التلافيف الديناميكية، التي تعدل أوزان الفلتر بناءً على الإدخال، ودمج المبادئ البيوميميتكية من الرؤية البشرية لتعزيز أداء النموذج.
يقترح المؤلفون بنية جديدة، OverLoCK، التي تستخدم استراتيجية تفكيك عميقة (DDS) لإنشاء ثلاث شبكات فرعية مترابطة: Base-Net وOverview-Net وFocus-Net. يسمح هذا التصميم باستخراج الميزات بكفاءة وتوجيه سياقي، حيث توفر Overview-Net نظرة عامة ذات دلالة معنوية تُعلم عملية تحسين Focus-Net. يسهل تدفق السياق الديناميكي داخل Focus-Net كل من التوجيه على مستوى الميزات والتوجيه على مستوى الأوزان، مما يعزز قدرة النموذج على التقاط الاعتماديات بعيدة المدى مع الحفاظ على التحيزات الاستقرائية المحلية. تظهر النتائج التجريبية أن OverLoCK يتفوق على النماذج الحالية في مهام الرؤية المختلفة، محققًا تحسينات ملحوظة في دقة تصنيف الصور، واكتشاف الكائنات، وتقسيم الدلالات، مما يرسخ مكانته كأحد الهياكل الرائدة في ConvNet.
DOI: https://doi.org/10.1109/cvpr52734.2025.00021
Publication Date: 2025-06-10
Author(s): Meng Lou et al.
Primary Topic: Anomaly Detection Techniques and Applications
Overview
The research paper introduces OverLoCK, a novel convolutional neural network (ConvNet) architecture that integrates a top-down attention mechanism, reflecting the human visual system’s approach to scene analysis. This architecture comprises three interconnected subnetworks: a Base-Net for low/mid-level feature encoding, an Overview-Net for generating dynamic top-down attention through global context modeling, and a Focus-Net for detailed perception guided by this attention. The design addresses the limitations of traditional pyramid structures in ConvNets, which typically downsample feature maps without leveraging top-down attention.
Additionally, the authors propose a new context-mixing dynamic convolution (ContMix) that effectively captures long-range dependencies while maintaining local inductive biases, even with increased input resolution. The performance of OverLoCK is demonstrated through various benchmarks, achieving a Top-1 accuracy of 84.2% with OverLoCK-T, significantly outperforming ConvNeXt-B with fewer FLOPs and parameters. Furthermore, OverLoCK-S surpasses MogaNet-B in object detection and OverLoCK-T improves upon UniRepLKNet-T in semantic segmentation, highlighting the architecture’s efficacy and potential for advancing computer vision tasks.
Introduction
The introduction discusses the significance of top-down neural attention in human vision, which allows for the rapid formation of high-level perceptions that enhance the accuracy of object localization and categorization. While previous models have attempted to integrate this mechanism, many are either incompatible with modern vision architectures or rely heavily on recurrent structures, leading to increased computational demands. The authors highlight the limitations of existing hierarchical models in accurately localizing objects, particularly in deeper layers, and propose a novel approach that leverages top-down attention to improve feature representation in convolutional networks.
To address these challenges, the authors introduce a biomimetic Deep-stage Decomposition Strategy (DDS) that consists of three sub-networks: Base-Net, Overview-Net, and Focus-Net. This architecture aims to enhance feature maps and kernel weights through dynamic top-down semantic guidance. The Focus-Net employs a new Context-Mixing Dynamic Convolution (ContMix) that allows for the modeling of long-range dependencies while maintaining strong local inductive biases. The proposed Overview-first-Look-Closely-next Con-vNet (OverLoCK) demonstrates superior performance on the ImageNet-1K dataset and other downstream tasks, achieving notable accuracy improvements over existing models while effectively balancing speed and accuracy.
Methods
The methodology section outlines the systematic approach employed in the research to investigate the specified hypotheses. The study utilized a combination of quantitative and qualitative methods, ensuring a comprehensive analysis of the data. Specifically, data collection involved surveys and experiments, with statistical tools applied to analyze the results.
The sample population was carefully selected to represent the broader demographic relevant to the study, and appropriate sampling techniques were employed to minimize bias. Additionally, the research design included control groups to enhance the validity of the findings. The analysis was conducted using software tools that facilitated the application of advanced statistical methods, ensuring robust and reliable results.
Overall, the methodology was designed to rigorously test the hypotheses while maintaining ethical standards and ensuring the reproducibility of the research outcomes.
Results
The results presented in Tables 3 and 4 indicate that OverLoCK exhibits significant advantages over competing methods in various tasks. Specifically, when employing the Mask R-CNN 1× schedule, OverLoCK-S outperforms BiFormer-B and MogaNet-B by 0.8% and 1.5% in Average Precision (AP) for bounding box detection, respectively. Similarly, with the Cascade Mask R-CNN, OverLoCK-S shows improvements of 1.4% and 0.6% in AP over PeLK-S and UniRepLKNet-S, respectively. The findings highlight a notable disparity in performance between ConvNet-based and Transformer-based methods, particularly in detection tasks, where ConvNets struggle due to fixed kernel sizes that limit receptive fields, leading to performance degradation at larger input resolutions. In contrast, OverLoCK effectively captures long-range dependencies, enhancing its performance.
Furthermore, as illustrated in Table 5, OverLoCK achieves superior results in semantic segmentation, with OverLoCK-T surpassing MogaNet-S and UniRepLKNet-T by 1.1% and 1.7% in terms of mean Intersection over Union (mIoU), respectively, and exceeding VMamba-T by 2.3% in mIoU. This trend is consistent across both Small and Base models. The results further confirm that the limited receptive fields of ConvNets adversely affect their performance in segmentation tasks, as evidenced by MogaNet-B’s 0.9% deficit compared to BiFormer-B despite identical classification accuracy. OverLoCK addresses these limitations effectively, leading to enhanced performance across both detection and segmentation tasks.
Discussion
The discussion section of the paper outlines the evolution of convolutional networks (ConvNets) and their competition with Vision Transformers in computer vision tasks. It highlights the advancements made by architectures such as VGGNet, ResNet, and DenseNet, which introduced techniques like stacking small kernels and skip connections to mitigate gradient issues. Recent trends have seen the introduction of larger kernel sizes to emulate self-attention mechanisms, with models like ConvNeXt and Re-pLKNet achieving significant performance improvements. The paper also emphasizes the exploration of dynamic convolutions, which adapt filter weights based on input, and the integration of biomimetic principles from human vision to enhance model performance.
The authors propose a novel architecture, OverLoCK, which employs a deep-stage decomposition strategy (DDS) to create three interconnected sub-networks: Base-Net, Overview-Net, and Focus-Net. This design allows for efficient feature extraction and contextual guidance, with Overview-Net providing a semantically meaningful overview that informs Focus-Net’s refinement process. The dynamic context flow within Focus-Net facilitates both feature-level and weight-level guidance, enhancing the model’s ability to capture long-range dependencies while maintaining local inductive biases. Experimental results demonstrate that OverLoCK outperforms existing models in various vision tasks, achieving notable accuracy improvements in image classification, object detection, and semantic segmentation, thereby establishing itself as a leading ConvNet architecture.
