DOI: https://doi.org/10.1007/s11263-026-02743-0
تاريخ النشر: 2026-03-09
المؤلف: Lars Heckler-Kram وآخرون
الموضوع الرئيسي: تقنيات الكشف عن الشذوذ وتطبيقاتها
نظرة عامة
تقدم البحث مجموعة بيانات MVTec AD 2، المصممة لمعالجة تشبع الأداء في معايير الكشف عن الشذوذ الحالية مثل MVTec AD وVisA، حيث تظهر النماذج المتطورة اختلافات طفيفة في درجات AU-PRO للتجزئة. تتكون مجموعة بيانات MVTec AD 2 من أكثر من 8000 صورة عالية الدقة عبر ثماني فئات من الأجسام، وتتميز بسيناريوهات تفتيش صناعية معقدة تشمل الأجسام الشفافة والمتداخلة، والإضاءة في المجال المظلم والإضاءة الخلفية، والعيوب الصغيرة. تهدف هذه المجموعة إلى تعزيز تقييم طرق الكشف عن الشذوذ من خلال توفير ظروف تحدي لم يتم تمثيلها سابقًا.
تشير النتائج إلى أن أداء الطرق الحالية المتطورة لا يزال غير كافٍ، حيث أن متوسط درجات AU-PRO أقل من 60%. عندما يتم تطبيق معايير أكثر صرامة (AU-PRO 0.05)، ينخفض الأداء إلى حوالي 30%. كما تقدم مجموعة البيانات سيناريوهات اختبار غير اصطناعية تحاكي تغييرات ظروف الإضاءة في العالم الحقيقي، مما يسمح بتقييم قوة النموذج ضد تحولات التوزيع. يتم توفير خادم تقييم لتسهيل التقييمات الموحدة باستخدام مقاييس مستقلة عن العتبة ومرتبطة بالعتبة، مما يعزز مقارنة أكثر عدلاً لتقنيات الكشف عن الشذوذ داخل مجتمع البحث.
مقدمة
تسلط مقدمة هذه الورقة البحثية الضوء على الأهمية المتزايدة للكشف عن الشذوذ غير المراقب وتحديد المواقع ضمن رؤية الكمبيوتر، لا سيما في التطبيقات الصناعية مثل القيادة الذاتية، والرعاية الصحية، ومراقبة الفيديو، والتفتيش البصري. التحدي يكمن في تحديد الشذوذ أثناء الاختبار مع الوصول فقط إلى بيانات خالية من الشذوذ أثناء التدريب. يعد الكشف الفعال عن الشذوذ البصري أمرًا حاسمًا لضمان الجودة في التصنيع، حيث أنه لا يصنف المنتجات فحسب، بل يوفر أيضًا خرائط شذوذ دقيقة على مستوى البكسل، مما يعزز القابلية للتفسير ويسمح بالكشف المبكر عن مشكلات خط الإنتاج.
لمعالجة قيود مجموعات البيانات والمعايير الحالية، يقدم المؤلفون MVTec AD 2، مجموعة بيانات جديدة تتكون من ثماني فئات من الأجسام التي تقدم سيناريوهات متقدمة للكشف عن الشذوذ. تم تصميم هذه المجموعة لتحدي الطرق المتطورة الحالية، كما يتضح من انخفاض أداء النماذج الرائدة من أكثر من 90% AU-PRO على مجموعات البيانات المعروفة إلى حد أقصى يبلغ 58.7% على MVTec AD 2. تتضمن مجموعة البيانات تعقيدات متنوعة، مثل العيوب الصغيرة في الصور الكبيرة وتغيرات في ظروف الإضاءة، والتي تعتبر حاسمة لتقييم قوة طرق الكشف عن الشذوذ في البيئات الواقعية. علاوة على ذلك، تتميز MVTec AD 2 بخادم تقييم عام لتسهيل المقارنات الموحدة ومنع تحسين مجموعة الاختبار، مما يعزز التقييمات الأكثر عدلاً لمختلف الأساليب في هذا المجال.
طرق
في قسم الطرق، يناقش البحث تقنيات الكشف عن الشذوذ غير المراقب المختلفة التي ظهرت نتيجة للبحث المكثف في السنوات الأخيرة. تركز الطرق المعتمدة على إعادة البناء على استعادة الحالة الخالية من الشذوذ للصور وقياس الفروق بين الصور الأصلية والمُعاد بناؤها. تشمل الاستراتيجيات الأخرى تذكر توزيع البيانات الطبيعية، إما من خلال بنوك الذاكرة الصريحة أو من خلال التقاط الخصائص الإحصائية للتضمينات من البيانات الخالية من الشذوذ. بالإضافة إلى ذلك، يتم استخدام تدفقات التطبيع لرسم هذه التوزيعات، بينما تستفيد أطر العمل من نموذج معلم مُدرب مسبقًا لتحديد الشذوذ بناءً على انحرافات المخرجات.
كما يسلط البحث الضوء على دمج نماذج اللغة الكبيرة، التي تقارن تضمينات النص التي تصف الحالات الطبيعية مع تلك الخاصة بصور الاختبار للكشف عن الشذوذ. تعزز بعض الأطر قدرات الكشف من خلال استخدام الشذوذ الاصطناعي للتفريق بين توزيعات البيانات الطبيعية والشاذة. يشير المؤلفون إلى أن المعايير الحالية، مثل MVTec AD وVisA، تقترب من التشبع، مما يعقد تحديد التقدم الحقيقي في هذا المجال. لمعالجة ذلك، يقدمون مجموعة بيانات MVTec AD 2، المصممة لتقديم سيناريوهات أكثر تعقيدًا للكشف عن الشذوذ، مما يعزز تطوير طرق مبتكرة ويسهل المقارنات الأكثر عدلاً بينها.
نتائج
في قسم النتائج، تحقق الدراسة من تأثير تغيير عتبة التجزئة \( t_{\text{seg}} \)، المحسوبة كمتوسط زائد \( k \) مرات الانحراف المعياري لدرجات الشذوذ على مستوى البكسل من صور التحقق الخالية من الشذوذ. يتم تقسيم التحليل إلى نتائج مستقلة عن العتبة ومرتبطة بالعتبة، مع التركيز على مقاييس الأداء على مستوى البكسل والصورة كما يتغير \( k \) عبر أحجام الصور المختلفة.
تكشف النتائج أن القيم الأعلى لـ \( k \) تؤدي عمومًا إلى تحسين أداء التجزئة، كما يتضح من درجة F1 للتجزئة المقدمة في الجداول 16 و17 و18. على العكس، تظهر درجة F1 للتصنيف، الموضحة في الجداول 19 و20 و21، أن القيم الأصغر لـ \( k \) يمكن أن تتطابق أو تتجاوز أداء القيم الأكبر لـ \( k \). يُعزى هذا التباين إلى العلاقة بين عتبات التجزئة والتصنيف، حيث يؤدي زيادة \( t_{\text{seg}} \) إلى تصنيف عدد أقل من البكسلات والصور على أنها شاذة، مما يزيد من احتمال حدوث إيجابيات كاذبة. تؤكد النتائج على ضرورة وجود تقنيات تقدير عتبة متقدمة تدمج بشكل فعال نتائج التجزئة والتصنيف.
مناقشة
في قسم المناقشة، يستعرض البحث المشهد الحالي لمجموعات بيانات وطرق الكشف عن الشذوذ ذات الصلة بالتحكم في الجودة البصرية الصناعية. يبرز الحاجة إلى تجزئة دقيقة على مستوى البكسل لتقييم أنظمة الكشف عن الشذوذ. يتم مناقشة مجموعات البيانات الرئيسية مثل MVTec AD وVisA وMVTec LOCO AD، مع الإشارة إلى مساهماتها في هذا المجال وتشبع مستويات الأداء التي حققتها النماذج الحالية. على سبيل المثال، شهدت MVTec AD وصول النماذج إلى متوسط AU-PRO يبلغ 97.8%، مما يشير إلى نطاق محدود لمزيد من التقدم. يؤكد المؤلفون أنه بينما تقدم مجموعات بيانات جديدة مثل Real-IAD وEyecandies سيناريوهات جديدة، فإنها غالبًا ما تعيد إنتاج التحديات الحالية، مما يحد من فائدتها للبحث الرائد.
يتم تقديم مجموعة بيانات MVTec AD 2 كاستجابة لهذه القيود، حيث تقدم مجموعة متنوعة من 8004 صورة عالية الدقة عبر ثماني فئات من الأجسام، كل منها مصمم لتقديم تحديات فريدة للكشف عن الشذوذ غير المراقب. تتضمن مجموعة البيانات تغييرات في ظروف الإضاءة ومظاهر الأجسام، والتي تعتبر حاسمة لمحاكاة سيناريوهات التفتيش في العالم الحقيقي. يوضح المؤلفون العملية الدقيقة لإنشاء تعليقات توضيحية دقيقة على مستوى البكسل، مما يضمن أن مجموعة البيانات تتوافق مع المتطلبات الصارمة للكشف عن الشذوذ غير المراقب. بشكل عام، تهدف MVTec AD 2 إلى تسهيل تطوير طرق الكشف عن الشذوذ الأكثر قوة القادرة على معالجة التعقيدات التي تواجهها في التطبيقات الصناعية، لا سيما تحت ظروف بيئية متغيرة.
قيود
تسلط قسم القيود في الورقة البحثية الضوء على عدة مجالات للعمل المستقبلي والتحسينات المتعلقة بمجموعة بيانات MVTec AD 2. بينما قام المؤلفون بتقييم ثماني نماذج متطورة، يخططون لتوسيع هذا التقييم ليشمل طرقًا إضافية، لا سيما نماذج اللغة البصرية (VLMs) مثل Win-CLIP وAnomalyGPT. ومع ذلك، تواجه هذه النماذج حاليًا صعوبات مع قيود زمن دورة الإنتاج، كما يتضح من وقت استدلال Win-CLIP الذي يبلغ حوالي 390 مللي ثانية لكل صورة. تشير النتائج النوعية إلى أن حتى VLMs المتقدمة، مثل GPT-4o-mini وGemini 2.5 Flash، تواجه تحديات كبيرة مع MVTec AD 2، مما يشير إلى أن تقييمًا أكثر تفصيلًا لأساليب VLM القائمة، بما في ذلك الأوصاف النصية لفئات الأجسام، قد يعزز الفهم والأداء في الكشف عن الشذوذ الصناعي.
يقترح المؤلفون أيضًا تحسينات في طرق تقدير العتبة لتحسين الارتباط بين المقاييس المستقلة عن العتبة ومرتبطة بالعتبة. يقترحون استكشاف تصاميم مبتكرة تقضي تمامًا على الحاجة لاختيار العتبة. بالإضافة إلى ذلك، يوصون بالتحقيق في تقنيات تعزيز البيانات، مثل تغيير السطوع، لمعالجة التباينات في الأداء تحت ظروف الإضاءة المختلفة. تستحق استراتيجيات المعالجة الفعالة للصور الكبيرة المدخلة، بما في ذلك تقسيم الصور والأساليب متعددة المقاييس، المزيد من الاستكشاف. أخيرًا، يدعو المؤلفون إلى إنشاء خوادم معايير متاحة للجمهور لتوحيد قياسات الكفاءة من حيث وقت الاستدلال واستهلاك الذاكرة، لا سيما للأجهزة المدمجة التي تعكس قيود الأجهزة الصناعية النموذجية.
DOI: https://doi.org/10.1007/s11263-026-02743-0
Publication Date: 2026-03-09
Author(s): Lars Heckler-Kram et al.
Primary Topic: Anomaly Detection Techniques and Applications
Overview
The research introduces the MVTec AD 2 dataset, designed to address the saturation of performance in existing anomaly detection benchmarks like MVTec AD and VisA, where state-of-the-art models exhibit minimal differences in segmentation AU-PRO scores. The MVTec AD 2 dataset comprises over 8000 high-resolution images across eight object categories, featuring complex industrial inspection scenarios that include transparent and overlapping objects, dark-field and backlight illumination, and small defects. This dataset aims to enhance the evaluation of anomaly detection methods by providing challenging conditions that have not been previously represented.
The findings indicate that the performance of current state-of-the-art methods remains inadequate, with average AU-PRO scores below 60%. When stricter criteria are applied (AU-PRO 0.05), performance drops to approximately 30%. The dataset also introduces non-synthetic test scenarios that simulate real-world lighting condition changes, allowing for the assessment of model robustness against distribution shifts. An evaluation server is provided to facilitate standardized assessments using both threshold-independent and threshold-dependent metrics, thereby promoting a more equitable comparison of anomaly detection techniques within the research community.
Introduction
The introduction of this research paper highlights the growing significance of unsupervised anomaly detection and localization within computer vision, particularly in industrial applications such as autonomous driving, healthcare, video surveillance, and visual inspection. The challenge lies in identifying anomalies during testing while only having access to anomaly-free data during training. Effective visual anomaly detection is crucial for quality assurance in manufacturing, as it not only classifies products but also provides detailed pixel-precise anomaly maps, enhancing interpretability and enabling early detection of production line issues.
To address the limitations of existing datasets and benchmarks, the authors introduce MVTec AD 2, a novel dataset comprising eight object categories that present advanced anomaly detection scenarios. This dataset is designed to challenge current state-of-the-art methods, as evidenced by the performance drop of top models from over 90% AU-PRO on established datasets to a maximum of 58.7% on MVTec AD 2. The dataset includes various complexities, such as small defects in large images and variations in lighting conditions, which are critical for evaluating the robustness of anomaly detection methods in real-world settings. Furthermore, MVTec AD 2 features a public evaluation server to facilitate standardized comparisons and prevent test set optimization, thereby promoting fairer assessments of different approaches in the field.
Methods
In the section on methods, the paper discusses various unsupervised anomaly detection techniques that have emerged due to extensive research in recent years. Reconstruction-based methods focus on restoring the anomaly-free state of images and measuring discrepancies between the original and reconstructed images. Other strategies involve memorizing the distribution of normal data, either through explicit memory banks or by capturing statistical properties of embeddings from anomaly-free data. Additionally, normalizing flows are utilized to map these distributions, while student-teacher frameworks leverage a pretrained teacher network to identify anomalies based on output deviations.
The paper also highlights the integration of large language models, which compare text embeddings describing normal states with those of test images for anomaly detection. Some frameworks further enhance detection capabilities by employing synthetic anomalies to differentiate between normal and anomalous data distributions. The authors note that existing benchmarks, such as MVTec AD and VisA, are nearing saturation, complicating the identification of genuine advancements in the field. To address this, they introduce the MVTec AD 2 dataset, designed to present more complex anomaly detection scenarios, thereby fostering the development of innovative methods and facilitating more equitable comparisons among them.
Results
In the results section, the study investigates the impact of varying the segmentation threshold \( t_{\text{seg}} \), computed as the mean plus \( k \) times the standard deviation of pixel-level anomaly scores from anomaly-free validation images. The analysis is divided into threshold-independent and threshold-dependent results, with a focus on pixel and image-level performance metrics as \( k \) varies across different image sizes.
The findings reveal that higher values of \( k \) generally yield improved segmentation performance, as indicated by the Segmentation F1 score presented in Tables 16, 17, and 18. Conversely, the Classification F1 score, detailed in Tables 19, 20, and 21, shows that smaller values of \( k \) can match or exceed the performance of larger \( k \). This discrepancy is attributed to the relationship between the segmentation and classification thresholds, where an increase in \( t_{\text{seg}} \) leads to fewer pixels and images being classified as anomalous, thereby increasing the likelihood of false negatives. The results underscore the necessity for advanced threshold estimation techniques that effectively integrate segmentation and classification outcomes.
Discussion
In the discussion section, the paper reviews the current landscape of anomaly detection datasets and methods relevant to industrial visual quality control. It highlights the necessity of pixel-precise segmentation ground truth for evaluating anomaly detection systems. Key datasets such as MVTec AD, VisA, and MVTec LOCO AD are discussed, noting their contributions to the field and the saturation of performance levels achieved by existing models. For instance, MVTec AD has seen models reach a mean AU-PRO of 97.8%, indicating limited scope for further advancements. The authors emphasize that while new datasets like Real-IAD and Eyecandies introduce novel scenarios, they often replicate existing challenges, thus limiting their utility for groundbreaking research.
The introduction of MVTec AD 2 is presented as a response to these limitations, offering a diverse set of 8,004 high-resolution images across eight object categories, each designed to present unique challenges for unsupervised anomaly detection. The dataset includes variations in lighting conditions and object appearances, which are critical for simulating real-world inspection scenarios. The authors detail the rigorous process of creating high-quality pixel-precise ground truth annotations, ensuring that the dataset adheres to the stringent requirements of unsupervised anomaly detection. Overall, MVTec AD 2 aims to facilitate the development of more robust anomaly detection methods capable of addressing the complexities encountered in industrial applications, particularly under varying environmental conditions.
Limitations
The limitations section of the research paper highlights several areas for future work and improvements related to the MVTec AD 2 dataset. While the authors benchmarked eight state-of-the-art models, they plan to expand this evaluation to include additional methods, particularly vision-language models (VLMs) like Win-CLIP and AnomalyGPT. However, these models currently struggle with production cycle time constraints, as evidenced by Win-CLIP’s inference time of approximately 390 ms per image. Qualitative results indicate that even advanced VLMs, such as GPT-4o-mini and Gemini 2.5 Flash, face significant challenges with MVTec AD 2, suggesting that a more detailed evaluation of VLM-based approaches, including textual descriptions for object categories, could enhance understanding and performance in industrial anomaly detection.
The authors also propose improvements in threshold estimation methods to better correlate threshold-independent and threshold-dependent metrics. They suggest exploring innovative designs that eliminate the need for threshold selection entirely. Additionally, they recommend investigating data augmentation techniques, such as brightness variation, to address performance discrepancies under different lighting conditions. Efficient processing strategies for large input images, including tiling and multi-scale approaches, warrant further exploration. Lastly, the authors advocate for the establishment of publicly available benchmark servers to standardize efficiency measurements in terms of inference runtime and memory consumption, particularly for embedded devices that reflect typical industrial hardware constraints.
