DOI: https://doi.org/10.1080/15481603.2026.2626022
تاريخ النشر: 2026-02-26
المؤلف: Shaocong Zhu وآخرون
الموضوع الرئيسي: الاستشعار عن بعد واستخدام الأراضي
نظرة عامة
في هذه الدراسة، يقدم المؤلفون طريقة للكشف عن السحب تحت إشراف ضعيف تُسمى SpecMCD، والتي تدمج الميزات الطيفية مع شبكة عميقة على مستوى المشهد متعددة المقاييس لتعزيز دقة أقنعة السحب على مستوى البكسل. تتناول الطريقة التحديات التي تطرحها السحب الرقيقة وعينات التدريب ذات الجودة المنخفضة من خلال استخدام إطار تدريب تدريجي يستفيد من مجموعة بيانات على مستوى المشهد متعددة المقاييس. تنتج هذه الطريقة خرائط احتمالية للسحب على مستوى البكسل من خلال دمج خرائط الاحتمالية متعددة المقاييس مع خريطة سمك السحب، مصممة خصيصًا لخصائص تغطية السحب الكثيفة. يتم إنتاج أقنعة السحب الثنائية النهائية باستخدام عتبات تكيفية مشتقة من أقنعة السحب على مستوى المشهد المتميزة والمُحسّنة من خلال طريقة وزن المسافة.
تم التحقق من فعالية SpecMCD باستخدام مجموعتين من البيانات، WDCD و GF1MS-WHU، تتضمن 60 صورة متعددة الطيف من Gaofen-1. تشير النتائج إلى تحسين كبير في درجة F1، تجاوزت 7.82% مقارنة بالطرق الحالية تحت الإشراف الضعيف مثل WDCD و WSFNet، لا سيما في تقليل أخطاء الإغفال للسحب الرقيقة. تقدم الطريقة المقترحة العديد من المزايا، بما في ذلك شبكة موحدة لعينات المشهد متعددة المقاييس، واستراتيجية معالجة متميزة لأنواع السحب، وتقليل الاعتماد على تعديلات العتبة اليدوية. ومع ذلك، يعترف المؤلفون بأن التمييز بين السحب والثلج لا يزال يمثل تحديًا ويقترحون أبحاثًا مستقبلية لتعزيز قدرات الكشف في مناطق السحب الكثيفة وتحسين تمييز السحب والثلج من خلال إطار مدفوع بالبيانات.
مقدمة
تناقش مقدمة ورقة البحث التحديات التي تطرحها تغطية السحب في صور الأقمار الصناعية البصرية عالية الدقة، والتي يمكن أن تؤدي إلى فقدان كبير في المعلومات. يمكن أن تحجب السحب الكثيفة مناطق كاملة، بينما قد تسبب السحب الرقيقة تشويشًا طيفيًا. لمعالجة هذه القضايا، تم تطوير تقنيات مختلفة للكشف عن السحب، تركز بشكل أساسي على تحديد وتجزئة مناطق السحب بدقة لتعزيز قابلية استخدام صور الأقمار الصناعية لتطبيقات مثل إعادة بناء الصور ورسم خرائط استخدام الأراضي. تصنف الورقة طرق الكشف عن السحب الحالية إلى نوعين رئيسيين: تلك المعتمدة على الصور متعددة الزمن، والتي تقتصر على الحاجة إلى صور متعددة على مر الزمن، وتلك المعتمدة على الصور الفردية، والتي يمكن تقسيمها إلى طرق قائمة على القواعد الفيزيائية وطرق قائمة على التعلم الآلي.
يسلط المؤلفون الضوء على قيود الأساليب الحالية، لا سيما في الكشف عن السحب الرقيقة، التي غالبًا ما يتم تمثيلها بشكل غير كافٍ في مجموعات البيانات الحالية. يقترحون طريقة جديدة للكشف عن السحب تحت إشراف ضعيف تُسمى SpecMCD، والتي تدمج خريطة سمك السحب (CTM) مع شبكة عميقة على مستوى المشهد متعددة المقاييس. تهدف هذه الطريقة إلى تعزيز الكشف عن كل من السحب الكثيفة والرقيقة من خلال إنتاج خرائط احتمالية للسحب متعددة المقاييس واستخدام العتبة التكيفية لاستخراج الأقنعة الثنائية. تعالج الطريقة المقترحة تحديات متطلبات بيانات التدريب العالية، وقدرات الكشف المحدودة عن السحب الرقيقة، وقيود مجموعات البيانات أحادية المقياس، مما يسهم في الكشف عن السحب بدقة أكبر وأتمتة في صور الأقمار الصناعية.
طرق
في قسم الطرق، يتم تقييم أداء تقنيات الكشف عن السحب تحت الإشراف الضعيف المختلفة، بما في ذلك SpecMCD المقترحة، مقارنة بالطرق تحت الإشراف الضعيف والكامل. تكشف التحليلات أنه بينما تتفوق الطرق القائمة على القواعد الفيزيائية مثل HCDNet و TransMCD في الكشف عن السحب الكثيفة، فإنها تعاني بشكل كبير مع السحب الرقيقة، لا سيما في سيناريوهات تغطية السحب الكثيفة. تظهر الشبكات الأساسية على مستوى المشهد مزايا في تغطية السحب على نطاق واسع ولكنها تصنف بشكل خاطئ المناطق الخالية من السحب، مما يؤدي إلى أخطاء ملحوظة. تميل WSFNet، التي تركز على ميزات السحب الرقيقة، إلى تجاهل السحب الكثيفة، مما يؤدي إلى إغفالات كبيرة. تعزز WDCD الدقة في السحب الكثيفة ولكنها عرضة للأخطاء الصغيرة في المناطق الكبيرة. بالمقابل، تستخدم SpecMCD استراتيجيات متميزة لتغطيات السحب المتنوعة، مما يظهر أداءً متفوقًا في كل من المناطق الكبيرة والسحب الكثيفة، على الرغم من أنها تؤدي بشكل مشابه لـ SL-64 بالقرب من المناطق الحضرية ذات مقاييس نسيج السحب العالية (CTM).
عند مقارنتها بالطرق تحت الإشراف الكامل مثل BoundaryNet و HCDNet-Pixel و RegNetY، تتفوق SpecMCD على هذه التقنيات في الدقة العامة (OA) ودرجة F2 بأكثر من 1.59% و 1.40%، على التوالي. تحقق الطرق تحت الإشراف الكامل درجات F1 عالية تتجاوز 0.88 ولكنها لا تزال تواجه تحديات مع السحب الرقيقة والضباب بسبب الميزات الطيفية غير الواضحة. تشير نتائج التصور إلى أنه بينما تتفوق BoundaryNet في مناطق السحب الكثيفة، فإنها تفشل في الكشف عن المناطق الكبيرة. تظهر HCDNet-Pixel كشفًا أفضل للسحب الرقيقة ولكنها تتكبد أخطاء صغيرة، بينما تقدم RegNetY أداءً متوازنًا. على الرغم من نقاط القوة في الطرق تحت الإشراف الكامل، فإن قدرة SpecMCD على الكشف عن تغطية السحب على نطاق واسع بشكل شامل تمثل تقدمًا كبيرًا، على الرغم من أنها لا تزال تظهر بعض الأخطاء في المناطق الكثيفة وتفتقر إلى التقاط التفاصيل الدقيقة مثل نظرائها تحت الإشراف الكامل.
نقاش
تتكون الطريقة المقترحة للكشف عن السحب، SpecMCD، من عملية من أربع خطوات تعزز دقة خرائط احتمالية السحب من خلال إطار تدريب تدريجي ودمج الميزات الطيفية. في البداية، يتم إنشاء شبكات على مستوى المشهد متعددة المقاييس باستخدام مجموعة بيانات تتضمن صورًا بثلاث دقة (256×256، 128×128، و 64×64) لالتقاط تغطية السحب المتنوعة بشكل فعال. تستخدم الطريقة تحليل القيمة الفردية (SVD) لتقدير خريطة سمك السحب (CTM)، والتي يتم دمجها بعد ذلك مع خرائط احتمالية السحب متعددة المقاييس لإنتاج خرائط احتمالية للسحب على مستوى البكسل. تعالج هذه الطريقة قيود مجموعات البيانات الحالية على مستوى المشهد، التي غالبًا ما تفشل في الكشف بدقة عن السحب ذات السماكات المختلفة، لا سيما السحب الرقيقة.
تم التحقق من فعالية إطار التدريب التدريجي من خلال تجارب مقارنة، مما يظهر تحسينات كبيرة في الدقة العامة، والاسترجاع، ودرجة F1، ودرجة F2 عند استخدام التدريب متعدد المقاييس مقارنة بالشبكات أحادية المقياس. بالإضافة إلى ذلك، تكشف تحليلات الحساسية أن طريقة SpecMCD قوية أمام التغيرات في المعلمات الفائقة، مثل حجم نافذة التصفية المتوسطة والعتبات لأقنعة الحدود الثنائية. على الرغم من بعض التحديات في تحديد السحب الرقيقة بدقة، فإن دمج العتبة التكيفية وتحسين الوزن عن بُعد يعزز أداء الطريقة، مما يجعلها نهجًا واعدًا للكشف عن السحب في سيناريوهات التصوير المتنوعة. بشكل عام، تمثل SpecMCD تقدمًا كبيرًا في الكشف عن السحب تحت الإشراف الضعيف، مما يقلل بشكل فعال من الإغفالات في أقنعة السحب الثنائية ويحسن تمثيل توزيعات السحب.
القيود
تتعلق قيود طريقة SpecMCD للكشف عن السحب بشكل أساسي بأدائها في سيناريوهات السحب الكثيفة واعتمادها على النطاقات المرئية لاستخراج الميزات الطيفية. بينما تتفوق SpecMCD في إنتاج أقنعة سحب على مستوى البكسل من تسميات على مستوى المشهد وتظهر كشفًا متفوقًا للسحب في الصور الكبيرة مقارنة بالطرق تحت الإشراف الكامل، فإنها تعاني من تصنيف خاطئ للثلج كسحب، لا سيما عندما تفشل الشبكة متعددة المقاييس على مستوى المشهد في التمييز بين الاثنين. تتفاقم هذه المشكلة في المناطق ذات تغطية السحب الرقيقة، حيث يبقى الكشف الدقيق تحديًا.
يهدف العمل المستقبلي إلى تعزيز دقة الكشف عن السحب في المناطق الكثيفة من خلال دمج الشبكات على مستوى البكسل والشبكات على مستوى المشهد. للتخفيف من التصنيف الخاطئ بين السحب والثلج، يخطط الباحثون لدمج عينات سحب-ثلج موسومة يدويًا في إطار الشبكة متعددة المقاييس. بالإضافة إلى ذلك، يعتزمون دمج طرق لإزالة السحب الرقيقة غير المكتشفة واستكشاف دمج شبكة كشف ظل السحب تحت الإشراف الكامل مع قيود شكلية لتحسين قدرات كشف الظل. من المتوقع أن تعالج هذه التطورات القيود الحالية وتحسن الأداء العام للكشف عن السحب.
DOI: https://doi.org/10.1080/15481603.2026.2626022
Publication Date: 2026-02-26
Author(s): Shaocong Zhu et al.
Primary Topic: Remote Sensing and Land Use
Overview
In this study, the authors introduce a weakly supervised cloud detection method named SpecMCD, which integrates spectral features with a multi-scale scene-level deep network to enhance the accuracy of pixel-level cloud masks. The method addresses the challenges posed by thin clouds and low-quality training samples by employing a progressive training framework that utilizes a multi-scale scene-level dataset. This approach generates pixel-level cloud probability maps by merging multi-scale probability maps with a cloud thickness map, tailored to the characteristics of dense cloud coverage. The final binary cloud masks are produced using adaptive thresholds derived from differentiated scene-level cloud masks and optimized through a distance-weighted method.
The effectiveness of SpecMCD was validated using two datasets, WDCD and GF1MS-WHU, comprising 60 Gaofen-1 multispectral images. The results indicate a significant improvement in the F1-score, exceeding 7.82% compared to existing weakly supervised methods like WDCD and WSFNet, particularly in reducing omission errors for thin clouds. The proposed method offers several advantages, including a unified network for multi-scale scene-level samples, a differentiated processing strategy for cloud types, and reduced reliance on manual threshold adjustments. However, the authors acknowledge that distinguishing between clouds and snow remains a challenge and suggest future research to enhance detection capabilities in dense cloud regions and improve cloud-snow discrimination through a data-driven framework.
Introduction
The introduction of the research paper discusses the challenges posed by cloud cover in high-resolution optical satellite imagery, which can lead to significant information loss. Thick clouds can obscure entire areas, while thin clouds may cause spectral distortion. To address these issues, various cloud detection techniques have been developed, primarily focusing on accurately identifying and segmenting cloud regions to enhance the usability of satellite images for applications such as image reconstruction and land-cover mapping. The paper categorizes existing cloud detection methods into two main types: those based on multi-temporal images, which are limited by the need for multiple images over time, and those based on single images, which can be further divided into physical rule-based and machine learning-based methods.
The authors highlight the limitations of current approaches, particularly in detecting thin clouds, which are often inadequately represented in existing datasets. They propose a novel weakly supervised cloud detection method called SpecMCD, which integrates a cloud thickness map (CTM) with a multi-scale scene-level deep network. This method aims to enhance the detection of both thick and thin clouds by generating multi-scale cloud probability maps and employing adaptive thresholding for binary mask extraction. The proposed approach addresses the challenges of high training data requirements, limited thin cloud detection capabilities, and the constraints of single-scale datasets, ultimately contributing to more accurate and automated cloud detection in satellite imagery.
Methods
In the methods section, the performance of various weakly supervised cloud detection techniques, including the proposed SpecMCD, is evaluated against both weakly and fully supervised methods. The analysis reveals that while physics rule-based methods like HCDNet and TransMCD excel in detecting thick clouds, they struggle significantly with thin clouds, particularly in dense cloud cover scenarios. Baseline scene-level networks demonstrate advantages in large-area cloud coverage but misclassify cloud-free regions, leading to notable errors. WSFNet, focused on thin cloud features, tends to overlook thick clouds, resulting in major omissions. WDCD enhances precision in dense clouds but is prone to minor misdetections in large areas. In contrast, SpecMCD employs differentiated strategies for varying cloud coverage, showing superior performance in both large-area and dense cloud regions, although it performs similarly to SL-64 near urban areas with high cloud texture metrics (CTM).
When compared to fully supervised methods such as BoundaryNet, HCDNet-Pixel, and RegNetY, SpecMCD outperforms these techniques in overall accuracy (OA) and F2 score by over 1.59% and 1.40%, respectively. Fully supervised methods achieve high F1-scores exceeding 0.88 but still face challenges with thin clouds and haze due to indistinct spectral features. Visualization results indicate that while BoundaryNet excels in dense cloud regions, it fails in large-area detection. HCDNet-Pixel shows better thin cloud detection but incurs minor misdetections, while RegNetY offers balanced performance. Despite the strengths of fully supervised methods, SpecMCD’s ability to detect large-area cloud coverage comprehensively marks a significant advancement, although it still exhibits some misdetection in dense regions and lacks the fine detail capture of its fully supervised counterparts.
Discussion
The proposed method for cloud detection, SpecMCD, consists of a four-step process that enhances the accuracy of cloud probability maps through a progressive training framework and the integration of spectral features. Initially, multi-scale scene-level networks are generated using a dataset that includes images at three resolutions (256×256, 128×128, and 64×64) to effectively capture varying cloud coverage. The method employs singular value decomposition (SVD) to estimate a cloud thickness map (CTM), which is then combined with the multi-scale cloud probability maps to produce pixel-level cloud probability maps. This approach addresses the limitations of existing scene-level datasets, which often fail to accurately detect clouds of different thicknesses, particularly thin clouds.
The effectiveness of the progressive training framework is validated through comparative experiments, demonstrating significant improvements in overall accuracy, recall, F1-score, and F2-score when using multi-scale training compared to single-scale networks. Additionally, sensitivity analyses reveal that the SpecMCD method is robust to variations in hyperparameters, such as the mean filtering window size and thresholds for binary gradient boundary masks. Despite some challenges in accurately delineating thin clouds, the integration of adaptive thresholding and distance-weighted optimization enhances the method’s performance, making it a promising approach for cloud detection in diverse imaging scenarios. Overall, SpecMCD represents a significant advancement in weakly supervised cloud detection, effectively reducing omissions in binary cloud masks and improving the representation of cloud distributions.
Limitations
The limitations of the SpecMCD method for cloud detection are primarily related to its performance in dense cloud scenarios and its reliance on visible bands for spectral feature extraction. While SpecMCD excels in generating pixel-level cloud masks from scene-level labels and demonstrates superior cloud detection in large-area images compared to fully supervised methods, it struggles with misclassifying snow as cloud, particularly when the multi-scale scene-level network fails to differentiate between the two. This issue is exacerbated in regions with thin cloud cover, where accurate detection remains challenging.
Future work aims to enhance the accuracy of cloud detection in dense regions by integrating pixel-level and scene-level networks. To mitigate misclassification between clouds and snow, the researchers plan to incorporate manually labeled cloud-snow samples into the multi-scale network framework. Additionally, they intend to integrate methods for removing undetected thin clouds and explore the combination of a fully supervised cloud shadow detection network with morphological constraints to improve shadow detection capabilities. These advancements are expected to address the current limitations and improve overall cloud detection performance.
