DOI: https://doi.org/10.1007/s11119-025-10252-2
تاريخ النشر: 2025-06-03
المؤلف: Fan Zhao وآخرون
الموضوع الرئيسي: تقنيات معالجة الصور المتقدمة
نظرة عامة
تقدم هذه الدراسة إطارًا جديدًا يجمع بين إعادة البناء الفائق الدقة المعتمد على التعلم العميق (SRR) والتقسيم الدلالي لتعزيز تقييم نضج التوت الأزرق، مع معالجة قيود طرق الفحص اليدوي التقليدية. يعمل نموذج SRR على تحسين دقة الصورة، مما يسهل استخراج الميزات التفصيلية، بينما يتم استخدام نماذج تقسيم دلالي متنوعة – بما في ذلك الشبكات العصبية التلافيفية (CNNs)، والهياكل المعتمدة على المحولات، ونموذج الحالة المعتمد على Mamba – لتحسين دقة التقسيم. تظهر النتائج التجريبية أن نموذج MambaIR يحقق مقياس مؤشر التشابه الهيكلي (SSIM) بنسبة 82.26% في مهام SRR، ويصل نموذج التقسيم المعتمد على Mamba إلى متوسط تقاطع على الاتحاد (mIoU) بنسبة 83.15%.
إن دمج SRR والتقسيم الدلالي لا يعزز فقط الدقة التقنية لاكتشاف النضج، بل يظهر أيضًا وعدًا لتطبيقات فعالة من حيث التكلفة في الزراعة الدقيقة في الوقت الحقيقي. تؤكد الدراسة على أهمية التحكم في تدهور البيانات، حيث تتحسن دقة التقسيم مع التكبير حتى 4x، بينما تؤثر الضبابية المفرطة ومستويات الضوضاء العالية سلبًا على الأداء. ستركز الأبحاث المستقبلية على تحسين بنية Mamba لظروف بيئية وأنماط بيانات متنوعة، مع التركيز على المراقبة التفصيلية لمراحل نضج التوت الأزرق وتوقع العائد على مستوى البكسل، مما يساهم في التقدم في إدارة الزراعة الذكية وتحسين استخدام الموارد.
مقدمة
تناقش مقدمة ورقة البحث أهمية Vaccinium corymbosum، أو التوت الأزرق، مع تسليط الضوء على ملفها الغذائي الغني، ومحتواها العالي من الأنثوسيانين، والفوائد الصحية المرتبطة بها، مثل دعم صحة الشبكية وتقليل خطر الإصابة بالسرطان. أدى الطلب العالمي المتزايد على التوت الأزرق إلى زيادة في المزارع، مما جعلها محصولًا نقديًا حيويًا. ومع ذلك، فإن طرق الحصاد اليدوي التقليدية تطرح تحديات في تقييم نضج الفاكهة بدقة، وهو أمر حاسم نظرًا لأن التوت الأزرق لا ينضج بعد الحصاد. وقد أثار هذا اهتمامًا بالحلول الآلية، وخاصة تلك التي تستخدم تقنيات الرؤية الحاسوبية والطائرات بدون طيار، لتعزيز كفاءة الحصاد وتقييم النضج.
تستعرض الورقة التقدم في تقنيات الرؤية الحاسوبية، وخاصة الشبكات العصبية التلافيفية (CNNs)، التي أظهرت وعدًا في تصنيف نضج الفاكهة. على الرغم من التقدم، لا تزال هناك تحديات في تقييم نضج التوت الأزرق بدقة بسبب العوامل البيئية والتعقيدات الكامنة في مجموعات التوت الأزرق. تقترح الدراسة نهجًا جديدًا يجمع بين إعادة البناء الفائق الدقة (SRR) والتقسيم الدلالي لتحسين تقييم النضج. من خلال بناء مجموعة بيانات SRR المعتمدة على التعلم العميق وتقييم جودة الصورة من خلال مقاييس مثل نسبة الذروة للإشارة إلى الضوضاء (PSNR) ومؤشر التشابه الهيكلي (SSIM)، تهدف الأبحاث إلى تعزيز دقة اكتشاف النضج في مزارع التوت الأزرق، مع معالجة الفجوات الحالية في اكتساب البيانات المعتمدة على الطائرات بدون طيار والتحليلات المقارنة لهياكل SRR.
الطرق
تنطوي منهجية هذه الدراسة على نهج منهجي لإعادة بناء الصور منخفضة الدقة (LR) لمزارع التوت الأزرق إلى صور عالية الدقة (HR) باستخدام نماذج إعادة البناء الفائق الدقة (SRR) المختلفة. في البداية، يتم تقليل دقة الصور عالية الدقة الملتقطة بواسطة طائرة بدون طيار من الدرجة الاستهلاكية بدقة $512 \times 512$ بكسل إلى $128 \times 128$ بكسل. يتم تعلم الخريطة غير الخطية بين الصور منخفضة الدقة وعالية الدقة من خلال نماذج SRR المختارة، والتي تشمل Real-ESRGAN وSRCNN وEDSR وSwinIR وRCAN وHAT وMambaIR. ثم يتم تقسيم الصور المعاد بناؤها بدقة فائقة (SR) على مستوى البكسل باستخدام نموذج تقسيم مدرب مسبقًا، والذي يصنف البكسلات التي تتوافق مع فاكهة التوت الأزرق. يتم تحليل أداء خوارزميات SRR بشكل كمي بناءً على نتائج التقسيم، مما يسمح بتقييم توزيع التوت الأزرق ونضجه عبر المزرعة.
يتكون الإعداد التجريبي من ثلاث مراحل لعملية SRR: التدريب، وإعادة البناء، والتقييم. تم تدريب كل نموذج على نفس مجموعة بيانات HR لمدة 300 دورة مع حجم دفعة قدره 16، باستخدام معدل تعلم أولي قدره $0.00005$ تم تحسينه باستخدام خوارزمية آدم. بالنسبة لمهمة التقسيم الدلالي، تم استخدام هيكل ثلاثي المراحل مشابه، مع تدريب النماذج على صور HR لمدة 20,000 تكرار، باستخدام حجم دفعة قدره 8 ومعدل تعلم أولي قدره $1 \times 10^{-5}$. شملت مقاييس التقييم لجودة إعادة البناء نسبة الذروة للإشارة إلى الضوضاء (PSNR) ومؤشر التشابه الهيكلي (SSIM)، بينما تم قياس دقة التقسيم باستخدام تقاطع على الاتحاد (IoU) ومتوسط تقاطع على الاتحاد (mIoU). تم إجراء التدريب والاستدلال على موارد حوسبة عالية الأداء، مما يضمن إمكانية إعادة الإنتاج والاتساق في تقييم كل من مهام إعادة بناء الصور والتقسيم الدلالي.
النتائج
تقدم قسم النتائج خريطة توزيع لنضج التوت الأزرق، معززة بتقسيم على مستوى البكسل يصنف التوت الأزرق إلى فئات ناضجة وغير ناضجة. تكشف التحليلات أن الفواكه الناضجة تشكل 31% من الإجمالي، مما يوفر للمزارعين رؤى حاسمة لتحسين توقيت الحصاد. تتيح هذه الدقة للمزارعين مواءمة حصادهم مع الطلب في السوق، مما يقلل من الفاقد ويحسن جودة المنتجات. في المناطق الزراعية التي تتطلب عمالة كثيفة، مثل الصين، يمكن أن تخفف هذه الخرائط التقسيمية بشكل كبير من نقص العمالة خلال المواسم الذروة وتعزز الكفاءة التشغيلية.
علاوة على ذلك، فإن دمج الصور الملتقطة بواسطة الطائرات بدون طيار مع التقسيم الدلالي وتحسين الدقة المكانية (SRR) يقدم حلاً قابلاً للتوسع وفعالاً من حيث التكلفة لإدارة الزراعة. يتيح هذا النهج للمزارعين من الحجم الصغير إلى المتوسط الوصول إلى رؤى عالية الدقة دون عبء المعدات المكلفة، مما يساهم في ديمقراطية تقنيات المراقبة المتقدمة. تحول التصورات البيانات الخام إلى معلومات قابلة للتنفيذ، مما يمكّن المزارعين من اتخاذ قرارات مستنيرة تعزز صحة المحاصيل والعائد. بشكل عام، تؤكد النتائج على الإمكانيات التحويلية لتقنيات الطائرات بدون طيار والرؤية الحاسوبية في الزراعة الحديثة، مما يسهل المراقبة في الوقت الحقيقي وإدارة الموارد.
المناقشة
أجريت الدراسة في مزرعة توت أزرق في مقاطعة تشينغجيانغ، الصين، باستخدام طائرة DJI Mini 3 لجمع البيانات، حيث تم التقاط الصور في ظروف مثالية لضمان تنوع مراحل نضج التوت الأزرق. خضعت صور الطائرات بدون طيار لمرحلة معالجة مسبقة صارمة، بما في ذلك القص، وتقليل الدقة، وزيادة البيانات، مما وسع مجموعة البيانات بشكل كبير وحسن من قوة نماذج التعلم الآلي. استخدمت الأبحاث تقنيات إعادة البناء الفائق الدقة المعتمدة على التعلم العميق (SRR)، مقارنة بين سبع هياكل مختلفة، بما في ذلك Real-ESRGAN وMambaIR، لتعزيز الصور منخفضة الدقة. أظهر MambaIR أداءً متفوقًا، محققًا نسبة ذروة للإشارة إلى الضوضاء (PSNR) قدرها 30.87 ديسيبل ومؤشر تشابه هيكلي (SSIM) قدره 82.26%، مما يدل على فعاليته في الحفاظ على جودة الصورة الضرورية للتطبيقات الزراعية.
بالنسبة لمهمة التقسيم الدلالي، نفذت الدراسة ثمانية هياكل لتقييم نضج التوت الأزرق، محققة دقة عالية في تصنيف الفواكه الناضجة وغير الناضجة. حققت النماذج الأفضل أداءً، وخاصة تلك التي تستخدم هياكل ResNeXt101_32 × 8 d وDPT، قيم متوسط تقاطع على الاتحاد (mIoU) قدرها 81.54 و81.87، على التوالي. تؤكد هذه النتائج على إمكانيات تقنيات التعلم العميق في تحليل الصور الزراعية، مما يعزز دقة تقييمات النضج ويساهم في تحسين الممارسات الزراعية. تسلط النتائج الضوء على أهمية اختيار النموذج والبنية في تحقيق الأداء الأمثل في كل من مهام إعادة البناء الفائق الدقة والتقسيم في السياقات الزراعية.
DOI: https://doi.org/10.1007/s11119-025-10252-2
Publication Date: 2025-06-03
Author(s): Fan Zhao et al.
Primary Topic: Advanced Image Processing Techniques
Overview
This study introduces a novel framework that combines deep learning-based super-resolution reconstruction (SRR) with semantic segmentation to enhance the assessment of blueberry maturity, addressing the limitations of traditional manual inspection methods. The SRR module improves image resolution, facilitating detailed feature extraction, while various semantic segmentation models—including convolutional neural networks (CNNs), Transformer-based architectures, and a Mamba-based state space model—are employed to refine segmentation accuracy. Experimental results demonstrate that the MambaIR model achieves a structural similarity index measure (SSIM) of 82.26% in SRR tasks, and the Mamba-based segmentation model reaches a mean Intersection over Union (mIoU) of 83.15%.
The integration of SRR and semantic segmentation not only enhances the technical accuracy of maturity detection but also shows promise for real-time, cost-effective applications in precision agriculture. The study emphasizes the importance of controlling data degradation, as segmentation accuracy improves with magnification up to 4x, while excessive blurring and high noise levels negatively impact performance. Future research will focus on refining the Mamba architecture for diverse environmental conditions and data modalities, with an emphasis on detailed monitoring of blueberry maturity stages and pixel-based yield prediction, ultimately contributing to advancements in smart agricultural management and optimized resource utilization.
Introduction
The introduction of the research paper discusses the significance of Vaccinium corymbosum, or blueberries, highlighting their nutrient-dense profile, rich anthocyanin content, and associated health benefits, such as supporting retinal health and reducing cancer risk. The increasing global demand for blueberries has led to a rise in plantations, making them a vital cash crop. However, traditional manual harvesting methods pose challenges in accurately assessing fruit maturity, which is crucial since blueberries do not ripen post-harvest. This has spurred interest in automated solutions, particularly those utilizing computer vision and UAV technologies, to enhance harvesting efficiency and maturity assessment.
The paper reviews advancements in computer vision techniques, particularly convolutional neural networks (CNNs), which have shown promise in fruit maturity classification. Despite progress, challenges remain in accurately assessing blueberry maturity due to environmental factors and the inherent complexities of blueberry clusters. The study proposes a novel approach combining super-resolution reconstruction (SRR) and semantic segmentation to improve maturity assessment. By constructing a deep learning-based SRR dataset and evaluating image quality through metrics like peak signal-to-noise ratio (PSNR) and structural similarity index (SSIM), the research aims to enhance the accuracy of maturity detection in blueberry plantations, addressing existing gaps in UAV-based data acquisition and comparative analyses of SRR architectures.
Methods
The methodology of this study involves a systematic approach to reconstructing low-resolution (LR) images of blueberry plantations into high-resolution (HR) images using various super-resolution reconstruction (SRR) models. Initially, HR images captured by a consumer-grade UAV at a resolution of $512 \times 512$ pixels are downsampled to $128 \times 128$ pixels. The nonlinear mapping between LR and HR images is learned through selected SRR models, which include Real-ESRGAN, SRCNN, EDSR, SwinIR, RCAN, HAT, and MambaIR. The reconstructed super-resolution (SR) images are then segmented at the pixel level using a pre-trained segmentation model, which classifies pixels corresponding to blueberry fruit. The performance of the SRR algorithms is quantitatively analyzed based on segmentation results, allowing for an evaluation of blueberry distribution and ripeness across the plantation.
The experimental setup consists of three phases for the SRR process: training, reconstruction, and evaluation. Each model was trained on the same HR dataset for 300 epochs with a batch size of 16, utilizing an initial learning rate of $0.00005$ optimized with the Adam algorithm. For the semantic segmentation task, a similar three-phase structure was employed, with models trained on HR images for 20,000 iterations, using a batch size of 8 and an initial learning rate of $1 \times 10^{-5}$. Evaluation metrics for reconstruction quality included Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity Index (SSIM), while segmentation accuracy was measured using Intersection over Union (IoU) and mean Intersection over Union (mIoU). The training and inference were conducted on high-performance computing resources, ensuring reproducibility and consistency in the evaluation of both image reconstruction and semantic segmentation tasks.
Results
The results section presents a distribution map of blueberry maturity, enhanced by pixel-level segmentation that categorizes blueberries into ripe and unripe categories. The analysis reveals that mature fruits constitute 31% of the total, providing growers with critical insights for optimizing harvest timing. This precision allows farmers to align their harvests with market demand, thereby minimizing waste and improving produce quality. In labor-intensive agricultural regions, such as China, these segmentation maps can significantly alleviate labor shortages during peak seasons and enhance operational efficiency.
Furthermore, the integration of UAV-captured imagery with semantic segmentation and spatial resolution refinement (SRR) offers a scalable and cost-effective solution for agricultural management. This approach enables small- to medium-scale farmers to access high-resolution insights without the burden of expensive equipment, thereby democratizing advanced monitoring techniques. The visualizations transform raw data into actionable information, empowering farmers to make informed decisions that enhance crop health and yield. Overall, the findings underscore the transformative potential of UAV and computer vision technologies in modern agriculture, facilitating real-time monitoring and resource management.
Discussion
The study conducted in a blueberry plantation in Chengjiang County, China, utilized a DJI Mini 3 drone for data collection, capturing images under optimal conditions to ensure diversity in blueberry maturity stages. The UAV images underwent a rigorous preprocessing phase, including cropping, downsampling, and data augmentation, which significantly expanded the dataset and improved the robustness of machine learning models. The research employed deep learning-based super-resolution reconstruction (SRR) techniques, comparing seven different architectures, including Real-ESRGAN and MambaIR, to enhance low-resolution images. MambaIR demonstrated superior performance, achieving a Peak Signal-to-Noise Ratio (PSNR) of 30.87 dB and a Structural Similarity Index (SSIM) of 82.26%, indicating its effectiveness in preserving image quality essential for agricultural applications.
For the semantic segmentation task, the study implemented eight architectures to assess blueberry ripeness, achieving high accuracy in classifying ripe and unripe fruits. The best-performing models, particularly those utilizing the ResNeXt101_32 × 8 d and DPT architectures, reached mean Intersection over Union (mIoU) values of 81.54 and 81.87, respectively. These results underscore the potential of deep learning techniques in agricultural image analysis, enhancing the precision of maturity assessments and contributing to improved agricultural practices. The findings highlight the importance of model selection and architecture in achieving optimal performance in both super-resolution and segmentation tasks within agricultural contexts.
