DOI: https://doi.org/10.1186/s13007-025-01382-9
PMID: https://pubmed.ncbi.nlm.nih.gov/40369645
تاريخ النشر: 2025-05-14
المؤلف: Yunlong Wu وآخرون
الموضوع الرئيسي: الاستشعار عن بعد واستخدام الأراضي
نظرة عامة
تقدم الدراسة H-RT-DETR (المحول الهيراركي للكشف في الوقت الحقيقي)، وهو نموذج جديد مصمم لمراقبة وعدّ إنبات بذور الذرة في مرحلة الشتلات باستخدام صور الاستشعار عن بعد بواسطة الطائرات بدون طيار. تعتبر الطرق التقليدية للمراقبة غير فعالة وعرضة للأخطاء، مما يستدعي الحاجة إلى حل أكثر فعالية. يستفيد H-RT-DETR من استخراج الميزات الهرمية وآلية الانتباه الذاتي الفعالة لتعزيز قدرة النموذج على اكتشاف شتلات الذرة في بيئات معقدة. تظهر النتائج التجريبية أن H-RT-DETR يحقق متوسط دقة (mAP) يبلغ 51.2% (mAP0.5 = 94.7%، mAP0.75 = 48.1%) ومتوسط استرجاع (AR) يبلغ 68.5%.
فيما يتعلق بالأداء، يتفوق H-RT-DETR على نماذج التعرف على الأهداف الحالية، محققًا سرعة كشف تبلغ 84 إطارًا في الثانية (FPS) دون الحاجة إلى قمع غير الأقصى (NMS)، متجاوزًا YOLOv5 وYOLOv7 وYOLOv8 وYOLOX بفارق كبير. تم الإبلاغ عن معدلات الدقة والاسترجاع للنموذج في تجارب العد بنسبة 99.88% و98.81%، على التوالي، مما يدل على دقته العالية في التعرف على شتلات الذرة. بشكل عام، يظهر H-RT-DETR إمكانيات كبيرة لمراقبة وإدارة المحاصيل في الوقت الحقيقي، مما يوفر أداة قوية للتطبيقات الزراعية.
مقدمة
تسلط مقدمة ورقة البحث الضوء على أهمية الذرة كمحصول حبوب رئيسي في الصين، حيث تغطي 37.1% من إجمالي مساحة زراعة الحبوب وتلعب دورًا حيويًا في الأمن الغذائي. تم تحديد معدل ظهور شتلات الذرة كعامل حاسم يؤثر على تقييم العائد والجودة. تعتبر طرق المراقبة اليدوية التقليدية لتقييم الشتلات غير فعالة وعرضة للأخطاء، خاصة في ظروف الحقل. وبالتالي، يتم التأكيد على اعتماد تقنيات المراقبة المتقدمة، مثل الاستشعار عن بعد بواسطة الطائرات بدون طيار، من حيث فعاليتها من حيث التكلفة وقدرتها على جمع بيانات نمو المحاصيل بكفاءة.
على الرغم من مزايا الطائرات بدون طيار، لا تزال هناك تحديات في الكشف بدقة عن الأهداف الصغيرة مثل شتلات الذرة بسبب العوامل البيئية المعقدة. تناقش الورقة تطور طرق التعلم العميق لتحليل صور المحاصيل، خاصة استخدام كاشف YOLO وتقديم DETR، الذي يعيد صياغة كشف الأجسام كمشكلة توقع تسلسلي. ومع ذلك، لا تزال هناك قيود في الأداء في الوقت الحقيقي والتعرف على الميزات متعددة المقاييس. لمعالجة هذه القضايا، يقترح المؤلفون H-RT-DETR، وهو نموذج محسّن يدمج نهج استخراج ميزات متعددة المستويات ومتعددة المقاييس باستخدام محول متعدد الطبقات. يهدف هذا النموذج إلى تحسين دقة الكشف عن الأهداف الصغيرة مع الحفاظ على قدرات المعالجة في الوقت الحقيقي، مما يدعم في النهاية زراعة وإنتاج الذرة.
طرق
في هذه الدراسة، تم إنشاء موقع التجربة في حديقة معرض الزراعة في جيانغسو في مدينة جيرونغ، مقاطعة جيانغسو، والتي تتميز بتربة رملية طينية ومناخ موسمي شبه استوائي. تم زراعة الذرة (النوع سوي 161) في 17 يونيو 2024، في حقل بمساحة 44 م × 56 م، بكثافة زراعة تبلغ 57,000 نبات لكل هكتار وتباعد صفوف يبلغ 30 سم.
لتقييم كفاءة نموذج H-RT-DETR، تم إجراء تحليل مقارن ضد عدة طرق معروفة للكشف عن الأهداف، وهي YOLOv5 وYOLOv7 وYOLOv8 وYOLOX. تتكون مجموعات بيانات التدريب والتقييم من 3360 و960 صورة RGB، على التوالي، كل منها بأبعاد 640 × 640 × 3 بكسل. خضعت جميع الشبكات لـ 130 دورة تدريبية بحجم دفعة يبلغ 8، ومن الجدير بالذكر أن أيًا منها لم يستخدم أوزان ما قبل التدريب. كانت العمود الفقري لـ YOLOv5 مبنية على CSPDarknet53، الذي أظهر فعاليته في تحديد وعدّ المحاصيل الصغيرة في صور الاستشعار عن بعد بواسطة الطائرات بدون طيار.
نتائج
في هذا القسم، يتم تقديم نتائج نموذج H-RT-DETR المحسن لكشف شتلات الذرة باستخدام صور الاستشعار عن بعد بواسطة الطائرات بدون طيار. تم تدريب النموذج على 3360 مجموعة بيانات وتم تقييمه على 960 مجموعة بيانات، إلى جانب خمسة نماذج أخرى للتعرف على الأهداف: YOLOv5 وYOLOv7 وYOLOv8 وYOLOX وRT-DETR. أظهرت التقييمات الأولية أن H-RT-DETR كان متأخرًا في مقاييس مثل متوسط الاسترجاع (AR) ومتوسط دقة (mAP) عند 20 دورة تدريبية بسبب عموده الفقري المعقد متعدد المستويات ومتعدد المقاييس. ومع ذلك، بعد 20 دورة، تجاوز H-RT-DETR النماذج الأخرى في معظم مقاييس التقييم، محققًا مراكز رائدة في mAP0.5 وmAP0.75 وmAP0.50-0.95، باستثناء mAP0.75، حيث كان متأخرًا قليلاً عن YOLOX بعد 90 دورة.
أظهرت اختبارات إضافية على 480 مجموعة بيانات أداء H-RT-DETR المتفوق، محققًا درجات mAP0.5-0.95 وmAP0.5 وmAP0.75 وAR تبلغ 51.2% و94.7% و48.1% و68.5%، على التوالي. في المقابل، أظهر YOLOv7 أدنى أداء عبر جميع المقاييس. كما حقق نموذج H-RT-DETR معدل إطار يبلغ 84 إطارًا في الثانية (FPS)، وهو الثاني بعد RT-DETR الذي حقق 87 FPS، مما يدل على سرعة التعرف الفعالة. في تجربة عد تشمل 10 صور أصلية، حدد H-RT-DETR 2585 من أصل 2613 شتلة ذرة، بدقة 99.88% واسترجاع 98.81%، متفوقًا على جميع النماذج الأخرى، بما في ذلك YOLOX. بشكل عام، أظهر نموذج H-RT-DETR دقة وكفاءة عالية في التعرف على شتلات الذرة، دون قيود على حجم الصورة، مما يؤكد قوته في التطبيقات العملية.
مناقشة
تسلط قسم المناقشة في ورقة البحث الضوء على التحديات المتعلقة بكشف شتلات الذرة في صور الاستشعار عن بعد بواسطة الطائرات بدون طيار بسبب حجمها الصغير وبيئات الحقل المعقدة. غالبًا ما تتطلب النماذج التقليدية المعتمدة على YOLO قمع غير الأقصى (NMS) كمعالجة لاحقة، مما يمكن أن يبطئ من سرعات الكشف. بالمقابل، يستفيد نموذج H-RT-DETR المقترح من بنية قائمة على المحول تلغي الحاجة إلى NMS، مما يعزز كل من دقة الكشف والسرعة. يستخدم النموذج تمثيلًا هرميًا للميزات لاستخراج ميزات متعددة المقاييس بشكل فعال، وهو أمر حاسم للتعرف بدقة على الأهداف الصغيرة مثل شتلات الذرة. كما أن استخدام آلية الانتباه الذاتي الفعالة يقلل من التعقيد الحسابي، مما يسمح بالمعالجة في الوقت الحقيقي.
أظهرت تجارب الإزالة أن تكوين وحدات الانتباه الذاتي الفعالة وMix-FFN يؤثر بشكل كبير على أداء النموذج. يحقق التكوين الأمثل (N = [2, 2, 2, 2]) توازنًا بين دقة الكشف وسرعة المعالجة، محققًا متوسط دقة (mAP) يبلغ 51.2% ومعدل إطارات في الثانية (FPS) يبلغ 84. لا يتفوق نموذج H-RT-DETR في التعرف على شتلات الذرة فحسب، بل يظهر أيضًا وعدًا لتطبيقات زراعية أوسع، بما في ذلك كشف الأعشاب الضارة والتعرف على الآفات. تشير النتائج إلى أنه مع زيادة أحجام العينات، قد تصبح مزايا النموذج في الدقة والاسترجاع أكثر وضوحًا، مما يبرز إمكانياته لمراقبة المحاصيل في الوقت الحقيقي وأتمتة الممارسات الزراعية.
القيود
تعترف الدراسة بعدة قيود في نموذج H-RT-DETR المقترح، على الرغم من أدائه المثبت. من الجدير بالذكر أن متانة النموذج لا تزال غير مؤكدة تحت ظروف تشغيل متنوعة، حيث كانت الصور المستخدمة في التجربة تفتقر إلى عناصر الضوضاء الكافية، مثل الأعشاب الضارة والحطام وظروف الطقس المتغيرة، والتي تعتبر ضرورية لتقييم قدرات النموذج على مقاومة التداخل. علاوة على ذلك، ركزت الدراسة فقط على البيانات التي تم جمعها على ارتفاع طيران يبلغ 10 أمتار، متجاهلة استكشاف تأثيرات الارتفاعات البديلة (مثل 15 م، 30 م) على أداء الكشف.
بالإضافة إلى ذلك، على الرغم من أن نموذج H-RT-DETR يظهر دقة كشف محسنة مقارنة بـ RT-DETR، إلا أنه لا يعزز الأداء في الوقت الحقيقي، حيث لوحظ معدل كشف أقل قليلاً. لمعالجة هذه القيود، يجب أن تتضمن الأبحاث المستقبلية اختبارات ميدانية شاملة عبر بيئات متنوعة، بما في ذلك ظروف الطقس المختلفة ونطاق أوسع من ارتفاعات الطيران. علاوة على ذلك، سيكون تحسين وحدة استخراج الميزات لتقليل التعقيد الحسابي أمرًا حاسمًا للتحقق من القابلية العملية للنموذج.
DOI: https://doi.org/10.1186/s13007-025-01382-9
PMID: https://pubmed.ncbi.nlm.nih.gov/40369645
Publication Date: 2025-05-14
Author(s): Yunlong Wu et al.
Primary Topic: Remote Sensing and Land Use
Overview
The study presents H-RT-DETR (Hierarchical-Real-Time DEtection TRansformer), a novel model designed for the real-time monitoring and counting of maize seed germination at the seedling stage using UAV remote sensing images. Traditional methods of monitoring are inefficient and prone to errors, prompting the need for a more effective solution. H-RT-DETR leverages hierarchical feature extraction and an efficient self-attention mechanism to enhance the model’s ability to detect maize seedlings in complex environments. Experimental results demonstrate that H-RT-DETR achieves a mean Average Precision (mAP) of 51.2% (mAP0.5 = 94.7%, mAP0.75 = 48.1%) and an Average Recall (AR) of 68.5%.
In terms of performance, H-RT-DETR outperforms existing target recognition models, achieving a detection speed of 84 frames per second (FPS) without the need for Non-Maximum Suppression (NMS), surpassing YOLOv5, YOLOv7, YOLOv8, and YOLOX by significant margins. The model’s precision and recall rates in counting experiments are reported at 99.88% and 98.81%, respectively, indicating its high accuracy in recognizing maize seedlings. Overall, H-RT-DETR demonstrates considerable potential for real-time crop monitoring and management, providing a robust tool for agricultural applications.
Introduction
The introduction of the research paper highlights the significance of maize as a primary grain crop in China, covering 37.1% of the total grain planting area and playing a crucial role in food security. The emergence rate of maize seedlings is identified as a critical factor influencing yield and quality assessment. Traditional manual monitoring methods for seedling evaluation are deemed inefficient and prone to errors, particularly in field conditions. Consequently, the adoption of advanced monitoring technologies, such as UAV remote sensing, is emphasized for their cost-effectiveness and ability to collect crop growth data efficiently.
Despite the advantages of UAVs, challenges remain in accurately detecting small targets like maize seedlings due to complex environmental factors. The paper discusses the evolution of deep learning methods for crop image analysis, particularly the use of the YOLO detector and the introduction of DETR, which reformulates object detection as a sequence prediction problem. However, limitations in real-time performance and multiscale feature recognition persist. To address these issues, the authors propose H-RT-DETR, an enhanced model that integrates a multi-level and multi-scale feature extraction approach using a layered Transformer. This model aims to improve detection accuracy for small targets while maintaining real-time processing capabilities, ultimately supporting maize cultivation and production enhancement.
Methods
In this study, the experimental site was established at the Jiangsu Agricultural Expo Park in Jurong City, Jiangsu Province, characterized by sandy loam soil and a subtropical monsoon climate. Maize (variety Suyu 161) was planted on June 17, 2024, in a field measuring 44 m × 56 m, with a planting density of 57,000 plants per hectare and a row spacing of 30 cm.
To evaluate the efficiency of the H-RT-DETR model, a comparative analysis was conducted against several established target detection methods, specifically YOLOv5, YOLOv7, YOLOv8, and YOLOX. The training and evaluation datasets comprised 3360 and 960 RGB images, respectively, each with dimensions of 640 × 640 × 3 pixels. All networks underwent 130 epochs of training with a batch size of 8, and notably, none utilized pre-training weights. The backbone for YOLOv5 was based on CSPDarknet53, which has been shown to effectively identify and count small target crops in UAV remote sensing images.
Results
In this section, the results of the improved H-RT-DETR model for maize seedling detection using UAV remote sensing images are presented. The model was trained on 3360 datasets and evaluated on 960 datasets, alongside five other target recognition models: YOLOv5, YOLOv7, YOLOv8, YOLOX, and RT-DETR. Initial evaluations indicated that H-RT-DETR lagged behind in metrics such as Average Recall (AR) and mean Average Precision (mAP) at 20 epochs due to its complex multi-level and multi-scale Transformer backbone. However, after 20 epochs, H-RT-DETR surpassed the other models in most evaluation metrics, achieving leading positions in mAP0.5, mAP0.75, and mAP0.50-0.95, with the exception of mAP0.75, where it slightly trailed YOLOX after 90 epochs.
Further testing on 480 datasets demonstrated H-RT-DETR’s superior performance, yielding mAP0.5-0.95, mAP0.5, mAP0.75, and AR scores of 51.2%, 94.7%, 48.1%, and 68.5%, respectively. In contrast, YOLOv7 exhibited the lowest performance across all metrics. The H-RT-DETR model also achieved a frame rate of 84 frames per second (FPS), second only to RT-DETR’s 87 FPS, indicating efficient recognition speed. In a counting experiment involving 10 original images, H-RT-DETR identified 2585 out of 2613 maize seedlings, with a precision of 99.88% and recall of 98.81%, outperforming all other models, including YOLOX. Overall, the H-RT-DETR model demonstrated high accuracy and efficiency in recognizing maize seedlings, with no restrictions on image size, confirming its robustness in practical applications.
Discussion
The discussion section of the research paper highlights the challenges of detecting maize seedlings in UAV remote sensing images due to their small size and complex field environments. Traditional YOLO-based models often require non-maximum suppression (NMS) post-processing, which can slow down detection speeds. In contrast, the proposed H-RT-DETR model leverages a Transformer-based architecture that eliminates the need for NMS, enhancing both detection accuracy and speed. The model employs a hierarchical feature representation for effective multi-scale feature extraction, which is crucial for accurately identifying small targets like maize seedlings. The use of an efficient self-attention mechanism further reduces computational complexity, allowing for real-time processing.
Ablation experiments demonstrated that the configuration of Efficient Self-Attention and Mix-FFN modules significantly impacts model performance. The optimal configuration (N = [2, 2, 2, 2]) balances detection accuracy and processing speed, achieving a mean average precision (mAP) of 51.2% and a frames per second (FPS) rate of 84. The H-RT-DETR model not only excels in recognizing maize seedlings but also shows promise for broader agricultural applications, including weed detection and pest recognition. The findings suggest that with larger sample sizes, the model’s advantages in precision and recall could become even more pronounced, underscoring its potential for real-time crop monitoring and automation in agricultural practices.
Limitations
The study acknowledges several limitations of the proposed H-RT-DETR model, despite its demonstrated performance. Notably, the model’s robustness remains unverified under diverse operating conditions, as the sample images used in the experiment lacked sufficient noise elements, such as weeds, debris, and varying weather conditions, which are essential for assessing the model’s anti-interference capabilities. Furthermore, the research focused solely on data collected at a flight height of 10 meters, neglecting to explore the effects of alternative heights (e.g., 15 m, 30 m) on detection performance.
Additionally, while the H-RT-DETR model exhibits improved detection accuracy compared to RT-DETR, it does not enhance real-time performance, with a slightly lower detection rate noted. To address these limitations, future research should involve extensive field testing across various environments, including different weather conditions and a broader range of flight heights. Moreover, optimizing the feature extraction module to reduce computational complexity will be crucial for validating the model’s practical applicability.
