رسم خريطة العوائد العالمية لأربعة محاصيل رئيسية بدقة 5 دقائق من 1982 إلى 2015 باستخدام بيانات متعددة المصادر وتعلم الآلة
Mapping global yields of four major crops at 5-minute resolution from 1982 to 2015 using multi-source data and machine learning

المجلة: Scientific Data، المجلد: 12، العدد: 1
DOI: https://doi.org/10.1038/s41597-025-04650-4
PMID: https://pubmed.ncbi.nlm.nih.gov/40021678
تاريخ النشر: 2025-02-28
المؤلف: Juan Cao وآخرون
الموضوع الرئيسي: الاستشعار عن بعد في الزراعة

نظرة عامة

يقدم هذا القسم مجموعة بيانات GlobalCropYield5min، التي توفر سجلاً شاملاً وعالي الدقة (5 دقائق قوسية) لعائدات المحاصيل العالمية للعديد من المحاصيل الرئيسية مثل الذرة، والأرز، والقمح، وفول الصويا من عام 1982 إلى عام 2015. تعالج هذه المجموعة من البيانات قيود مجموعات بيانات العائدات الحالية من خلال استخدام نماذج التعلم الآلي المتقدمة (ML) المصممة خصيصًا لكل دولة ومحصول. تم تطوير النماذج باستخدام إحصائيات المحاصيل الواسعة من حوالي 12,000 وحدة إدارية، مدعومة بصور الأقمار الصناعية، ومتغيرات المناخ، وخصائص التربة، والممارسات الزراعية، وأنماط المناخ.

أداء نماذج التعلم الآلي قوي بشكل ملحوظ، حيث تتراوح معاملات التحديد ($R^2$) من 0.70 إلى 0.95 وأخطاء الجذر التربيعي المتوسط (RMSE) بين 0.16 طن/هكتار (5%) و1.1 طن/هكتار (20%). تُظهر مجموعة بيانات GlobalCropYield5min دقة مكانية متفوقة، وتغطية زمنية، ودقة مقارنة بمجموعات بيانات العائدات العالمية الأخرى. تعتبر هذه المجموعة من البيانات ضرورية لتحليل التفاعلات بين المناخ وعائدات المحاصيل، فضلاً عن إدارة المخاطر المرتبطة بالكوارث الزراعية.

مقدمة

تسلط مقدمة هذه الورقة البحثية الضوء على التحديات الملحة التي تفرضها الأحداث المناخية المتطرفة وعدم الاستقرار الجيوسياسي على الأمن الغذائي العالمي والتجارة الزراعية. منذ التسعينيات، بينما زادت إنتاجية المحاصيل بشكل أساسي بسبب ارتفاع العائدات بدلاً من توسيع المساحات المحصودة، لا تزال هناك تقلبات كبيرة من عام إلى عام بسبب تقلبات المناخ. يتم التأكيد على الحاجة إلى مجموعة بيانات عالية الجودة، واضحة مكانيًا، ومستدامة زمنيًا لعائدات المحاصيل، حيث غالبًا ما تفتقر مجموعات البيانات الحالية إلى التفاصيل اللازمة والاستمرارية لمعالجة القضايا المتعلقة بتغير المناخ والأمن الغذائي بشكل فعال.

تعتمد مجموعات بيانات عائدات المحاصيل العالمية الحالية، مثل M3Crops وGAEZ وSPAM وGDHY وGGCMI، بشكل أساسي على تقليل بيانات التعداد الزراعي ولديها قيود في الدقة المكانية والتغطية الزمنية. غالبًا ما تتجاهل هذه المجموعات من البيانات التباينات المحلية وتكافح لالتقاط التقلبات السنوية بدقة. تجادل الورقة بضرورة تطوير مجموعة بيانات جديدة لعائدات المحاصيل العالمية عالية الدقة، مستفيدة من خوارزميات التعلم الآلي (ML) لدمج مصادر بيانات متنوعة، بما في ذلك صور الأقمار الصناعية، وبيانات المناخ، وخصائص التربة. تهدف الدراسة إلى إنتاج خرائط للعائدات للذرة، وفول الصويا، والأرز، والقمح بدقة 5 دقائق قوسية للفترة من 1982 إلى 2015، مع معالجة الحاجة الملحة لتقديرات العائدات التفصيلية التي يمكن أن تُعلم استراتيجيات الأمن الغذائي العالمية.

الطرق

في هذه الدراسة، تم استخدام إطار بحثي منهجي لتقدير عائدات المحاصيل العالمية باستخدام نماذج التعلم الآلي (ML). في البداية، تم مقارنة ثلاثة نماذج ML مستخدمة على نطاق واسع لتحديد النموذج الأمثل لكل دولة ونوع محصول محدد. ثم تم استخدام النماذج المختارة لتقدير عائدات المحاصيل السنوية لكل خلية شبكة 5 × 5 دقيقة قوسية على مدار الفترة من 1982 إلى 2015، مما أدى إلى إنشاء مجموعة بيانات GlobalCropYield5min.

لتقييم دقة مجموعة بيانات GlobalCropYield5min، تم إجراء تقييم شامل، شمل تحليل دقة المحاكاة، والأنماط المكانية لمعامل التباين (CV) ومتوسط العائد السنوي، بالإضافة إلى الاتجاهات الزمنية والتقلبات في العائد مقارنة بالبيانات المسجلة. بالإضافة إلى ذلك، تم مقارنة دقة مجموعة بيانات GlobalCropYield5min مع مجموعات البيانات الحالية، وبشكل خاص بيانات عائدات المحاصيل SPAM وGDHY للسنوات 2000 و2005 و2010، كما هو موضح في الجدول 1.

المناقشة

في هذا القسم، يناقش المؤلفون تطوير والتحقق من صحة نماذج التعلم الآلي (ML) لتقدير عائدات المحاصيل، مع التركيز بشكل خاص على Random Forest (RF)، وeXtreme Gradient Boosting (XGBoost)، وLight Gradient Boosting Machine (LightGBM). كل نموذج له مزايا مميزة: يُلاحظ أن LightGBM يتميز بكفاءته ودقته، بينما يتفوق XGBoost في التعامل مع مجموعات البيانات الكبيرة مع تنظيم لمنع الإفراط في التكيف، بينما يكون RF أكثر ملاءمة للبيانات عالية الأبعاد والصاخبة. تؤكد الدراسة على أهمية اختيار النموذج المناسب بناءً على نوع المحصول والخصائص الإقليمية، باستخدام نهج منهجي لاختيار المتغيرات وتحسين المعلمات من خلال التحقق المتقاطع لإزالة الميزات التكرارية (RFECV) والتحسين البايزي.

يقدم المؤلفون إنشاء مجموعة بيانات GlobalCropYield5min، التي توفر تقديرات سنوية لعائدات المحاصيل من 1982 إلى 2015 بدقة مكانية تبلغ 5 دقائق. تم التحقق من صحة مجموعة البيانات مقابل بيانات العائدات المسجلة، مما يكشف عن دقة عالية للذرة والقمح، مع قيم R² تبلغ 0.93 و0.95، على التوالي، ودقة أقل للأرز وفول الصويا. تقارن الدراسة أيضًا منتج GlobalCropYield5min مع مجموعات البيانات الحالية (SPAM وGDHY)، مما يظهر أداءً متفوقًا من حيث الارتباط مع البيانات الملاحظة وأخطاء الجذر التربيعي المتوسط (RMSE) الأقل. تؤكد النتائج على قوة مجموعة بيانات GlobalCropYield5min في التقاط التباينات المكانية والزمنية في العائدات، مما يجعلها موردًا قيمًا للبحث الزراعي وصنع السياسات.

Journal: Scientific Data, Volume: 12, Issue: 1
DOI: https://doi.org/10.1038/s41597-025-04650-4
PMID: https://pubmed.ncbi.nlm.nih.gov/40021678
Publication Date: 2025-02-28
Author(s): Juan Cao et al.
Primary Topic: Remote Sensing in Agriculture

Overview

The section presents the GlobalCropYield5min dataset, which offers a comprehensive and high-resolution (5 arc-minutes) record of global crop yields for major crops such as maize, rice, wheat, and soybean from 1982 to 2015. This dataset addresses the limitations of existing yield datasets by utilizing advanced machine learning (ML) models tailored for each country and crop. The models were developed using extensive crop statistics from around 12,000 administrative units, supplemented by satellite imagery, climate variables, soil characteristics, agricultural practices, and climate modes.

The performance of the ML models is notably strong, with coefficients of determination ($R^2$) ranging from 0.70 to 0.95 and root mean square errors (RMSE) between 0.16 t/ha (5%) and 1.1 t/ha (20%). GlobalCropYield5min demonstrates superior spatial resolution, temporal coverage, and accuracy compared to other global yield datasets. This dataset is essential for analyzing the interactions between climate and crop yields, as well as for managing risks associated with agricultural disasters.

Introduction

The introduction of this research paper highlights the pressing challenges posed by extreme climate events and geopolitical instability on global food security and agricultural trade. Since the 1990s, while crop production has increased predominantly due to higher yields rather than expanded harvested areas, significant year-to-year variability persists due to climate fluctuations. The need for a high-quality, spatially explicit, and temporally continuous crop yield dataset is emphasized, as existing datasets often lack the necessary detail and continuity to effectively address issues related to climate change and food security.

Current global crop yield datasets, such as M3Crops, GAEZ, SPAM, GDHY, and GGCMI, primarily rely on downscaling agricultural census data and have limitations in spatial resolution and temporal coverage. These datasets often overlook localized variations and struggle to capture interannual fluctuations accurately. The paper argues for the development of a new, high-resolution global crop yield dataset, leveraging Machine Learning (ML) algorithms to integrate diverse data sources, including satellite imagery, climate data, and soil properties. The study aims to produce yield maps for maize, soybean, rice, and wheat at a 5 arc-minute resolution for the period 1982-2015, addressing the critical need for detailed yield estimations that can inform global food security strategies.

Methods

In this study, a systematic research framework was employed to estimate global crop yields using machine learning (ML) models. Initially, three widely utilized ML models were compared to determine the optimal model for each specific country and crop type. The selected models were then utilized to estimate annual crop yields for each 5 × 5 arc-minute grid cell over the period from 1982 to 2015, resulting in the creation of the GlobalCropYield5min dataset.

To evaluate the accuracy of the GlobalCropYield5min dataset, a comprehensive assessment was conducted, which included analyzing simulation accuracy, spatial patterns of the coefficient of variation (CV) and mean annual yield, as well as temporal trends and variations in yield compared to recorded data. Additionally, the accuracy of the GlobalCropYield5min dataset was compared with existing datasets, specifically the SPAM and GDHY crop yield data for the years 2000, 2005, and 2010, as detailed in Table 1.

Discussion

In this section, the authors discuss the development and validation of machine learning (ML) models for estimating crop yields, specifically focusing on Random Forest (RF), eXtreme Gradient Boosting (XGBoost), and Light Gradient Boosting Machine (LightGBM). Each model has distinct advantages: LightGBM is noted for its efficiency and accuracy, XGBoost excels in handling large datasets with regularization to prevent overfitting, while RF is better suited for high-dimensional and noisy data. The study emphasizes the importance of tailored model selection based on crop type and regional characteristics, utilizing a systematic approach for predictor selection and parameter optimization through Recursive Feature Elimination cross-validation (RFECV) and Bayesian optimization.

The authors present the creation of the GlobalCropYield5min dataset, which provides gridded annual crop yield estimates from 1982 to 2015 at a 5-minute spatial resolution. The dataset was validated against recorded yield data, revealing high accuracy for maize and wheat, with R² values of 0.93 and 0.95, respectively, and lower accuracy for rice and soybean. The study also compares the GlobalCropYield5min product with existing datasets (SPAM and GDHY), demonstrating superior performance in terms of correlation with observed data and lower root mean square error (RMSE). The findings underscore the robustness of the GlobalCropYield5min dataset for capturing spatial and temporal yield variations, making it a valuable resource for agricultural research and policy-making.