DOI: https://doi.org/10.1038/s41586-025-09005-y
PMID: https://pubmed.ncbi.nlm.nih.gov/40399684
تاريخ النشر: 2025-05-21
المؤلف: Cristian Bodnar وآخرون
الموضوع الرئيسي: الظواهر الجوية والمحاكاة
نظرة عامة
تقدم هذه القسم نظرة عامة على أورا، نموذج أساسي واسع النطاق مصمم للتنبؤ الموثوق بنظام الأرض، وهو أمر حاسم للتخفيف من الكوارث وتقدم البشرية. النماذج العددية التقليدية، على الرغم من فعاليتها، تتطلب حسابات مكثفة، مما يدفع لاستكشاف الذكاء الاصطناعي (AI) كبديل أكثر كفاءة. تم تدريب أورا على أكثر من مليون ساعة من بيانات جيوفيزيائية متنوعة وتظهر قدرات تنبؤية متفوقة في مجالات مثل جودة الهواء، وأمواج المحيط، ومسارات الأعاصير الاستوائية، وتوقعات الطقس عالية الدقة، كل ذلك مع تقليل التكاليف الحاسوبية بشكل كبير.
تسمح مرونة أورا بتعديلها لتناسب تطبيقات متنوعة بتكاليف منخفضة، مما يمثل تقدمًا كبيرًا في جعل التنبؤات الدقيقة والفعالة بنظام الأرض أكثر سهولة. تؤكد النتائج على الإمكانيات التحويلية للذكاء الاصطناعي في التنبؤ البيئي، مما يشير إلى أن نماذج مثل أورا يمكن أن ت democratize الوصول إلى معلومات المناخ والطقس عالية الجودة، مما يعزز استراتيجيات الاستعداد والاستجابة في مواجهة الكوارث الطبيعية.
طرق
تم هيكلة منهجية التدريب للنموذج إلى ثلاث مراحل متميزة: التدريب المسبق، والتعديل القصير المدى، والتعديل الطويل المدى. الهدف الرئيسي من التدريب المستخدم في هذه المراحل هو متوسط الخطأ المطلق (MAE)، الذي يُرمز له بـ \( L(X_t, \hat{X}_t) \). يتم تحليل الحالة المتوقعة \( \hat{X}_t \) والحالة الحقيقية \( X_t \) إلى متغيرات على مستوى السطح \( S_t \) ومتغيرات جوية \( A_t \). تتضمن دالة الخسارة أوزانًا لكلا نوعي المتغيرات، ممثلة كـ \( L = \sum_{k=1}^{V} w_{k}^{S} \cdot (S_t – \hat{S}_t) + \sum_{c=1}^{C} w_{k}^{A} \cdot (A_t – \hat{A}_t) \)، حيث \( \alpha \)، \( \beta \)، و \( \gamma \) هي أوزان محددة للبيانات.
بالنسبة للتدريب المسبق، تخضع النماذج لـ 150,000 خطوة على 32 وحدة معالجة رسومية A100، مع حجم دفعة واحدة لكل وحدة معالجة. يستخدم التدريب جدول معدل تعلم بتقليل جيب التمام، بدءًا من معدل أساسي قدره \( 5 \times 10^{-4} \) وتقليله بمقدار عشرة عند انتهاء التدريب. يتم استخدام مُحسّن AdamW مع تقليل الوزن بمقدار \( 5 \times 10^{-6} \)، ويتم تحقيق التنظيم من خلال تقنيات إسقاط المسار مع احتمال 0.2. لتحسين استخدام الذاكرة، يتم تنفيذ نقاط تفتيش التنشيط، ويتم تقسيم تدرجات النموذج عبر وحدات المعالجة الرسومية، مع إجراء التدريب بدقة مختلطة bf16. تتوفر تفاصيل إضافية في المعلومات التكميلية.
مناقشة
تقدم قسم المناقشة أورا، نموذج أساسي واسع النطاق مصمم لتنبؤات نظام الأرض، والذي يظهر أداءً متفوقًا في مجالات متنوعة، بما في ذلك جودة الهواء، وديناميات أمواج المحيط، وتتبع الأعاصير الاستوائية، وتوقعات الطقس عالية الدقة. يتكون أورا من ثلاثة مكونات رئيسية: مشفر لمعالجة المدخلات غير المتجانسة، ومعالج يعتمد على محول Swin ثلاثي الأبعاد لتطور التمثيلات الزمنية، ومفكك لتوليد التنبؤات الفيزيائية. يتضمن تدريب النموذج نهجًا من مرحلتين: تدريب مسبق مكثف على بيانات نظام الأرض المتنوعة يليه تعديل فعال على مهام محددة، مما يؤدي إلى تحسينات كبيرة في الأداء مقارنةً بالأنظمة التشغيلية التقليدية مع تقليل التكاليف الحاسوبية بشكل كبير.
تشير النتائج إلى أن أورا يتفوق على النماذج المعتمدة مثل نظام التنبؤ المتكامل (IFS) وخدمة مراقبة الغلاف الجوي كوبيرنيكوس (CAMS) عبر مقاييس متعددة، محققًا أداءً أفضل بنسبة تصل إلى 91% في توقعات الطقس المتوسطة المدى ويظهر تسريعًا ملحوظًا في الكفاءة الحاسوبية. تبرز قدرة النموذج على التكيف مع مهام متنوعة ببيانات قليلة مرونته وإمكاناته لتطبيقات أوسع، بما في ذلك توقع دوران المحيط والأحداث الجوية المتطرفة. قد تشمل التحسينات المستقبلية توليد توقعات جماعية، وتحسين القابلية للتفسير، ودمج البيانات الملاحظة مباشرة، مما يوسع من فائدة أورا في التنبؤ بنظام الأرض ويجعل التوقعات القابلة للتنفيذ أكثر سهولة.
DOI: https://doi.org/10.1038/s41586-025-09005-y
PMID: https://pubmed.ncbi.nlm.nih.gov/40399684
Publication Date: 2025-05-21
Author(s): Cristian Bodnar et al.
Primary Topic: Meteorological Phenomena and Simulations
Overview
The section presents an overview of Aurora, a large-scale foundation model designed for reliable forecasting of the Earth system, which is crucial for disaster mitigation and human advancement. Traditional numerical models, while effective, are computationally intensive, prompting the exploration of artificial intelligence (AI) as a more efficient alternative. Aurora has been trained on over one million hours of diverse geophysical data and demonstrates superior predictive capabilities in areas such as air quality, ocean waves, tropical cyclone tracks, and high-resolution weather forecasts, all while significantly reducing computational costs.
Aurora’s versatility allows it to be fine-tuned for various applications with minimal expense, marking a significant advancement in making accurate and efficient Earth system predictions more accessible. The findings underscore the transformative potential of AI in environmental forecasting, suggesting that models like Aurora could democratize access to high-quality climate and weather information, thereby enhancing preparedness and response strategies in the face of natural disasters.
Methods
The training methodology for the model is structured into three distinct stages: pretraining, short-lead-time fine-tuning, and roll-out (long-lead-time) fine-tuning. The primary training objective employed throughout these stages is the Mean Absolute Error (MAE), denoted as \( L(X_t, \hat{X}_t) \). The predicted state \( \hat{X}_t \) and the ground-truth state \( X_t \) are decomposed into surface-level variables \( S_t \) and atmospheric variables \( A_t \). The loss function incorporates weights for both variable types, represented as \( L = \sum_{k=1}^{V} w_{k}^{S} \cdot (S_t – \hat{S}_t) + \sum_{c=1}^{C} w_{k}^{A} \cdot (A_t – \hat{A}_t) \), where \( \alpha \), \( \beta \), and \( \gamma \) are dataset-specific weights.
For pretraining, the models undergo 150,000 steps on 32 A100 GPUs, with a batch size of one per GPU. The training employs a half cosine decay learning rate schedule, starting from a base rate of \( 5 \times 10^{-4} \) and reducing by a factor of ten at the conclusion of training. The AdamW optimizer is utilized with a weight decay of \( 5 \times 10^{-6} \), and regularization is achieved through drop path techniques with a probability of 0.2. To optimize memory usage, activation checkpointing is implemented, and model gradients are sharded across the GPUs, with training conducted in bf16 mixed precision. Further details are available in the supplementary information.
Discussion
The discussion section presents Aurora, a large-scale foundation model designed for Earth system predictions, which demonstrates superior performance in various domains, including air quality, ocean wave dynamics, tropical cyclone tracking, and high-resolution weather forecasting. Aurora comprises three main components: an encoder for heterogeneous input processing, a processor based on a 3D Swin Transformer for temporal evolution of representations, and a decoder for generating physical predictions. The model’s training involves a two-phase approach: extensive pretraining on diverse Earth system data followed by efficient fine-tuning on specific tasks, resulting in significant performance improvements over traditional operational systems while drastically reducing computational costs.
The findings indicate that Aurora outperforms established models like the Integrated Forecasting System (IFS) and the Copernicus Atmosphere Monitoring Service (CAMS) across multiple metrics, achieving up to 91% better performance in medium-range weather forecasting and demonstrating a remarkable speed-up in computational efficiency. The model’s ability to adapt to various tasks with minimal data highlights its versatility and potential for broader applications, including predicting ocean circulation and extreme weather events. Future enhancements could involve generating ensemble forecasts, improving interpretability, and integrating observational data directly, thereby expanding Aurora’s utility in Earth system prediction and making actionable forecasts more accessible.
