استغلال خوارزميات LSTM وXGBoost للتنبؤ بالعواصف
Harnessing LSTM and XGBoost algorithms for storm prediction

المجلة: Scientific Reports، المجلد: 14، العدد: 1
DOI: https://doi.org/10.1038/s41598-024-62182-0
PMID: https://pubmed.ncbi.nlm.nih.gov/38762598
تاريخ النشر: 2024-05-18
المؤلف: Ayyoub Frifra وآخرون
الموضوع الرئيسي: الظواهر الجوية والمحاكاة

نظرة عامة

تقدم هذه الورقة البحثية نهجًا جديدًا لتوقع العواصف في غرب فرنسا من خلال دمج نماذج الذاكرة طويلة وقصيرة الأجل (LSTM) ونماذج تعزيز التدرج المتطرف (XGBoost). باستخدام بيانات من العوامات وقاعدة بيانات العواصف التي تمتد من 1996 إلى 2020، قامت الدراسة بتدريب هذه النماذج على بيانات من يناير 1996 إلى ديسمبر 2015، ثم اختبرت قدراتها التنبؤية من يناير 2016 إلى ديسمبر 2020. أظهر نموذج LSTM دقة عالية في توقع درجة الحرارة والضغط، على الرغم من أنه واجه صعوبة مع القيم المتطرفة لارتفاع الموجة وسرعة الرياح. من ناحية أخرى، تفوق نموذج XGBoost في توقع حدوث العواصف، محققًا استرجاعًا وخصوصية ملحوظين، وهما أمران حاسمان لتوقع العواصف بشكل فعال.

تقدم النتائج تقدمًا كبيرًا في منهجيات توقع العواصف الحالية من خلال اعتماد استراتيجية نموذج مزدوج تجمع بين تقنيات الانحدار والتصنيف. لا يعزز هذا النهج المتكامل فقط توقع معلمات العواصف المختلفة—مثل درجة الحرارة، الضغط، الرطوبة، سرعة الرياح، ارتفاع الموجة، وفترة الموجة—بل يحسن أيضًا توقع أيام حدوث العواصف. بينما يحتاج نموذج LSTM إلى مزيد من التحسين لالتقاط التغيرات المتطرفة بشكل أفضل، فإن أداء نموذج XGBoost يبرز إمكانيته كأداة موثوقة في الأرصاد الجوية التشغيلية. بشكل عام، لا توسع هذه الدراسة نطاق توقع العواصف فحسب، بل تقدم أيضًا رؤى قابلة للتطبيق على مناطق أخرى معرضة لظروف الطقس المتطرفة، مما يسهم في تحسين الاستعداد للعواصف واستراتيجيات التخفيف من المخاطر.

الطرق

في هذه الدراسة، تم استخدام منهجيتين رئيسيتين: شبكات الذاكرة طويلة وقصيرة الأجل (LSTM) وتعزيز التدرج المتطرف (XGBoost). تم استخدام نموذج LSTM لتوقع خصائص مختلفة للعواصف، مستفيدًا من قدرته على التقاط الاعتماد الزمني في البيانات التسلسلية. من ناحية أخرى، تم تطبيق خوارزمية XGBoost لتوقع حدوث العواصف من خلال تحليل الخصائص المحددة مسبقًا. يسمح هذا النهج المزدوج بفهم شامل لديناميات العواصف، مما يسهل كل من النمذجة التنبؤية لخصائص العواصف وحدوثها.

النتائج

يقدم قسم النتائج النتائج المستخلصة من نموذجين تنبؤيين، LSTM وXGBoost، المطبقين على خصائص العواصف وحدوثها، على التوالي، خلال فترة الاختبار من يناير 2016 إلى ديسمبر 2020. أظهر نموذج LSTM أداءً قويًا في توقع درجة الحرارة والضغط، محققًا متوسط خطأ مطلق (MAE) قدره 0.7574 كلفن ومعامل تحديد ($R^2$) قدره 0.8753 لدرجة الحرارة، مما يشير إلى درجة عالية من الدقة. ومع ذلك، كان أداؤه في الرطوبة وسرعة الرياح أضعف بشكل ملحوظ، مع قيم MAE تبلغ 6.0851% و2.0061 م/ث، على التوالي، ودرجات $R^2$ منخفضة تبلغ 0.3272 و0.2337، مما يشير إلى قيود في التقاط تقلباتها. كانت توقعات النموذج لظروف الموجة معقولة لكنها أبرزت الحاجة إلى التحسين، خاصة في ارتفاع الموجة، الذي أظهر متوسط خطأ مطلق نسبي (MAPE) مرتفع قدره 24.27%.

في المقابل، تفوق نموذج XGBoost في توقع حدوث العواصف، حيث تمكن من تحديد جميع العواصف الخمس خلال فترة الاختبار بدقة. حقق النموذج مقاييس تصنيف مثالية، مع استرجاع وخصوصية قدرها 1، ومنطقة تحت المنحنى (AUC) قدرها 1، مما يشير إلى أداء خالٍ من العيوب في التمييز بين أحداث العواصف وعدم حدوثها. تؤكد النتائج على نقاط القوة في نموذج LSTM في توقع درجة الحرارة والضغط بينما تكشف عن مجالات للتحسين في الرطوبة وسرعة الرياح وتوقعات الموجات. من ناحية أخرى، يوفر نموذج XGBoost إطارًا قويًا لتوقع حدوث العواصف، مما يظهر دقة وموثوقية عالية.

المناقشة

يسلط قسم المناقشة في هذه الورقة البحثية الضوء على تطبيق نهج جديد مدفوع بالبيانات باستخدام نماذج الذاكرة طويلة وقصيرة الأجل (LSTM) وXGBoost لتوقع خصائص العواصف وحدوثها على طول الساحل الغربي لفرنسا. تحدد الدراسة مسارين رئيسيين للعواصف تؤثر على المنطقة وتؤكد على أهمية بيانات العواصف التاريخية لفهم ديناميات العواصف وتأثيراتها. أظهر نموذج LSTM قدرات تنبؤية قوية للمتغيرات مثل درجة الحرارة والضغط، على الرغم من أنه واجه صعوبة مع عوامل التغير العالية مثل ارتفاع الموجة وسرعة الرياح خلال الأحداث المتطرفة. تُعزى هذه القيود إلى ندرة بيانات الأحداث المتطرفة للتدريب.

في المقابل، تفوق نموذج XGBoost في توقع حدوث العواصف، محققًا استرجاعًا وخصوصية مثالية، وهو أمر حاسم نظرًا للطبيعة غير المتوازنة لبيانات العواصف. تؤكد الدراسة على عدم كفاية مقاييس الدقة التقليدية في مثل هذه السياقات، مفضلةً بدلاً من ذلك الاسترجاع والخصوصية ومنطقة تحت منحنى ROC (AUC) لتقييم أداء النموذج. تهدف الأعمال المستقبلية إلى تعزيز دقة التوقع من خلال استخدام تحويلات الموجة المنفصلة لتفكيك البيانات ومعالجة عدم توازن البيانات من خلال تقنيات إعادة أخذ العينات. بشكل عام، تعزز هذه الأبحاث منهجيات توقع العواصف وتقترح تطبيقات محتملة تتجاوز المنطقة المدروسة، مما يسهم في تحسين الاستعداد للعواصف واستراتيجيات إدارة المخاطر.

Journal: Scientific Reports, Volume: 14, Issue: 1
DOI: https://doi.org/10.1038/s41598-024-62182-0
PMID: https://pubmed.ncbi.nlm.nih.gov/38762598
Publication Date: 2024-05-18
Author(s): Ayyoub Frifra et al.
Primary Topic: Meteorological Phenomena and Simulations

Overview

This research paper presents a novel approach to storm prediction in Western France by integrating long short-term memory (LSTM) and Extreme Gradient Boosting (XGBoost) models. Utilizing data from buoys and a storm database spanning 1996 to 2020, the study trained these models on data from January 1996 to December 2015 and subsequently tested their predictive capabilities from January 2016 to December 2020. The LSTM model demonstrated high accuracy in forecasting temperature and pressure, although it struggled with extreme values for wave height and wind speed. Conversely, the XGBoost model excelled in predicting storm occurrences, achieving remarkable recall and specificity, which are critical for effective storm forecasting.

The findings significantly advance existing storm prediction methodologies by employing a dual-model strategy that combines regression and classification techniques. This integrated approach not only enhances the prediction of various storm parameters—such as temperature, pressure, humidity, wind speed, wave height, and wave period—but also improves the forecasting of storm occurrence days. While the LSTM model requires further refinement to better capture extreme variabilities, the XGBoost model’s performance underscores its potential as a reliable tool in operational meteorology. Overall, this study not only broadens the scope of storm prediction but also offers insights applicable to other regions vulnerable to extreme weather events, thereby contributing to improved storm preparedness and risk mitigation strategies.

Methods

In this study, two primary methodologies were employed: Long Short-Term Memory (LSTM) networks and eXtreme Gradient Boosting (XGBoost). The LSTM model was utilized to forecast various characteristics of storms, leveraging its capability to capture temporal dependencies in sequential data. Conversely, the XGBoost algorithm was applied to predict the occurrence of storms by analyzing the previously identified characteristics. This dual approach allows for a comprehensive understanding of storm dynamics, facilitating both predictive modeling of storm features and their occurrences.

Results

The results section presents findings from two predictive models, LSTM and XGBoost, applied to storm characteristics and occurrence, respectively, during the test period from January 2016 to December 2020. The LSTM model demonstrated strong performance in predicting temperature and pressure, achieving a Mean Absolute Error (MAE) of 0.7574 K and a coefficient of determination ($R^2$) of 0.8753 for temperature, indicating a high degree of accuracy. However, its performance for humidity and wind speed was notably weaker, with MAE values of 6.0851% and 2.0061 m/s, respectively, and low $R^2$ scores of 0.3272 and 0.2337, suggesting limitations in capturing their variability. The model’s predictions for wave conditions were reasonable but highlighted the need for refinement, particularly in wave height, which exhibited a high Mean Absolute Percentage Error (MAPE) of 24.27%.

In contrast, the XGBoost model excelled in predicting storm occurrences, accurately identifying all five storms during the test period. The model achieved perfect classification metrics, with a recall and specificity of 1, and an Area Under the Curve (AUC) of 1, indicating flawless performance in distinguishing between storm and no-storm events. The findings underscore the LSTM model’s strengths in temperature and pressure forecasting while revealing areas for improvement in humidity, wind speed, and wave predictions. The XGBoost model, on the other hand, provides a robust framework for storm occurrence prediction, demonstrating high accuracy and reliability.

Discussion

The discussion section of this research paper highlights the application of a novel data-driven approach utilizing Long Short-Term Memory (LSTM) and XGBoost models to predict storm characteristics and occurrences along the western coast of France. The study identifies two primary storm paths affecting the region and emphasizes the importance of historical storm data for understanding storm dynamics and their impacts. The LSTM model demonstrated strong predictive capabilities for variables such as temperature and pressure, although it struggled with high variability factors like wave height and wind speed during extreme events. This limitation is attributed to the scarcity of extreme event data for training.

In contrast, the XGBoost model excelled in predicting storm occurrences, achieving perfect recall and specificity, which is critical given the imbalanced nature of storm data. The study underscores the inadequacy of traditional accuracy metrics in such contexts, opting instead for recall, specificity, and area under the ROC curve (AUC) to evaluate model performance. Future work aims to enhance prediction accuracy by employing discrete wavelet transforms for data decomposition and addressing data imbalance through resampling techniques. Overall, this research advances storm prediction methodologies and suggests potential applications beyond the studied region, contributing to improved storm preparedness and risk management strategies.