DOI: https://doi.org/10.1038/s41598-024-68906-6
PMID: https://pubmed.ncbi.nlm.nih.gov/39085577
تاريخ النشر: 2024-07-31
المؤلف: Qingchun Guo وآخرون
الموضوع الرئيسي: التنبؤ الهيدرولوجي باستخدام الذكاء الاصطناعي
نظرة عامة
تبحث هذه الدراسة في فعالية نماذج الذكاء الاصطناعي المختلفة، وخاصة نموذج CNN-LSTM الهجين، في التنبؤ بالعوامل المناخية الشهرية لمدينة جينان، الصين، باستخدام 72 عامًا من بيانات المناخ التاريخية (1951-2022). تركز الدراسة على ستة معلمات مناخية: متوسط درجة الحرارة الجوية الشهرية، درجات الحرارة القصوى الدنيا والعليا، هطول الأمطار، متوسط الرطوبة النسبية، وساعات ضوء الشمس. تشمل النماذج التي تم تقييمها الشبكات العصبية الاصطناعية (ANN)، الشبكات العصبية التكرارية (RNN)، شبكات الذاكرة طويلة وقصيرة الأمد (LSTM)، الشبكات العصبية التلافيفية العميقة (CNN)، ونموذج CNN-LSTM المقترح. يتم تقييم أداء هذه النماذج باستخدام مقاييس مثل متوسط الخطأ المطلق (MAE)، جذر متوسط مربع الخطأ (RMSE)، ومعامل الارتباط (R).
تشير النتائج إلى أن نموذج CNN-LSTM يتفوق على النماذج الأخرى من حيث الدقة، خاصة في التنبؤ بمتوسط درجة الحرارة الجوية الشهرية، مع أدنى قيمة RMSE تبلغ 0.6292 °C مقارنة بالنماذج الأخرى. كما يظهر هذا النموذج قدرة تفوق في التعميم والدقة، خاصة في التنبؤ بالأحداث المناخية القصوى. تسلط الدراسة الضوء على أهمية التنبؤات المناخية الدقيقة من أجل إدارة المناخ الفعالة والوقاية من الكوارث، مشددة على إمكانية نموذج CNN-LSTM كأداة قوية لمحاكاة المناخ والتنبؤ.
طرق
تستخدم المنهجية المعتمدة في هذه الدراسة شبكة عصبية اصطناعية ذات ثلاث طبقات مع خاصية الانتشار العكسي (BPANN)، تتكون من طبقة إدخال، طبقة مخفية، وطبقة إخراج. تسهل الاتصالات بين الخلايا العصبية الاصطناعية (العقد) عبر هذه الطبقات حساب قيم الإخراج، والتي يتم تحديدها باستخدام المعادلة \( Y_i = f\left(\sum_{j=1}^{a} W_{ij} X_j + b_t\right) \)، حيث تمثل \( f \) دالة التنشيط، و\( W_{ij} \) تشير إلى الأوزان، و\( X_j \) هو الإدخال للخلايا العصبية \( j \)-th، و\( b_t \) هو العتبة. يتم تقييم أداء النموذج من خلال متوسط مربع الخطأ (MSE)، المحسوب كـ \( \text{MSE} = \frac{1}{m} \sum_{g=1}^{m} (D_g – K_g)^2 \)، حيث \( D_g \) و\( K_g \) هما المخرجات المتوقعة والفعلية للعينة \( g \)-th، على التوالي.
تستكشف الدراسة أربع دوال تنشيط: logsig (Sigmoid)، purelin، tansig (tanh)، ووحدة الخطية المعدلة (ReLU). بعد تدريب النموذج والتحقق من صحته، تم الانتهاء من التكوين مع 12 متغير إدخال، 1 متغير إخراج، و5 خلايا عصبية في الطبقة المخفية. كانت دوال التنشيط المختارة هي logsig وpurelin، مع تعيين خوارزمية التدريب إلى trainbr. تم تحديد معدل التعلم عند 0.001، مع إجمالي 100 دورة وهدف أداء قدره \( 10^{-5} \).
نقاش
في هذه الدراسة، يستكشف المؤلفون تطبيق نماذج الذكاء الاصطناعي لتنبؤ العوامل المناخية الشهرية في جينان، الصين، من 1951 إلى 2022. يظهر نموذج CNN-LSTM المقترح، الذي يدمج الشبكات العصبية التلافيفية (CNN) وشبكات الذاكرة طويلة وقصيرة الأمد (LSTM)، أداءً متفوقًا في التنبؤ بالعناصر المناخية مقارنة بالنماذج التقليدية مثل ANN وRNN وLSTM وCNN المستقلة. يسمح هيكل النموذج بالتقاط الاعتماديات قصيرة وطويلة الأمد في بيانات المناخ بشكل فعال، مما يعزز دقته التنبؤية.
تكشف تقييمات نموذج CNN-LSTM عن نتائج مثيرة للإعجاب، حيث تصل معاملات الارتباط (R) إلى 0.9981 لتنبؤات متوسط درجة الحرارة الجوية الشهرية، إلى جانب قيم منخفضة من جذر متوسط مربع الخطأ (RMSE) ومتوسط الخطأ المطلق (MAE). يتفوق النموذج باستمرار على نظرائه عبر عوامل مناخية متنوعة، بما في ذلك درجات الحرارة القصوى وهطول الأمطار، مما يشير إلى قوته في التعامل مع الإشارات المناخية غير الخطية وغير الثابتة. تشير النتائج إلى أن نموذج CNN-LSTM هو أداة قابلة للتطبيق لتنبؤ المناخ، مما يوفر رؤى قيمة للتخطيط المستقبلي وإدارة الكوارث في المنطقة.
القيود
تُعزى قيود نموذج CNN-LSTM الهجين في التنبؤ بالمناخ بشكل أساسي إلى الاعتماد على بيانات المناخ الشهرية التاريخية، والتي قد لا تلتقط الدقة اللازمة للتنبؤ الدقيق. بينما تتماشى قيم المناخ الشهرية المحاكية للنموذج بشكل وثيق مع البيانات الملاحظة، تشير الفجوات إلى الحاجة إلى بيانات مناخية متعددة الأوقات بدقة أكبر لتعزيز دقة التنبؤ. يجب أن تركز الأبحاث المستقبلية على دمج بيانات بدقة أعلى، مثل المدخلات الساعية، ومقارنة أداء نموذج CNN-LSTM ضد النماذج الديناميكية التقليدية المعتمدة على الفيزياء.
لتحسين قوة نمذجة المناخ، يمكن أن تتضمن الدراسات المستقبلية تقنيات متقدمة مثل تحويلات الموجات (WT)، والترشيح المتغير مع الزمن باستخدام تحليل الوضع التجريبي (TVF-EMD)، وتحليل الوضع التجريبي الكامل مع الضوضاء التكيفية (CEEMD). بالإضافة إلى ذلك، يمكن أن تعزز استخدام هياكل LSTM ثنائية الاتجاه (BiLSTM) وGRU (BiGRU)، مع النظر في المكونات المتبقية من بيانات المناخ، أداء النموذج. من خلال استكشاف عوامل متنوعة—بما في ذلك الإشعاع الشمسي، والتضاريس، والظواهر مثل ظاهرة النينيو- oscillation الجنوبية—يمكن للباحثين تطوير نماذج قادرة على إجراء تنبؤات مناخية قصيرة ومتوسطة وطويلة الأجل. سيساهم دمج الآليات الفيزيائية في أطر التعلم الآلي أيضًا في تحسين القابلية للتفسير والتعميم، مما يقدم نهجًا جديدًا يجمع بين النماذج الفيزيائية التقليدية وتقنيات الذكاء الاصطناعي المتقدمة.
DOI: https://doi.org/10.1038/s41598-024-68906-6
PMID: https://pubmed.ncbi.nlm.nih.gov/39085577
Publication Date: 2024-07-31
Author(s): Qingchun Guo et al.
Primary Topic: Hydrological Forecasting Using AI
Overview
This research investigates the efficacy of various artificial intelligence models, particularly a hybrid CNN-LSTM model, in predicting monthly climate factors for Jinan city, China, using 72 years of historical climate data (1951-2022). The study focuses on six climatic parameters: monthly average atmospheric temperature, extreme minimum and maximum temperatures, precipitation, average relative humidity, and sunlight hours. The models evaluated include artificial neural networks (ANN), recurrent neural networks (RNN), long short-term memory networks (LSTM), deep convolutional neural networks (CNN), and the proposed CNN-LSTM model. The performance of these models is assessed using metrics such as mean absolute error (MAE), root mean square error (RMSE), and correlation coefficient (R).
The findings indicate that the CNN-LSTM model outperforms the other models in terms of accuracy, particularly in forecasting monthly average atmospheric temperature, with the lowest RMSE value of 0.6292 °C compared to the other models. This model also demonstrates superior generalization ability and precision, especially in predicting extreme climate events. The study highlights the importance of accurate climate predictions for effective climate management and disaster prevention, emphasizing the potential of the CNN-LSTM model as a robust tool for climate simulation and forecasting.
Methods
The methodology employed in this study utilizes a three-layer back propagation artificial neural network (BPANN), comprising an input layer, a hidden layer, and an output layer. The connections between the artificial neurons (nodes) across these layers facilitate the computation of output values, which are determined using the equation \( Y_i = f\left(\sum_{j=1}^{a} W_{ij} X_j + b_t\right) \), where \( f \) represents the activation function, \( W_{ij} \) denotes the weights, \( X_j \) is the input for the \( j \)-th neuron, and \( b_t \) is the threshold. The model’s performance is assessed through the mean square error (MSE), calculated as \( \text{MSE} = \frac{1}{m} \sum_{g=1}^{m} (D_g – K_g)^2 \), where \( D_g \) and \( K_g \) are the expected and actual outputs for the \( g \)-th sample, respectively.
The study explores four activation functions: logsig (Sigmoid), purelin, tansig (tanh), and Rectified Linear Unit (ReLU). After training and validating the model, the configuration was finalized with 12 input variables, 1 output variable, and 5 neurons in the hidden layer. The chosen activation functions were logsig and purelin, with the training algorithm set to trainbr. The learning rate was established at 0.001, with a total of 100 epochs and a performance goal of \( 10^{-5} \).
Discussion
In this study, the authors investigate the application of artificial intelligence models for predicting monthly climate factors in Jinan, China, from 1951 to 2022. The proposed CNN-LSTM model, which integrates Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) networks, demonstrates superior performance in forecasting climatic elements compared to traditional models such as ANN, RNN, and standalone LSTM and CNN. The model’s architecture allows it to effectively capture both short-term and long-term dependencies in climate data, enhancing its predictive accuracy.
The evaluation of the CNN-LSTM model reveals impressive results, with correlation coefficients (R) reaching up to 0.9981 for monthly average atmospheric temperature predictions, alongside minimal root mean square error (RMSE) and mean absolute error (MAE) values. The model consistently outperforms its counterparts across various climatic factors, including extreme temperatures and precipitation, indicating its robustness in handling nonlinear and non-stationary climate signals. The findings suggest that the CNN-LSTM model is a viable tool for climate forecasting, providing valuable insights for future planning and disaster management in the region.
Limitations
The limitations of the hybrid CNN-LSTM model in climate prediction are primarily attributed to the reliance on historical monthly climate data, which may not capture the necessary resolution for accurate forecasting. While the model’s simulated monthly climate values closely align with observed data, discrepancies indicate a need for more precise multi-time scale climate data to enhance prediction accuracy. Future research should focus on integrating higher resolution data, such as hourly inputs, and comparing the CNN-LSTM model’s performance against traditional physics-based dynamical models.
To further improve the robustness of climate modeling, future studies could incorporate advanced techniques such as wavelet transforms (WT), time-varying filtering with empirical mode decomposition (TVF-EMD), and complete ensemble empirical mode decomposition with adaptive noise (CEEMD). Additionally, employing bidirectional LSTM (BiLSTM) and GRU (BiGRU) architectures, along with considering residual components of climate data, could enhance model performance. By exploring various factors—including solar radiation, terrain, and phenomena like El Niño-Southern Oscillation—researchers can develop models capable of making short-term, medium-term, and long-term climate predictions. Integrating physical mechanisms into machine learning frameworks will also improve interpretability and generalization, offering a novel approach that combines traditional physical models with advanced artificial intelligence techniques.
