نموذج تعلم آلي موجه بواسطة الديناميكا الحرارية لتوقع ارتفاع طبقة الحدود الحملية وتطبيقاته المتعددة المواقع
Thermodynamics-guided machine learning model for predicting convective boundary layer height and its multi-site applicability

المجلة: Atmospheric chemistry and physics، المجلد: 26، العدد: 2
DOI: https://doi.org/10.5194/acp-26-1415-2026
تاريخ النشر: 2026-01-28
المؤلف: Zhenyun Du وآخرون
الموضوع الرئيسي: الظواهر الجوية والمحاكاة

نظرة عامة

تقدم هذه الدراسة إطار عمل جديد للذكاء الاصطناعي الآلي (Auto-ML) للتنبؤ بارتفاع طبقة الحدود الحملية (CBLH)، مع التركيز على دمج القيود الديناميكية الحرارية والدورة اليومية كأدلة فيزيائية ضمنية. من خلال استخدام TPOT وAutoKeras لاختيار النموذج الأمثل، يعزز الإطار الكفاءة وقابلية التكرار في تطوير النماذج. تم التحقق من صحة النماذج مقابل بيانات CBLH المستمدة من الليدار دوبلر، حيث حققت معامل تحديد إجمالي ($R^2$) قدره 0.84، مع قدرة قوية على التكيف عبر مواقع متعددة في شبكة ARM SGP. ومن الجدير بالذكر أن النماذج المدربة على بيانات مواقع مجمعة تفوقت على تلك المدربة على بيانات موقع واحد، مما يشير إلى تحسين القابلية للتعميم.

تكشف النتائج أن نماذج Auto-ML أنتجت باستمرار نطاقات بين الربعين أضيق للتنبؤ بـ CBLH مقارنة بالتقديرات المستمدة من الليدار، مما يشير إلى انخفاض التباين في التنبؤات. ومع ذلك، تم تحديد قيود في التنبؤ بارتفاعات الطبقة المختلطة القصوى بسبب عدم اليقين في بيانات الليدار عند الارتفاعات العالية وعدم قدرة النموذج على التقاط العمليات الفيزيائية الحرجة مثل الإدخال بشكل كامل. تهدف الأعمال المستقبلية إلى تحسين النموذج من خلال دمج معلمات إضافية لطبقة الحدود واستكشاف تقنيات المراقبة عالية الدقة لتحسين فهم ديناميات الإدخال. بشكل عام، يقدم هذا النهج Auto-ML إطار عمل قابلاً للتوسع لتحسين تحديد معلمات طبقة الحدود في النماذج الجوية وله تطبيقات محتملة في توقع جودة الهواء ودمج البيانات.

مقدمة

تؤكد مقدمة هذه الورقة البحثية على أهمية طبقة الحدود الحملية (CBL) في الغلاف الجوي للأرض، ولا سيما دورها في تبادل الحرارة والرطوبة والزخم بين السطح والتروبوسفير الحر. إن التقدير الدقيق لارتفاع CBL (CBLH) أمر بالغ الأهمية لفهم العمليات الجوية المختلفة، بما في ذلك الاضطراب وانتشار الملوثات، وهو معلمة رئيسية في نماذج التنبؤ بالطقس العددي (NWP) ونماذج المناخ. يمكن أن تؤدي الأخطاء في تقدير CBLH إلى انحيازات كبيرة في توقعات درجة حرارة السطح وجودة الهواء، مما يبرز الحاجة إلى تحسين طرق التنبؤ.

تتمتع التقنيات الحالية للمراقبة لتحديد CBLH، مثل أجهزة الراديو، وأبراج الأرصاد الجوية، ورادارات الطقس، وأجهزة الليدار الهوائية، وأجهزة الليدار دوبلر، كل منها بحدود فيما يتعلق بالدقة وقابلية التطبيق تحت ظروف جوية متغيرة. أظهرت التطورات الأخيرة في التعلم الآلي (ML) وعدًا في تعزيز توقعات CBLH من خلال استخدام مجموعات بيانات كبيرة وعلاقات جوية معقدة. ومع ذلك، تفتقر العديد من نماذج ML الحالية إلى القيود الفيزيائية، مما يحد من قابليتها للتعميم. تعالج هذه الدراسة هذه الفجوة من خلال تقديم إطار عمل Auto-ML الذي يختار خوارزميات ML المثلى لتوقع CBLH، باستخدام معلمات مدخلة مقيدة ديناميكيًا مثل تدفق الحرارة الحسية (SHF) وتدفق الحرارة الكامنة (LHF). يتم تقييم أداء النموذج عبر مواقع متعددة ضمن موقع قياس الإشعاع الجوي (ARM) في السهول الكبرى الجنوبية، بهدف تحسين توقعات CBLH في النماذج الجوية.

الطرق

في هذا القسم، يوضح المؤلفون المنهجيات المستخدمة لمقارنة أداء نموذجين من التعلم الآلي (ML) – ExtraTreesRegressor من TPOT وشبكة عصبية من AutoKeras – في تقدير ارتفاع طبقة الحدود الحملية (CBLH) خلال موسم يونيو-يوليو-أغسطس (JJA). تستفيد الدراسة من أطر ML الآلية لتحسين هياكل النماذج والمعلمات الفائقة، مع التركيز على نتائج TPOT وAutoKeras بعد عمليات اختيار النموذج الآلي الخاصة بهم. يُلاحظ أن ExtraTreesRegressor يتمتع بالصلابة ضد الإفراط في التكيف، مما يجعله مناسبًا لمجموعات البيانات عالية الأبعاد والصاخبة، بينما تستخدم الشبكة العصبية، التي تتكون من 10,836 معلمة، هيكلًا من طبقتين لالتقاط الديناميات غير الخطية بشكل فعال.

تكشف مقارنة الأداء أن كلا النموذجين يحققان قيم R² وMean Absolute Error (MAE) مماثلة، حيث حقق ExtraTreesRegressor R² = 0.86 وMAE = 0.22 كم، وحققت الشبكة العصبية R² = 0.84 وMAE = 0.25 كم. ومع ذلك، تختلف النماذج بشكل كبير في تقييمات أهمية الميزات كما تحددها قيم SHAP. يعطي ExtraTreesRegressor الأولوية لميزة LTS، بينما تركز الشبكة العصبية على I_LHF. يستكشف المؤلفون أيضًا طرق حساب SHAP المختلفة، بما في ذلك TreeExplainer لـ ExtraTreesRegressor وGradientExplainer للشبكة العصبية، مشيرين إلى أن اختيار الشرح يمكن أن يؤثر على الأهمية المدركة للميزات. يوصون باستخدام ExactExplainer للشبكة العصبية عندما تسمح الموارد الحاسوبية بذلك، حيث يوفر أدق تقديرات SHAP، بينما يعد KernelExplainer بديلاً فعالاً من حيث الموارد.

النتائج

في هذا القسم، يقدم المؤلفون نتائج تحققهم من إطار عمل Auto-ML باستخدام بيانات من موقع C1 للسنوات 2016 إلى 2019، مع التركيز على مقاييس تدفق الحرارة ECOR وEBBR. تم تطبيق الإطار بعد ذلك على مواقع إضافية لتقييم قابليته للتعميم. تم إجراء تحليل مقارن بين خوارزميات TPOT وAutoKeras المثلى خلال أشهر الصيف (يونيو، يوليو، أغسطس)، مع تسليط الضوء على مزاياها وقيودها من خلال حساب قيم SHAP (Shapley Additive exPlanations).

علاوة على ذلك، فحص المؤلفون التغيرات في الأهمية النسبية للميزات التي حددها إطار عمل Auto-ML عبر مواسم مختلفة. كما قارنوا أداء النماذج المدربة على بيانات متعددة المواقع ضد تلك المختبرة على بيانات محددة الموقع، مما يوفر رؤى حول قوة ومرونة نهج Auto-ML في سياقات بيئية متنوعة.

المناقشة

ت outlines قسم المناقشة من الورقة البحثية المنهجية والنتائج المتعلقة بتوقع ارتفاع طبقة الحدود الحملية (CBLH) باستخدام بيانات من منشأة ARM Southern Great Plains (SGP). تؤكد الدراسة على أهمية استخدام مجموعة متنوعة من المواقع (C1، E32، E37، E39) ضمن SGP لالتقاط الظروف الجوية المتغيرة وديناميات تدفق السطح. تم معالجة البيانات المجمعة من هذه المواقع، بما في ذلك السرعات الرأسية، وتدفقات السطح، والملفات الجوية، لتقدير CBLH باستخدام نموذج تعلم آلي جديد يدمج مبادئ التوازن الديناميكي الحراري. يهدف هذا النهج إلى تعزيز قابلية نقل النموذج عبر مواقع مختلفة من خلال ضمان أن يكون اختيار المعلمات مستندًا إلى قيود فيزيائية.

تسلط الأبحاث الضوء على أهمية التقاط التطور اليومي المتكامل لـ CBLH بدلاً من الاعتماد فقط على التنبؤات اللحظية. من خلال اعتبار CBLH كعملية مستمرة تتأثر بعوامل جوية متنوعة، يظهر النموذج قدرات تنبؤية محسنة. يظهر إطار عمل Auto-ML، وخاصة ExtraTreesRegressor، أداءً قويًا في توقع CBLH، حيث حقق قيمة R² قدرها 0.85 وخطأ مطلق متوسط (MAE) قدره 0.21 كم في موقع C1. ومع ذلك، يختلف أداء النموذج مع الفصل المكاني بين المواقع، مما يشير إلى وجود علاقة سلبية بين دقة التنبؤ والمسافة. تؤثر التغيرات الموسمية أيضًا على أداء النموذج، مما يبرز الحاجة إلى مزيد من التحقيق في تأثير العوامل البيئية المحلية على ديناميات CBL. بشكل عام، تقدم الدراسة منهجية قوية لتوقع CBLH، مع التأكيد على دمج المبادئ الفيزيائية وتقنيات التعلم الآلي لتعزيز دقة النموذج وقابليته للتطبيق عبر ظروف متنوعة.

Journal: Atmospheric chemistry and physics, Volume: 26, Issue: 2
DOI: https://doi.org/10.5194/acp-26-1415-2026
Publication Date: 2026-01-28
Author(s): Zhenyun Du et al.
Primary Topic: Meteorological Phenomena and Simulations

Overview

This study presents a novel Auto-ML framework for predicting the convective boundary layer height (CBLH), emphasizing the integration of thermodynamic constraints and the diurnal cycle as implicit physical guides. By utilizing TPOT and AutoKeras for optimal model selection, the framework enhances efficiency and reproducibility in model development. The models were validated against Doppler lidar-derived CBLH data, achieving an overall coefficient of determination ($R^2$) of 0.84, with strong adaptability across multiple sites in the ARM SGP network. Notably, models trained on combined site data outperformed those trained on single-site data, indicating improved generalizability.

The findings reveal that the Auto-ML models consistently produced narrower interquartile ranges for predicted CBLH compared to lidar-derived estimates, suggesting lower variability in predictions. However, limitations were identified in predicting peak mixed layer heights due to uncertainties in lidar data at higher altitudes and the model’s inability to fully capture critical physical processes such as entrainment. Future work aims to enhance the model by incorporating additional boundary-layer parameters and exploring high-resolution observational techniques to improve understanding of entrainment dynamics. Overall, this Auto-ML approach offers a scalable framework for refining boundary layer parameterization in atmospheric models and has potential applications in air quality forecasting and data assimilation.

Introduction

The introduction of this research paper emphasizes the significance of the convective boundary layer (CBL) in the Earth’s atmosphere, particularly its role in the exchange of heat, moisture, and momentum between the surface and the free troposphere. Accurate estimation of the CBL height (CBLH) is crucial for understanding various atmospheric processes, including turbulence and pollutant dispersion, and is a key parameter in numerical weather prediction (NWP) and climate models. Errors in CBLH estimation can lead to substantial biases in surface temperature and air quality forecasts, highlighting the need for improved prediction methods.

Current observational techniques for determining CBLH, such as radiosondes, meteorological towers, weather radars, aerosol lidars, and Doppler lidars, each have limitations regarding resolution and applicability under varying atmospheric conditions. Recent advancements in machine learning (ML) have shown promise in enhancing CBLH predictions by utilizing large datasets and complex atmospheric relationships. However, many existing ML models lack physical constraints, which limits their generalizability. This study addresses this gap by introducing an Auto-ML framework that selects optimal ML algorithms for CBLH prediction, using thermodynamically constrained input parameters like sensible heat flux (SHF) and latent heat flux (LHF). The model’s performance is evaluated across multiple sites within the Atmospheric Radiation Measurement (ARM) Southern Great Plains supersite, aiming to enhance CBLH predictions in atmospheric models.

Methods

In this section, the authors detail the methodologies employed to compare the performance of two machine learning (ML) models—an ExtraTreesRegressor from TPOT and a neural network from AutoKeras—in estimating the Convective Boundary Layer Height (CBLH) during the June-July-August (JJA) season. The study leverages automated ML frameworks to optimize model architectures and hyperparameters, focusing on the outcomes of TPOT and AutoKeras after their automated model selection processes. The ExtraTreesRegressor is noted for its robustness against overfitting, making it suitable for high-dimensional and noisy datasets, while the neural network, comprising 10,836 parameters, utilizes a two-layer structure to effectively capture non-linear dynamics.

The performance comparison reveals that both models achieve similar R² and Mean Absolute Error (MAE) values, with the ExtraTreesRegressor yielding R² = 0.86 and MAE = 0.22 km, and the neural network achieving R² = 0.84 and MAE = 0.25 km. However, the models differ significantly in their feature importance assessments as determined by SHAP values. The ExtraTreesRegressor prioritizes the LTS feature, while the neural network emphasizes I_LHF. The authors also explore various SHAP computation methods, including TreeExplainer for the ExtraTreesRegressor and GradientExplainer for the neural network, noting that the choice of explainer can influence the perceived importance of features. They recommend the use of the ExactExplainer for the neural network when computational resources allow, as it provides the most accurate SHAP estimates, while the KernelExplainer serves as a resource-efficient alternative.

Results

In this section, the authors present the results of their validation of the Auto-ML framework using data from the C1 site for the years 2016 to 2019, focusing on the ECOR and EBBR heat flux metrics. The framework was subsequently applied to additional sites to assess its generalizability. A comparative analysis was conducted between the optimal TPOT and AutoKeras algorithms during the summer months (June, July, August), highlighting their respective advantages and limitations through the computation of SHAP (Shapley Additive exPlanations) values.

Moreover, the authors examined the variations in the relative importance of features identified by the Auto-ML framework across different seasons. They also compared the performance of models trained on multi-site data against those tested on site-specific data, providing insights into the robustness and adaptability of the Auto-ML approach in diverse environmental contexts.

Discussion

The discussion section of the research paper outlines the methodology and findings related to the prediction of the Convective Boundary Layer Height (CBLH) using data from the ARM Southern Great Plains (SGP) facility. The study emphasizes the importance of utilizing a diverse set of sites (C1, E32, E37, E39) within the SGP to capture varying meteorological conditions and surface flux dynamics. The data collected from these sites, including vertical velocities, surface fluxes, and atmospheric profiles, were processed to estimate CBLH using a novel machine learning model that incorporates thermodynamic equilibrium principles. This approach aims to enhance the model’s transferability across different sites by ensuring that parameter selection is grounded in physical constraints.

The research highlights the significance of capturing the integrated diurnal evolution of CBLH rather than relying solely on moment-to-moment predictions. By treating CBLH as a continuous process influenced by various meteorological factors, the model demonstrates improved predictive capabilities. The Auto-ML framework, particularly the ExtraTreesRegressor, shows strong performance in predicting CBLH, achieving an R² value of 0.85 and a mean absolute error (MAE) of 0.21 km at the C1 site. However, the model’s performance varies with spatial separation between sites, indicating a negative correlation between predictive accuracy and distance. Seasonal variations also affect model performance, underscoring the need for further investigation into the influence of local environmental factors on CBL dynamics. Overall, the study presents a robust methodology for predicting CBLH, emphasizing the integration of physical principles and machine learning techniques to enhance model accuracy and applicability across diverse conditions.