دمج الانحدار باستخدام عملية غاوسي والتجمع باستخدام K means لتحسين نمذجة جريان الأمطار على المدى القصير
Integration of Gaussian process regression and K means clustering for enhanced short term rainfall runoff modeling

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-91339-8
PMID: https://pubmed.ncbi.nlm.nih.gov/40032910
تاريخ النشر: 2025-03-03
المؤلف: Özgür Kişi وآخرون
الموضوع الرئيسي: دراسات الهيدرولوجيا وإدارة أحواض المياه

نظرة عامة

تقدم هذه الدراسة نموذجًا هجينًا جديدًا، وهو الانحدار باستخدام العمليات الغاوسية المدمجة مع تجميع K-means (GPR-K-means)، يهدف إلى تحسين توقعات تدفق الأمطار-الجريان على المدى القصير. باستخدام بيانات هطول الأمطار وتدفق الأنهار الساعية من حوض أورجيفال في فرنسا (1970-2012)، تم تقييم النموذج مقابل نماذج GPR المستقلة ونماذج الانحدار باستخدام المكونات الرئيسية (PCR) عبر أربعة آفاق توقع: 1 ساعة، 6 ساعات، 12 ساعة، و24 ساعة. أظهر نموذج GPR-K-means أداءً متفوقًا، محققًا قيم كفاءة ناش-سوتكليف (NSE) تبلغ حوالي 0.999، 0.942، 0.891، و0.859، على التوالي، متفوقًا بشكل كبير على نماذج التعلم الآلي الأخرى مثل الذاكرة طويلة وقصيرة الأجل، وآلات الدعم الناقل، والغابات العشوائية.

تؤكد النتائج على قوة النموذج في التقاط العلاقات غير الخطية المعقدة المتأصلة في ديناميات الأمطار-الجريان، بينما توفر أيضًا تقدير عدم اليقين وقابلية التفسير – وهي مزايا رئيسية مقارنة بأساليب التعلم الآلي التقليدية. ومع ذلك، قد يحد اعتماد النموذج على بيانات عالية الدقة وطويلة الأجل من قابليته للتطبيق في المناطق التي تفتقر إلى البيانات، وت raises أسئلة حول قابلية التوسع. يجب أن تستكشف الأبحاث المستقبلية قابلية نقل النموذج إلى سياقات هيدرولوجية متنوعة وت考虑 تقنيات التجميع البديلة لتعزيز التكيف. بشكل عام، يقدم نموذج GPR-K-means أداة واعدة لتحسين التخفيف من الفيضانات وإدارة الأحواض، مع آثار على المراقبة في الوقت الحقيقي واتخاذ القرار في إدارة موارد المياه.

طرق

يستعرض قسم “المواد والطرق” تصميم التجربة والإجراءات المستخدمة في الدراسة. يوضح المواد المحددة المستخدمة، بما في ذلك أي مواد كيميائية، معدات، وعينات بيولوجية، مما يضمن إعادة إنتاج التجارب. تشمل المنهجية التقنيات المطبقة لجمع البيانات وتحليلها، مثل الأساليب الإحصائية، البروتوكولات التجريبية، وأي أدوات حسابية مستخدمة.

بالإضافة إلى ذلك، قد يصف القسم الضوابط المطبقة للتحقق من النتائج والمعايير لاختيار العينات أو الموضوعات. بشكل عام، هذه الجزء من الورقة مهم لفهم الإطار الذي أجريت فيه الأبحاث، مما يسمح بالتقييم النقدي للنتائج وآثارها.

نتائج

في هذه الدراسة، تم تقييم أداء نماذج التعلم الآلي (ML) المختلفة لتوقع تدفق الأنهار الساعية لعدة خطوات قادمة، مع التركيز بشكل خاص على الانحدار باستخدام العمليات الغاوسية (GPR)، والانحدار باستخدام المكونات الرئيسية (PCR)، ونموذج هجين يجمع بين GPR وتجميع K-means (GPR-K-means). شمل التحليل مقارنة هذه النماذج عبر تركيبات إدخال مختلفة من بيانات الأمطار والجريان، مع التركيز بشكل خاص على فعالية دمج التجميع لتعزيز دقة التوقعات. أشارت النتائج إلى أنه بينما كانت جميع النماذج تؤدي بشكل مشابه لتوقعات الساعة الواحدة، فإن نموذج GPR-K-means تفوق بشكل كبير على نماذج GPR وPCR المستقلة عند آفاق التوقع الأطول، وخاصة عند 24 ساعة، محققًا أقل RMSE (0.271 م³/ث)، وأقل MAE (0.076 م³/ث)، وأعلى R² (0.859) وNSE (0.857).

كما أبرزت النتائج انخفاضًا عامًا في أداء النموذج مع تمدد أفق التوقع، مع زيادات ملحوظة في قيم RMSE وMAE وانخفاضات في R² وNSE لتوقعات 6 ساعات، 12 ساعة، و24 ساعة. أظهر نموذج GPR-K-means دقة متفوقة باستمرار، خاصة في التقاط الأنماط الهيدرولوجية المعقدة خلال ذروة التدفقات وفترات الانكماش. تؤكد قدرة هذا النموذج على الحفاظ على أداء قوي على مدى فترات زمنية طويلة على إمكانياته للتطبيقات العملية في إدارة الأحواض والتخفيف من مخاطر الفيضانات. بشكل عام، تشير الدراسة إلى أن دمج تجميع K-means ضمن GPR يعزز من قابلية تكيف النموذج مع الظروف الهيدرولوجية المتنوعة، مما يجعله نهجًا واعدًا لتوقعات تدفق الأمطار-الجريان التشغيلية.

نقاش

تركز الدراسة على حوض أورجيفال في فرنسا، وهو منطقة مهمة للبحث الهيدرولوجي بسبب مناخها شبه المحيطي، واستخدام الأراضي الزراعية بشكل أساسي، وخصائصها الجيولوجية المميزة. تتأثر ديناميات الحوض الهيدرولوجية بتكوين التربة، الذي يتكون بشكل رئيسي من الطين والطمي، مما يؤثر على معدلات احتباس المياه والتسلل. تتيح مجموعة بيانات شاملة تمتد من 1970 إلى 2012، بما في ذلك بيانات هطول الأمطار والتدفق الساعي، تحليلًا مفصلًا للاتجاهات الهيدرولوجية. تستخدم الأبحاث تقنيات النمذجة المتقدمة، وخاصة الانحدار باستخدام المكونات الرئيسية (PCR) والانحدار باستخدام العمليات الغاوسية (GPR)، لتوقع جريان الأمطار على المدى القصير، مع دمج نموذج GPR مع تجميع K-means لتعزيز دقة التوقعات.

تشير النتائج إلى أن نموذج GPR-K-means الهجين يحسن بشكل كبير من دقة التوقعات مقارنة بنماذج GPR وPCR المستقلة، خاصة للتوقعات قصيرة المدى. تسلط الدراسة الضوء على أنه بينما تنخفض دقة التوقعات مع تمدد الآفاق، يحافظ نموذج GPR-K-means على أداء قوي، مما يعالج بشكل فعال عدم الخطية في العلاقات بين الأمطار والجريان. يتفوق هذا النموذج على المنهجيات السابقة، مما يظهر مزايا فريدة في الدقة لتوقعات تدفق الأنهار الساعية. تشير النتائج إلى أن دمج تجميع K-means مع GPR لا يعزز فقط القدرة التنبؤية ولكن يوفر أيضًا تقديرًا أفضل لعدم اليقين، مما يجعله نهجًا قيمًا للنمذجة الهيدرولوجية وإدارة موارد المياه.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-91339-8
PMID: https://pubmed.ncbi.nlm.nih.gov/40032910
Publication Date: 2025-03-03
Author(s): Özgür Kişi et al.
Primary Topic: Hydrology and Watershed Management Studies

Overview

This study presents a novel hybrid model, Gaussian Process Regression integrated with K-means clustering (GPR-K-means), aimed at enhancing short-term rainfall-runoff forecasting. Utilizing hourly precipitation and streamflow data from the Orgeval watershed in France (1970-2012), the model was evaluated against standalone GPR and Principal Component Regression (PCR) models across four forecasting horizons: 1-hour, 6-hour, 12-hour, and 24-hour. The GPR-K-means model demonstrated superior performance, achieving Nash-Sutcliffe Efficiency (NSE) values of approximately 0.999, 0.942, 0.891, and 0.859, respectively, significantly outperforming other machine learning models such as Long Short-Term Memory, Support Vector Machines, and Random Forest.

The findings underscore the model’s robustness in capturing the complex nonlinear relationships inherent in rainfall-runoff dynamics, while also providing uncertainty quantification and interpretability—key advantages over traditional machine learning approaches. However, the model’s reliance on high-resolution, long-term data may limit its applicability in data-sparse regions, and its validation on a single watershed raises questions about scalability. Future research should explore the model’s transferability to diverse hydrological contexts and consider alternative clustering techniques to enhance adaptability. Overall, the GPR-K-means model offers a promising tool for improving flood mitigation and watershed management, with implications for real-time monitoring and decision-making in water resource management.

Methods

The “Materials and Methods” section outlines the experimental design and procedures employed in the study. It details the specific materials used, including any reagents, equipment, and biological samples, ensuring reproducibility of the experiments. The methodology encompasses the techniques applied for data collection and analysis, such as statistical methods, experimental protocols, and any computational tools utilized.

Additionally, the section may describe the controls implemented to validate the results and the criteria for selecting samples or subjects. Overall, this part of the paper is crucial for understanding the framework within which the research was conducted, allowing for critical evaluation of the findings and their implications.

Results

In this study, the performance of various machine learning (ML) models for multi-step ahead hourly streamflow forecasting was evaluated, specifically focusing on Gaussian Process Regression (GPR), Principal Component Regression (PCR), and a hybrid model combining GPR with K-means clustering (GPR-K-means). The analysis involved comparing these models across different input combinations of rainfall and runoff data, with a particular emphasis on the effectiveness of incorporating clustering to enhance predictive accuracy. The results indicated that while all models performed similarly for 1-hour forecasts, the GPR-K-means model significantly outperformed the standalone GPR and PCR models at longer forecasting horizons, particularly at 24 hours, achieving the lowest RMSE (0.271 m³/s), MAE (0.076 m³/s), and the highest R² (0.859) and NSE (0.857).

The findings also highlighted a general decline in model performance as the forecasting horizon extended, with notable increases in RMSE and MAE values and decreases in R² and NSE for 6-hour, 12-hour, and 24-hour forecasts. The GPR-K-means model consistently demonstrated superior accuracy, particularly in capturing complex hydrological patterns during peak flows and recession periods. This model’s ability to maintain robust performance over extended lead times underscores its potential for practical applications in watershed management and flood risk mitigation. Overall, the study suggests that integrating K-means clustering within GPR enhances the model’s adaptability to varying hydrological conditions, making it a promising approach for operational rainfall-runoff forecasting.

Discussion

The study focuses on the Orgeval watershed in France, a significant area for hydrological research due to its semi-oceanic climate, predominantly agricultural land use, and distinct geological characteristics. The watershed’s hydrological dynamics are influenced by its soil composition, which consists mainly of silt and clay, affecting water retention and infiltration rates. A comprehensive dataset spanning from 1970 to 2012, including hourly precipitation and discharge data, enables detailed analysis of hydrological trends. The research employs advanced modeling techniques, specifically Principal Component Regression (PCR) and Gaussian Process Regression (GPR), to forecast short-term rainfall runoff, with the GPR model integrated with K-means clustering to enhance predictive accuracy.

The results indicate that the hybrid GPR-K-means model significantly improves forecasting accuracy compared to standalone GPR and PCR models, particularly for short-term predictions. The study highlights that while forecasting accuracy decreases with longer horizons, the GPR-K-means model maintains robust performance, effectively addressing the nonlinearity in rainfall-runoff relationships. This model outperforms previous methodologies, demonstrating unique advantages in accuracy for hourly streamflow predictions. The findings suggest that integrating K-means clustering with GPR not only enhances predictive capability but also provides better uncertainty quantification, making it a valuable approach for hydrological modeling and water resource management.