التنبؤ العالمي بالفيضانات الشديدة في الأحواض المائية غير المقاسة Global prediction of extreme floods in ungauged watersheds

المجلة: Nature، المجلد: 627، العدد: 8004
DOI: https://doi.org/10.1038/s41586-024-07145-1
PMID: https://pubmed.ncbi.nlm.nih.gov/38509278
تاريخ النشر: 2024-03-20

التنبؤ العالمي بالفيضانات الشديدة في الأحواض المائية غير المقاسة

https://doi.org/10.1038/s41586-024-07145-1
تاريخ الاستلام: 29 يوليو 2023
تم القبول: 31 يناير 2024
نُشر على الإنترنت: 20 مارس 2024
الوصول المفتوح
(أ) التحقق من التحديثات

جراي نيرينغ ديبورا كوهين فوسوموزي دوب مارتن غوش أورن جيلون شون هاريغان أفيناتان حاسيديم دانيال كلوتز فريدريك كراتزرت¹، آشر ميتزجر سيلا نيفو فلوريان بابنبرغر كريستيل برودهوم غاي شاليف شلومو شينزيس تادلي يدنكش تكلين دانا ويتزنر و يوسي ماتياس¹

الملخص

تعتبر الفيضانات واحدة من أكثر الكوارث الطبيعية شيوعًا، ولها تأثير غير متناسب في البلدان النامية التي غالبًا ما تفتقر إلى شبكات قياس تدفق الأنهار الكثيفة. إن التحذيرات الدقيقة وفي الوقت المناسب ضرورية للتخفيف من مخاطر الفيضانات. لكن نماذج المحاكاة الهيدرولوجية عادة ما يجب أن تُعاير على سجلات بيانات طويلة في كل حوض مائي. هنا نوضح أن التنبؤات المعتمدة على الذكاء الاصطناعي تحقق موثوقية في التنبؤ بالأحداث النهرية الشديدة في الأحواض غير المقاسة بفترة تصل إلى خمسة أيام، وهي مشابهة أو أفضل من موثوقية التنبؤات الفورية (فترة صفرية) من نظام النمذجة العالمية المتطور الحالي (نظام الوعي بالفيضانات العالمي لخدمة إدارة الطوارئ كوبيرنيكوس). بالإضافة إلى ذلك، نحقق دقة في الأحداث ذات فترة عودة خمس سنوات مشابهة أو أفضل من الدقة الحالية في الأحداث ذات فترة عودة سنة واحدة. وهذا يعني أن الذكاء الاصطناعي يمكن أن يوفر تحذيرات من الفيضانات في وقت مبكر وعلى أحداث أكبر وأكثر تأثيرًا في الأحواض غير المقاسة. تم دمج النموذج المطور هنا في نظام إنذار مبكر تشغيلي ينتج توقعات متاحة للجمهور (مجانية ومفتوحة) في الوقت الحقيقي في أكثر من 80 دولة. يبرز هذا العمل الحاجة إلى زيادة توفر البيانات الهيدرولوجية لمواصلة تحسين الوصول العالمي إلى تحذيرات الفيضانات الموثوقة.

الفيضانات هي أكثر أنواع الكوارث الطبيعية شيوعًا ومعدل الكوارث المرتبطة بالفيضانات قد تضاعف أكثر من مرتين منذ هذا الارتفاع في الكوارث المرتبطة بالفيضانات مدفوع بدورة مائية متسارعة ناجمة عن التغير المناخي الناتج عن الأنشطة البشرية. تعتبر أنظمة الإنذار المبكر وسيلة فعالة للتخفيف من مخاطر الفيضانات، حيث تقلل من الوفيات المرتبطة بالفيضانات بنسبة تصل إلى والتكاليف الاقتصادية بواسطة تشكل السكان في البلدان ذات الدخل المنخفض والمتوسط ما يقرب من 90% من 1.8 مليار شخص معرضين لمخاطر الفيضانات. قدرت البنك الدولي أن ترقية أنظمة الإنذار المبكر من الفيضانات في البلدان النامية إلى معايير البلدان المتقدمة ستنقذ في المتوسط 23,000 حياة سنويًا. .
في هذه الورقة، نقيم مدى إمكانية استخدام الذكاء الاصطناعي (AI) المدرب على مجموعات بيانات مفتوحة وعامة لتحسين الوصول العالمي إلى توقعات الأحداث المتطرفة في الأنهار العالمية. استنادًا إلى النموذج والتجارب الموصوفة في هذه الورقة، قمنا بتطوير نظام تشغيلي ينتج توقعات للفيضانات على المدى القصير (7 أيام) في أكثر من 80 دولة. هذه التوقعات متاحة في الوقت الحقيقي دون حواجز للوصول مثل الرسوم المالية أو تسجيل الدخول إلى الموقع.https://g.co/floodhub).
تتمثل إحدى التحديات الرئيسية في التنبؤ بالأنهار في أن نماذج التنبؤ الهيدرولوجي يجب أن تُعاير لكل حوض مائي باستخدام سجلات بيانات طويلة. تُسمى الأحواض التي تفتقر إلى مقاييس الجداول لتوفير البيانات اللازمة للمعايرة بالأحواض غير المقاسة، وكانت مشكلة ‘التنبؤ في الأحواض غير المقاسة’ (PUB) هي المشكلة العقدية لرابطة العلوم الهيدرولوجية الدولية (IAHS) من عام 2003 إلى . في الـ
في نهاية عقد النشر، أفادت IAHS بأنه لم يتم إحراز تقدم كبير في مواجهة المشكلة، مشيرة إلى أن “الكثير من النجاح حتى الآن كان في الأحواض المقاسة بدلاً من الأحواض غير المقاسة، مما له آثار سلبية بشكل خاص على الدول النامية”. .
فقط نسبة قليلة من مياه الأنهار في العالم يتم قياسها، ولا تتوزع أجهزة قياس تدفق الأنهار بشكل متساوٍ في جميع أنحاء العالم. هناك علاقة قوية بين الناتج المحلي الإجمالي الوطني وإجمالي بيانات ملاحظات تدفق الأنهار المتاحة للجمهور في بلد معين (تظهر الشكل البياني الممتد 1 هذه العلاقة اللوغاريتمية)، مما يعني أن التنبؤات عالية الجودة تمثل تحديًا خاصًا في المناطق الأكثر عرضة للتأثيرات البشرية الناتجة عن الفيضانات.
في الأعمال السابقة لقد أظهرنا أن التعلم الآلي يمكن استخدامه لتطوير نماذج محاكاة هيدرولوجية قابلة للنقل إلى الأحواض غير المقاسة. هنا نطور ذلك إلى نظام توقعات على نطاق عالمي بهدف فهم قابلية التوسع والموثوقية. في هذه الورقة، نتناول ما إذا كان، بالنظر إلى سجل بيانات تدفق الأنهار العالمية المتاحة للجمهور، من الممكن تقديم توقعات دقيقة للأنهار عبر مقاييس كبيرة، خاصة للأحداث المتطرفة، وكيف يقارن ذلك مع الحالة الراهنة للتكنولوجيا.
الحالة الحالية لأحدث التقنيات في التنبؤ الهيدرولوجي في الوقت الحقيقي على نطاق عالمي هي نظام الوعي بالفيضانات العالمي (GloFAS). جلوفاس هو نظام التنبؤ بالفيضانات العالمي التابع لخدمة إدارة الطوارئ في كوبرنيكوس (CEMS)، الذي يتم تقديمه تحت مسؤولية المركز المشترك للبحوث التابع للمفوضية الأوروبية ويعمل به المركز الأوروبي للتنبؤات الجوية متوسطة المدى (ECMWF) في
الشكل 1|الاختلافات بين التنبؤ الفوري ( -مدة زمنية قدرها يوم) درجات F1 لفترات عودة مدتها عامين بين نموذج الذكاء الاصطناعي الخاص بنا وGloFAS على مدى الفترة
دور مركز التنبؤ الهيدرولوجي التابع لـ CEMS – الحساب. نحن نستخدم إصدار GloFAS 4، وهو الإصدار التشغيلي الحالي الذي بدأ العمل به في يوليو 2023. توجد أنظمة تنبؤ أخرى لأجزاء مختلفة من العالم. العديد من الدول لديها وكالات وطنية مسؤولة عن إنتاج التحذيرات المبكرة. نظرًا لشدة التأثيرات التي تتركها الفيضانات على المجتمعات حول العالم، نعتبر أنه من الضروري أن تقوم وكالات التنبؤ بتقييم ومقارنة توقعاتها وتحذيراتها وطرقها، وخطوة أولى مهمة نحو تحقيق هذا الهدف هي أرشفة التوقعات التاريخية.

الذكاء الاصطناعي يحسن موثوقية التنبؤ

نموذج الذكاء الاصطناعي الذي تم تطويره لهذه الدراسة يستخدم شبكات الذاكرة طويلة وقصيرة المدى (LSTM) لتوقع تدفق المياه اليومي من خلال أفق توقع يمتد لسبعة أيام. يتم وصف النموذج بالتفصيل في قسم الطرق، وتم تنفيذ نسخة من النموذج مناسبة للبحث في مستودع NeuralHydrology مفتوح المصدر. تم وصف بيانات الإدخال والهدف والتقييم في الطرق.
تم تدريب هذا النموذج التنبؤي للذكاء الاصطناعي واختباره خارج العينة باستخدام عشوائي -تم استخدام طريقة التحقق المتقاطع عبر 5,680 مقياس تدفق مائي. تم الإبلاغ عن أنواع أخرى من تجارب التحقق المتقاطع في الطرق (أي، من خلال حجب جميع المقاييس في أحواض المياه النهائية، أو مناطق المناخ الكاملة، أو القارات الكاملة). بالإضافة إلى ذلك، تم حساب جميع المقاييس المبلغ عنها لنموذج الذكاء الاصطناعي باستخدام بيانات مقاييس تدفق المياه من فترات زمنية غير موجودة في التدريب (بالإضافة إلى مقاييس التدفق التي لم تكن موجودة في التدريب)، مما يعني أن تقسيمات التحقق المتقاطع كانت خارج العينة عبر الزمن والموقع. بالمقابل، تم حساب المقاييس الخاصة بـ GloFAS على مجموعة من المواقع المقاسة وغير المقاسة، وعلى مجموعة من فترات زمنية للتعديل والتحقق. وهذا يعني أن المقارنة تفضل معيار GloFAS. وهذا ضروري لأن تعديل GloFAS يتطلب موارد حسابية كبيرة لدرجة أنه ليس من الممكن إعادة التعديل عبر تقسيمات التحقق المتقاطع.
هدفنا هو فهم موثوقية التنبؤات بالأحداث المتطرفة، لذا نقوم بالإبلاغ عن الدقة والاسترجاع ودرجات F1 (درجات F1 هي المتوسط التوافقي للدقة والاسترجاع) على أحداث بفترات عودة مختلفة. يتم الإبلاغ عن مقاييس هيدرولوجية قياسية أخرى في الطرق. يتم وصف الاختبارات الإحصائية في الطرق.
تظهر الشكل 1 التوزيع العالمي لاختلافات درجة F1 للأحداث ذات فترة عودة مدتها سنتان عند فترة تنبيه مدتها 0 يوم خلال الفترة من 1984 إلى 2021. يتم التعبير عن زمن التنفيذ بعدد الأيام من وقت التنبؤ، بحيث يعني زمن تنفيذ مدته 0 يوم أن توقعات تدفق المياه هي لليوم الحالي (تنبؤات فورية). لقد تحسن نموذج الذكاء الاصطناعي (كان على الأقل معادلاً) لإصدار GloFAS 4 في 64% (65%)، 70% ( )، 60% ( ) و 49% ( ) من القياسات لأحداث فترة العودة لمدة سنة واحدة ( , كوهين )، 2 سنوات ( , سنوات ( ) و 10 سنوات ( ).
الشكل 2 | التوزيعات على التنبؤ الحالي ( – فترة زمنية لمدة يوم) الدقة والاسترجاع كدالة لفترة العودة. أ، ب، نموذج الذكاء الاصطناعي أكثر موثوقية، في المتوسط، على مدى جميع فترات العودة. يتمتع نموذج الذكاء الاصطناعي بدقة على أحداث فترة العودة لمدة 5 سنوات لا تختلف إحصائيًا عن GloFAS على أحداث فترة العودة لمدة سنة واحدة، واسترجاع أفضل من GloFAS على أحداث فترة العودة لمدة سنة واحدة. يتم الإبلاغ عن الاختبارات الإحصائية في النص الرئيسي. تُظهر الصناديق ربعيات التوزيع وتظهر الشعيرات النطاق الكامل باستثناء القيم الشاذة. الخط الأزرق المتقطع هو الدرجة الوسيطة لـ GloFAS على أحداث السنة الواحدة ويتم رسمه كمرجع. تشير تسميات العلامات إلى حجم العينة (عدد القياسات) لكل مخطط صندوق؛ تم حساب درجات الدقة (أ) ودرجات الاسترجاع (ب) على مجموعات قياس مختلفة قليلاً في الحالات التي لا توجد فيها أحداث بحجم معين في موقع قياس معين في كل من الملاحظات أو توقعات النموذج مما يؤدي إلى عدم تعريف درجة واحدة لنموذج واحد. يتم دائمًا مقارنة GloFAS ونموذج الذكاء الاصطناعي على مجموعة متطابقة من القياسات في جميع الحالات. بيانات محاكاة GloFAS من متجر بيانات المناخ .

فترات العودة

الأحداث الهيدرولوجية الأكثر تطرفًا (أي، الأحداث ذات فترات العودة الأكبر) هي أكثر أهمية وعادة ما تكون (عند استخدام نماذج الهيدرولوجيا التقليدية) أكثر صعوبة في التنبؤ. هناك قلق شائع بشأن استخدام الذكاء الاصطناعي أو أنواع أخرى من النهج المعتمدة على البيانات هو أن الموثوقية قد تتدهور على الأحداث التي تكون نادرة في بيانات التدريب. هناك دليل سابق على أن هذا القلق قد لا يكون صحيحًا لنمذجة تدفق المياه .
الشكل 2 يظهر التوزيعات على الدقة والاسترجاع لأحداث فترات العودة المختلفة. يتمتع نموذج الذكاء الاصطناعي بدرجات دقة واسترجاع أعلى لجميع فترات العودة ( )، مع أحجام تأثير تتراوح من (درجات دقة لمدة سنة واحدة) إلى (درجات استرجاع لمدة سنتين). الاختلافات بين درجات الدقة من نموذج الذكاء الاصطناعي على أحداث فترة العودة لمدة 5 سنوات ومن GloFAS على أحداث فترة العودة لمدة سنة واحدة ليست ذات دلالة إحصائية عند ، ودرجات الاسترجاع من نموذج الذكاء الاصطناعي لأحداث 5 سنوات أفضل من درجات استرجاع GloFAS لأحداث 1 سنة ( ).

فترة التنبؤ

الشكل 3 يظهر درجات F1 على فترات زمنية خلال أفق التنبؤ لمدة 7 أيام لفترات العودة بين سنة واحدة و10 سنوات. بالمقارنة مع التنبؤات الحالية لـ GloFAS (فترة زمنية لمدة 0 يوم)، فإن توقعات الذكاء الاصطناعي إما أفضل أو ليست ذات موثوقية إحصائية مختلفة (درجات F1) حتى فترة زمنية لمدة 5 أيام لأحداث 1 سنة (الذكاء الاصطناعي أفضل بشكل ملحوظ؛ )، 2 سنة (لا فرق إحصائي؛ ) و5 سنوات (لا فرق إحصائي؛ ) أحداث فترة العودة.
الشكل 3| التوزيعات على درجات F1 في جميع قياسات التقييم كدالة لفترة التنبؤ لفترات العودة المختلفة. , يتمتع نموذج الذكاء الاصطناعي بدرجات F1 على أحداث فترة العودة لمدة سنة واحدة (أ)، سنتين (ب)، 5 سنوات (ج) و10 سنوات (د) حتى فترات زمنية لمدة 5 أيام تكون إما أفضل إحصائيًا أو ليست مختلفة إحصائيًا عن GloFAS على نفس الأحداث عند فترة زمنية لمدة 0 يوم. يتم الإبلاغ عن الاختبارات الإحصائية

القارات

كلا النموذجين يظهران اختلافات في الموثوقية في مناطق مختلفة من العالم. على أحداث فترة العودة لمدة 5 سنوات، يوجد فرق بنسبة 54% بين متوسط درجات F1 في القارة ذات الدرجات الأقل (أمريكا الجنوبية، ) والقارة ذات الدرجات الأعلى (أوروبا، )، مما يعني أنه، في المتوسط، من المرجح أن تكون التنبؤات الإيجابية الحقيقية مرتين (بنسبة متناسبة). كما أن نموذج الذكاء الاصطناعي لديه فرق بنسبة 54% بين متوسط درجات F1 في القارة ذات الدرجات الأقل (أمريكا الجنوبية، ) والقارة ذات الدرجات الأعلى (جنوب غرب المحيط الهادئ: )، والذي يعود في الغالب إلى زيادة كبيرة في المهارة في جنوب غرب المحيط الهادئ مقارنة بـ GloFAS ( ).
الشكل 4 يظهر التوزيعات على درجات F1 عبر القارات وفترات العودة. يتمتع نموذج الذكاء الاصطناعي بدرجات أعلى في جميع القارات وفترات العودة ( ) مع ثلاثة استثناءات حيث لا يوجد فرق إحصائي: إفريقيا على أحداث فترة العودة لمدة سنة واحدة ( ) وآسيا على أحداث فترة العودة لمدة 5 سنوات ( ) و10 سنوات ( ).

قابلية التنبؤ بموثوقية التنبؤ

تحدي التنبؤ في الأحواض غير المقاسة هو أنه غالبًا لا توجد طريقة لتقييم الموثوقية في المواقع التي لا تحتوي على بيانات حقيقية. الجودة المرغوبة للنموذج هي أن مهارة التنبؤ يجب أن تكون قابلة للتنبؤ من متغيرات قابلة للملاحظة الأخرى، مثل البيانات الجغرافية و/أو الجيوفيزيائية المرسومة أو المستشعرة عن بُعد. بالإضافة إلى ذلك، على الرغم من أن التنبؤات المعتمدة على الذكاء الاصطناعي تقدم موثوقية أفضل في معظم الأماكن، إلا أن هذا ليس هو الحال في كل مكان. سيكون من المفيد أن نكون قادرين على التنبؤ بمكان توقع أن تكون النماذج المختلفة أكثر أو أقل موثوقية.
لقد وجدنا أنه من الصعب استخدام خصائص الحوض (البيانات الجغرافية، الجيوفيزيائية) للتنبؤ بمكان أداء نموذج أفضل من آخر. الشكل 2 من البيانات الموسعة يظهر مصفوفة ارتباك من مصنف الغابة العشوائية المدرب على مجموعة فرعية من خصائص HydroATLAS التي تتنبأ بما إذا كان نموذج الذكاء الاصطناعي أو GloFAS يؤدي

المبلغ عنه في النص الرئيسي. تُظهر الصناديق ربعيات التوزيع وتظهر الشعيرات النطاق الكامل باستثناء القيم الشاذة. الخط الأزرق المتقطع هو الدرجة الوسيطة لتنبؤات GloFAS ويتم رسمه كمرجع. بيانات محاكاة GloFAS من متجر بيانات المناخ .
أفضل (أو مشابه) في كل حوض فردي. تم تدريب المصنف باستخدام -التحقق المتقاطع المتوازن، وعادة ما يتنبأ بأن نموذج الذكاء الاصطناعي أفضل (بما في ذلك في من الحالات التي يكون فيها GloFAS أفضل فعليًا). يشير هذا إلى أنه من الصعب العثور على أنماط منهجية حول مكان تفضيل كل نموذج، بناءً على خصائص الحوض المتاحة.
ومع ذلك، من الممكن التنبؤ، ببعض المهارة، بمكان أداء نموذج فردي بشكل جيد مقابل ضعيف. كمثال، الشكل 5 يظهر مصفوفات ارتباك من مصنفات الغابة العشوائية التي تتنبأ بما إذا كانت درجات F1 للقياسات خارج العينة (مواقع غير مقاسة فعليًا) ستكون أعلى أو أقل من المتوسط عبر جميع قياسات التقييم. كلا النموذجين (نموذج الذكاء الاصطناعي وGloFAS) لهما قابلية تنبؤ عامة مماثلة (71% دقة متوسطة واسترجاع لـ GloFAS و73% للنموذج الذكاء الاصطناعي).
أهمية الميزات من هذه المصنفات الموثوقية موضحة في الشكل 3 من البيانات الموسعة. أهمية الميزات هي مؤشر حول أي الخصائص الجيوفيزيائية تحدد موثوقية عالية مقابل منخفضة (أي، ما نوع الأحواض التي تحاكيها هذه النماذج بشكل جيد مقابل سيء). الميزات الأكثر أهمية لنموذج الذكاء الاصطناعي هي: مساحة الصرف، متوسط التبخر المحتمل السنوي (PET)، متوسط التبخر الفعلي السنوي (AET) والارتفاع، بينما كانت الميزات الأكثر أهمية لـ GloFAS هي PET وAET. الارتباطات بين الخصائص ودرجات الموثوقية عمومًا منخفضة، مما يشير إلى درجة عالية من عدم الخطية و/أو تفاعل المعلمات.
AET وPET هما مؤشرات (عكسية) للجفاف، وعادة ما تؤدي نماذج الهيدرولوجيا بشكل أفضل في الأحواض الرطبة لأن الرسوم البيانية المائية الحادة التي تحدث في الأحواض الجافة يصعب محاكاتها. هذا التأثير موجود لكلا النموذجين. نموذج الذكاء الاصطناعي مرتبط أكثر بحجم الحوض (مساحة الصرف) وعادة ما يؤدي بشكل أفضل في الأحواض الأصغر. يشير هذا إلى طريقة يمكن أن تتحسن بها نمذجة تدفق المياه المعتمدة على التعلم الآلي، على سبيل المثال، من خلال التركيز على التدريب أو الضبط الدقيق على الأحواض الأكبر، أو من خلال تنفيذ نموذج توجيه أو رسم بياني صريح للسماح بالنمذجة المباشرة للأحواض الفرعية أو وحدات الاستجابة الهيدرولوجية الأصغر – على سبيل المثال، كما هو موضح في المرجع 29.
الشكل 4 | توزيعات درجات F1 عبر قارات وفترات العودة المختلفة. أ-د، يتمتع نموذج الذكاء الاصطناعي بدرجات أعلى في جميع القارات على أحداث فترة العودة لمدة سنة واحدة (أ)، سنتين (ب)، 5 سنوات (ج) و10 سنوات (د) مع ثلاثة استثناءات حيث لا يوجد فرق إحصائي: إفريقيا على أحداث فترة العودة لمدة سنة واحدة وآسيا على أحداث فترة العودة لمدة 5 سنوات و10 سنوات. كلا النموذجين لديهما كبير
خريطة عالمية للمهارة المتوقعة من نسخة الانحدار (بدلاً من المصنف) من هذا المتنبئ بمهارة الغابة العشوائية موضحة في الشكل 6 لأحواض HydroBASINS من المستوى 12 البالغ عددها 1.03 مليون . هذا يعطي بعض المؤشرات حول المكان الذي من المتوقع أن يؤدي فيه نموذج توقعات الذكاء الاصطناعي غير المقيس بشكل جيد على مستوى عالمي.

الخاتمة والمناقشة

على الرغم من أن النمذجة الهيدرولوجية هي مجال دراسة ناضج نسبيًا، فإن المناطق في العالم الأكثر عرضة لمخاطر الفيضانات غالبًا ما تفتقر إلى التنبؤات الموثوقة وأنظمة الإنذار المبكر. باستخدام الذكاء الاصطناعي ومجموعات البيانات المفتوحة، نحن قادرون على تحسين الدقة المتوقعة والاسترجاع ووقت الاستجابة بشكل كبير في التنبؤات القصيرة الأجل. توقعات الأحداث النهرية المتطرفة لمدة 5 أيام). قمنا بتمديد، في المتوسط، موثوقية التوقعات العالمية المتاحة حالياً (مدة التقديم 0) إلى مدة تقديم تبلغ 5 أيام، وتمكنا من استخدام التنبؤ القائم على الذكاء الاصطناعي لتحسين مهارة التوقعات في أفريقيا لتكون مشابهة لما هو متاح حالياً في أوروبا.
بصرف النظر عن إنتاج توقعات دقيقة، فإن جانبًا آخر من تحدي تقديم تحذيرات الفيضانات القابلة للتنفيذ هو نشر تلك التحذيرات للأفراد والمنظمات في الوقت المناسب. نحن ندعم هذا الجانب من خلال إصدار التوقعات علنًا في الوقت الحقيقي، دون تكلفة أو حواجز للوصول. نحن نقدم توقعات في الوقت الحقيقي مفتوحة الوصول لدعم الإشعارات – على سبيل المثال، من خلال بروتوكول التنبيه المشترك وإشعارات الدفع إلى الهواتف الذكية الشخصية، ومن خلال بوابة إلكترونية مفتوحة على الإنترنت فيhttps://g.co/floodhubجميع إعادة التحليل وإعادة التنبؤ المستخدمة في هذه الدراسة متاحة في مستودع مفتوح المصدر، ونسخة بحثية من نموذج التعلم الآلي المستخدم في هذه الدراسة متاحة كجزء من مستودع NeuralHydrology المفتوح المصدر على GitHub. .
لا يزال هناك الكثير من المجال لتحسين توقعات الفيضانات العالمية وأنظمة الإنذار المبكر. إن القيام بذلك أمر حاسم لرفاهية الملايين من الناس في جميع أنحاء العالم الذين يمكن أن تستفيد حياتهم (وممتلكاتهم) من تحذيرات الفيضانات الفعالة وفي الوقت المناسب. نحن نعتقد أن أفضل طريقة لتحسين توقعات الفيضانات من كل من الأساليب المعتمدة على البيانات والنمذجة المفاهيمية هي زيادة الوصول إلى البيانات. البيانات الهيدرولوجية هي
الشكل 5 | اختبار القدرة على التنبؤ ما إذا كان نموذج معين سيؤدي فوق أو تحت المتوسط في أي موقع معين. أ، ب، مصفوفات الارتباك للتنبؤات خارج العينة حول ما إذا كانت درجات F1 من GloFAS (أ) ونموذج الذكاء الاصطناعي (ب) عند كل مقياس أعلى أو أقل من متوسط درجة F1 من نفس النموذج عبر جميع المقاييس. الأرقام المعروضة على مصفوفات الارتباك هي دقة واسترجاع متوسطة دقيقة، والألوان تعمل كإشارة بصرية لهذه الأرقام نفسها. ج، الارتباطات بين درجات F1 وخصائص حوض HydroATLAS التي لها أعلى درجات أهمية الميزات من هذه النماذج المصنفة المدربة. بيانات محاكاة GloFAS من متجر بيانات المناخ. .
الشكل 6| المهارة المتوقعة العالمية. تُظهر هذه الخريطة توقعات درجات F1 لفترة عودة مدتها عامين على أكثر من 1.03 مليون حوض مائي من المستوى 12. نموذج التنبؤ بالذكاء الاصطناعي. خريطة أساسية من GeoPandas .
مطلوب لتدريب أو معايرة نماذج الهيدرولوجيا الدقيقة، ولتحديث هذه النماذج في الوقت الفعلي (على سبيل المثال، من خلال دمج البيانات نحن نشجع الباحثين والمنظمات التي لديها وصول إلى بيانات تدفق المياه على المساهمة في مشروع كارافان مفتوح المصدر علىhttps://github.com/kratzert/Caravan .

المحتوى عبر الإنترنت

أي طرق، مراجع إضافية، ملخصات تقارير Nature Portfolio، بيانات المصدر، بيانات موسعة، معلومات إضافية، شكر وتقدير، معلومات مراجعة الأقران؛ تفاصيل مساهمات المؤلفين والمصالح المتنافسة؛ وبيانات توفر البيانات والرموز متاحة علىhttps://doi.org/10.1038/s41586-024-07145-1.
  1. رينتشلر، ج.، سلهب، م. وجافينو، ب. تعرض الفيضانات والفقر في 188 دولة. نات. كوميون. 13، 3527 (2022).
  2. هاليغاتي، س. حل فعال من حيث التكلفة لتقليل خسائر الكوارث في البلدان النامية: خدمات الهيدرولوجيا الجوية، التحذير المبكر، وسياسة الإخلاء ورقة عمل بحثية 6058 (البنك الدولي، 2012).
  3. التكلفة البشرية للكوارث الطبيعية: منظور عالمي (استراتيجية الأمم المتحدة الدولية للحد من الكوارث، 2015).
  4. 2021 حالة خدمات المناخ WMO-No. 1278 (المنظمة العالمية للأرصاد الجوية، 2021).
  5. ميلي، ب.، كريستوفر، د.، ويذيرالد، ر. ت.، داني، ك. أ. وديلورث، ت. ل. زيادة خطر الفيضانات الكبرى في مناخ متغير. ناتشر 415، 514-517 (2002).
  6. طبري، ح. تأثير تغير المناخ على الفيضانات وزيادة الأمطار الغزيرة مع توفر المياه. تقارير علمية 10، 13768 (2020).
  7. التقرير العالمي عن الغرق: الوقاية من قاتل رئيسي (منظمة الصحة العالمية، 2014).
  8. التقرير الفني حول المناخ العالمي 2001-2010: عقد من التطرف المناخي (منظمة الصحة العالمية، 2013).
  9. بيلون، ب. ج. إرشادات لتقليل خسائر الفيضانات تقرير فني (استراتيجية الأمم المتحدة الدولية للحد من الكوارث، 2002).
  10. روجرز، د. وتسيركونوف، ف. تكاليف وفوائد أنظمة الإنذار المبكر: تقرير التقييم العالمي حول تقليل مخاطر الكوارث (البنك الدولي، 2010).
  11. رازافي، س. وتولسون، ب. أ. إطار عمل فعال لمعايرة نموذج الهيدرولوجيا على فترات بيانات طويلة. موارد المياه. بحث. 49، 8418-8431 (2013).
  12. لي، تشوان-زه وآخرون. تأثير طول سلسلة بيانات المعايرة على الأداء والمعلمات المثلى لنموذج الهيدرولوجيا. علوم المياه والهندسة 3، 378-393 (2010).
  13. سيفابالان، م. وآخرون. عقد IAHS حول التنبؤات في الأحواض غير المقاسة (PUB)، 2003-2012: تشكيل مستقبل مثير لعلوم الهيدرولوجيا. مجلة علوم الهيدرولوجيا 48، 857-880 (2003).
  14. هراشوفيتس، م. وآخرون. عقد من التنبؤات في الأحواض غير المقاسة (PUB) – مراجعة. مجلة علوم المياه. 58، 1198-1255 (2013).
  15. كراتزرت، ف. وآخرون. نحو تحسين التنبؤات في الأحواض غير المقاسة: استغلال قوة التعلم الآلي. موارد المياه. أبحاث. 55، 11344-11354 (2019).
  16. ألفييري، ل. وآخرون. GloFAS – التنبؤ بتدفق الأنهار العالمي والتحذير المبكر من الفيضانات. علوم الأرض والهيدرولوجيا 17، 1161-1175 (2013).
  17. هاريغان، س.، زسوتر، إ.، كلوك، هـ.، سلامون، ب. & برودهوم، ج. إعادة توقعات تصريف الأنهار اليومية من مجموعة البيانات وتوقعات الوقت الحقيقي من نظام الوعي بالفيضانات العالمي التشغيلي. علوم الأرض والهيدرولوجيا 27، 1-19 (2023).
  18. أرهايمر، ب. وآخرون. نمذجة حوض المياه العالمية باستخدام HYPE العالمية (WWH)، البيانات المفتوحة، وتقدير المعلمات خطوة بخطوة. علوم الأرض والهيدرولوجيا 24، 535-559 (2020).
  19. سوفرونت ألكانتارا، م. أ. وآخرون. نمذجة الهيدرولوجيا كخدمة (HMaaS): نهج جديد لمعالجة تحديات المعلومات الهيدرولوجية في البلدان النامية. Front. Environ. Sci. 7، 158 (2019).
  20. شيفيلد، ج. وآخرون. نظام لمراقبة الجفاف وتوقعه لموارد المياه والأمن الغذائي في أفريقيا جنوب الصحراء. نشرة الجمعية الأمريكية للأرصاد الجوية 95، 861-882 (2014).
  21. هوخرتر، س. وشميدهوبر، ي. ذاكرة طويلة وقصيرة الأمد. الحوسبة العصبية. 9، 1735-1780 (1997).
  22. كراتزر، ف.، غوش، م.، نيرينغ، ج. س. وكلاوتز، د. NeuralHydrology – مكتبة بايثون لأبحاث التعلم العميق في علم الهيدرولوجيا. ج. البرمجيات مفتوحة المصدر 7، 4050 (2022).
  23. سيلارز، س. ل. ‘التحديات الكبرى’ في البيانات الضخمة وعلوم الأرض. نشرة الجمعية الأمريكية للأرصاد الجوية 99، ES95-ES98 (2018).
  24. توديني، إ. نمذجة حوض المياه: الماضي، الحاضر والمستقبل. علوم الأرض والهيدرولوجيا 11، 468-482 (2007).
  25. هيراث، هـ. م. ف. ف.، تشادالاوادا، ج. وبابوفيتش، ف. التعلم الآلي المستند إلى الهيدرولوجيا لنمذجة هطول الأمطار وتصريف المياه: نحو النمذجة الموزعة. علوم الأرض والهيدرولوجيا 25، 4373-4401 (2021).
  26. رايشتاين، م. وآخرون. التعلم العميق وفهم العمليات لعلوم نظام الأرض المعتمدة على البيانات. ناتشر 566، 195-204 (2019).
  27. فريم، ج. م. وآخرون. توقعات هطول الأمطار والتدفق الناتج عن التعلم العميق للأحداث المتطرفة. علوم الأرض والهيدرولوجيا 26، 3377-3392 (2022).
  28. لينك، س. وآخرون. الخصائص العالمية للفرع الهيدرولوجي والأنهار عند دقة مكانية عالية. بيانات علمية 6، 283 (2019).
  29. كراتزر، ف. وآخرون. نمذجة شبكة الأنهار على نطاق واسع باستخدام الشبكات العصبية البيانية. في ملخصات مؤتمر الجمعية الجيولوجية الأوروبية EGU21-13375 (الجمعية الجيولوجية الأوروبية، 2021).
  30. لينر، ب. وغريل، ج. غونتر. الهيدروغرافيا العالمية للأنهار وتوجيه الشبكات: بيانات أساسية وطرق جديدة لدراسة أنظمة الأنهار الكبيرة في العالم. عمليات الهيدرولوجيا. 27، 2171-2186 (2013).
  31. نيرينغ، ج. س. وآخرون. دمج البيانات والانحدار الذاتي لاستخدام ملاحظات تدفق المياه في الوقت القريب في شبكات الذاكرة القصيرة والطويلة. علوم الأرض الهيدرولوجية 26، 5493-5513 (2022).
  32. كراتزرت، ف. وآخرون. كارافان – مجموعة بيانات مجتمعية عالمية للهيدرولوجيا ذات العينة الكبيرة. بيانات العلوم 10، 61 (2023).
  33. غريمالدي، س. وآخرون. تدفق الأنهار والبيانات التاريخية ذات الصلة من نظام الوعي بالفيضانات العالمي. متجر بيانات المناخ https://doi.org/10.24381/cds.a4fdd6b9 (2023).
  34. جورداهل، ك. وآخرون. geopandas/geopandas: v0.8.1 https://zenodo.org/records/3946761 (2020).
ملاحظة الناشر: تظل Springer Nature محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح: هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي للاستخدام الدولي 4.0، والتي تسمح بالاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج في أي وسيلة أو تنسيق، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح ما إذا كانت هناك تغييرات قد تم إجراؤها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي للمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي للمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، ستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارة http://creativecommons.org/licenses/by/4.0/.
(ج) المؤلفون 2024
طرق

نموذج الذكاء الاصطناعي

نموذج توقع تدفق المياه بالذكاء الاصطناعي المبلغ عنه في هذه الورقة يوسع العمل في المرجع 35، الذي طور نماذج التنبؤ الهيدرولوجي باستخدام شبكات LSTM التي تحاكي تسلسلات بيانات تدفق المياه من تسلسلات بيانات المدخلات الجوية. بناءً على ذلك، طورنا نموذج توقع يستخدم نموذج ترميز-فك تشفير مع LSTM واحد يعمل على تسلسل تاريخي من بيانات المدخلات الجوية (LSTM الترميز) وLSTM آخر منفصل يعمل على أفق التوقع لمدة 7 أيام مع مدخلات من توقعات جوية (LSTM فك التشفير). يتم توضيح بنية النموذج في الشكل 4 من البيانات الموسعة.
يستخدم النموذج طول تسلسل التنبؤ العكسي 365 يومًا، مما يعني أن كل تسلسل توقع (0-7 أيام) شهد بيانات المدخلات الجوية من الـ 365 يومًا السابقة وبيانات توقعات جوية على أفق التوقع من 0-7 أيام. استخدمنا حجمًا مخفيًا من 256 حالة خلوية لكل من LSTM الترميز وLSTM فك التشفير، وشبكة نقل حالة خلوية خطية وشبكة نقل حالة خلوية غير خطية (طبقة متصلة بالكامل مع دوال تنشيط من النوع الزائد). تم تدريب النموذج على 50,000 مجموعة صغيرة بحجم دفعة 256. تم توحيد جميع المدخلات عن طريق طرح المتوسط والقسمة على الانحراف المعياري لبيانات فترة التدريب.
يتنبأ النموذج، في كل خطوة زمنية، بمعلمات (تعتمد على الخطوة الزمنية) لتوزيع لابلاس غير المتماثل على تدفق المياه المنظم حسب المساحة، كما هو موضح في المرجع 36. دالة الخسارة هي اللوغاريتم السالب المشترك لتلك الدالة الكثافة غير المتجانسة. للتوضيح، يتنبأ النموذج بتوزيع لابلاس غير متماثل منفصل في كل خطوة زمنية وكل فترة توقع. تم حساب النتائج المبلغ عنها في هذه الورقة على هيدروغرافي ناتج عن متوسط الهيدروغرافيات المتوقعة من مجموعة من ثلاثة LSTMs مدربة بشكل منفصل. يتم أخذ الهيدروغرافي من كل من هذه LSTMs المدربة بشكل منفصل كقيمة تدفق متوسطة (النسبة المئوية 50) من توزيع لابلاس المتوقع في كل خطوة زمنية وفترة توقع.
باستخدام مجموعة البيانات الموصوفة هنا، يستغرق نموذج الذكاء الاصطناعي بضع ساعات للتدريب على وحدة معالجة الرسوميات NVIDIA-V100 واحدة. يعتمد الوقت الفعلي على مدى تكرار التحقق من الصحة أثناء التدريب. نستخدم 50 خطوة تحقق (كل 1,000 دفعة)، مما يؤدي إلى وقت تدريب مدته 10 ساعات للنموذج العالمي الكامل.

بيانات المدخلات

تتضمن مجموعة البيانات الكاملة مدخلات النموذج وأهداف (تدفق المياه) لمجموع 152,259 سنة من 5,680 حوضًا مائيًا. الحجم الإجمالي لمجموعة البيانات المحفوظة على القرص (بما في ذلك القيم المفقودة في مصفوفة كثيفة) هو 60 جيجابايت.
جاءت بيانات المدخلات من المصادر التالية.
  • توقعات يومية مجمعة من نموذج ECMWF المتكامل للتوقعات (IFS) عالي الدقة (HRES). تشمل المتغيرات: إجمالي هطول الأمطار (TP)، درجة الحرارة على ارتفاع 2 متر (T2M)، الإشعاع الشمسي الصافي السطحي (SSR)، الإشعاع الحراري الصافي السطحي (STR)، تساقط الثلوج (SF) والضغط السطحي (SP).
  • نفس المتغيرات الستة من إعادة تحليل ECMWF ERA5-Land.
  • تقديرات هطول الأمطار من مركز التنبؤ بالمناخ التابع للإدارة الوطنية للمحيطات والغلاف الجوي (NOAA) التحليل العالمي الموحد القائم على القياس اليومي لهطول الأمطار.
  • تقديرات هطول الأمطار من عمليات استرجاع متعددة الأقمار الصناعية المتكاملة التابعة لناسا (IMERG) في التشغيل المبكر.
  • سمات الحوض الجيولوجية والجيولوجية والبشرية من قاعدة بيانات HydroATLAS .
تمت متوسط جميع بيانات المدخلات حسب المساحة على الأحواض المائية على إجمالي المساحة العليا لكل نقطة قياس أو توقع. تراوحت المساحة العليا الإجمالية لـ 5,680 نقطة قياس تقييم تم استخدامها في هذه الدراسة من إلى .
لم يتم استخدام بيانات تدفق المياه كمدخلات لنموذج الذكاء الاصطناعي لأن (1) بيانات الوقت الحقيقي غير متاحة في كل مكان، خاصة في المواقع غير المقاسة، و(2) لأن المعيار (GloFAS) لا يستخدم مدخلات ذاتية الانحدار. ناقشنا سابقًا كيفية استخدام بيانات الهدف في الوقت القريب في نموذج تدفق المياه القائم على الذكاء الاصطناعي .
يوضح الشكل 5 من البيانات الموسعة الفترات الزمنية للبيانات المتاحة من كل مصدر. أثناء التدريب، تم تعويض البيانات المفقودة إما باستخدام متغير مشابه من مصدر بيانات آخر (على سبيل المثال، تم تعويض بيانات HRES ببيانات ERA5-Land)، أو عن طريق التعويض بقيمة متوسطة ثم إضافة علامة ثنائية للإشارة إلى قيمة معوضة، كما هو موضح في المرجع 31.

بيانات الهدف والتقييم

جاءت أهداف التدريب والاختبار من مركز بيانات الجريان العالمي . يوضح الشكل 6 من البيانات الموسعة موقع جميع نقاط قياس تدفق المياه المستخدمة في هذه الدراسة لكل من التدريب والاختبار. قمنا بإزالة الأحواض المائية من مجموعة بيانات GRDC العامة الكاملة حيث اختلفت مساحة الصرف التي أبلغت عنها GRDC بأكثر من من مساحة الصرف المحسوبة باستخدام الأحواض المائية من مستودع HydroBASINS – كان ذلك ضروريًا لضمان عدم استخدام بيانات ذات جودة رديئة، بسبب تحديد حوض غير دقيق، للتدريب. ترك لنا ذلك 5,680 نقطة قياس. منذ أن أجرينا التجارب المبلغ عنها في هذه الورقة، أصدرت GRDC أشكال الأحواض لمواقع قياسها، لذا لم يعد من الضروري مطابقة نقاط القياس مع حدود أحواض HydroBASINS.

التجارب

قمنا بتقييم أداء نموذج الذكاء الاصطناعي باستخدام مجموعة من تجارب التحقق المتقاطع. تم تقسيم بيانات 5,680 نقطة قياس بطريقتين. أولاً، تم تقسيم البيانات زمنياً باستخدام طيات تحقق متقاطع مصممة بحيث لا يتم استخدام أي بيانات تدريب من أي نقطة قياس من داخل عام واحد (طول تسلسل LSTM الترميز) من أي بيانات اختبار من أي نقطة قياس. ثانيًا، تم تقسيم البيانات مكانيًا باستخدام تحقق متقاطع عشوائي (بدون استبدال) – تحقق متقاطع مع . تم تكرار هذه الزوج من عمليات التحقق المتقاطع بحيث تم توقع جميع البيانات (1984-2021) من جميع نقاط القياس بطريقة كانت خارج العينة في كل من الزمن والمكان. هذا يتجنب أي احتمال لتسرب البيانات بين التدريب والاختبار. هذه التجارب للتحقق المتقاطع هي ما تم الإبلاغ عنه في النص الرئيسي لهذه الورقة.
تتضمن تجارب التحقق المتقاطع الأخرى التي أجريناها تقسيم بيانات النقاط الزمنية، كما هو موضح أعلاه، وفي الفضاء بشكل غير عشوائي وفقًا للبروتوكول التالي.
  • تقسيمات التحقق المتقاطع عبر القارات ( ).
  • تقسيمات التحقق المتقاطع عبر مناطق المناخ ( ).
  • تقسيمات التحقق المتقاطع عبر مجموعات من الأحواض المائية المنفصلة هيدرولوجيًا ( )، مما يعني أنه لم يساهم أي حوض نهائي في أي نقاط قياس في نفس الوقت لكل من التدريب والاختبار في أي تقسيم تحقق متقاطع.
تظهر القياسات في هذه الانقسامات للتحقق المتبادل في الشكل 7 من البيانات الموسعة. يتم الإبلاغ عن النتائج من هذه الانقسامات للتحقق المتبادل في الشكلين 8 و 9 من البيانات الموسعة.

جلوفاس

مدخلات جلوفاس مشابهة لبيانات الإدخال المستخدمة في نموذج الذكاء الاصطناعي، مع الاختلافات الرئيسية كما يلي.
  • تستخدم جلوفاس ERA5 كبيانات قسرية، وليس ERA5-Land.
  • جلوفاس (في مجموعة البيانات المستخدمة هنا) لا تستخدم ECMWF IFS كمدخلات للنموذج. (تستخدم بيانات IFS من قبل نموذج الذكاء الاصطناعي للتنبؤ فقط، ونحن نقارن دائمًا مع التنبؤات الفورية لجلوفاس.)
  • لا تستخدم جلوفاس بيانات NOAA CPC أو بيانات NASA IMERG كمدخلات مباشرة للنموذج.
تقدم جلوفاس توقعاتها على شبكة 3 دقائق قوسية (تقريبًا دقة أفقية). لتجنب الفروق الكبيرة بين
منطقة الصرف المقدمة من GRDC وشبكة صرف جلوفاس، تم استبعاد جميع محطات GRDC التي كانت منطقة صرفها أصغر من تم استبعادها. تم تحديد مواقع القياسات المتبقية على شبكة جلوفاس وتم التحقق من الفرق بين منطقة الصرف المقدمة من GRDC وشبكة صرف جلوفاس. إذا كان الفرق بين منطقة الصرف أكبر من 10% حتى بعد تصحيح يدوي لموقع المحطة على شبكة جلوفاس، تم استبعاد المحطة. تم تحديد مواقع 4,090 محطة GRDC على شبكة جلوفاس.
بالإضافة إلى ذلك، على عكس نموذج الذكاء الاصطناعي، لم يتم اختبار جلوفاس بالكامل خارج العينة. جاءت توقعات جلوفاس من مزيج من أحواض القياس وغير القياس، ومزيج من فترات زمنية للتعديل والتحقق. يظهر الشكل 6 من البيانات الموسعة مواقع القياسات التي تم تعديل جلوفاس عليها. هذا ضروري بسبب التكلفة الحسابية المرتبطة بتعديل جلوفاس، على سبيل المثال، عبر الانقسامات للتحقق المتبادل. يمكن العثور على مزيد من المعلومات حول تعديل جلوفاس في ويكي جلوفاس .
هذا يعني أن المقارنة مع نموذج الذكاء الاصطناعي تفضل جلوفاس. يظهر الشكل 9 من البيانات الموسعة الدرجات باستخدام مجموعة من مقاييس الهيدروغراف القياسية في المواقع التي تم تعديل جلوفاس عليها، ويمكن مقارنتها مع الشكل 8 من البيانات الموسعة، الذي يظهر نفس المقاييس في جميع مواقع التقييم.
على الرغم من أن CEMS تصدر إعادة تحليل تاريخية كاملة (بدون أوقات مسبقة) لإصدار جلوفاس 4، إلا أن الأرشيف طويل الأجل للتنبؤات السابقة (تنبؤات الماضي) لإصدار جلوفاس 4 لا يغطي السنة الكاملة في وقت التحليل. نظرًا لأن مقاييس الموثوقية يجب أن تأخذ في الاعتبار توقيت ذروات الأحداث، فهذا يعني أنه من الممكن فقط تقييم جلوفاس في وقت مسبق قدره 0 يوم.

المقاييس

تبلغ النتائج في النص الرئيسي عن مقاييس الدقة والاسترجاع المحسوبة على توقعات الأحداث ذات الأحجام المحددة بفترات العودة. تم حساب مقاييس الدقة والاسترجاع بشكل منفصل لكل مقياس لكلا النموذجين. تم حساب فترات العودة بشكل منفصل لكل من 5,680 مقياس على كل من السلاسل الزمنية المودلة والملاحظة (تم حساب فترات العودة للسلاسل الزمنية الملاحظة وللسلاسل الزمنية المودلة بشكل منفصل) باستخدام المنهجية الموضحة في نشرة المسح الجيولوجي الأمريكي . اعتبرنا أن النموذج قد توقع بشكل صحيح حدثًا بفترة عودة معينة إذا كانت الهيدروغراف المودلة والهيدروغراف الملاحظة قد تجاوزتا قيم تدفق عتبة فترة العودة الخاصة بهما خلال يومين من بعضهما البعض. تم حساب مقاييس الدقة والاسترجاع ودرجات F1 بالطريقة القياسية بشكل منفصل لكل مقياس. نؤكد أن جميع النماذج تمت مقارنتها بملاحظات تدفق المياه الفعلية، وليس من الصحيح، على سبيل المثال، أن المقاييس تم حسابها مباشرة من خلال مقارنة الهيدروغراف من نموذج الذكاء الاصطناعي مع الهيدروغراف من جلوفاس. يُلاحظ أنه من الممكن أن تكون إما الدقة أو الاسترجاع غير محددة لنموذج معين عند مقياس معين بسبب عدم وجود أحداث متوقعة أو ملاحظة من حجم معين (فترة العودة)، وليس من الضروري دائمًا أن تكون الدقة غير محددة عندما يكون الاسترجاع غير محدد، والعكس صحيح. هذا يسبب، على سبيل المثال، اختلافات في أحجام عينات الدقة والاسترجاع الموضحة في الشكل 2.
تم تقييم جميع قيم الدلالة الإحصائية المبلغ عنها في هذه الورقة باستخدام اختبارات ويلكوكسون (المقترنة) ذات الجانبين. يتم الإبلاغ عن أحجام التأثير كعبارة كوهين ، والتي يتم الإبلاغ عنها باستخدام الاتفاقية التي تفيد بأن نموذج الذكاء الاصطناعي الذي لديه توقعات متوسطة أفضل ينتج عنه حجم تأثير إيجابي، والعكس صحيح. تظهر جميع الرسوم البيانية الصندوقية ربعيات التوزيع (أي أن الشريط المركزي يظهر الوسيطات، وليس المتوسطات) مع أشرطة خطأ تمتد عبر النطاق الكامل للبيانات باستثناء القيم الشاذة. لا تستخدم جميع النتائج المبلغ عنها في هذه الورقة جميع 5,680 مقياس بسبب حقيقة أن بعض المقاييس لا تحتوي على عينات كافية لحساب درجات الدقة والاسترجاع على أحداث معينة بفترات العودة. يتم الإشارة إلى حجم العينة لكل نتيجة.
هناك عدد كبير من المقاييس التي يستخدمها علماء الهيدرولوجيا لتقييم محاكاة الهيدروغراف ، والأحداث المتطرفة بشكل خاص . يتم وصف العديد من هذه المقاييس القياسية في الجدول 1 من البيانات الموسعة و
تم الإبلاغ عنها للنماذج الموصوفة في هذه الورقة في الشكل 8 من البيانات الموسعة، بما في ذلك الانحياز، وكفاءة ناش-سوتكليف (NSE) ، وكفاءة كلينغ-غوبتا (KGE) . KGE هو المقياس الذي تم تعديل جلوفاس عليه. يظهر الشكل 9 من البيانات الموسعة نفس المقاييس، ولكن تم حسابها فقط على القياسات التي تم تعديل جلوفاس عليها (لا يزال نموذج الذكاء الاصطناعي خارج العينة في هذه القياسات). تظهر النتائج في الشكلين 8 و 9 من البيانات الموسعة أن نموذج الذكاء الاصطناعي غير المقاس جيد تقريبًا في الأحواض غير المقاسة كما هو الحال مع جلوفاس في الأحواض المقاسة عند تقييمها ضد المقاييس التي تم تعديل جلوفاس عليها (KGE)، وهو أفضل في الأحواض غير المقاسة من جلوفاس في الأحواض المقاسة على مقاييس NSE (المتعلقة ارتباطًا وثيقًا). ومع ذلك، فإن جلوفاس لديه تباين عام أفضل (مقياس Alpha-NSE) من نموذج الذكاء الاصطناعي غير المقاس في المواقع التي تم تعديلها (على الرغم من عدم وجودها في المواقع غير المعدلة)، مما يشير إلى طريقة محتملة يمكن تحسين نموذج الذكاء الاصطناعي بها.

توفر البيانات

تتوفر بيانات إعادة التحليل (1984-2021) وإعادة التنبؤ (2014-2021) التي أنتجها نموذج الذكاء الاصطناعي لهذه الدراسة، بالإضافة إلى بيانات مرجعية جلوفاس المقابلة، على https://doi.org/10.5281/zenodo.10397664 (مرجع 45). تتوفر محاكاة تصريف الأنهار اليومية لكل من إصدار جلوفاس 3 وإصدار جلوفاس 4 من متجر بيانات المناخ . للحصول على ملخص حول إصدار جلوفاس، انظر https://confluence.ecmwf.int/display/CEMS/ نظام إصدار جلوفاس.

توفر الكود

يمكن العثور على نماذج مدربة تعمل بالكامل على https://doi.org/10.5281/ zenodo. 10397664 (مرجع 45). هذه النماذج المدربة قابلة للتشغيل، ولكننا نفتقر إلى ترخيص التوزيع لمنتجات بيانات الإدخال، لذا لتشغيلها يجب عليك الحصول على بيانات الإدخال ذات الصلة ومعالجتها مسبقًا بنفسك. يمكن الحصول على بيانات الإدخال من المصادر التالية: بيانات هطول الأمطار من NASA IMERG، https://gpm.nasa.gov/data; بيانات توقعات ECMWF HRES، https://www.ecmwf.int/en/forecasts/datasets/set-i;ECMWF بيانات ERA5-Land، https://cds.climate.copernicus.eu/cdsapp#!/data-set/reanalysis-era5-land?tab=overview; بيانات تحليل هطول الأمطار اليومية الموحدة العالمية من NOAA CPC، https://psl.noaa. gov/data/gridded/data.cpc.globalprecip.html. بالإضافة إلى ذلك، تم دمج نموذج التنبؤ الذي تم تطويره لهذا المشروع (مع العديد من نماذج التنبؤ بتدفق المياه بالذكاء الاصطناعي الأخرى) في قاعدة كود NeuralHydrology المتاحة على https://neuralhydrology.github.io. يجعل استخدام هذه النماذج ذات الجودة البحثية ضمن إطار عمل NeuralHydrology من الأسهل تشغيل نماذج مشابهة من الناحية المفاهيمية مع مجموعات بيانات الإدخال الخاصة بك. الكود لإعادة إنتاج الأشكال والتحليلات المبلغ عنها في هذه الورقة متاح على https://github.com/google-research-datasets/ global_streamflow_model_paper. يقوم هذا المستودع بحساب المقاييس لنموذج الذكاء الاصطناعي ومخرجات جلوفاس، كما هو موضح في هذه الورقة، ويتطلب مجموعة بيانات Zenodo .
35. كراتزرت، ف. وآخرون. نحو تعلم سلوكيات هيدرولوجية عالمية وإقليمية ومحلية عبر التعلم الآلي المطبق على مجموعات بيانات كبيرة. هيدرول. علوم نظم الأرض 23، 5089-5110 (2019).
36. كلوتز، د. وآخرون. تقدير عدم اليقين باستخدام التعلم العميق لنمذجة هطول الأمطار والجريان. هيدرول. علوم نظم الأرض 26، 1673-1693 (2022).
37. حقول الجريان المركب العالمية (CSRC-UNH و GRDC، 2002).
38. غريمالدي، س. منهجية ومعايير معايرة GloFAS v4. ECMWF https://confluence.ecmwf.int/display/CEMS/GloFAS+v4+calibration+methodology+and+parameters (2023).
39. اللجنة الاستشارية بين الوكالات لبيانات المياه. إرشادات لتحديد تكرار تدفق الفيضانات النشرة رقم 17B من اللجنة الفرعية للهيدرولوجيا (وزارة الداخلية الأمريكية، المسح الجيولوجي، 1982).
40. سوليفان، ج. م. وفاين، ر. استخدام حجم التأثير – أو لماذا القيمة غير كافية. J. Grad. Med. Educ. 4، 279-282 (2012).
41. غوش، م. وآخرون. في الدفاع عن المقاييس: المقاييس تشفر بشكل كافٍ التفضيلات البشرية النموذجية فيما يتعلق بأداء النماذج الهيدرولوجية. موارد المياه. بحث. 59، e2022WRO33918 (2023).
42. طرق التحقق من التوقعات عبر مقاييس الزمن والمكان (برنامج أبحاث الطقس العالمي، 2016).
43. ناش، ج. إ. وسوتكليف، ج. ف. التنبؤ بتدفق الأنهار من خلال نماذج مفاهيمية الجزء الأول – مناقشة المبادئ. مجلة الهيدرولوجيا 10، 282-290 (1970).

مقالة

  1. غوبتا، هـ. ف.، كلينغ، هـ.، يلماظ، ك. ك. ومارتينيز، ج. ف. تحليل متوسط مربع الخطأ ومعايير أداء NSE: الآثار المترتبة على تحسين النمذجة الهيدرولوجية. مجلة الهيدرولوجيا 377، 80-91 (2009).
  2. نيرينغ، جي. الذكاء الاصطناعي يزيد من الوصول العالمي إلى توقعات الفيضانات الموثوقة. زينودوhttps://doi.org/10.5281/zenodo. 10397664 (2023).
  3. الناتج المحلي الإجمالي بالدولار الأمريكي الحالي. البنك الدوليhttps://data.worldbank.org/indicator/NY.GDP.MKTP.CD (2023).
الشكر والتقدير نشكر P. Salamon في المركز المشترك للبحوث التابع للمفوضية الأوروبية على توفير بيانات GloFAS النسخة 4، وعلى رؤيته في تحليل تلك البيانات.
مساهمات المؤلفين: قام ج.ن. بإجراء التجارب والتحليلات وكتب المسودة الأولى للورقة التي تم تعديلها من قبل جميع المؤلفين المشاركين. ساهم ج.س.، ف.ك. و أ.ج. بشكل كبير في تصميم التجارب وتصميم الأشكال. ساهم جميع المؤلفين المرتبطين بجوجل في التطوير.
من نموذج الذكاء الاصطناعي. ساعد المؤلفون الذين لديهم انتماء إلى ECMWF (S.H. و F.P. و C.P.) أيضًا في ضمان المعالجة الصحيحة لبيانات GloFAS. أكمل S.N. العمل أثناء وجوده في Google. أشرف Y.M. على البحث.
المصالح المتنافسة يعلن المؤلفون عدم وجود مصالح متنافسة.

معلومات إضافية

معلومات إضافية النسخة الإلكترونية تحتوي على مواد إضافية متاحة علىhttps://doi.org/10.1038/s41586-024-07145-1.
يجب توجيه المراسلات والطلبات للحصول على المواد إلى جراي نيرينغ.
تُعرب مجلة Nature عن شكرها لـ Caihong Hu و Zhongrun Xiang والمراجعين الآخرين المجهولين على مساهمتهم في مراجعة هذا العمل. تقارير مراجعي الأقران متاحة.
معلومات إعادة الطبع والتصاريح متاحة علىhttp://www.nature.com/reprints.

الشكل 1 من البيانات الموسعة | تتوافق توافر بيانات تدفق المياه مع الوطنية

الناتج المحلي الإجمالي. هناك الارتباط ) بين الناتج القومي الإجمالي
الناتج المحلي الإجمالي (GDP) وإجمالي عدد سنوات بيانات تدفق المياه اليومية المتاحة في بلد ما من مركز بيانات الجريان العالمي. بيانات الناتج المحلي الإجمالي مستمدة من البنك الدولي. .

مقالة

أي نموذج أين؟
الشكل البياني الموسع 2 | مصفوفة الارتباك لمصنف يتنبأ ما إذا كان نموذج الذكاء الاصطناعي أو GloFAS قد حقق درجة F1 أعلى (أو مشابهة) في حوض مائي معين استنادًا إلى خصائص حوض الجذب الجيولوجية. ). وجدنا أن هذه المهمة عمومًا غير ممكنة نظرًا لبيانات خصائص الحوض المتاحة. الأرقام المعروضة على مصفوفة الالتباس هي دقة واسترجاع متوسطين دقيقين، والألوان تعمل كإشارة بصرية لهذه الأرقام نفسها. بيانات محاكاة GloFAS من متجر بيانات المناخ .
جلوفاس
(ب)
الشكل البياني الممتد 3 | تصنيفات أهمية الميزات الكاملة لمصنفات الدرجات من القسم 4 في الورقة الرئيسية. تتنبأ هذه المصنفات ما إذا كان GloFAS (اللوحة أ) أو نموذج الذكاء الاصطناعي (اللوحة ب) يعمل بشكل أفضل أو أسوأ.
أكثر من المتوسط في أي موقع قياس معين. تُظهر تصنيفات أهمية الميزات هنا الصفات التي يستخدمها المصنف لإجراء تلك التنبؤات. بيانات محاكاة GloFAS من متجر بيانات المناخ .

مقالة

الشكل 4 من البيانات الموسعة | هيكل نموذج التنبؤ القائم على LSTM الذي تم تطويره لهذا المشروع. هذا هو النموذج المستخدم عمليًا لدعم مركز الفيضانات من جوجل https://g.co/floodhub.

مقالة

مواقع قياس التدريب (المعايرة) والتقييم
الشكل 6 من البيانات الموسعة | موقع أجهزة القياس المستخدمة في (ط) تدريب نموذج الذكاء الاصطناعي ، (ii) معايرة GloFAS ( )، و (iii) حساب مقاييس التقييم المبلغ عنها في هذه الورقة ( ). نموذج الذكاء الاصطناعي هو نموذج واحد تم تدريبه على بيانات من جميع المقاييس في وقت واحد، بينما تم ضبط GloFAS بشكل منفصل لكل موقع واتباع نهج من الأعلى إلى الأسفل من
مناطق التجميع العليا إلى مناطق التجميع السفلية. تم إجراء جميع تقييمات نموذج الذكاء الاصطناعي خارج العينة من حيث الموقع والزمان. تم استبعاد بعض من 5,860 جهاز قياس تدريب من التقييم لأنه لم يكن من الممكن مطابقة تلك الأجهزة مع بكسل GloFAS. خريطة أساسية من GeoPandas .
الموديل
(أ)
(ج)
انقسامات المناخ
الشكل البياني الممتد 7|مواقع القياسات في كل تقسيم للتحقق المتبادل. تمثل الألوان المختلفة في كل خريطة تقسيمات تحقق متبادل مختلفة. توضح اللوحة (أ) تقسيمات عشوائية، وهي النتائج المبلغ عنها في النص الرئيسي للورقة. توضح اللوحة (ب) تقسيمات قارية، بحيث تشمل جميع الأحواض في منطقة معينة.
(ب)
انقسام القارات

مفصول هيدرولوجيًا
(د)
توجد القارات في مجموعة واحدة من التحقق المتقاطع. توضح اللوحة (ج) تقسيمات مناطق المناخ، بحيث تكون جميع الأحواض في كل من 13 منطقة مناخية في مجموعة واحدة من التحقق المتقاطع. توضح اللوحة (د) تقسيمات تجمع القياسات في الأحواض النهائية المنفصلة هيدرولوجيًا. خرائط الأساس من GeoPandas .

مقالة







– النموذج
– انقسام القارات
– انقسامات المناخ
– هيدرولوجيًا
– مفصول
– تشغيل الأحواض المقاسة
– جلوباس
الشكل البياني الممتد 8 | مقاييس الهيدروغراف لنموذج الذكاء الاصطناعي وGloFAS عبر جميع 4,089 مقياس تقييم. يتم الإشارة إلى تقسيمات التحقق المتبادل بالألوان، ويتم الإشارة إلى أوقات التقدم من 0 إلى 7 أيام بخطوط متقطعة (تقل الدرجات).
مع زيادة فترة الانتظار). يتم حساب المقاييس على الفترة الزمنية من 2014 إلى 2021. المقاييس في الألواح (أ-ز) مدرجة في الجدول الإضافي 1. بيانات محاكاة GloFAS من متجر بيانات المناخ .






– النموذج
– انقسام القارات
– انقسامات المناخ
– هيدرولوجيًا
– مفصول
– تشغيل الأحواض المقاسة
– جلوباس
الشكل البياني الممتد 9 | مقاييس الهيدروغراف لنموذج الذكاء الاصطناعي وGloFAS عبر 1,144 مقياس حيث تم معايرة GloFAS. يتم الإشارة إلى تقسيمات التحقق المتبادل بالألوان، وأوقات التقدم من 0 إلى 7 أيام موضحة بخطوط متقطعة (تتناقص الدرجات مع زيادة وقت التقدم). تم حساب المقاييس على الفترة الزمنية من 2014 إلى 2021. المقاييس في الألواح (أ-ز) مدرجة في الجدول الممتد 1.
تمت معايرة GloFAS باستخدام كفاءة كلينغ-غوبتا (KGE)، وعند تقييمه باستخدام هذه المقياس (بالإضافة إلى مقاييس الانحياز)، يظهر أداءً في الأحواض المقاسة مشابهًا لنموذج الذكاء الاصطناعي في الأحواض غير المقاسة. بيانات محاكاة GloFAS من متجر بيانات المناخ. .

مقالة

البيانات الموسعة الجدول 1 | مجموعة من مقاييس تقييم الهيدروغراف القياسية
مقياس وصف مرجع
NSE كفاءة ناش-سوتكليف المعادلة 3 في
لوغ-نسبة التغير كفاءة ناش-سوتكليف في الفضاء اللوغاريتمي
ألفا-إن إس إي نسبة الانحرافات المعيارية للتدفق المرصود والمحاكى معادلة
بيتا-إن إس إي التحيز مقاسًا بانحراف المعيار للملاحظات معادلة
KGE كفاءة كلينغ-غوبتا معادلة
لوغ-كيجي كفاءة كلينغ-غوبتا في الفضاء اللوغاريتمي
بيتا-KGE نسبة التدفق المحاكى المتوسط والتدفق المرصود المتوسط معادلة

  1. جوجلhttps://research.google/. المركز الأوروبي للتنبؤات الجوية متوسطة المدى، ريدينغ، المملكة المتحدة. مركز هلمهولتز للبحوث البيئية – UFZ، لايبزيغ، ألمانيا.
    مؤسسة راند، لوس أنجلوس، كاليفورنيا، الولايات المتحدة الأمريكية. البريد الإلكتروني: nearing@google.com

Journal: Nature, Volume: 627, Issue: 8004
DOI: https://doi.org/10.1038/s41586-024-07145-1
PMID: https://pubmed.ncbi.nlm.nih.gov/38509278
Publication Date: 2024-03-20

Global prediction of extreme floods in ungauged watersheds

https://doi.org/10.1038/s41586-024-07145-1
Received: 29 July 2023
Accepted: 31 January 2024
Published online: 20 March 2024
Open access
(A) Check for updates

Grey Nearing , Deborah Cohen , Vusumuzi Dube , Martin Gauch , Oren Gilon , Shaun Harrigan , Avinatan Hassidim , Daniel Klotz , Frederik Kratzert¹, Asher Metzger , Sella Nevo , Florian Pappenberger , Christel Prudhomme , Guy Shalev , Shlomo Shenzis , Tadele Yednkachw Tekalign , Dana Weitzner & Yossi Matias¹

Abstract

Floods are one of the most common natural disasters, with a disproportionate impact in developing countries that often lack dense streamflow gauge networks . Accurate and timely warnings are critical for mitigating flood risks , but hydrological simulation models typically must be calibrated to long data records in each watershed. Here we show that artificial intelligence-based forecasting achieves reliability in predicting extreme riverine events in ungauged watersheds at up to a five-day lead time that is similar to or better than the reliability of nowcasts (zero-day lead time) from a current state-of-the-art global modelling system (the Copernicus Emergency Management Service Global Flood Awareness System). In addition, we achieve accuracies over five-year return period events that are similar to or better than current accuracies over one-year return period events. This means that artificial intelligence can provide flood warnings earlier and over larger and more impactful events in ungauged basins. The model developed here was incorporated into an operational early warning system that produces publicly available (free and open) forecasts in real time in over 80 countries. This work highlights a need for increasing the availability of hydrological data to continue to improve global access to reliable flood warnings.

Floods are the most common type of natural disaster and the rate of flood-related disasters has more than doubled since . This increase in flood-related disasters is driven by an accelerating hydrological cycle caused by anthropogenic climate change . Early warning systems are an effective way to mitigate flood risks, reducing flood-related fatalities by up to and economic costs by . Populations in low- and middle-income countries make up almost 90% of the 1.8 billion people that are vulnerable to flood risks . The World Bank has estimated that upgrading flood early warning systems in developing countries to the standards of developed countries would save an average of 23,000 lives per year .
In this paper, we evaluate the extent to which artificial intelligence (AI) trained on open, public datasets can be used to improve global access to forecasts of extreme events in global rivers. On the basis of the model and experiments described in this paper, we developed an operational system that produces short-term (7-day) flood forecasts in over 80 countries. These forecasts are available in real time without barriers to access such as monetary charge or website registration (https://g.co/floodhub).
A major challenge for riverine forecasting is that hydrological prediction models must be calibrated to individual watersheds using long data records . Watersheds that lack stream gauges to supply data for calibration are called ungauged basins, and the problem of ‘prediction in ungauged basins’ (PUB) was the decadal problem of the International Association of Hydrological Sciences (IAHS) from 2003 to . At the
end of the PUB decade, the IAHS reported that little progress had been made against the problem, stating that “much of the success so far has been in gauged rather than in ungauged basins, which has negative effects in particular for developing countries” .
Only a few per cent of the world’s watersheds are gauged, and stream gauges are not distributed uniformly across the world. There is a strong correlation between national gross domestic product and the total publicly available streamflow observation data record in a given country (Extended Data Fig. 1 shows this log-log correlation), which means that high-quality forecasts are especially challenging in areas that are most vulnerable to the human impacts of flooding.
In previous work , we showed that machine learning can be used to develop hydrological simulation models that are transferable to ungauged basins. Here we develop that into a global-scale forecasting system with the goal of understanding scalability and reliability. In this paper, we address whether, given the publicly available global streamflow data record, it is possible to provide accurate river forecasts across large scales, especially of extreme events, and how this compares with the current state of the art.
The current state of the art for real-time, global-scale hydrological prediction is the Global Flood Awareness System (GloFAS) . GloFAS is the global flood forecasting system of Copernicus Emergency Management Service (CEMS), delivered under the responsibility of the European Commission’s Joint Research Centre and operated by the European Centre for Medium-Range Weather Forecasts (ECMWF) in
Fig. 1|Differences between nowcast ( -day lead time) F1 scores for 2-year return period events between our AI model and GloFAS over the period
its role of CEMS Hydrological Forecast Centre – Computation. We use GloFAS version 4, which is the current operational version that went live in July 2023. Other forecasting systems exist for different parts of the world , and many countries have national agencies responsible for producing early warnings. Given the severity of impacts that floods have on communities around the world, we consider it critical that forecasting agencies evaluate and benchmark their predictions, warnings and approaches, and an important first step towards this goal is archiving historical forecasts.

AI improves forecast reliability

The AI model developed for this study uses long short-term memory (LSTM) networks to predict daily streamflow through a 7-day forecast horizon. The model is described in detail in Methods, and a version of the model suitable for research is implemented in the open-source NeuralHydrology repository . Input, target and evaluation data are described in Methods.
This AI forecast model was trained and tested out-of-sample using random -fold cross-validation across 5,680 streamflow gauges. Other types of cross-validation experiment are reported in Methods (that is, by withholding all gauges in terminal watersheds, entire climate zones or entire continents). In addition, all metrics reported for the AI model were calculated with streamflow gauge data from time periods not present in training (in addition to stream gauges that were not present in training), meaning that cross-validation splits were out-of-sample across time and location. By contrast, metrics for GloFAS were calculated over a combination of gauged and ungauged locations, and over a combination of calibration and validation time periods. This means that the comparison favours the GloFAS benchmark. This is necessary because calibrating GloFAS is computationally expensive to the extent that it is not feasible to re-calibrate over cross-validation splits.
Our objective is to understand the reliability of forecasts of extreme events, so we report precision, recall and F1 scores (F1 scores are the harmonic mean of precision and recall) over different return period events. Other standard hydrological metrics are reported in Methods. Statistical tests are described in Methods.
Figure 1 shows the global distribution of F1 score differences for 2-year return period events at a 0-day lead time over the period 19842021 ( ). Lead time is expressed as the number of days from the time of prediction, such that a 0 -day lead time means that streamflow predictions are for the current day (nowcasts). The AI model improved over (was at least equivalent to) GloFAS version 4 in 64% (65%), 70% ( ), 60% ( ) and 49% ( ) of gauges for return period events of 1 year ( , Cohen’s ), 2 years ( , years ( ) and 10 years ( ).
Fig. 2 | Distributions over nowcast ( -day lead time) precision and recall as a function of return period. a, b, The AI model is more reliable, on average, over all return periods. The AI model has precision over 5-year return period events that is not statistically different to GloFAS over 1-year return period events, and recall that is better than GloFAS over 1-year return period events. Statistical tests are reported in the main text. The boxes show distribution quartiles and whiskers show the full range excluding outliers. The blue dashed line is the median score for GloFAS over 1-year events and is plotted as a reference. Tick labels indicate the sample size (number of gauges) for each boxplot; precision scores (a) and recall scores (b) were calculated over slightly different gauge groups in cases where there are no events of a given magnitude at a given gauge location in either the observations or model predictions causing one score for one model to be undefined. GloFAS and the AI model are always compared over an identical set of gauges in all cases. GloFAS simulation data from the Climate Data Store .

Return periods

More extreme hydrological events (that is, events with larger return periods) are both more important and (when using classical hydrology models) typically more difficult to predict. A common concern about using AI or other types of data-driven approach is that reliability might degrade over events that are rare in the training data. There is prior evidence that this concern might not be valid for streamflow modelling .
Figure 2 shows the distributions over precision and recall for different return period events. The AI model has higher precision and recall scores for all return periods ( ), with effect sizes ranging from (1-year precision scores) to (2-year recall scores). Differences between precision scores from the AI model over 5-year return period events and from GloFAS over 1-year return period events are not significant at , and recall scores from the AI model for 5-year events are better than GloFAS recall scores for 1-year events ( ).

Forecast lead time

Figure 3 shows F1 scores over lead times through the 7-day forecast horizon for return periods between 1 year and 10 years. Compared with GloFAS nowcasts (0-day lead time), AI forecasts have either better or not statistically different reliability (F1 scores) up to a 5-day lead time for 1-year (AI is significantly better; ), 2-year (no statistical difference; ) and 5 -year (no statistical difference; ) return period events.
Fig. 3|Distributions over F1 scores at all evaluation gauges as a function of lead time for different return periods. , The AI model has F1 scores over 1-year (a), 2-year (b), 5-year (c) and 10-year (d) return period events at up to 5-day lead times that are either statistically better than or not statistically different to GloFAS over the same events at 0-day lead time. Statistical tests are

Continents

Both models show differences in reliability in different areas of the world. Over 5-year return period events, GloFAS has a 54% difference between mean F1 scores in the lowest-scoring continent (South America, ) and the highest-scoring continent (Europe, ), meaning that, on average, true positive predictions are twice as likely (at a proportional rate). The AI model also has a 54% difference between mean F1 scores in the lowest-scoring continent (South America, ) and the highest-scoring continent (Southwest Pacific: ), which is due mostly to a large increase in skill in the Southwest Pacific relative to GloFAS ( ).
Figure 4 shows the distributions of F1 scores over continents and return periods. The AI model has higher scores in all continents and return periods ( ) with three exceptions where there is no statistical difference: Africa over 1-year return period events ( ) and Asia over 5-year ( ) and 10-year ( ) return period events.

Predictability of forecast reliability

A challenge to forecasting in ungauged basins is that there is often no way to evaluate reliability in locations without ground-truth data. A desirable quality of a model is that forecast skill should be predictable from other observable variables, such as mapped or remotely sensed geographical and/or geophysical data. In addition, although AI-based forecasting offers better reliability in most places, this is not the case everywhere. It would be beneficial to be able to predict where different models can be expected to be more or less reliable.
We have found that it is difficult to use catchment attributes (geographical, geophysical data) to predict where one model performs better than another. Extended Data Fig. 2 shows a confusion matrix from a random forest classifier trained on a subset of HydroATLAS attributes that predicts whether the AI model or GloFAS performs

reported in the main text. The boxes show distribution quartiles and whiskers show the full range excluding outliers. The blue dashed line is the median score for GloFAS nowcasts and is plotted as a reference. GloFAS simulation data from the Climate Data Store .
better (or similar) in each individual watershed. The classifier was trained with stratified -fold cross-validation and balanced sampling, and usually predicts that the AI model is better (including in of cases where GloFAS is actually better). This indicates that it is difficult to find systematic patterns about where each model is preferable, based on available catchment attributes.
However, it is possible to predict, with some skill, where an individual model will perform well versus poorly. As an example, Fig. 5 shows confusion matrices from random forest classifiers that predict whether F1 scores for out-of-sample gauges (effectively ungauged locations) will be above or below the mean over all evaluation gauges. Both models (the AI model and GloFAS) have similar overall predictability (71% micro-averaged precision and recall for GloFAS and 73% for the Al model).
Feature importances from these reliability classifiers are shown in Extended Data Fig. 3. Feature importance is an indicator about which geophysical attributes determine high versus low reliability (that is, what kind of watersheds do these models simulate well versus poorly). The most important features for the AI model are: drainage area, mean annual potential evapotranspiration (PET), mean annual actual evapotranspiration (AET) and elevation, whereas the most important features for GloFAS were PET and AET. Correlations between attributes and reliability scores are generally low, indicating a high degree of nonlinearity and/or parameter interaction.
AET and PET are (inverse) indicators of aridity, and hydrology models usually perform better in humid basins because peaky hydrographs that occur in arid watersheds are difficult to simulate. This effect is present for both models. The AI model is more correlated with basin size (drainage area) and generally performs better in smaller basins. This indicates a way that machine-learning-based streamflow modelling might be improved, for example, by focusing training or fine-tuning on larger basins, or by implementing an explicit routing or graph model to allow for direct modelling of subwatersheds or smaller hydrological response units-for example, as outlined in ref. 29.
Fig. 4 | F1 score distributions over different continents and return periods. a-d, The Al model has higher scores in all continents over 1-year (a), 2-year (b), 5-year (c) and 10-year (d) return period events with three exceptions where there is no statistical difference: Africa over 1-year return period events and Asia over 5-year and 10-year return period events. Both models have large
A global map of the predicted skill from a regression (rather than classifier) version of this random forest skill predictor is shown in Fig. 6 for 1.03 million level-12 HydroBASINS watersheds . This gives some indication about where a global version of the ungauged AI forecast model is expected to perform well.

Conclusion and discussion

Although hydrological modelling is a relatively mature area of study, areas of the world that are most vulnerable to flood risks often lack reliable forecasts and early warning systems. Using AI and open datasets, we are able to significantly improve the expected precision, recall and lead time of short-term ( days) forecasts of extreme riverine events. We extended, on average, the reliability of currently available global nowcasts (lead time 0 ) to a lead time of 5 days, and we were able to use Al-based forecasting to improve the skill of forecasts in Africa to be similar to what are currently available in Europe.
Apart from producing accurate forecasts, another aspect of the challenge of providing actionable flood warnings is dissemination of those warnings to individuals and organizations in a timely manner. We support the latter by releasing forecasts publicly in real time, without cost or barriers to access. We provide open-access real-time forecasts to support notifications-for example, through the Common Alerting Protocol and push alerts to personal smartphones, and through an open online portal at https://g.co/floodhub. All of the reanalysis and reforecasts used for this study are included in an open-source repository, and a research version of the machine-learning model used for this study is available as part of the open-source NeuralHydrology repository on GitHub .
There is still a lot of room to improve global flood predictions and early warning systems. Doing so is critical for the well-being of millions of people worldwide whose lives (and property) could benefit from timely, actionable flood warnings. We believe that the best way to improve flood forecasts from both data-driven and conceptual modelling approaches is to increase access to data. Hydrological data are
Fig. 5 | Testing the ability to predict whether a given model will perform above or below average at any given location. a,b, Confusion matrices of out-of-sample predictions about whether F1 scores from GloFAS (a) and the AI model (b) at each gauge are above or below the mean F1 score from the same model over all gauges. The numbers shown on the confusion matrices are microaveraged precision and recall, and the colours serve as a visual indication of these same numbers.c, Correlations between F1 scores and HydroATLAS catchment attributes that have the highest feature importance ranks from these trained score classifier models. GloFAS simulation data from the Climate Data Store .
Fig. 6|Global predicted skill. This map shows predictions of 2-year return period F1 scores over 1.03 million HydroBASINS level-12 watersheds for the AI forecast model. Basemap from GeoPandas .
required for training or calibrating accurate hydrology models, and for updating these models in real time (for example, through data assimilation ). We encourage researchers and organizations with access to streamflow data to contribute to the open-source Caravan project at https://github.com/kratzert/Caravan .

Online content

Any methods, additional references, Nature Portfolio reporting summaries, source data, extended data, supplementary information, acknowledgements, peer review information; details of author contributions and competing interests; and statements of data and code availability are available at https://doi.org/10.1038/s41586-024-07145-1.
  1. Rentschler, J., Salhab, M. & Jafino, B. A. Flood exposure and poverty in 188 countries. Nat. Commun. 13, 3527 (2022).
  2. Hallegatte, S. A Cost Effective Solution to Reduce Disaster Losses in Developing Countries: Hydro-meteorological Services, Early Warning, and Evacuation Policy Research Working Paper 6058 (World Bank, 2012).
  3. The Human Cost of Natural Disasters: A Global Perspective (United Nations International Strategy for Disaster Reduction, 2015).
  4. 2021 State of Climate Services WMO-No. 1278 (World Meteorological Organization, 2021).
  5. Milly, P., Christopher, D., Wetherald, R. T., Dunne, K. A. & Delworth, T. L. Increasing risk of great floods in a changing climate. Nature 415, 514-517 (2002).
  6. Tabari, H. Climate change impact on flood and extreme precipitation increases with water availability. Sci. Rep. 10, 13768 (2020).
  7. Global Report on Drowning: Preventing A Leading Killer (World Health Organization, 2014).
  8. The Global Climate 2001-2010: A Decade of Climate Extremes Technical Report (World Health Organization, 2013).
  9. Pilon, P. J. Guidelines for Reducing Flood Losses Technical Report (United Nations International Strategy for Disaster Reduction, 2002).
  10. Rogers, D. & Tsirkunov, V. Costs and Benefits of Early Warning Systems: Global Assessment Report on Disaster Risk Reduction (The World Bank, 2010).
  11. Razavi, S. & Tolson, B. A. An efficient framework for hydrologic model calibration on long data periods. Water Resour. Res. 49, 8418-8431 (2013).
  12. Li, Chuan-zhe et al. Effect of calibration data series length on performance and optimal parameters of hydrological model. Water Sci. Eng. 3, 378-393 (2010).
  13. Sivapalan, M. et al. IAHS decade on predictions in ungauged basins (PUB), 2003-2012: shaping an exciting future for the hydrological sciences. Hydrol. Sci. J. 48, 857-880 (2003).
  14. Hrachowitz, M. et al. A decade of predictions in ungauged basins (PUB)-a review. Hydrol. Sci. J. 58, 1198-1255 (2013).
  15. Kratzert, F. et al. Toward improved predictions in ungauged basins: exploiting the power of machine learning. Water Resour. Res. 55, 11344-11354 (2019).
  16. Alfieri, L. et al. GloFAS—global ensemble streamflow forecasting and flood early warning. Hydrol. Earth Syst. Sci. 17, 1161-1175 (2013).
  17. Harrigan, S., Zsoter, E., Cloke, H., Salamon, P. & Prudhomme, C. Daily ensemble river discharge reforecasts and real-time forecasts from the operational global flood awareness system. Hydrol. Earth Syst. Sci. 27, 1-19 (2023).
  18. Arheimer, B. et al. Global catchment modelling using world-wide HYPE (WWH), open data, and stepwise parameter estimation. Hydrol. Earth Syst. Sci. 24, 535-559 (2020).
  19. Souffront Alcantara, M. A. et al. Hydrologic modeling as a service (HMaaS): a new approach to address hydroinformatic challenges in developing countries. Front. Environ. Sci. 7, 158 (2019).
  20. Sheffield, J. et al. A drought monitoring and forecasting system for sub-sahara African water resources and food security. Bull. Am. Meteorol. Soc. 95, 861-882 (2014).
  21. Hochreiter, S. & Schmidhuber, J. ürgen. Long short-term memory. Neural Comput. 9, 1735-1780 (1997).
  22. Kratzert, F., Gauch, M., Nearing, G. S. & Klotz, D. NeuralHydrology-a Python library for deep learning research in hydrology. J. Open Source Softw. 7, 4050 (2022).
  23. Sellars, S. L. ‘Grand challenges’ in big data and the Earth sciences. Bull. Am. Meteorol. Soc. 99, ES95-ES98 (2018).
  24. Todini, E. Hydrological catchment modelling: past, present and future. Hydrol. Earth Syst. Sci. 11, 468-482 (2007).
  25. Herath, H. M. V. V., Chadalawada, J. & Babovic, V. Hydrologically informed machine learning for rainfall-runoff modelling: towards distributed modelling. Hydrol. Earth Syst. Sci. 25, 4373-4401 (2021).
  26. Reichstein, M. et al. Deep learning and process understanding for data-driven Earth system science. Nature 566, 195-204 (2019).
  27. Frame, J. M. et al. Deep learning rainfall-runoff predictions of extreme events. Hydrol. Earth Syst. Sci. 26, 3377-3392 (2022).
  28. Linke, S. et al. Global hydro-environmental sub-basin and river reach characteristics at high spatial resolution. Sci. Data 6, 283 (2019).
  29. Kratzert, F. et al. Large-scale river network modeling using graph neural networks. In European Geosciences Union General Assembly Conference Abstracts EGU21-13375 (EGU General Assembly, 2021).
  30. Lehner, B. & Grill, G. ünther. Global river hydrography and network routing: baseline data and new approaches to study the world’s large river systems. Hydrol. Proces. 27, 2171-2186 (2013).
  31. Nearing, G. S. et al. Data assimilation and autoregression for using near-real-time streamflow observations in long short-term memory networks. Hydrol. Earth Syst. Sci. 26, 5493-5513 (2022).
  32. Kratzert, F. et al. Caravan-a global community dataset for large-sample hydrology. Sci. Data 10, 61 (2023).
  33. Grimaldi, S. et al. River discharge and related historical data from the Global Flood Awareness System. Climate Data Store https://doi.org/10.24381/cds.a4fdd6b9 (2023).
  34. Jordahl, K. et al. geopandas/geopandas: v0.8.1 https://zenodo.org/records/3946761 (2020).
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by/4.0/.
(c) The Author(s) 2024
Methods

Al model

The AI streamflow forecasting model reported in this paper extends work in ref. 35, which developed hydrological nowcast models using LSTM networks that simulate sequences of streamflow data from sequences of meteorological input data. Building on that, we developed a forecast model that uses an encoder-decoder model with one LSTM running over a historical sequence of meteorological (and geophysical) input data (the encoder LSTM) and another, separate, LSTM that runs over the 7-day forecast horizon with inputs from meteorological forecasts (the decoder LSTM). The model architecture is illustrated in Extended Data Fig. 4.
The model uses a hindcast sequence length of 365 days, meaning that every forecast sequence (0-7 days) saw meteorological input data from the preceding 365 days and meteorological forecast data over the 0-7-day forecast horizon. We used a hidden size of 256 cell states for both the encoder and decoder LSTMs, a linear-cell-state transfer network and a nonlinear (fully connected layer with hyperbolic tangent activation functions) hidden-state transfer network. The model was trained on 50,000 minibatches with a batch size of 256 . All inputs were standardized by subtracting the mean and dividing by the standard deviation of training-period data.
The model predicts, at each time step, (time-step dependent) parameters of a single asymmetric Laplacian distribution over area-normalized streamflow discharge, as described in ref. 36. The loss function is the joint negative log-likelihood of that heteroscedastic density function. To be clear, the model predicts a separate asymmetric Laplacian distribution at each time step and each forecast lead time. The results reported in this paper were calculated over a hydrograph that results from averaging the predicted hydrographs from an ensemble of three separately trained encoder-decoder LSTMs. The hydrograph from each of these separately trained LSTMs is taken as the median (50th percentile) flow value from the predicted Laplacian distribution at each time step and forecast lead time.
Using the dataset described herein, the AI model takes a few hours to train on a single NVIDIA-V100 graphics processing unit. The exact wall time depends on how often validation is done during training. We use 50 validation steps (every 1,000 batches), resulting in a 10-hour train time for the full global model.

Input data

The full dataset includes model inputs and (streamflow) targets for a total of 152,259 years from 5,680 watersheds. The total size of the dataset saved to disk (including missing values in a dense array) is 60 GB .
Input data came from the following sources.
  • Daily-aggregated single-level forecasts from the ECMWF Integrated Forecast System (IFS) High Resolution (HRES) atmospheric model. Variables include: total precipitation (TP), 2-m temperature (T2M), surface net solar radiation (SSR), surface net thermal radiation (STR), snowfall (SF) and surface pressure (SP).
  • The same six variables from the ECMWF ERA5-Land reanalysis.
  • Precipitation estimates from the National Oceanic and Atmospheric Administration (NOAA) Climate Prediction Center (CPC) Global Unified Gauge-Based Analysis of Daily Precipitation.
  • Precipitation estimates from the NASA Integrated Multi-satellite Retrievals for GPM (IMERG) early run.
  • Geological, geophysical and anthropogenic basin attributes from the HydroATLAS database .
All input data were area-weighted averaged over basin polygons over the total upstream area of each gauge or prediction point. The total upstream area for the 5,680 evaluation gauges used in this study ranged from to .
No streamflow data were used as inputs to the AI model because (1) real-time data are not available everywhere, especially in ungauged locations, and (2) because the benchmark (GloFAS) does not use autoregressive inputs. We previously discussed how to use near-real-time target data in an AI-based streamflow model .
Extended Data Fig. 5 shows the time periods of available data from each source. During training, missing data was imputed either by using a similar variable from another data source (for example, HRES data were imputed with ERA5-Land data), or by imputing with a mean value and then adding a binary flag to indicate an imputed value, as described in ref. 31.

Target and evaluation data

Training and test targets came from the Global Runoff Data Center . Extended Data Fig. 6 shows the location of all streamflow gauges used in this study for both training and testing. We removed watersheds from the full, public GRDC dataset where drainage area reported by GRDC differed by more than from drainage area calculated using watershed polygons from the HydroBASINS repository-this was necessary to ensure that poor-quality data, owing to imperfect catchment delineation, was not used for training. This left us with 5,680 gauges. Since we conducted the experiments reported in this paper, the GRDC has released catchment polygons for their gauge locations, so matching gauges with HydroBASINS watershed boundaries is no longer necessary.

Experiments

We assessed the performance of the AI model using a set of crossvalidation experiments. Data from 5,680 gauges were split in two ways. First, the data were split in time using cross-validation folds designed such that no training data from any gauge was used from within 1 year (the sequence length of the LSTM encoder) of any test data from any gauge. Second, the data were split in space using randomized (without replacement) -fold cross-validation with . This pair of cross-validation processes were repeated so that all data (1984-2021) from all gauges were predicted in a way that was out-of-sample in both time and space. This avoids any potential for data leakage between training and testing. These cross-validation experiments are what is reported in the main text of this paper.
Other cross-validation experiments that we performed include splitting the gauge data in time, as above, and in space non-randomly according to the following protocol.
  • Cross-validation splits across continents ( ).
  • Cross-validation splits across climate zones ( ).
  • Cross-validation splits across groups of hydrologically separated watersheds ( ), meaning that no terminal watershed contributed any gauges simultaneously to both training and testing in any cross-validation split.
The gauges in these cross-validation splits are shown in Extended Data Fig. 7. The results from these cross-validation splits are reported in Extended Data Figs. 8 and 9.

GloFAS

GloFAS inputs are similar to the input data used in the AI model, with the main differences as follows.
  • GloFAS uses ERA5 as forcing data, and not ERA5-Land.
  • GloFAS (in the dataset used here) does not use ECMWF IFS as input to the model. (IFS data are used by the AI model for forecasting only, and we always compare with GloFAS nowcasts.)
  • GloFAS does not use NOAA CPC or NASA IMERG data as direct inputs to the model.
GloFAS provides its predictions on a 3 -arcmin grid (approximately horizontal resolution). To avoid large discrepancies between the
drainage area provided by the GRDC and the GloFAS drainage network, all GRDC stations with a drainage area smaller than were discarded. The remaining gauges were geolocated on the GloFAS grid and the difference between the drainage area provided by the GRDC and the GloFAS drainage network was checked. If the difference between the drainage area was larger than 10% even after a manual correction of the station location on the GloFAS grid the station was discarded. A total of 4,090 GRDC stations were geolocated on the GloFAS grid.
In addition, unlike the AI model, GloFAS was not tested completely out-of-sample. GloFAS predictions came from a combination of gauged and ungauged catchments, and a combination of calibration and validation time periods. Extended Data Fig. 6 shows the locations of gauges where GloFAS was calibrated. This is necessary because of the computational expense associated with calibrating GloFAS, for example, over cross-validation splits. More information about GloFAS calibration can be found on the GloFAS Wiki .
This means that the comparison with the AI model favours GloFAS. Extended Data Fig. 9 shows scores using a set of standard hydrograph metrics in locations where GloFAS is calibrated, and can be compared with Extended Data Fig. 8, which shows the same metrics in all evaluation locations.
Although CEMS releases a full historical reanalysis (without lead times) for GloFAS version 4, long-term archive of reforecasts (forecasts of the past) of GloFAS version 4 do not span the full year at the time of the analysis. Given that reliability metrics must consider the timing of event peaks, this means that it is only possible to benchmark GloFAS at a 0-day lead time.

Metrics

The results in the main text report precision and recall metrics calculated over predictions of events with magnitudes defined by return periods. Precision and recall metrics were calculated separately per gauge for both models. Return periods were calculated separately for each of the 5,680 gauges on both modelled and observed time series (return periods were calculated for observed time series and for modelled time series separately) using the methodology described by the US Geological Survey Bulletin . We considered a model to have correctly predicted an event with a given return period if the modelled hydrograph and the observed hydrograph both crossed their respective return period threshold flow values within two days of each other. Precision, recall and F1 scores were calculated in the standard way separately for each gauge. We emphasize that all models were compared against actual streamflow observations, and it is not the case that, for example, metrics were calculated directly by comparing hydrographs from the AI model with hydrographs from GloFAS. It is noted that it is possible for either precision or recall to be undefined for a given model at a given gauge owing to there being either no predicted or no observed events of a given magnitude (return period), and it is not always the case that precision is undefined when recall is undefined, and vice versa. This causes, for example, differences in the precision and recall sample sizes shown in Fig. 2.
All statistical significance values reported in this paper were assessed using two-sided Wilcoxon (paired) signed-rank tests. Effect sizes are reported as Cohen’s term , which is reported using the convention that the AI model having better mean predictions results in a positive effect size, and vice versa. All box plots show distribution quartiles (that is, the centre bar shows medians, not means) with error bars that span the full range of data excluding outliers. Not all results reported in this paper use all 5,680 gauges owing to the fact that some gauges do not have enough samples to calculate precision and recall scores over certain return period events. The sample size is noted for each result.
There are a large number of metrics that hydrologists use to assess hydrograph simulations , and extreme events in particular . Several of these standard metrics are described in Extended Data Table 1 and
are reported for the models described in this paper in Extended Data Fig. 8, including bias, Nash-Sutcliffe efficiency (NSE) , and KlingGupta efficiency (KGE) . KGE is the metric that GloFAS is calibrated to. Extended Data Fig. 9 shows the same metrics, but calculated over only gauges where GloFAS was calibrated (the AI model is still out-of-sample in these gauges). The results in Extended Data Figs. 8 and 9 show that the ungauged AI model is about as good in ungauged basins as GloFAS is in gauged basins when evaluated against the metrics that GloFAS is calibrated on (KGE), and is better in ungauged basins than GloFAS is in gauged basins on the (closely related) NSE metrics. However, GloFAS has better overall variance (the Alpha-NSE metric) than the ungauged AI model in locations where it is calibrated (although not in uncalibrated locations), indicating a potential way that the AI model might be improved.

Data availability

Reanalysis (1984-2021) and reforecast (2014-2021) data produced by the AI model for this study, as well as corresponding GloFAS benchmark data, are available at https://doi.org/10.5281/zenodo.10397664 (ref.45). Daily river discharge simulations are available for both GloFAS version 3 and GloFAS version 4 from the Climate Data Store . For a summary of GloFAS versioning, see https://confluence.ecmwf.int/display/CEMS/ GloFAS+versioning+system.

Code availability

Fully functional trained models can be found at https://doi.org/10.5281/ zenodo. 10397664 (ref. 45). These trained models are runnable, but we lack the distribution license for the input data products, so to run them you must obtain and pre-process the relevant input data yourself. Input data can be obtained from the following sources: NASA IMERG precipitation data, https://gpm.nasa.gov/data; ECMWF HRES forecast data, https://www.ecmwf.int/en/forecasts/datasets/set-i;ECMWF ERA5-Land data, https://cds.climate.copernicus.eu/cdsapp#!/data-set/reanalysis-era5-land?tab=overview; NOAA CPC Global Unified Gauge-Based Analysis of Daily Precipitation data, https://psl.noaa. gov/data/gridded/data.cpc.globalprecip.html. In addition, the forecasting model developed for this project (along with several other AI streamflow forecasting models) was integrated into the NeuralHydrology code base available at https://neuralhydrology.github.io. Using these research-grade models within the NeuralHydrology framework makes it easier to run conceptually similar models with your own input datasets. The code for reproducing the figures and analyses reported in this paper is available at https://github.com/google-research-datasets/ global_streamflow_model_paper. This repository calculates metrics for the AI model and GloFAS outputs, as reported in this paper, and requires the Zenodo dataset .
35. Kratzert, F. et al. Towards learning universal, regional, and local hydrological behaviors via machine learning applied to large-sample datasets. Hydrol. Earth Syst. Sci. 23, 5089-5110 (2019).
36. Klotz, D. et al. Uncertainty estimation with deep learning for rainfall-runoff modeling. Hydrol. Earth Syst. Sci. 26, 1673-1693 (2022).
37. Global Composite Runoff Fields (CSRC-UNH and GRDC, 2002).
38. Grimaldi, S. GloFAS v4 calibration methodology and parameters. ECMWF https:// confluence.ecmwf.int/display/CEMS/GloFAS+v4+calibration+methodology+and+ parameters (2023).
39. Interagency Advisory Committee on Water Data. Guidelines for Determining Flood Flow Frequency Bulletin #17B of the Hydrology Subcommittee (US Department of the Interior Geological Survey, 1982).
40. Sullivan, G. M. & Feinn, R. Using effect size-or why the value is not enough. J. Grad. Med. Educ. 4, 279-282 (2012).
41. Gauch, M. et al. In defense of metrics: metrics sufficiently encode typical human preferences regarding hydrological model performance. Water Resour. Res. 59, e2022WRO33918 (2023).
42. Forecast Verification Methods Across Time and Space Scales (World Weather Research Programme, 2016).
43. Nash, J. E. & Sutcliffe, J. V. River flow forecasting through conceptual models part I-a discussion of principles. J. Hydrol. 10, 282-290 (1970).

Article

  1. Gupta, H. V., Kling, H., Yilmaz, K. K. & Martinez, G. F. Decomposition of the mean squared error and NSE performance criteria: implications for improving hydrological modelling. J. Hydrol. 377, 80-91 (2009).
  2. Nearing, G. AI increases global access to reliable flood forecasts. Zenodo https://doi.org/ 10.5281/zenodo. 10397664 (2023).
  3. GDP Current US$. World Bank https://data.worldbank.org/indicator/NY.GDP.MKTP.CD (2023).
Acknowledgements We thank P. Salamon at the European Commission’s Joint Research Centre for providing GloFAS version 4 data, and for his insight with the analysis of that data.
Author contributions G.N. conducted experiments and analyses and wrote the first paper draft that was edited by all co-authors. G.S., F.K. and O.G. contributed substantially to experimental design and the design of the figures. All Google-affiliated authors contributed to development
of the AI model. Authors with ECMWF affiliation (S.H., F.P. and C.P.) additionally helped to ensure proper processing of GloFAS data. S.N. completed the work while at Google. Y.M. supervised the research.
Competing interests The authors declare no competing interests.

Additional information

Supplementary information The online version contains supplementary material available at https://doi.org/10.1038/s41586-024-07145-1.
Correspondence and requests for materials should be addressed to Grey Nearing.
Peer review information Nature thanks Caihong Hu, Zhongrun Xiang and the other, anonymous, reviewer(s) for their contribution to the peer review of this work. Peer reviewer reports are available.
Reprints and permissions information is available at http://www.nature.com/reprints.

Extended Data Fig. 1 | Streamflow data availability correlates with national

GDP. There is a correlation ( ) between national Gross
Domestic Product (GDP) and the total number of years worth of daily streamflow data available in a country from the Global Runoff Data Center. GDP data are sourced from The World Bank .

Article

Which Model Where?
Extended Data Fig. 2 | Confusion matrix of a classifier that predicts whether the AI model or GloFAS had a higher (or similar) F1 score in a given watershed based on geophysical catchment attributes ( ). We found that this task is generally not possible given available catchment attribute data. Numbers shown on the confusion matrix are micro-averaged precision and recall, and colors serve as a visual indication of these same numbers. GloFAS simulation data from the Climate Data Store .
GloFAS
(b)
Extended Data Fig. 3 | Full feature importance rankings of the score classifiers from Section 4 in the main paper. These classifiers predict whether the GloFAS (panel a) or the AI model (panel b) performs better or worse
than average in any given gauge location. The feature importance rankings shown here illustrate which catchment attributes the classifier uses to make those predictions. GloFAS simulation data from the Climate Data Store .

Article

Extended Data Fig. 4 | Architecture of the LSTM-based forecast model developed for this project. This is the model used operationally to support the Google Flood Hub https://g.co/floodhub.

Article

Training (Calibration) and Evaluation Gauge Locations
Extended Data Fig. 6 | Location of gauges used for (i) training the AI model , (ii) calibrating GloFAS ( ), and (iii) calculating the evaluation metrics reported in this paper ( ). The AI model is a single model trained on data from all gauges simultaneously, while GloFAS was calibrated separately per-location and following a top-down approach from
head-catchments to downstream catchments. All AI model evaluation was done out-of-sample in both location and time. Some of the 5,860 training gauges were excluded from evaluation because it was not possible to match those gauges to a GloFAS pixel. Basemap from GeoPandas .
Al Model
(a)
(c)
Climate Splits
Extended Data Fig. 7|Locations of gauges in each cross-validation split. Different colors in each map represent different cross validation splits. Panel (a) shows random splits, which are the results reported in the main text of the paper. Panel (b) shows continent splits, so that all basins in a particular
(b)
Continent Splits

Hydrologically Separated
(d)
continent are in one cross validation group. Panel (c) shows climate zone splits, so that all basins in each of 13 climate zones are in one cross validation group. Panel (d) shows splits that group gauges in hydrologically-separated terminal basins. Basemaps from GeoPandas .

Article







– Al Model
– Continent Splits
– Climate Splits
– Hydrologically
– Separated
– Gauged Basins Run
– GloFAS
Extended Data Fig. 8|Hydrograph metrics for the AI model and GloFAS over all 4,089 evaluation gauges. Cross validation splits are indicated by colors, and 0 to 7 day lead times are indicated by dashed lines (scores decrease
with increasing lead time). Metrics are calculated on the time period 2014-2021. Metrics in panels (a-g) are listed in Extended Data Table 1. GloFAS simulation data from the Climate Data Store .






– Al Model
– Continent Splits
– Climate Splits
– Hydrologically
– Separated
– Gauged Basins Run
– GloFAS
Extended Data Fig. 9 | Hydrograph metrics for the AI model and GloFAS over the 1,144 gauges where GloFAS is calibrated. Cross validation splits are indicated by colors, and 0 to 7 day lead times are indicated by dashed lines (scores decrease with increasing lead time). Metrics are calculated on the time period 2014-2021. Metrics in panels (a-g) are listed in Extended Data Table1.
GloFAS is calibrated using the Kling-Gupta Efficiency (KGE), and when evaluated using this metric (as well as bias metrics), shows performance in gauged basins that is similar to the AI model in ungauged basins. GloFAS simulation data from the Climate Data Store .

Article

Extended Data Table 1 | A selection of standard hydrograph evaluation metrics
Metric Description Reference
NSE Nash-Sutcliffe efflciency Eq. 3 in
log-NSE Nash-Sutcliffe effliciency in logarithmic space
Alpha-NSE Ratio of standard deviations of observed and simulated flow Eq.
Beta-NSE Bias scaled by standard deviation of observations Eq.
KGE Kling-Gupta efficiency Eq.
log-KGE Kling-Gupta efficiency in logarithmic space
Beta-KGE Ratio of mean simulated and mean observed flow Eq.

  1. Google, https://research.google/. European Centre for Medium-Range Weather Forecasts, Reading, UK. Helmholtz Centre for Environmental Research – UFZ, Leipzig, Germany.
    RAND Corporation, Los Angeles, CA, USA. e-mail: nearing@google.com