طريقة دمج بيانات هجينة تعتمد على تصفية كالمان الجماعية في الوقت الحقيقي وKNN لتوقع COVID-19
A hybrid data assimilation method based on real-time Ensemble Kalman filtering and KNN for COVID-19 prediction

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-85593-z
PMID: https://pubmed.ncbi.nlm.nih.gov/39828742
تاريخ النشر: 2025-01-19
المؤلف: Zhenyun Du وآخرون
الموضوع الرئيسي: دراسات وبائية حول COVID-19

نظرة عامة

تقدم هذه الدراسة طريقة هجينة لدمج البيانات تعزز من دقة التنبؤ لنموذج SEAIQR (المعرضون-المصابون-غير الأعراض-المعزولون-المزالون) المعتمد على الزمن لتوقع الأوبئة. من خلال دمج تصفية كالمان الجماعية في الوقت الحقيقي مع خوارزمية الجيران الأقرب، تجمع هذه الطريقة بفعالية بين التعديلات الديناميكية والتعرف على الأنماط المخصصة لديناميات الأوبئة. تظهر التجارب العددية التي تستخدم بيانات حالات COVID-19 من شيآن، مقاطعة شنشي، الصين، تحسينات كبيرة في دقة التنبؤ مقارنة بالنماذج التقليدية وتقنيات دمج البيانات الأخرى.

تشير النتائج إلى أن هذه الطريقة الهجينة فعالة بشكل خاص لاستراتيجيات السيطرة على الأوبئة التي تأخذ في الاعتبار الخصائص الإقليمية، حيث ترتبط فعاليتها بشكل إيجابي بخصوصية المنطقة. ومع ذلك، تعترف الدراسة بالقيود في اختيار المعلمات المتغيرة مع الزمن وتقترح أن هناك حاجة لمزيد من البحث لاستكشاف قابلية تكيف الطريقة عبر مناطق وأمراض معدية مختلفة، خاصة في السياقات التي تشهد تقلبات أولية في المعلمات. بشكل عام، تهدف هذه الأبحاث إلى تحفيز المزيد من الاستفسارات الأكاديمية حول منهجيات التنبؤ المتقدمة للأوبئة.

الطرق

تستعرض هذه القسم المنهجيات المستخدمة في الدراسة، مع التركيز على تصفية كالمان الجماعية (EnKF) والجيران الأقرب (KNN) لمهام دمج البيانات والتصنيف، على التوالي. يتم تسليط الضوء على EnKF كطريقة قوية لدمج البيانات تستخدم مجموعة من حالات النموذج لتقدير حالة الأنظمة الديناميكية من الملاحظات المزعجة. تتضمن العملية خطوات توقع وتحديث تكرارية، كما هو موضح بواسطة سلسلة من المعادلات التي تفصل عملية توقع البيانات (المعادلة 2) وعمليات التحديث (المعادلات 3-6). هذه الطريقة فعالة بشكل خاص في المجالات التي تتميز بديناميات معقدة وغير خطية، مثل توقعات الطقس وعلم الأوبئة.

بالإضافة إلى EnKF، يتم استخدام خوارزمية KNN لتصنيف البيانات في الوقت الحقيقي بناءً على القرب في فضاء الميزات. يستفيد التصنيف من المؤشرات التجريبية المستمدة من الاتجاهات الوبائية الفعلية، مع تضمين مقاييس مثل عدد الاتصالات القريبة ونطاق العزل. تقدم الدراسة معلمة متغيرة مع الزمن، تُرمز بـ $\alpha$، والتي يتم حسابها باستخدام الملاحظات التجريبية وطرق الاستيفاء لتقييم شروط التصنيف. تساعد هذه المعلمة في توليد توزيعات طبيعية لمجموعات التدريب التي تلبي متطلبات EnKF، مما يسهل دمج KNN مع إطار عمل EnKF لتحسين دمج البيانات والتصنيف في نمذجة الأوبئة في الوقت الحقيقي.

النتائج

تسلط نتائج الدراسة الضوء على فعالية مرشح كالمان الجماعي في الوقت الحقيقي (R_EnKF) وطريقة دمج البيانات الهجينة المعتمدة على KNN في نمذجة بيانات الأوبئة لشيآن من 9 ديسمبر 2021 إلى 8 يناير 2022. التحليل، الذي يظهر في الأشكال 3 و4 و5، يقارن القيم التحليلية ($u_{\text{analysis}}$) المستمدة من الطريقة الهجينة مع القيم المتوقعة ($u_{\text{pred}}$) من نموذج SEAIQR، والملاحظات في الوقت الحقيقي ($u_{\text{w}}$)، والقيم الحقيقية المُنشأة ($u_{\text{real}}$) التي تأخذ في الاعتبار الأخطاء الملاحظة.

تشير النتائج إلى أن طريقة دمج البيانات الهجينة، التي تتضمن خصائص متغيرة مع الزمن، تعزز بشكل كبير من الدقة مقارنة بأساليب EnKF التقليدية. علاوة على ذلك، يُلاحظ أن أداء R_EnKF يتحسن عند اختيار المعلمات الرئيسية بشكل مثالي، مما يشير إلى أن هذه الطريقة الهجينة تحمل وعدًا كبيرًا للتطبيقات في السيناريوهات التي تحتوي على بيانات إحصائية كافية.

المناقشة

تتناول قسم المناقشة في ورقة البحث نموذج SEAIQR المعتمد على الزمن، الذي يعزز نموذج SEIR التقليدي من خلال دمج المصابين غير الأعراض (A) والمعزولين (Q)، مما يوفر فهمًا أكثر دقة لديناميات انتقال المرض. يستخدم النموذج نظامًا من المعادلات التفاضلية التي تأخذ في الاعتبار حالات مختلفة من الأفراد خلال وباء، بما في ذلك المعرضين (S)، والمصابين (E)، والمصابين (I)، والمتعافين (R)، والأفراد المعزولين. إن إدخال المعلمات المتغيرة مع الزمن وطريقة دمج البيانات الهجينة، التي تجمع بين تصفية كالمان الجماعية في الوقت الحقيقي (EnKF) والجيران الأقرب (KNN)، يحسن بشكل كبير من دقة توقعات الأوبئة من خلال التكيف مع التغيرات في الوقت الحقيقي في عدد الحالات واستراتيجيات العزل.

تظهر الدراسة أن طريقة EnKF-KNN الهجينة تتفوق على النماذج التقليدية، مثل تصفية كالمان وطرق EnKF الفردية، في توقع ديناميات الأوبئة. تحقق هذه الطريقة تقليلًا في خطأ التوقع بنسبة 7.97% مقارنة بالطرق التقليدية. تُعزى فعالية هذه الطريقة الهجينة إلى قدرتها على الاستفادة من البيانات في الوقت الحقيقي والتكيف مع أنماط الانتقال الديناميكية، مما يجعلها أداة قيمة لاستراتيجيات الصحة العامة. تهدف الأبحاث المستقبلية إلى دمج بيانات الحركة وتطبيق الطريقة الهجينة على نماذج وبائية مختلفة، مما يعزز دقة التنبؤ وقابلية التكيف عبر سياقات وأنواع أمراض مختلفة. تؤكد النتائج على إمكانيات هذه المنهجية في تحسين توقعات الأوبئة والسيطرة عليها، بينما تبرز أيضًا أهمية اختيار المعلمات بعناية لتحقيق الأداء الأمثل.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-85593-z
PMID: https://pubmed.ncbi.nlm.nih.gov/39828742
Publication Date: 2025-01-19
Author(s): Zhenyun Du et al.
Primary Topic: COVID-19 epidemiological studies

Overview

This study presents a hybrid data assimilation method that enhances the predictive accuracy of the time-dependent Susceptible-Exposed-Asymptomatic-Infected-Quarantined-Removed (SEAIQR) model for epidemic forecasting. By integrating real-time Ensemble Kalman Filtering (EnKF) with the K-Nearest Neighbors (KNN) algorithm, the approach effectively combines dynamic adjustments with pattern recognition tailored to epidemic dynamics. Numerical experiments utilizing COVID-19 case data from Xi’an, Shaanxi Province, China, demonstrate significant improvements in forecasting accuracy compared to traditional models and other data assimilation techniques.

The findings indicate that this hybrid method is particularly effective for epidemic control strategies that consider regional characteristics, with its efficacy positively correlated to the specificity of the region. However, the study acknowledges limitations in the selection of time-varying parameters and suggests that further research is needed to explore the method’s adaptability across different regions and infectious diseases, especially in contexts with initial parameter fluctuations. Overall, this research aims to stimulate further scholarly inquiry into advanced epidemic forecasting methodologies.

Methods

The section outlines the methodologies employed in the study, focusing on Ensemble Kalman Filtering (EnKF) and K-Nearest Neighbors (KNN) for data assimilation and classification tasks, respectively. EnKF is highlighted as a robust data assimilation technique that utilizes an ensemble of model states to estimate the state of dynamic systems from noisy observations. The process involves iterative prediction and update steps, as described by a series of equations that detail the data prediction (Eq. 2) and update processes (Eqs. 3-6). This method is particularly effective in fields characterized by complex, nonlinear dynamics, such as weather forecasting and epidemiology.

In conjunction with EnKF, the KNN algorithm is employed to classify real-time data based on proximity in feature space. The classification leverages empirical indicators derived from actual epidemic trends, incorporating metrics such as the number of close contacts and isolation scope. The study introduces a time-varying parameter, denoted as $\alpha$, which is calculated using empirical observations and interpolation methods to assess the classification conditions. This parameter aids in generating normal distributions for training sets that meet EnKF requirements, thereby facilitating the integration of KNN with the EnKF framework for enhanced data assimilation and classification in real-time epidemic modeling.

Results

The results of the study highlight the effectiveness of the real-time Ensemble Kalman Filter (R_EnKF) and a KNN-based hybrid data assimilation method in modeling epidemic data for Xi’an from December 9, 2021, to January 8, 2022. The analysis, depicted in Figures 3, 4, and 5, compares the analysis values ($u_{\text{analysis}}$) derived from the hybrid method with predicted values ($u_{\text{pred}}$) from the SEAIQR model, real-time observations ($u_{\text{w}}$), and constructed true values ($u_{\text{real}}$) that account for observational errors.

The findings indicate that the hybrid data assimilation method, which incorporates time-varying attributes, significantly enhances accuracy over traditional EnKF methods. Furthermore, it is noted that the performance of the R_EnKF is improved when key parameters are optimally selected, suggesting that this hybrid approach holds considerable promise for applications in scenarios with sufficient statistical data.

Discussion

The discussion section of the research paper elaborates on the time-dependent SEAIQR model, which enhances the traditional SEIR model by incorporating asymptomatic infected (A) and quarantined (Q) compartments, thus providing a more nuanced understanding of disease transmission dynamics. The model employs a system of differential equations that account for various states of individuals during an epidemic, including susceptible (S), exposed (E), infected (I), recovered (R), and isolated individuals. The introduction of time-varying parameters and a hybrid data assimilation method, combining real-time Ensemble Kalman Filtering (EnKF) with K-nearest neighbors (KNN), significantly improves the accuracy of epidemic predictions by adapting to real-time changes in the number of cases and isolation strategies.

The study demonstrates that the hybrid EnKF-KNN method outperforms traditional models, such as Kalman Filtering and single EnKF approaches, in forecasting epidemic dynamics. It achieves a reduction in prediction error by 7.97% compared to conventional methods. The effectiveness of this hybrid approach is attributed to its ability to leverage real-time data and adjust for dynamic transmission patterns, making it a valuable tool for public health strategies. Future research aims to integrate mobility data and apply the hybrid method to various epidemic models, enhancing predictive accuracy and adaptability across different contexts and disease types. The findings underscore the potential of this methodology in improving epidemic forecasting and control, while also highlighting the importance of careful parameter selection for optimal performance.