نماذج السلاسل الزمنية الهجينة وتعلم الآلة لتوقع الوفيات القلبية الوعائية في الهند: تحليل محدد بالعمر
Hybrid time series and machine learning models for forecasting cardiovascular mortality in India: an age specific analysis

المجلة: BMC Public Health، المجلد: 25، العدد: 1
DOI: https://doi.org/10.1186/s12889-025-23318-7
PMID: https://pubmed.ncbi.nlm.nih.gov/40495146
تاريخ النشر: 2025-06-10
المؤلف: Macarena Teja وآخرون
الموضوع الرئيسي: تقنيات التنبؤ وتطبيقاتها

نظرة عامة

تبحث ورقة البحث في اتجاهات وفيات أمراض القلب والأوعية الدموية (CVD) في الهند من 1990 إلى 2021، باستخدام بيانات من معهد قياسات الصحة والتقييم (IHME). تصنف الدراسة بيانات الوفيات إلى خمس فئات عمرية وتستخدم نماذج ARIMA الكلاسيكية والنماذج الهجينة، مع دمج تقنيات التعلم الآلي مثل الغابة العشوائية، آلة الدعم الناقل (SVM)، XGBoost، وGARCH للتنبؤ. تكشف النتائج أن نموذج ARIMA + SVM الهجين يتفوق بشكل كبير على ARIMA المستقل، محققًا تحسينات في RMSE تصل إلى 15.6%. ومن الجدير بالذكر أن فئة العمر 70+ تظهر أعلى معدلات الوفيات، مما يبرز الحاجة إلى تدخلات صحية مستهدفة.

تسلط الخاتمة الضوء على الأداء المتفوق للنماذج الهجينة عبر معظم الفئات العمرية، بينما يعد نموذج ARIMA الأبسط الأكثر فعالية لفئة العمر 0-5، مما يشير إلى أن أنماط وفيات الحياة المبكرة قد لا تتطلب منهجيات معقدة. تؤكد الدراسة على إمكانيات هذه النماذج التنبؤية في التخطيط الصحي العام، مما يساعد في تخصيص الموارد وتحليل الاتجاهات. ومع ذلك، يتم الاعتراف بالتحديات مثل جودة البيانات، وكثافة الحوسبة، وقابلية تفسير النموذج. تشمل اتجاهات البحث المستقبلية استكشاف تقنيات التعلم العميق المتقدمة ودمج المتغيرات الخارجية لتعزيز متانة النموذج وقابليته للتطبيق، مما يسهل في النهاية السياسات الصحية المستندة إلى البيانات والمخصصة للعمر لمعالجة العبء المتزايد لأمراض القلب والأوعية الدموية في الهند.

مقدمة

تسلط مقدمة ورقة البحث هذه الضوء على العبء العالمي الحرج لأمراض القلب والأوعية الدموية (CVDs)، التي تمثل واحدة من كل ثلاث وفيات على مستوى العالم، وتؤثر بشكل أساسي على البلدان ذات الدخل المنخفض والمتوسط. في الهند، تمثل أمراض القلب والأوعية الدموية 26% من وفيات البالغين، مما تفاقمه عوامل مثل ارتفاع استخدام التبغ، استهلاك الكحول، وارتفاع ضغط الدم. تؤكد الورقة على الحاجة إلى استراتيجيات فعالة للمراقبة والوقاية، خاصة من خلال الأساليب التحليلية المتقدمة.

لمعالجة قيود نماذج المتوسط المتحرك التكاملي الذاتي (ARIMA) التقليدية، التي تواجه صعوبات مع مجموعات بيانات الصحة المعقدة والتغيرات الخارجية المفاجئة، تقترح هذه الدراسة نهجًا هجينيًا للتنبؤ يدمج ARIMA مع تقنيات التعلم الآلي، بما في ذلك الغابة العشوائية، وآلات الدعم الناقل (SVM)، وXGBoost. يهدف هذا الجمع إلى تعزيز دقة التنبؤ وتوفير رؤى قابلة للتنفيذ لصنع القرار في الصحة العامة. تشمل أهداف البحث تطوير نموذج هجيني قوي، وتقييم انتشار الأمراض عبر الفئات العمرية، ومقارنة فعالية النماذج الهجينة مقابل النماذج المستقلة في إبلاغ تخصيص موارد الرعاية الصحية واستراتيجيات الوقاية.

طرق

تحدد قسم “الطرق” في ورقة البحث التصميم التجريبي والتقنيات التحليلية المستخدمة للتحقيق في أسئلة البحث. استخدمت الدراسة نهجًا كميًا، مع دمج التحليلات الإحصائية لتقييم البيانات المجمعة من تجارب مختلفة. تضمنت المنهجيات المحددة تجارب مختبرية محكومة، حيث تم التلاعب بالمتغيرات بشكل منهجي لمراقبة آثارها على النتائج ذات الصلة.

شملت جمع البيانات استخدام أدوات موحدة لضمان الموثوقية والصلاحية، مع استخدام تقنيات أخذ عينات مناسبة لتعزيز قابلية تعميم النتائج. تم تطبيق اختبارات إحصائية، مثل ANOVA وتحليل الانحدار، لتحديد الفروق والعلاقات المهمة بين المتغيرات. يبرز القسم صرامة الطرق المستخدمة، مما يضمن أن النتائج قوية ويمكن أن تسهم بشكل هادف في المعرفة الموجودة في هذا المجال.

نتائج

تكشف نتائج الدراسة حول الوفيات المرتبطة بأمراض القلب في الهند عن رؤى مهمة حول اتجاهات الوفيات عبر فئات عمرية مختلفة: 0-5، 6-15، 16-49، 50-69، و70+. تم تحويل البيانات إلى تنسيق سلسلة زمنية، وتم تقييم الاستقرارية باستخدام اختبار ديكي-فولر المعزز (ADF). أظهرت جميع الفئات العمرية قيم p عند أو أقل من 0.05، مما يشير إلى أن بيانات السلاسل الزمنية مستقرة ومناسبة لنمذجة ARIMA. ومن الجدير بالذكر أن الفئات العمرية الأكبر (50-69 و70+) أظهرت ميلًا قويًا نحو الاستقرارية، مع قيم p منخفضة تصل إلى 0.01، مما يشير إلى ديناميات زمنية قوية في البيانات.

تشير نتائج التنبؤ، المقدمة في جداول وأشكال مختلفة، إلى اتجاهات وفيات متميزة عبر فئات العمر. من المتوقع أن تشهد الفئات العمرية الأصغر (0-5 و6-15) انخفاضًا ثابتًا في الوفيات، مع أداء نموذج ARIMA المستقل بشكل أفضل لفئة العمر 0-5. في المقابل، من المتوقع أن تشهد الفئات العمرية 16-49 و50-69 زيادة في معدلات الوفيات، مع تحقيق النماذج الهجينة، وخاصة ARIMA المدمجة مع SVM، لأكثر التنبؤات دقة. بالنسبة للأفراد الذين تتراوح أعمارهم بين 70 وما فوق، تتنبأ جميع النماذج بزيادة كبيرة في الوفيات، مع توقع ARIMA + XGBoost لأعلى زيادة. تؤكد الدراسة على أهمية تخصيص نماذج التنبؤ لفئات عمرية محددة للتخطيط الصحي الفعال، مما يمكّن من التدخلات المستهدفة وتخصيص الموارد. بالإضافة إلى ذلك، تدعم الكفاءة الحاسوبية لجميع النماذج، مع أوقات تنفيذ أقل من ثانية واحدة، قابليتها للتطبيق في إعدادات الرعاية الصحية في الوقت الحقيقي. قد تعزز الأبحاث المستقبلية هذه النماذج من خلال دمج العوامل الاجتماعية والاقتصادية والبيئية لتحسين استراتيجيات التدخل.

مناقشة

تسلط قسم المناقشة في ورقة البحث الضوء على الفعالية المقارنة لمختلف نماذج التنبؤ، مع التركيز بشكل خاص على ARIMA وتقنيات التعلم الآلي مثل LSTM، الغابة العشوائية، وXGBoost، في التنبؤ بالنتائج الصحية مثل وفيات القلب والأوعية الدموية عبر فئات عمرية مختلفة. تشير الأدبيات إلى أنه بينما يتفوق LSTM في التقاط الاتجاهات غير الخطية في مجموعات البيانات الكبيرة، يظل ARIMA فعالًا للتنبؤات قصيرة المدى والأنماط الخطية. ومن الجدير بالذكر أن النماذج الهجينة التي تجمع بين ARIMA وطرق التعلم الآلي، مثل ARIMA + SVM وARIMA + XGBoost، أظهرت دقة تنبؤية متفوقة عبر معظم الفئات العمرية، وخاصة للأفراد الذين تتراوح أعمارهم بين 6-15، 16-49، و50-69. في المقابل، كان نموذج ARIMA الأبسط هو الأنسب لفئة العمر 0-5، مما يشير إلى أن اتجاهات وفيات الحياة المبكرة قد لا تتطلب نمذجة معقدة.

تؤكد النتائج على إمكانيات هذه النماذج الهجينة للتنبؤ لتعزيز التخطيط الصحي العام من خلال تمكين تخصيص الموارد المبكر ومراقبة الاتجاهات. ومع ذلك، لا تزال التحديات مثل جودة البيانات، ومتطلبات الحوسبة، وقابلية تفسير النموذج قائمة. تشمل اتجاهات البحث المستقبلية استكشاف تقنيات التعلم العميق المتقدمة ودمج المتغيرات الخارجية لتحسين متانة النموذج وقابليته للتطبيق. بالإضافة إلى ذلك، يمكن أن يعزز دمج تقدير عدم اليقين من موثوقية توقعات السياسات، مما يساعد في النهاية في الإدارة الفعالة لأعباء أمراض القلب والأوعية الدموية عبر الفئات العمرية.

Journal: BMC Public Health, Volume: 25, Issue: 1
DOI: https://doi.org/10.1186/s12889-025-23318-7
PMID: https://pubmed.ncbi.nlm.nih.gov/40495146
Publication Date: 2025-06-10
Author(s): Macarena Teja et al.
Primary Topic: Forecasting Techniques and Applications

Overview

The research paper investigates cardiovascular disease (CVD) mortality trends in India from 1990 to 2021, utilizing data from the Institute for Health Metrics and Evaluation (IHME). The study categorizes mortality data into five age groups and employs both classic ARIMA and hybrid models, integrating machine learning techniques such as Random Forest, Support Vector Machine (SVM), XGBoost, and GARCH for forecasting. The findings reveal that the ARIMA + SVM hybrid model significantly outperforms standalone ARIMA, achieving RMSE improvements of up to 15.6%. Notably, the 70+ age group exhibits the highest mortality rates, emphasizing the need for targeted healthcare interventions.

The conclusion highlights the superior performance of hybrid models across most age groups, while the simpler ARIMA model is most effective for the 0-5 age range, suggesting that early life mortality patterns may not require complex methodologies. The study underscores the potential of these forecasting models in public health planning, aiding in resource allocation and trend analysis. However, challenges such as data quality, computational intensity, and model interpretability are acknowledged. Future research directions include exploring advanced deep learning techniques and incorporating external variables to enhance model robustness and applicability, ultimately facilitating data-driven, age-specific health policies to address the increasing CVD burden in India.

Introduction

The introduction of this research paper highlights the critical global burden of cardiovascular diseases (CVDs), which account for one in three deaths worldwide, predominantly affecting low- and middle-income countries. In India, CVDs are responsible for 26% of adult mortality, exacerbated by factors such as high tobacco use, alcohol consumption, and hypertension. The paper emphasizes the need for effective monitoring and preventive strategies, particularly through advanced analytical methods.

To address the limitations of traditional Auto-Regressive Integrated Moving Average (ARIMA) models, which struggle with complex health datasets and sudden external changes, this study proposes a hybrid forecasting approach that integrates ARIMA with machine learning techniques, including Random Forest, Support Vector Machines (SVM), and XGBoost. This combination aims to enhance predictive accuracy and provide actionable insights for public health decision-making. The research objectives include developing a robust hybrid model, evaluating disease prevalence across age groups, and comparing the effectiveness of hybrid versus standalone models in informing healthcare resource allocation and prevention strategies.

Methods

The “Methods” section of the research paper outlines the experimental design and analytical techniques employed to investigate the research questions. The study utilized a quantitative approach, incorporating statistical analyses to evaluate the data collected from various experiments. Specific methodologies included controlled laboratory experiments, where variables were systematically manipulated to observe their effects on the outcomes of interest.

Data collection involved the use of standardized instruments to ensure reliability and validity, with appropriate sampling techniques employed to enhance the generalizability of the findings. Statistical tests, such as ANOVA and regression analysis, were applied to determine significant differences and relationships among the variables. The section emphasizes the rigor of the methods used, ensuring that the results are robust and can contribute meaningfully to the existing body of knowledge in the field.

Results

The results of the study on heart disease-related fatalities in India reveal significant insights into mortality trends across various age groups: 0-5, 6-15, 16-49, 50-69, and 70+. The data was transformed into a time series format, and stationarity was assessed using the Augmented Dickey-Fuller (ADF) test. All age groups exhibited p-values at or below 0.05, indicating that the time series data is stationary and suitable for ARIMA modeling. Notably, older cohorts (50-69 and 70+) showed a strong tendency toward stationarity, with p-values as low as 0.01, suggesting robust temporal dynamics in the data.

Forecasting results, presented in various tables and figures, indicate distinct mortality trends across age categories. The youngest groups (0-5 and 6-15) are projected to experience a steady decrease in deaths, with the standalone ARIMA model performing best for the 0-5 cohort. In contrast, the 16-49 and 50-69 age groups are expected to see increasing mortality rates, with hybrid models, particularly ARIMA combined with SVM, yielding the most accurate forecasts. For individuals aged 70 and above, all models predict a significant rise in mortality, with ARIMA + XGBoost forecasting the highest increase. The study emphasizes the importance of tailoring prediction models to specific age demographics for effective healthcare planning, enabling targeted interventions and resource allocation. Additionally, the computational efficiency of all models, with execution times under one second, supports their applicability in real-time healthcare settings. Future research may enhance these models by incorporating socioeconomic and environmental factors to further refine intervention strategies.

Discussion

The discussion section of the research paper highlights the comparative efficacy of various forecasting models, particularly focusing on ARIMA and machine learning techniques like LSTM, Random Forest, and XGBoost, in predicting health outcomes such as cardiovascular mortality across different age groups. The literature indicates that while LSTM excels in capturing nonlinear trends in extensive datasets, ARIMA remains effective for short-term predictions and linear patterns. Notably, hybrid models combining ARIMA with machine learning methods, such as ARIMA + SVM and ARIMA + XGBoost, demonstrated superior predictive accuracy across most age demographics, particularly for individuals aged 6-15, 16-49, and 50-69. In contrast, the simpler ARIMA model was most suitable for the 0-5 age group, suggesting that early life mortality trends may not require complex modeling.

The findings underscore the potential of these hybrid forecasting models to enhance public health planning by enabling early resource allocation and trend monitoring. However, challenges such as data quality, computational demands, and model interpretability persist. Future research directions include exploring advanced deep learning techniques and incorporating external variables to improve model robustness and applicability. Additionally, integrating uncertainty quantification could enhance the reliability of policy projections, ultimately aiding in the effective management of cardiovascular disease burdens across age groups.