DOI: https://doi.org/10.1186/s12889-024-21187-0
PMID: https://pubmed.ncbi.nlm.nih.gov/39754102
تاريخ النشر: 2025-01-04
المؤلف: Moiz Qureshi وآخرون
الموضوع الرئيسي: تقنيات التنبؤ وتطبيقاتها
نظرة عامة
تتناول هذه الدراسة الزيادة المتزايدة في حالات وفيات أمراض القلب والأوعية الدموية (CVD) في محافظة السند في باكستان، باستخدام مجموعة بيانات زمنية من 1999 إلى 2021 مأخوذة من مستشفى مدني في نوابشاه. تستخدم البحث نماذج السلاسل الزمنية التقليدية – نايف، هولت-وينترز، والتنعيم الأسي البسيط (SES) – وتقارن أدائها مع نهج التعلم الآلي، نموذج الشبكة العصبية الاصطناعية التلقائية (ANNAR). تشير مقاييس التقييم مثل خطأ الانحراف الجذري المتوسط، ومتوسط الخطأ المطلق (MAE)، ومتوسط الخطأ النسبي المطلق (MAPE) إلى أن نموذج ANNAR يتفوق بشكل كبير على النماذج التقليدية، مما يجعله الأداة الأكثر فعالية في التنبؤ بوفيات CVD والمساعدة في صياغة سياسات الصحة العامة.
تؤكد النتائج على الحاجة الملحة لمبادرات الصحة العامة المستهدفة في السند لزيادة الوعي بعوامل خطر CVD، بما في ذلك استخدام التبغ والأنظمة الغذائية غير الصحية. على الرغم من أن النماذج الأسية التقليدية قد تم استخدامها على نطاق واسع لنمذجة الأمراض، إلا أنها غالبًا ما تفشل في التقاط الديناميات المعقدة. بالمقابل، يظهر نموذج ANNAR قدرة متفوقة في التعامل مع العلاقات غير الخطية داخل البيانات. تقترح الدراسة أن الأبحاث المستقبلية يجب أن تستكشف مجموعة أوسع من تقنيات النمذجة، بما في ذلك أساليب التعلم الآلي الأخرى مثل الغابات العشوائية وآلات الدعم الناقل (SVM)، لتعزيز دقة توقعات وفيات CVD في نوابشاه.
مقدمة
تسلط مقدمة هذه الورقة البحثية الضوء على العبء العالمي الكبير لأمراض القلب والأوعية الدموية (CVD)، والتي تمثل حوالي 17.9 مليون وفاة سنويًا، مما يجعلها السبب الرئيسي للوفيات في جميع أنحاء العالم. في السند، باكستان، تشكل CVD تحديًا كبيرًا للصحة العامة، مع عوامل خطر رئيسية تشمل العمر، الجنس، السمنة، ارتفاع ضغط الدم، ارتفاع السكر في الدم، وارتفاع الدهون في الدم. على الرغم من انتشار CVD، إلا أن هناك فهمًا محدودًا لتكرارها وعوامل الخطر المرتبطة بها في السكان الحضريين والريفيين في حيدر آباد. تؤكد الورقة على أهمية التشخيص المبكر والتدخل في إدارة CVD والتخفيف من مضاعفاتها.
يناقش المؤلفون مختلف أساليب النمذجة المستخدمة للتنبؤ بنتائج CVD، مع التركيز على دمج التقنيات الوبائية والإحصائية وتقنيات التعلم الآلي المتقدمة. تشمل النماذج الملحوظة المذكورة آلات الدعم الناقل (SVM)، وأشجار القرار (DT)، والانحدار اللوجستي (LR)، مع الإشارة إلى أن النماذج الهجينة، مثل تلك التي تجمع بين SVM والغابات العشوائية (RF)، تعزز بشكل كبير من دقة التنبؤ. تهدف الورقة إلى استكشاف ومقارنة فعالية نماذج السلاسل الزمنية العشوائية مقابل نماذج التعلم الآلي الخطية وغير الخطية التقليدية في التنبؤ بمعدلات الوفيات السنوية بسبب CVD. تتضمن هيكلية الورقة مراجعة الأدبيات، والمنهجية، وتفسير النتائج، وتوصيات السياسة للاتجاهات البحثية المستقبلية.
طرق البحث
استخدمت الدراسة مجموعة بيانات شاملة مأخوذة من المستشفى المدني في منطقة نوابشاه، محافظة السند، باكستان، تشمل حالات فعلية من وفيات أمراض القلب والأوعية الدموية (CVD) من 1999 إلى 2021. تتيح هذه المجموعة الواسعة من البيانات الزمنية، التي تتضمن بيانات سنوية، تحليلًا مفصلًا للاتجاهات والأنماط في وفيات CVD على مدى أكثر من عقدين. تسهل مجموعة البيانات فحص تطور وفيات CVD المتعلقة بعوامل مؤثرة مختلفة مثل التغيرات في البنية التحتية للرعاية الصحية، ومبادرات الصحة العامة، وتعديلات نمط الحياة، والتطورات الاجتماعية والاقتصادية في المنطقة.
تتميز مجموعة البيانات بكمالها، حيث لا تحتوي على قيم مفقودة وتعتمد على الملاحظات الفعلية، مما يضمن موثوقية النتائج. تم الحصول على الموافقة الأخلاقية لاستخدام هذه البيانات من إدارة المستشفى، مما يسمح للباحثين بالحصول على رؤى مهمة حول وبائيات الاضطرابات القلبية. تعتبر هذه المعلومات ضرورية لتحديد عوامل الخطر المحتملة وتطوير تدخلات مستهدفة تهدف إلى تقليل انتشار CVD في محافظة السند.
النتائج
تشير نتائج الدراسة إلى أن حجم العينة الذي يتجاوز 50 هو الأمثل لالتقاط الخصائص الإحصائية لبيانات السلاسل الزمنية بدقة، خاصة عند استخدام نموذج ARIMA. يمكن أن تؤدي أحجام العينات الصغيرة إلى عدم الدقة في تقدير المعلمات، مما يجعل طرق التنبؤ البديلة، مثل التنعيم الأسي البسيط (SES)، أكثر ملاءمة. أظهر نموذج ANNAR (الشبكة العصبية الاصطناعية التلقائية) أداءً متفوقًا في التنبؤ بحالات وفاة أمراض القلب والأوعية الدموية (CVD) في السند، محققًا أدنى القيم لمؤشرات الأداء الرئيسية (KPIs) مثل خطأ الجذر التربيعي المتوسط (RMSE) البالغ 38.86 ومتوسط الخطأ المطلق (MAE) البالغ 13.08، متفوقًا على النماذج الأخرى بما في ذلك الطرق النايفة وSES.
أكدت التقييمات التشخيصية، بما في ذلك تحليل المتبقيات واختبار Ljung-Box، أن نموذج ANNAR يتناسب جيدًا مع البيانات، حيث لم يظهر أي ارتباط ذاتي بين المتبقيات. عرضت المتبقيات توزيعًا طبيعيًا، كما يتضح من الرسم البياني والمدرج التكراري، مما يعزز فعالية النموذج. تختتم الدراسة بأن نموذج ANNAR هو المنهج الأكثر ملاءمة لنمذجة وتنبؤ حالات وفاة CVD، مع تقديم توقع لمدة خمس سنوات، مما يظهر قابليته للتطبيق حتى مع مجموعات بيانات أصغر.
المناقشة
تركز قسم المناقشة في الورقة البحثية على تحليل بيانات وفيات أمراض القلب والأوعية الدموية (CVD) التي تم جمعها من نوابشاه، السند، باكستان، على مدى 22 عامًا (1999-2021). باستخدام تحليل السلاسل الزمنية، تستخدم الدراسة نماذج تنبؤ مختلفة، بما في ذلك الطريقة النايفة، والتنعيم الأسي البسيط (SES)، وتنعيم هولت-وينترز الأسي، ونموذج الشبكة العصبية الاصطناعية التلقائية (ANNAR). يظهر نموذج ANNAR، بشكل خاص، أداءً متفوقًا في التقاط العلاقات المعقدة وغير الخطية داخل البيانات، مما يجعله فعالًا في التنبؤات طويلة الأجل لحالات CVD. تكشف التحليلات عن اتجاهات كبيرة في وفيات CVD، مع تسجيل ذروة بلغت 408 وفيات في عام 2018، وتؤكد على أهمية تقييم النموذج بشكل قوي لتجنب الإفراط في التكيف، خاصة مع أحجام العينات الصغيرة.
تشير تداعيات الدراسة إلى أن النتائج يمكن أن تُفيد استراتيجيات الصحة العامة التي تهدف إلى تقليل وفيات CVD في السند. تشمل التوصيات تعزيز خيارات نمط الحياة الصحية، وتحسين الوصول إلى الرعاية الوقائية، وتعزيز خدمات الرعاية الصحية، وتنفيذ ضرائب على المنتجات غير الصحية. تسلط الدراسة الضوء على ضرورة وجود مبادرات صحة عامة مستهدفة لزيادة الوعي بعوامل خطر CVD والتأثير الاقتصادي المحتمل لـ CVD في المنطقة. بشكل عام، تؤكد الأبحاث على فعالية نموذج ANNAR في التنبؤ بوفيات CVD وتدعو إلى مزيد من الاستكشاف لأساليب النمذجة المتنوعة لتعزيز دقة التنبؤ في الدراسات المستقبلية.
DOI: https://doi.org/10.1186/s12889-024-21187-0
PMID: https://pubmed.ncbi.nlm.nih.gov/39754102
Publication Date: 2025-01-04
Author(s): Moiz Qureshi et al.
Primary Topic: Forecasting Techniques and Applications
Overview
This study addresses the increasing incidence of cardiovascular disease (CVD) mortality in the Sindh province of Pakistan, utilizing a time series dataset from 1999 to 2021 sourced from a civil hospital in Nawabshah. The research employs classical time series models—Naïve, Holt-Winters, and Simple Exponential Smoothing (SES)—and compares their performance against a machine learning approach, the Artificial Neural Network Auto-Regressive (ANNAR) model. Evaluation metrics such as Root Mean Square Deviation Error, Mean Absolute Error (MAE), and Mean Absolute Percentage Error (MAPE) indicate that the ANNAR model significantly outperforms the classical models, establishing it as the most effective tool for predicting CVD mortality and aiding in public health policy formulation.
The findings underscore the urgent need for targeted public health initiatives in Sindh to raise awareness of CVD risk factors, including tobacco use and unhealthy diets. While traditional exponential models have been widely used for disease modeling, they often fail to capture complex dynamics. In contrast, the ANNAR model demonstrates superior capability in handling nonlinear relationships within the data. The study suggests that future research should explore a broader range of modeling techniques, including other machine learning approaches like Random Forests and Support Vector Machines (SVM), to enhance the accuracy of CVD mortality forecasts in Nawabshah.
Introduction
The introduction of this research paper highlights the significant global burden of cardiovascular disease (CVD), which accounts for approximately 17.9 million deaths annually, making it a leading cause of mortality worldwide. In Sindh, Pakistan, CVD poses a serious public health challenge, with key risk factors including age, gender, obesity, hypertension, hyperglycemia, and hyperlipidemia. Despite the prevalence of CVD, there is limited understanding of its frequency and associated risk factors in the urban and rural populations of Hyderabad. The paper underscores the importance of early diagnosis and intervention in managing CVD and mitigating its complications.
The authors discuss various modeling approaches employed to predict CVD outcomes, emphasizing the integration of epidemiological, statistical, and advanced machine learning techniques. Notable models mentioned include Support Vector Machines (SVM), Decision Trees (DT), and Logistic Regression (LR), with findings indicating that hybrid models, such as those combining SVM and Random Forest (RF), significantly enhance predictive accuracy. The paper aims to explore and compare the effectiveness of stochastic time series models against conventional linear and nonlinear machine learning models in forecasting annual mortality rates for CVD. The structure of the paper includes a literature review, methodology, results interpretation, and policy recommendations for future research directions.
Methods
The study utilized a comprehensive dataset sourced from the Civil Hospital in Nawabshah district, Sindh province, Pakistan, encompassing actual cases of cardiovascular disease (CVD) related deaths from 1999 to 2021. This extensive time series dataset, which includes yearly data, enables a detailed analysis of trends and patterns in CVD mortality over more than two decades. The dataset facilitates the examination of the evolution of CVD-related mortality in relation to various influencing factors such as changes in healthcare infrastructure, public health initiatives, lifestyle modifications, and socioeconomic developments in the region.
The dataset is notable for its completeness, containing no missing values and based on actual observations, thereby ensuring the reliability of the findings. Ethical approval for the use of this data was obtained from the hospital administration, allowing researchers to gain significant insights into the epidemiology of cardiovascular disorders. This information is crucial for identifying potential risk factors and developing targeted interventions aimed at reducing the prevalence of CVD in the Sindh province.
Results
The results of the study indicate that a sample size exceeding 50 is optimal for accurately capturing the statistical properties of time series data, particularly when employing the ARIMA model. Smaller sample sizes can lead to inaccuracies in parameter estimation, making alternative forecasting methods, such as simple exponential smoothing (SES), more suitable. The ANNAR (Artificial Neural Network Autoregressive) model demonstrated superior performance in forecasting cardiovascular disease (CVD) death cases in Sindh, achieving the lowest values for key performance indicators (KPIs) such as root mean square error (RMSE) of 38.86 and mean absolute error (MAE) of 13.08, outperforming other models including the naïve and SES methods.
Diagnostic evaluations, including residual analysis and the Ljung-Box test, confirmed that the ANNAR model fits the data well, exhibiting no autocorrelation among residuals. The residuals displayed a normal distribution, as evidenced by the histogram and QQ-norm plots, further validating the model’s effectiveness. The study concludes that the ANNAR model is the most appropriate methodology for modeling and forecasting CVD death cases, with a five-year forecast provided, demonstrating its applicability even with smaller datasets.
Discussion
The discussion section of the research paper focuses on the analysis of cardiovascular disease (CVD) mortality data collected from Nawabshah, Sindh, Pakistan, over a span of 22 years (1999-2021). Utilizing time series analysis, the study employs various forecasting models, including the Naive method, Simple Exponential Smoothing (SES), Holt-Winters Exponential Smoothing, and the Artificial Neural Network Autoregressive (ANNAR) model. The ANNAR model, in particular, demonstrates superior performance in capturing complex, non-linear relationships within the data, making it effective for long-term predictions of CVD cases. The analysis reveals significant trends in CVD mortality, with a peak of 408 deaths recorded in 2018, and emphasizes the importance of robust model evaluation to avoid overfitting, especially with small sample sizes.
The implications of the study suggest that the findings can inform public health strategies aimed at reducing CVD mortality in Sindh. Recommendations include promoting healthy lifestyle choices, improving access to preventive care, enhancing healthcare services, and implementing taxes on unhealthy products. The study highlights the necessity for targeted public health initiatives to raise awareness about CVD risk factors and the potential economic impact of CVD in the region. Overall, the research underscores the effectiveness of the ANNAR model in forecasting CVD mortality and advocates for further exploration of diverse modeling approaches to enhance predictive accuracy in future studies.
