DOI: https://doi.org/10.1038/s41598-025-99288-y
PMID: https://pubmed.ncbi.nlm.nih.gov/40274916
تاريخ النشر: 2025-04-24
المؤلف: Tanzila Tamanna وآخرون
الموضوع الرئيسي: تغذية الأطفال والوصول إلى المياه
نظرة عامة
تتناول هذه الورقة البحثية القضية الحرجة لسوء التغذية بين الأطفال دون سن الخامسة في بنغلاديش، باستخدام بيانات من مسح بنغلاديش الديموغرافي والصحي (BDHS) 2022. تستخدم الدراسة تقنيات التعلم الآلي، وخاصة نموذج الغابة العشوائية (RF)، لتحديد وقياس العوامل الرئيسية لأنواع سوء التغذية: التقزم، والهزال، والوزن المنخفض. تكشف التحليلات عن معدلات انتشار تبلغ 19% للتقزم، و8% للهزال، و17% للوزن المنخفض بين مجموعة من 7,910 أطفال. حدد خوارزمية بوروتا المتنبئين الرئيسيين لكل نوع من أنواع سوء التغذية، حيث تفوق نموذج RF على الانحدار اللوجستي التقليدي ونماذج التعلم الآلي الأخرى من حيث الدقة ومقاييس الأداء المختلفة.
تضمنت العوامل الرئيسية للتقزم تعليم الأم، ومهنة الأب، ومكان الولادة، ومؤشر الثروة، وترتيب الولادة، ومرافق الحمام. بالنسبة للهزال، كانت العوامل المهمة هي الرعاية السابقة للولادة، وعدم تلبية التخطيط الأسري، ومؤشر كتلة جسم الأم، وفترة الولادة، ومهنة الأب، وامتلاك التلفاز. تأثر الوزن المنخفض بمهنة الأب، وتعليم الأم، وعمر الطفل، وترتيب الولادة، ومؤشر الثروة، ومكان الولادة. تؤكد النتائج على إمكانيات التعلم الآلي، وخاصة RF، في توجيه التدخلات المستهدفة لمكافحة سوء التغذية، بما يتماشى مع أهداف التنمية المستدامة للأمم المتحدة (SDG 2: القضاء على الجوع، SDG 3: الصحة الجيدة والرفاه). تؤكد الدراسة على أهمية معالجة العوامل الاجتماعية والاقتصادية والصحية لتحسين تغذية الأطفال وتقليل معدلات سوء التغذية بشكل فعال.
الطرق
في هذه الدراسة، تم استخدام منهجية شاملة لتحليل مؤشرات سوء التغذية باستخدام مجموعة بيانات مسح بنغلاديش الديموغرافي والصحي (BDHS) 2022. بدأت البحث بمعالجة البيانات بعناية، حيث تم الاحتفاظ بالمتنبئين الذين كانت قيمهم المفقودة أقل من 40%، بينما تم استبعاد أولئك الذين تجاوزوا هذا العتبة. لمعالجة البيانات المفقودة، تم استخدام خوارزمية الغابة العشوائية للتقدير، والتي اعتبرت متفوقة لهذا الغرض. قدمت الإحصائيات الوصفية رؤى أولية حول المستجيبين، تلتها عملية اختيار الميزات باستخدام خوارزمية بوروتا، التي حددت المتغيرات المهمة لمزيد من التحليل.
تم تقسيم مجموعة البيانات إلى مجموعات تدريب واختبار بنسبة 75:25، وتم تنفيذ استراتيجية زيادة العينة للتخفيف من عدم توازن الفئات في بيانات التقزم، والهزال، والوزن المنخفض. شمل ذلك تكرار حالات الفئة الأقل لضمان تمثيل عادل أثناء تدريب النموذج، مما يعزز موثوقية التنبؤات. تم استخدام تقنيات تعلم آلي متنوعة، بما في ذلك الجيران الأقرب (KNN)، والشبكات العصبية (NN)، وشجرة التصنيف والانحدار (CART)، وشجرة القرار (DT)، وآلة الدعم الناقل (SVM)، والغابة العشوائية (RF)، وزيادة التدرج المتطرف (XGBM)، والانحدار اللوجستي (LR). تم التحقق من أداء كل نموذج من خلال التحقق المتقاطع بعشرة طيات، مع استخدام مقاييس مثل الدقة، وكابا كوهين، والحساسية، والخصوصية، ودرجة F1، والدقة للمقارنة. حددت الدراسة في النهاية أفضل طريقة لاختيار الميزات والخصائص الرئيسية المرتبطة بسوء التغذية.
النتائج
تكشف نتائج الدراسة، التي شملت 7,910 مشاركًا، عن خصائص ديموغرافية واقتصادية اجتماعية مهمة إلى جانب معدلات انتشار سوء التغذية: 19% للتقزم، و8% للهزال، و17% للوزن المنخفض. يقيم معظم المشاركين في المناطق الريفية (67%)، مع نسبة ملحوظة تفتقر إلى الوصول إلى الخدمات الأساسية مثل الرعاية السابقة للولادة (62%) والانخراط الإعلامي الكافي (93% لا يقرؤون الصحف). الحالة الاقتصادية متنوعة، حيث تم تصنيف 39% على أنهم أغنياء، و20% من الطبقة المتوسطة، و42% فقراء. تشير التحليلات إلى وجود ارتباطات قوية بين مؤشرات سوء التغذية وعوامل مختلفة، بما في ذلك تقسيم الإقامة، ومؤشر الثروة، وتعليم الأم، وممارسات الرضاعة الطبيعية، مما يبرز المساهمات المتعددة في حالة التغذية لدى الأطفال.
تم استخدام نماذج التعلم الآلي للتنبؤ بنتائج سوء التغذية، حيث برز نموذج الغابة العشوائية (RF) كأكثر النماذج فعالية، محققًا أعلى دقة للتقزم (64.19%) والهزال (76.68%). أظهر نموذج RF خصوصية قوية وقدرات كشف متوازنة، على الرغم من أنه أظهر قدرة تنبؤية متوسطة للتقزم والوزن المنخفض. تضمنت المتنبئات الرئيسية المحددة للتقزم ثروة الأسرة وتعليم الأم، بينما كانت الرعاية السابقة للولادة وممارسات الرضاعة الطبيعية مهمة للهزال. أوضحت قيم الشابلية الإضافية (SHAP) تأثير المتغيرات مثل تعليم الأم ومهنة الأب على تنبؤات سوء التغذية، مما يبرز الحاجة إلى تدخلات الصحة العامة المستهدفة لمعالجة هذه الديناميكيات المعقدة.
المناقشة
تؤكد قسم المناقشة في هذه الدراسة على الأداء التنبؤي لمختلف نماذج التعلم الآلي في تحديد محددات سوء التغذية—تحديدًا التقزم، والهزال، والوزن المنخفض—بين الأطفال دون سن الخامسة في بنغلاديش. باستخدام بيانات من مسح بنغلاديش الديموغرافي والصحي 2022، وُجد أن نموذج الغابة العشوائية (RF) هو الأكثر فعالية، خاصة في التنبؤ بالهزال، بينما أظهر أداءً معتدلاً للتقزم والوزن المنخفض. تضمنت المتنبئات الرئيسية المحددة للتقزم تعليم الأم، ومهنة الأب، ومكان الولادة، ومؤشر الثروة، وترتيب الولادة، ومرافق الصرف الصحي. بالنسبة للهزال، كانت العوامل المهمة هي الرعاية السابقة للولادة، وعدم تلبية التخطيط الأسري، ومؤشر كتلة جسم الأم، بينما تأثر الوزن المنخفض بنفس المتغيرات الاجتماعية والديموغرافية.
تؤكد الدراسة على التفاعل المعقد بين العوامل الاجتماعية والاقتصادية والصحية في تحديد سوء التغذية، مما يعزز أهمية تعليم الأم وثروة الأسرة كعوامل حاسمة. على الرغم من نجاح نموذج RF بشكل عام، فإن قدرته التنبؤية المتوسطة للتقزم والوزن المنخفض تشير إلى الحاجة إلى مزيد من التحسينات، مثل ضبط المعلمات الفائقة وإدراج متغيرات ذات صلة إضافية. تتماشى النتائج مع الأبحاث السابقة، مما يشير إلى اتساق المتنبئات لسوء التغذية عبر مجموعات بيانات مختلفة، بينما تبرز أيضًا عوامل الخطر المتطورة. تشمل التوصيات لتحسين نتائج صحة الأطفال تعزيز تعليم الأم، وتوسيع الوصول إلى الرعاية الصحية، وتنفيذ تدخلات قائمة على الثروة، إلى جانب الاستفادة من التعلم الآلي لاستراتيجيات الصحة العامة المستهدفة.
القيود
تقدم الدراسة عدة قيود تؤثر على نتائجها وقابليتها للتطبيق. أولاً، تصميمها العرضي يحد من القدرة على استنتاج العلاقات السببية، مما يبرز ضرورة إجراء أبحاث طولية لتوضيح العلاقات بين سوء التغذية ومختلف العوامل الاجتماعية والاقتصادية، وصحة الأم، وصحة الطفل. بالإضافة إلى ذلك، قد يكون الاستخدام الحصري لطريقة اختيار ميزات بوروتا قد أدخل تحيزًا؛ قد يعزز استخدام طرق اختيار متعددة أداء النموذج وموثوقيته. قد تكون مشكلات جودة البيانات، بما في ذلك القيم المفقودة وعدم التناسق، قد أضرت بالدقة، مما يتطلب تحسين تقنيات تقدير البيانات أو المعالجة المسبقة.
علاوة على ذلك، بينما تقلل خوارزمية الغابة العشوائية من الإفراط في التكيف، لا تزال التحديات التي تطرحها البيانات عالية الأبعاد قائمة، مما يشير إلى أن دمج تقنيات التحقق المتقاطع والتنظيم قد يعزز عمومية النموذج. النتائج محددة لبنغلاديش، مما قد يحد من صلتها بمناطق أخرى ذات سياقات اجتماعية واقتصادية ورعاية صحية مختلفة. يجب أن تأخذ الأبحاث المستقبلية في الاعتبار دمج مقاييس تقييم إضافية، مثل الاسترجاع والمساحة تحت المنحنى (AUC)، لتقديم تقييم أكثر شمولاً للأداء. قد يؤدي تحسين دقة النموذج من خلال ضبط المعلمات الفائقة واستخدام تقنيات بايزي للتعامل مع عدم توازن مجموعة البيانات إلى تعزيز موثوقية الدراسات المستقبلية التي تهدف إلى التنبؤ بسوء التغذية والتخفيف منه.
DOI: https://doi.org/10.1038/s41598-025-99288-y
PMID: https://pubmed.ncbi.nlm.nih.gov/40274916
Publication Date: 2025-04-24
Author(s): Tanzila Tamanna et al.
Primary Topic: Child Nutrition and Water Access
Overview
This research paper addresses the critical issue of malnutrition among children under five in Bangladesh, utilizing data from the Bangladesh Demographic and Health Survey (BDHS) 2022. The study employs machine learning techniques, particularly the Random Forest (RF) model, to identify and quantify key determinants of malnutrition types: stunting, wasting, and underweight. The analysis reveals prevalence rates of 19% for stunting, 8% for wasting, and 17% for underweight among a cohort of 7,910 children. The Boruta algorithm identified significant predictors for each malnutrition type, with RF outperforming traditional logistic regression and other machine learning models in terms of accuracy and various performance metrics.
Key predictors for stunting included mother’s education, father’s occupation, place of delivery, wealth index, birth order, and toilet facility. For wasting, significant factors were antenatal care, unmet family planning, mother’s BMI, birth interval, father’s occupation, and television ownership. Underweight was influenced by father’s occupation, mother’s education, child’s age, birth order, wealth index, and place of delivery. The findings underscore the potential of machine learning, particularly RF, in guiding targeted interventions to combat malnutrition, aligning with the United Nations Sustainable Development Goals (SDG 2: Zero Hunger, SDG 3: Good Health and Well-Being). The study emphasizes the importance of addressing socio-economic and health-related factors to improve child nutrition and reduce malnutrition rates effectively.
Methods
In this study, a comprehensive methodology was employed to analyze malnutrition indicators using the 2022 Bangladesh Demographic and Health Survey (BDHS) dataset. The research began with careful data handling, where predictors with less than 40% missing values were retained, while those exceeding this threshold were excluded. To address the missing data, the random forest algorithm was utilized for imputation, deemed superior for this purpose. Descriptive statistics provided initial insights into the respondents, followed by feature selection using the Boruta algorithm, which identified significant variables for further analysis.
The dataset was divided into training and test sets in a 75:25 ratio, and an oversampling strategy was implemented to mitigate class imbalance in stunting, wasting, and underweight data. This involved replicating instances of the minority class to ensure equitable representation during model training, enhancing the reliability of predictions. Various machine learning techniques, including K-Nearest Neighbours (KNN), Neural Networks (NN), Classification and Regression Tree (CART), Decision Tree (DT), Support Vector Machine (SVM), Random Forest (RF), Extreme Gradient Boosting (XGBM), and Logistic Regression (LR), were employed. Each model’s performance was validated through ten-fold cross-validation, with metrics such as accuracy, Cohen’s kappa, sensitivity, specificity, F1 score, and precision used for comparison. The study ultimately identified the most effective feature selection method and key characteristics associated with malnutrition.
Results
The results of the study, involving 7,910 participants, reveal significant demographic and socioeconomic characteristics alongside malnutrition prevalence rates: 19% for stunting, 8% for wasting, and 17% for underweight. The majority of participants reside in rural areas (67%), with a notable percentage lacking access to essential services such as prenatal care (62%) and adequate media engagement (93% do not read newspapers). Economic status is varied, with 39% classified as rich, 20% middle-class, and 42% poor. The analysis indicates strong associations between malnutrition indicators and various factors, including division of residence, wealth index, maternal education, and breastfeeding practices, highlighting the multifaceted contributors to child nutritional status.
Machine learning models were employed to predict malnutrition outcomes, with Random Forest (RF) emerging as the most effective model, achieving the highest accuracy for stunting (64.19%) and wasting (76.68%). The RF model demonstrated strong specificity and balanced detection capabilities, although it exhibited moderate predictive ability for stunting and underweight. Key predictors identified for stunting included household wealth and maternal education, while antenatal care and breastfeeding practices were significant for wasting. The Shapley Additive Explanation (SHAP) values further elucidated the influence of variables such as maternal education and father’s occupation on malnutrition predictions, underscoring the need for targeted public health interventions to address these complex dynamics.
Discussion
The discussion section of this study emphasizes the predictive performance of various machine learning models in identifying determinants of malnutrition—specifically stunting, wasting, and underweight—among children under five in Bangladesh. Utilizing data from the 2022 Bangladesh Demographic and Health Survey, the Random Forest (RF) model was found to be the most effective, particularly for predicting wasting, while demonstrating moderate performance for stunting and underweight. Key predictors identified for stunting included maternal education, father’s occupation, place of delivery, wealth index, birth order, and sanitation facilities. For wasting, significant factors were antenatal care, unmet family planning, and maternal BMI, while underweight was influenced by similar socio-demographic variables.
The study underscores the complex interplay of socioeconomic and health-related factors in determining malnutrition, reinforcing the importance of maternal education and household wealth as critical determinants. Despite the RF model’s overall success, its moderate predictive ability for stunting and underweight suggests the need for further refinements, such as hyperparameter tuning and the inclusion of additional relevant variables. The findings align with previous research, indicating consistency in the predictors of malnutrition across different datasets, while also highlighting evolving risk factors. Recommendations for improving child health outcomes include enhancing maternal education, expanding access to healthcare, and implementing wealth-based interventions, alongside leveraging machine learning for targeted public health strategies.
Limitations
The study presents several limitations that affect its findings and applicability. Firstly, its cross-sectional design restricts the ability to draw causal inferences, underscoring the necessity for longitudinal research to elucidate the relationships between malnutrition and various socio-economic, maternal, and child health factors. Additionally, the exclusive use of the Boruta feature selection method may have introduced bias; employing multiple selection methods could enhance the model’s performance and robustness. Data quality issues, including missing values and inconsistencies, may have compromised accuracy, necessitating improved data imputation or preprocessing techniques.
Moreover, while the Random Forest algorithm mitigates overfitting, the challenges posed by high-dimensional data remain, suggesting that the incorporation of cross-validation and regularization techniques would bolster model generalizability. The findings are specific to Bangladesh, which may limit their relevance to other regions with differing socio-economic and healthcare contexts. Future research should consider integrating additional evaluation metrics, such as recall and area under the curve (AUC), to provide a more thorough performance assessment. Optimizing model accuracy through hyperparameter tuning and employing Bayesian techniques to address dataset imbalances could further enhance the robustness of future studies aimed at predicting and mitigating malnutrition.
