نهج جديد لتقدير القيم المفقودة يعتمد على MissForest مع استبعاد الميزات التكرارية في التطبيقات الطبية A novel MissForest-based missing values imputation approach with recursive feature elimination in medical applications

المجلة: BMC Medical Research Methodology، المجلد: 24، العدد: 1
DOI: https://doi.org/10.1186/s12874-024-02392-2
PMID: https://pubmed.ncbi.nlm.nih.gov/39516783
تاريخ النشر: 2024-11-08
المؤلف: Ya‐Han Hu وآخرون
الموضوع الرئيسي: طرق إحصائية واستدلال بايزي

نظرة عامة

تقدم ورقة البحث طريقة جديدة للتقدير تُسمى “الإزالة التكرارية للميزات – ميس فورست” (RFE-MF)، تهدف إلى تحسين جودة تقدير البيانات في مجموعات البيانات الطبية من خلال تقليل تأثير الميزات غير ذات الصلة. تقارن الدراسة بين RFE-MF وأربع تقنيات تقدير تقليدية – المتوسط/الوضع، الجيران الأقرب (kNN)، التقدير المتعدد بواسطة المعادلات المتسلسلة (MICE)، وميس فورست الأصلية (MF) – عبر عشرة مجموعات بيانات طبية بمعدلات بيانات مفقودة متفاوتة (10% إلى 50%) تحت آلية المفقود تمامًا بشكل عشوائي (MCAR). يتم تقييم الأداء باستخدام خطأ الجذر التربيعي المتوسط الطبيعي (NRMSE) ومعيار الولاء التنبؤي (PFC)، بالإضافة إلى اختبارات t لعينة مزدوجة لتقييم الأهمية الإحصائية.

تشير النتائج إلى أن RFE-MF يتفوق على الطرق التقليدية في معظم السيناريوهات، متجاوزًا باستمرار MF الأصلية بغض النظر عما إذا كانت المتغيرات عددية أو فئوية. بينما يظهر تقدير المتوسط/الوضع أداءً ثابتًا عبر ظروف مختلفة، يتفاوت فعالية kNN مع معدلات البيانات المفقودة. تختتم الدراسة بأن RFE-MF هي تقنية واعدة لمعالجة البيانات المفقودة في تحليلات الرعاية الصحية، مع التأكيد على ضرورة مراعاة نوع البيانات ومعدل الفقد عند اختيار طرق التقدير. تشمل القيود عدم وجود تحسين لبعض المعلمات وإمكانية البحث المستقبلي لاستكشاف طرق اختيار الميزات الأخرى بالتزامن مع MF لتعزيز أداء التقدير بشكل أكبر.

مقدمة

تتناول مقدمة الورقة القضية الحرجة للبيانات المفقودة، التي تتواجد في مجالات متعددة، وخاصة في البحث الطبي. يمكن أن تنشأ القيم المفقودة من عوامل متعددة، بما في ذلك الأخطاء البشرية، تحديات معالجة البيانات، ومخاوف الخصوصية، وتعتبر عقبات كبيرة أمام التحليلات الإحصائية والنمذجة التنبؤية، مما يؤثر في النهاية على اتخاذ القرارات السريرية ورعاية المرضى. لمواجهة هذه المشكلة، طور الباحثون تقنيات مختلفة لتقدير القيم المفقودة (MVI)، مثل تقدير المتوسط/الوضع، التقدير المتعدد بواسطة المعادلات المتسلسلة (MICE)، وتقدير الجيران الأقرب (kNN). ومع ذلك، فإن هذه الطرق التقليدية لها قيود جوهرية، بما في ذلك التحيزات في تقدير المتوسط/الوضع والتحديات في الإعدادات عالية الأبعاد لـ MICE وkNN.

استجابةً لهذه القيود، تقدم الورقة ميس فورست (MF)، وهي طريقة تقدير تعتمد على الأشجار تستخدم الغابات العشوائية وتكون فعالة بشكل خاص في التعامل مع أنواع البيانات المختلطة دون افتراض التوزيع الطبيعي أو الحاجة إلى مواصفات معلمات واسعة. على الرغم من مزاياها، تفتقر MF إلى اختيار الميزات المدمج، وهو أمر ضروري لتقليل الأبعاد وتعزيز قابلية تفسير النموذج في مجموعات البيانات عالية الأبعاد. يقترح المؤلفون نهجًا جديدًا، RFE-MF، الذي يدمج الإزالة التكرارية للميزات (RFE) مع MF لتحسين جودة التقدير من خلال تقليل تأثير الميزات غير ذات الصلة. تهدف الدراسة إلى تقييم أداء RFE-MF مقابل طرق التقدير التقليدية باستخدام عشرة مجموعات بيانات طبية، مع معالجة التحديات العملية المرتبطة بمعدلات البيانات المفقودة المتفاوتة. ستفصل الأقسام التالية من الورقة مراجعة الأدبيات، الخوارزمية المقترحة، التقييمات التجريبية، والاستنتاجات المستخلصة من النتائج.

طرق

في هذا القسم، يوضح المؤلفون التقييم التجريبي لمختلف طرق التقدير للتعامل مع البيانات المفقودة، باستخدام آلية المفقود تمامًا بشكل عشوائي (MCAR). تضمنت الإعدادات التجريبية محاكاة عشرة مجموعات بيانات كاملة عبر خمسة معدلات مفقودة مختلفة (10%، 20%، 30%، 40%، و50%)، مع تكرار كل سيناريو عشر مرات لإنشاء مجموعات بيانات غير مكتملة. تم استخدام خمس تقنيات تقدير: تقدير المتوسط/الوضع، الجيران الأقرب (kNN) مع $k=5$، التقدير المتعدد بواسطة المعادلات المتسلسلة (MICE)، تحليل المصفوفة (MF)، وإزالة الميزات التكرارية مع تحليل المصفوفة (RFE-MF). تم تقييم جودة التقدير باستخدام خطأ الجذر التربيعي المتوسط الطبيعي (NRMSE) للبيانات العددية ونسبة الإدخالات المصنفة بشكل خاطئ (PFC) للبيانات الفئوية.

لتقييم أداء هذه الطرق، تم إجراء اختبارات t لعينة مزدوجة، مقارنة كل طريقة مع RFE-MF بناءً على النتائج من التكرارات العشر. تم تكوين MICE لإنشاء خمس مجموعات بيانات متعددة مقدرة مع عتبة 1 لتقليل التعدد الخطي، بينما تم تحسين معلمات MF من خلال 10 تكرارات و100 غابة، وفقًا للتوصيات السابقة. استخدمت طريقة RFE-MF خوارزمية RF-RFE مع إعادة أخذ عينات محسّنة على مدار 10 تكرارات تحقق متقاطع، مع عدد الغابات المستخدمة في التنبؤ بالقيم المفقودة متماشياً مع تلك المستخدمة في MF، على الرغم من أن ثلاث تكرارات فقط اعتُبرت كافية. تم إجراء جميع التحليلات في R، وتم معالجة المتغيرات الفئوية باستخدام ترميز التسميات.

نتائج

تشير نتائج الدراسة إلى أن طريقة الإزالة التكرارية للميزات – ميس فورست (RFE-MF) المقترحة تظهر أداءً واعدًا في التعامل مع البيانات المفقودة عبر مجموعات بيانات طبية متنوعة. في مجموعة بيانات اكتشاف مرض باركنسون، تحقق RFE-MF فرقًا ضئيلًا في NRMSE مقارنةً بميس فورست (MF) عند معدل فقد 10% (0.343 مقابل 0.342)، مع تفوق RFE-MF قليلاً على MF عند معدل فقد 30% (0.310 مقابل 0.312). في مجموعة بيانات مرض السكري لمحمد، تحقق RFE-MF باستمرار أقل NRMSE (0.627) عبر جميع معدلات الفقد، متفوقًا على MF وkNN. على العكس، في مجموعة بيانات سرطان البروستاتا، بينما تتناوب MF وRFE-MF كأفضل أداء، يظهر تقدير المتوسط/الوضع أداءً ضعيفًا في البداية ولكنه يستقر مع زيادة معدلات الفقد.

في مجموعات البيانات المختلطة، يظهر RFE-MF أداءً متفوقًا في مجموعات بيانات السكتة الدماغية المعالجة مسبقًا وسجلات مرضى الكبد الهندية، محققًا أفضل مقاييس NRMSE وPFC. من الجدير بالذكر أن RFE-MF يحتل المرتبة الأولى في سبع من أصل عشر مجموعات بيانات تم تقييمها، مما يؤكد فعاليته مقارنةً بطرق التقدير التقليدية. تكشف اختبارات t المزدوجة عن اختلافات ذات دلالة إحصائية لصالح RFE-MF في معظم مجموعات البيانات، على الرغم من أن تقدير المتوسط/الوضع يتفوق على RFE-MF في حالات معينة، مثل مجموعة بيانات توقع فشل القلب. بشكل عام، تؤكد هذه النتائج قوة RFE-MF في معالجة تحديات البيانات المفقودة في مجموعات البيانات الطبية.

مناقشة

في قسم المناقشة من الورقة، يستعرض المؤلفون آليات مختلفة للبيانات المفقودة، مصنفين إياها إلى ثلاثة أنواع: المفقود تمامًا بشكل عشوائي (MCAR)، المفقود بشكل عشوائي (MAR)، وغير المفقود بشكل عشوائي (NMAR). يوضحون هذه الآليات بأمثلة من الدراسات الصحية، مؤكدين أن اختيار آلية البيانات المفقودة يؤثر على فعالية طرق التقدير. يبرز المؤلفون أن MCAR يمثل أساسًا أساسيًا لمقارنة تقنيات التقدير بسبب افتراضاته الواضحة، مما يسهل معيارًا واضحًا لتقييم الأداء.

تقوم الورقة أيضًا بتصنيف استراتيجيات تقدير القيم المفقودة الحالية (MVI) إلى أربعة أنواع رئيسية: التقدير الفردي، التقدير المتعدد، طرق التعلم الآلي/التعلم العميق، والتقدير القائم على الأشجار. لكل طريقة نقاط قوتها وضعفها، حيث تميل طرق التقدير الفردي إلى التقليل من التباين، بينما تقدم طرق التقدير المتعدد مثل MICE مزيدًا من القوة ولكن قد تواجه صعوبات مع مجموعات البيانات المعقدة. يقترح المؤلفون خوارزمية جديدة RFE-MF التي تدمج الإزالة التكرارية للميزات (RFE) مع خوارزمية ميس فورست (MF)، بهدف تعزيز دقة التقدير واختيار الميزات في مجموعات البيانات الطبية. تشير النتائج إلى أن RFE-MF يتفوق على الطرق التقليدية عبر مجموعات بيانات متنوعة، مما يظهر إمكانيته في تحليل بيانات الرعاية الصحية مع الاعتراف أيضًا بالقيود المتعلقة بتحسين المعلمات والحاجة إلى مزيد من الاستكشاف لتقنيات اختيار الميزات.

Journal: BMC Medical Research Methodology, Volume: 24, Issue: 1
DOI: https://doi.org/10.1186/s12874-024-02392-2
PMID: https://pubmed.ncbi.nlm.nih.gov/39516783
Publication Date: 2024-11-08
Author(s): Ya‐Han Hu et al.
Primary Topic: Statistical Methods and Bayesian Inference

Overview

The research paper introduces a novel imputation method termed “recursive feature elimination-MissForest” (RFE-MF), aimed at improving data imputation quality in medical datasets by mitigating the influence of irrelevant features. The study compares RFE-MF against four classical imputation techniques—mean/mode, k-nearest neighbors (kNN), multiple imputation by chained equations (MICE), and the original MissForest (MF)—across ten medical datasets with varying missing data rates (10% to 50%) under the missing completely at random (MCAR) mechanism. Performance evaluation is conducted using normalized root mean squared error (NRMSE) and predictive fidelity criterion (PFC), supplemented by paired samples t-tests to assess statistical significance.

Results indicate that RFE-MF outperforms the classical methods in most scenarios, consistently surpassing the original MF regardless of whether the variables are numerical or categorical. While mean/mode imputation shows stable performance across different conditions, kNN’s effectiveness varies with missing data rates. The study concludes that RFE-MF is a promising technique for addressing missing data in healthcare analytics, emphasizing the need to consider data type and missingness rate when selecting imputation methods. Limitations include the lack of optimization for certain parameters and the potential for future research to explore other feature selection methods in conjunction with MF to further enhance imputation performance.

Introduction

The introduction of the paper addresses the critical issue of missing data, which is prevalent across various fields, particularly in medical research. Missing values can arise from multiple factors, including human errors, data processing challenges, and privacy concerns, and they pose significant obstacles to statistical analyses and predictive modeling, ultimately impacting clinical decision-making and patient care. To tackle this problem, researchers have developed various missing value imputation (MVI) techniques, such as mean/mode imputation, multiple imputation by chained equations (MICE), and k-nearest neighbor (kNN) imputation. However, these traditional methods have inherent limitations, including biases in mean/mode imputation and challenges in high-dimensional settings for MICE and kNN.

In response to these limitations, the paper introduces MissForest (MF), a tree-based imputation method that utilizes random forests and is particularly effective in handling mixed data types without assuming normality or requiring extensive parameter specifications. Despite its advantages, MF lacks built-in feature selection, which is essential for reducing dimensionality and enhancing model interpretability in high-dimensional datasets. The authors propose a novel approach, RFE-MF, which integrates recursive feature elimination (RFE) with MF to improve imputation quality by mitigating the influence of irrelevant features. The study aims to evaluate the performance of RFE-MF against traditional imputation methods using ten medical datasets, addressing practical challenges associated with varying missing data rates. The subsequent sections of the paper will detail the literature review, the proposed algorithm, experimental evaluations, and conclusions drawn from the findings.

Methods

In this section, the authors detail the experimental evaluation of various imputation methods for handling missing data, specifically utilizing the Missing Completely at Random (MCAR) mechanism. The experimental setup involved simulating ten complete datasets across five different missing rates (10%, 20%, 30%, 40%, and 50%), with each scenario repeated ten times to create incomplete datasets. Five imputation techniques were employed: mean/mode imputation, k-nearest neighbors (kNN) with $k=5$, Multiple Imputation by Chained Equations (MICE), Matrix Factorization (MF), and a novel Recursive Feature Elimination with Matrix Factorization (RFE-MF). The imputation quality was evaluated using normalized root mean squared error (NRMSE) for numerical data and the proportion of falsely classified entries (PFC) for categorical data.

To assess the performance of these methods, paired samples t-tests were conducted, comparing each method against RFE-MF based on the results from the ten repetitions. MICE was configured to generate five multiple imputed datasets with a threshold of 1 to mitigate multicollinearity, while MF parameters were optimized through 10 iterations and 100 forests, as per prior recommendations. The RFE-MF method utilized the RF-RFE algorithm with enhanced resampling over 10 cross-validation iterations, with the number of forests for predicting missing values aligned with those used in MF, although only three iterations were deemed sufficient. All analyses were performed in R, and categorical variables were preprocessed using label encoding.

Results

The results of the study indicate that the proposed Recursive Feature Elimination-MissForest (RFE-MF) method shows promising performance in handling missing data across various medical datasets. In the Parkinson Disease Detection dataset, RFE-MF achieves a negligible difference in NRMSE compared to MissForest (MF) at a 10% missing rate (0.343 vs. 0.342), with RFE-MF slightly outperforming MF at a 30% missing rate (0.310 vs. 0.312). In the Mehmet Diabetes dataset, RFE-MF consistently yields the lowest NRMSE (0.627) across all missing rates, outperforming MF and kNN. Conversely, in the Prostate Cancer dataset, while MF and RFE-MF alternate as top performers, mean/mode imputation initially performs poorly but stabilizes with increased missing rates.

In mixed datasets, RFE-MF demonstrates superior performance in the Pre-processed Stroke and Indian Liver Patient Records datasets, achieving the best NRMSE and PFC metrics. Notably, RFE-MF ranks first in seven out of ten evaluated datasets, confirming its effectiveness over traditional imputation methods. The paired t-tests reveal statistically significant differences favoring RFE-MF in most datasets, although mean/mode imputation outperforms RFE-MF in specific cases, such as the Heart Failure Prediction dataset. Overall, these findings underscore the robustness of RFE-MF in addressing missing data challenges in medical datasets.

Discussion

In the discussion section of the paper, the authors review various mechanisms of missing data, categorizing them into three types: missing completely at random (MCAR), missing at random (MAR), and not missing at random (NMAR). They illustrate these mechanisms with examples from health studies, emphasizing that the choice of missing data mechanism influences the effectiveness of imputation methods. The authors highlight that MCAR serves as a foundational basis for comparing imputation techniques due to its straightforward assumptions, which facilitate a clear benchmark for performance evaluation.

The paper further categorizes current missing value imputation (MVI) strategies into four main types: single imputation, multiple imputation, machine learning/deep learning methods, and tree-based imputation. Each method has its strengths and weaknesses, with single imputation methods often underestimating variance, while multiple imputation methods like MICE offer greater robustness but may struggle with complex datasets. The authors propose a novel RFE-MF algorithm that integrates Recursive Feature Elimination (RFE) with the Missing Forest (MF) algorithm, aiming to enhance imputation accuracy and feature selection in medical datasets. The results indicate that RFE-MF outperforms traditional methods across various datasets, demonstrating its potential utility in healthcare data analysis while also acknowledging limitations related to parameter optimization and the need for further exploration of feature selection techniques.