كوانتايل-فورست: حزمة بايثون لغابات الانحدار الكمي quantile-forest: A Python Package for QuantileRegression Forests

المجلة: The Journal of Open Source Software، المجلد: 9، العدد: 93
DOI: https://doi.org/10.21105/joss.05976
تاريخ النشر: 2024-01-19
المؤلف: R. A. Johnson
الموضوع الرئيسي: طرق إحصائية واستدلال

نظرة عامة

غابات الانحدار الكمي (QRF) هي طريقة تجميع قائمة على الأشجار وغير معلمية مصممة لتقدير الكميات الشرطية، كما قدمها مينهاوزن (2006). هذه الطريقة توسع خوارزمية الغابات العشوائية، التي اقترحها بريمان (2001)، والتي اكتسبت زخمًا كبيرًا كتقنية تعلم آلي متعددة الاستخدامات (أثي وآخرون، 2019؛ بياو وسكورن، 2016؛ هينجل وآخرون، 2018؛ واجير وأثي، 2018). على عكس الغابات العشوائية التقليدية التي توفر متوسطًا مرجحًا لعلامات التدريب، تستخدم QRF التوزيع التجريبي المرجح لهذه العلامات لتوليد توزيع تنبؤي.

تعتبر قدرة QRF على إنتاج تنبؤات احتمالية ميزة خاصة لمهام الانحدار، حيث تسهل تقدير عدم اليقين في التنبؤات (بيتروبولووس وآخرون، 2022). تعزز هذه الخاصية قابلية تطبيق QRF في مجالات متنوعة حيث يكون فهم التباين والثقة في التنبؤات أمرًا حاسمًا.

نقاش

يسلط النقاش الضوء على أهمية الانحدار الكمي، وخاصة من خلال خوارزمية الغابات العشوائية الكمية (QRF)، التي توسع الغابات العشوائية التقليدية لتوفير نهج مرن وغير معلمي لتحليل البيانات عالية الأبعاد. على عكس الطرق التقليدية التي تركز على تقديرات النقاط، يسمح QRF للباحثين بتوقع كميات مختلفة، مما يتيح التقاط التوزيع الكامل للنتائج المحتملة وتقدير عدم اليقين. تعتبر هذه القدرة ذات قيمة خاصة في مجالات مثل المالية، والعلوم البيئية، والرعاية الصحية، حيث قد لا تعالج فترات التنبؤ التقليدية توزيعات البيانات غير الطبيعية بشكل كافٍ.

يؤكد البحث على الحاجة إلى تنفيذ شامل لـ QRF بلغة بايثون، حيث إن النسخ الحالية لا تتطابق مع الأداء والوظائف الخاصة بتنفيذات R. يحسن حزمة بايثون المقترحة سرعة التدريب والاستدلال، تدعم مجموعات البيانات الكبيرة، وتسمح بتحديد الكمية بعد التدريب. بالإضافة إلى ذلك، تتضمن أدوات مثل تقييم الدقة خارج الحقيبة لتقدير الخطأ غير المتحيز، وحساب ترتيب الكمية لتقييم الوضع النسبي، وقياسات القرب لتقدير التشابه. تعزز هذه الميزات مجتمعة قابلية تطبيق QRF، مما يمكّن الباحثين من دمجها في سير عملهم والحصول على رؤى أعمق في البيانات المعقدة من خلال تقدير الكمية الشرطية بدقة.

Journal: The Journal of Open Source Software, Volume: 9, Issue: 93
DOI: https://doi.org/10.21105/joss.05976
Publication Date: 2024-01-19
Author(s): R. A. Johnson
Primary Topic: Statistical Methods and Inference

Overview

Quantile regression forests (QRF) is a non-parametric, tree-based ensemble method designed for estimating conditional quantiles, as introduced by Meinshausen (2006). This approach extends the random forests algorithm, initially proposed by Breiman (2001), which has gained significant traction as a versatile machine learning technique (Athey et al., 2019; Biau & Scornet, 2016; Hengl et al., 2018; Wager & Athey, 2018). Unlike traditional random forests that provide a weighted mean of training labels, QRF utilizes the weighted empirical distribution of these labels to generate a predictive distribution.

The ability of QRF to produce probabilistic predictions is particularly advantageous for regression tasks, as it facilitates the estimation of uncertainty in predictions (Petropoulos et al., 2022). This characteristic enhances the applicability of QRF in various domains where understanding the variability and confidence of predictions is crucial.

Discussion

The discussion highlights the significance of quantile regression, particularly through the Quantile Random Forest (QRF) algorithm, which extends traditional random forests to provide a flexible, nonparametric approach for analyzing high-dimensional data. Unlike conventional methods that focus on point estimates, QRF allows researchers to predict various quantiles, thereby capturing the full distribution of potential outcomes and quantifying uncertainties. This capability is especially valuable in fields such as finance, environmental sciences, and healthcare, where traditional prediction intervals may not adequately address non-normal data distributions.

The paper emphasizes the need for a comprehensive Python implementation of QRF, as existing versions do not match the performance and functionality of R implementations. The proposed Python package optimizes training and inference speed, supports large datasets, and allows for quantile specification post-training. Additionally, it includes utilities such as out-of-bag scoring for unbiased error estimation, quantile rank calculation for relative standing assessments, and proximity measures for similarity estimation. These features collectively enhance the applicability of QRF, enabling researchers to integrate it into their workflows and gain deeper insights into complex data through accurate conditional quantile estimation.

كلمات مفتاحية: إحصائيات، اقتصاديات القياس، انحدار الكوانتيل، بايثون، حزمة R، رياضيات، علوم الحاسوب، كوانتيل، لغة البرمجة