تقييم جودة عدم اليقين الكمي لإعادة (إعادة) معايرة نماذج الانحدار المدفوعة بالبيانات
Evaluating the quality of the quantified uncertainty for (Re)calibration of data-driven regression models

المجلة: International Journal of Approximate Reasoning، المجلد: 195
DOI: https://doi.org/10.1016/j.ijar.2026.109685
تاريخ النشر: 2026-04-15
المؤلف: Jelke Wibbeke وآخرون
الموضوع الرئيسي: تقنيات الاستدلال السببي المتقدمة

نظرة عامة

في التطبيقات الحرجة للسلامة، تعتبر موثوقية تقديرات عدم اليقين من النماذج المعتمدة على البيانات أمرًا بالغ الأهمية، مما يتطلب معايرة دقيقة لاتخاذ قرارات مستنيرة. تصنف هذه الدراسة بشكل منهجي وتقيّم مقاييس معايرة الانحدار المختلفة، كاشفة عن اختلافات كبيرة في تعريفاتها وفرضياتها ومقاييسها، مما يعقد المقارنات عبر الدراسات. من خلال تجارب مضبوطة تشمل بيانات حقيقية وصناعية وبيانات تم معايرتها بشكل خاطئ، يظهر المؤلفون أن مقاييس المعايرة غالبًا ما تعطي تقييمات متضاربة، مما يثير القلق بشأن إمكانية التفسيرات المضللة لأداء النموذج. ومن الجدير بالذكر أن خطأ المعايرة المتوقع المنظم (ENCE) ومعيار عرض التغطية (CWC) برزا كأكثر المقاييس موثوقية في تحليلهم.

تؤكد الأبحاث على الأهمية الحاسمة لاختيار المقاييس في تقييم المعايرة، مشددة على أن الاعتماد على مقياس واحد يمكن أن يؤدي إلى استنتاجات متحيزة. يقدم المؤلفون تصنيفًا واضحًا يميز بين المعايرة (حالة التنبؤات الدقيقة وعدم اليقين الموثوق) وإعادة المعايرة (عملية تحسين هذه الحالة). تشير نتائجهم إلى أن مقاييس المعايرة غير موثوقة بشكل خاص مع مجموعات البيانات الصغيرة، مما يتطلب حدًا أدنى من 500-1000 عينة للحصول على نتائج ذات مغزى. في النهاية، تدعو الدراسة إلى استخدام مقاييس متعددة تستند إلى أسس نظرية لتعزيز قوة تقييمات المعايرة وتقترح أن الاختبار القائم على المحاكاة باستخدام بيانات صناعية قد يوفر أفضل نهج لتقييم أداء المقاييس، مع آثار تمتد إلى ما هو أبعد من الشبكات العصبية إلى تطبيقات أوسع في تقدير عدم اليقين وإعادة معايرة النماذج.

مقدمة

تسلط مقدمة هذه الورقة البحثية الضوء على الأهمية المتزايدة للنماذج التنبؤية في تعلم الآلة، لا سيما في المجالات ذات المخاطر العالية مثل القيادة الذاتية والطب والمالية. تؤكد على أنه بالإضافة إلى التنبؤات الدقيقة، يجب أن توفر هذه النماذج أيضًا تقديرات موثوقة لعدم اليقين لدعم اتخاذ قرارات قوية. تم تطوير طرق مختلفة لتقدير عدم اليقين (UQ)، بما في ذلك إسقاط مونت كارلو، والمجموعات العميقة، والشبكات العصبية البايزية. ومع ذلك، فإن اعتماد هذه الطرق في التطبيقات الحرجة للسلامة محدود بسبب التحديات في تقييم جودة تقديرات عدم اليقين، خاصة عندما تكون الحقيقة الأرضية غير متاحة.

توضح الورقة المصطلحات المحيطة بتقدير عدم اليقين، مميزة بين عمليات تقدير عدم اليقين، والنتائج القابلة للقياس لهذه التقديرات، وجودة تلك التقديرات. تنتقد الاستخدام غير المتسق لمصطلح “المعايرة” في الأدبيات، مقترحة تعريفًا أكثر دقة يفصل بين حالة وجود تنبؤات دقيقة وتقديرات صحيحة لعدم اليقين من عملية تحسين هذه الحالة، المسماة “إعادة المعايرة”. يحدد المؤلفون فجوة كبيرة في الأدبيات: نقص المقارنات المنهجية لمقاييس المعايرة المستخدمة لتقييم طرق إعادة المعايرة. يقترحون إطار تقييم غير مرتبط بالنموذج لتقييم مجموعة شاملة من مقاييس المعايرة، كاشفين أن المقاييس المختلفة غالبًا ما تعطي تقييمات متضاربة لمعايرة النموذج. تختتم الدراسة بأن خطأ المعايرة المتوقع المنظم (ENCE) هو المقياس الأكثر ملاءمة لتقييم معايرة النموذج، مما يمهد الطريق لاستكشاف المزيد من طرق إعادة المعايرة وتقييمها.

الطرق

في هذا القسم، يقدم المؤلفون مجموعة من المقاييس غير المرتبطة بالنموذج المصممة لتقييم معايرة نماذج الانحدار، مع التركيز بشكل خاص على المقاييس التي تقيم جودة تقدير عدم اليقين (QQU). المقاييس قابلة للتطبيق بغض النظر عن الطريقة المستخدمة لتوليد تقديرات عدم اليقين، مما يضمن قابلية تطبيق واسعة عبر أساليب النمذجة المختلفة. يتم تقديم ملخص لهذه المقاييس في الجدول 1 من القسم 3.7، مع تسليط الضوء على المقاييس الأكثر استخدامًا في هذا المجال.

يحدد المؤلفون مجموعة البيانات على أنها \( D = (y, X) \)، حيث \( y \in \mathbb{R}^N \) تمثل المتجه المستهدف الذي يحتوي على القيم الحقيقية لـ \( N \) عينة، و \( X \in \mathbb{R}^{N \times d} \) هي مصفوفة الميزات التي تتكون من متجهات ميزات بُعدية \( d \) لكل عينة. يتم تمثيل كل عينة كزوج \( (y_i, x_i) \)، مع \( y_i \in \mathbb{R} \) و \( x_i \in \mathbb{R}^d \). ينتج النموذج \( M \) فترة التنبؤ \( PI_i = [\hat{y}_{l,i}, \hat{y}_{u,i}] \) التي تحتوي على القيمة الحقيقية أو تقديرات معلمات دالة كثافة الاحتمال (PDF) \( f_i \). بالنسبة للتوزيع الغاوسي، تشمل هذه المعلمات المتوسط \( \mu_i = \hat{y}_i \) والانحراف المعياري \( \sigma_i \). يتم الإشارة إلى دالة الكثافة التراكمية للتوزيع المقدر على أنها \( F_i \)، وسيتم استخدام هذا الرمز بشكل متسق في الأقسام اللاحقة.

المناقشة

في مناقشة مقاييس المعايرة لمهام الانحدار، تسلط الورقة الضوء على التحديات المتمثلة في تكييف المقاييس التصنيفية المعتمدة، مثل خطأ المعايرة المتوقع (ECE)، مع الطبيعة المستمرة لمخرجات الانحدار. بينما يقيم ECE المعايرة بشكل فعال في التصنيف من خلال مقارنة الاحتمالات المتوقعة مع النتائج التجريبية، فإن تطبيقه في الانحدار معقد بسبب تقديرات عدم اليقين المستمرة الممثلة كفترات تنبؤ أو توزيعات. ظهرت تكييفات مختلفة، بما في ذلك درجة المعايرة (CalS) وخطأ المعايرة المتوقع المنظم (ENCE)، والتي تهدف إلى تقييم جودة عدم اليقين المقدر (QQU) ودقة التنبؤ. ومع ذلك، فإن هذه التكييفات لها قيود، مثل إمكانية سوء تفسير جودة المعايرة وتقييم غير كافٍ لأداء الذيل.

تؤكد الورقة على الحاجة إلى مقارنة منهجية لمقاييس المعايرة في الانحدار، حيث تختلف المقاييس الحالية بشكل كبير في فرضياتها وصيغها، مما يعقد المقارنات عبر الدراسات. تشير الأعمال الأخيرة التي أجراها كريستوفرسون ليند وآخرون (2024) إلى أن درجة المعايرة قد تكون المقياس الأكثر استقرارًا وقابلية للتفسير، ومع ذلك فإن هذا التحليل محدود في نطاقه. تهدف الدراسة الحالية إلى توسيع هذا من خلال تقييم 13 مقياسًا مختلفًا للمعايرة عبر 26 مجموعة بيانات، مع معالجة الفجوة في فهم نقاط القوة والضعف النسبية لهذه المقاييس في سياق الانحدار. هذا التقييم الشامل ضروري لتقدم مجال تقدير عدم اليقين وتحسين ممارسات معايرة النماذج في مهام الانحدار.

Journal: International Journal of Approximate Reasoning, Volume: 195
DOI: https://doi.org/10.1016/j.ijar.2026.109685
Publication Date: 2026-04-15
Author(s): Jelke Wibbeke et al.
Primary Topic: Advanced Causal Inference Techniques

Overview

In safety-critical applications, the reliability of uncertainty estimates from data-driven models is paramount, necessitating accurate calibration for informed decision-making. This study systematically categorizes and benchmarks various regression calibration metrics, revealing significant discrepancies in their definitions, assumptions, and scales, which complicate cross-study comparisons. Through controlled experiments involving real-world, synthetic, and artificially miscalibrated data, the authors demonstrate that calibration metrics often yield conflicting evaluations, raising concerns about the potential for misleading interpretations of model performance. Notably, the Expected Normalized Calibration Error (ENCE) and the Coverage Width-based Criterion (CWC) emerged as the most reliable metrics in their analysis.

The research underscores the critical importance of metric selection in calibration evaluation, highlighting that reliance on a single metric can lead to biased conclusions. The authors provide a clear taxonomy distinguishing between calibration (the state of accurate predictions and reliable uncertainty) and recalibration (the process of improving this state). Their findings indicate that calibration metrics are particularly unreliable with small datasets, necessitating a minimum of 500-1000 samples for meaningful results. Ultimately, the study advocates for the use of multiple, theoretically grounded metrics to enhance the robustness of calibration assessments and suggests that simulation-based testing with synthetic data may offer the best approach for evaluating metric performance, with implications extending beyond neural networks to broader applications in uncertainty quantification and model recalibration.

Introduction

The introduction of this research paper highlights the growing importance of predictive models in machine learning, particularly in high-stakes fields such as autonomous driving, medicine, and finance. It emphasizes that beyond accurate point predictions, these models must also provide reliable uncertainty estimates to support robust decision-making. Various methods for uncertainty quantification (UQ) have been developed, including Monte Carlo dropout, deep ensembles, and Bayesian neural networks. However, the adoption of these methods in safety-critical applications is limited due to challenges in evaluating the quality of uncertainty estimates, especially when ground truth is unavailable.

The paper clarifies the terminology surrounding uncertainty quantification, distinguishing between the processes of estimating uncertainty, the measurable results of these estimates, and the quality of those estimates. It critiques the inconsistent use of the term “calibration” in the literature, proposing a more precise definition that separates the state of having accurate predictions and correct uncertainty estimates from the process of improving this state, termed “recalibration.” The authors identify a significant gap in the literature: the lack of systematic comparisons of calibration metrics used to evaluate recalibration methods. They propose a model-agnostic evaluation framework to benchmark a comprehensive set of calibration metrics, revealing that different metrics often yield conflicting assessments of model calibration. The study concludes that the Expected Normalized Calibration Error (ENCE) is the most suitable metric for assessing model calibration, setting the stage for further exploration of recalibration methods and their evaluation.

Methods

In this section, the authors introduce a set of model-agnostic metrics designed to evaluate the calibration of regression models, focusing particularly on metrics that assess the quality of uncertainty quantification (QQU). The metrics are applicable regardless of the method used to generate uncertainty estimates, ensuring broad applicability across different modeling approaches. A summary of these metrics is provided in Table 1 of Section 3.7, highlighting the most widely used metrics in the field.

The authors define the dataset as \( D = (y, X) \), where \( y \in \mathbb{R}^N \) represents the target vector containing the true values for \( N \) samples, and \( X \in \mathbb{R}^{N \times d} \) is the feature matrix comprising \( d \)-dimensional feature vectors for each sample. Each sample is represented as a pair \( (y_i, x_i) \), with \( y_i \in \mathbb{R} \) and \( x_i \in \mathbb{R}^d \). The model \( M \) produces a prediction interval \( PI_i = [\hat{y}_{l,i}, \hat{y}_{u,i}] \) that contains the true value or estimates the parameters of a probability density function (PDF) \( f_i \). For a Gaussian distribution, these parameters include the mean \( \mu_i = \hat{y}_i \) and standard deviation \( \sigma_i \). The cumulative density function of the estimated distribution is denoted as \( F_i \), and this notation will be consistently used in subsequent sections.

Discussion

In the discussion of calibration metrics for regression tasks, the paper highlights the challenges of adapting established classification metrics, such as the Expected Calibration Error (ECE), to the continuous nature of regression outputs. While ECE effectively evaluates calibration in classification by comparing predicted probabilities to empirical outcomes, its application in regression is complicated due to the continuous uncertainty estimates represented as prediction intervals or distributions. Various adaptations have emerged, including the Calibration Score (CalS) and the Expected Normalized Calibration Error (ENCE), which aim to assess the quality of quantified uncertainty (QQU) and prediction accuracy. However, these adaptations have limitations, such as potential misinterpretation of calibration quality and insufficient evaluation of tail performance.

The paper emphasizes the need for a systematic comparison of calibration metrics in regression, as existing metrics differ significantly in their assumptions and formulations, complicating cross-study comparisons. Recent work by Kristoffersson Lind et al. (2024) suggests that the Calibration Score may be the most stable and interpretable metric, yet this analysis is limited in scope. The current study aims to extend this by evaluating 13 different calibration metrics across 26 datasets, addressing the gap in understanding the relative strengths and weaknesses of these metrics in the context of regression. This comprehensive evaluation is crucial for advancing the field of uncertainty quantification and improving model calibration practices in regression tasks.