نماذج التعلم الآلي الهجينة القابلة للتفسير باستخدام FOLD-R++ وبرمجة مجموعة الإجابات
Interpretable Hybrid Machine Learning Models Using FOLD-R++ and Answer Set Programming

المجلة: Electronic Proceedings in Theoretical Computer Science، المجلد: 439
DOI: https://doi.org/10.4204/eptcs.439.9
تاريخ النشر: 2026-01-08
المؤلف: Sanne Wielinga وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي القابل للتفسير (XAI)

نظرة عامة

تقدم هذه الورقة البحثية نهجًا هجينًا يجمع بين التفكير الرمزي من خلال برمجة مجموعة الإجابات (ASP) مع مصنفات التعلم الآلي (ML) السوداء لتعزيز كل من الأداء التنبؤي وقابلية التفسير في مهام التصنيف الطبي. يسمح دمج القواعد المستمدة من ASP من خوارزمية FOLD-R++ بتصحيح التنبؤات غير المؤكدة مع تقديم تفسيرات قابلة للقراءة البشرية. تظهر التجارب التي أجريت على خمسة مجموعات بيانات طبية تحسينات ذات دلالة إحصائية في الدقة ودرجات F1، خاصة بالنسبة لمصنفات ML دون المستوى الأمثل، مما يشير إلى أن النموذج الهجين يعالج بفعالية القيود في التعامل مع البيانات المعقدة أو المزعجة.

تتناول الدراسة سؤالين رئيسيين للبحث: أولاً، ما إذا كان دمج قواعد ASP القابلة للتفسير يعزز الأداء التنبؤي لنماذج ML السوداء، وثانيًا، كيف يحسن هذا النموذج الهجين قابلية التفسير. تظهر النتائج أن النهج الهجين يعزز بشكل كبير دقة المصنفات مثل آلات الدعم الناقل (SVM)، مع تحسينات ملحوظة في مجموعات بيانات مثل مجموعة بيانات فحص التوحد ومجموعة بيانات الإيكولاي. بالإضافة إلى ذلك، تتماشى قواعد ASP مع المعرفة الميدانية، مما يوفر تفسيرات واضحة للتنبؤات، وبالتالي يعزز الشفافية والثقة. ومع ذلك، تعترف الورقة أيضًا بالقيود، مثل إمكانية الإفراط في التكيف بسبب تعقيد القواعد المستنبطة والعبء الحسابي الذي تقدمه محللات ASP. ستركز الأعمال المستقبلية على قابلية التوسع، والتقييمات التجريبية الأوسع، وتنقيح القواعد لتحسين المتانة والفائدة السريرية.

مقدمة

تسلط مقدمة الورقة الضوء على الدور الحاسم للتعلم الآلي (ML) في التحليلات التنبؤية عبر مجالات مختلفة، وخاصة في الرعاية الصحية، حيث يعد فهم الأسباب وراء التنبؤات أمرًا حيويًا لنتائج المرضى. بينما تظهر نماذج ML المتقدمة، وخاصة الأنواع السوداء مثل الشبكات العصبية وطرق التجميع، دقة تنبؤية عالية، فإن نقص الشفافية فيها يمثل تحديات للتبني في التطبيقات الحساسة. لمعالجة هذه المشكلة، تناقش الورقة إمكانيات الطرق الرمزية، مثل برمجة مجموعة الإجابات (ASP)، التي يمكن أن توفر قواعد واضحة ومنطقية تعزز قابلية التفسير.

تتعلم خوارزمية FOLD-R++ المقترحة قواعد ASP التي يمكن أن تكمل النماذج السوداء من خلال تقديم تفسيرات لتنبؤاتها. ومع ذلك، فإن دمج هذه القواعد الرمزية مع النماذج السوداء دون تغيير آلياتها الداخلية لا يزال يمثل تحديًا. تقدم الورقة نهجًا هجينًا يجمع بين FOLD-R++ ومجموعة متنوعة من نماذج ML السوداء، بهدف تحسين كل من الأداء التنبؤي وقابلية التفسير. يتم توجيه البحث من خلال سؤالين رئيسيين: (1) ما إذا كان دمج قواعد ASP القابلة للتفسير يعزز الأداء التنبؤي للنماذج السوداء عبر مجموعات البيانات الطبية، و(2) كيف يحسن هذا النموذج الهجين قابلية تفسير التنبؤات. يتم توضيح هيكل الورقة، مما يشير إلى استكشاف شامل للأعمال ذات الصلة، والمنهجية، والنتائج التجريبية.

الطرق

توضح قسم المنهجية في الورقة تطوير وتقييم النماذج الهجينة التي تجمع بين مصنفات التعلم الآلي (ML) السوداء مع القواعد القابلة للتفسير التي تم إنشاؤها بواسطة خوارزمية FOLD-R++ باستخدام برمجة مجموعة الإجابات (ASP). يتكون خط الأنابيب من إعداد البيانات، وتدريب نماذج ML المختلفة (بما في ذلك الغابة العشوائية، وآلة الدعم الناقل، وأقرب الجيران، والشبكة العصبية متعددة الطبقات)، واستنباط القواعد عبر FOLD-R++، ودمج التنبؤات بناءً على عتبة الثقة. تضمنت الإعدادات التجريبية عشرة تكرارات لكل مجموعة بيانات وتركيبة نموذج، مع استخدام أخذ عينات طبقية لتقسيم 80-20 للتدريب والاختبار لتقييم المتانة من خلال التباين في الانقسامات وتهيئة النموذج.

تم حساب مقاييس الأداء مثل الدقة، والدقة، والاسترجاع، ودرجة F1 وتمت متابعتها عبر التجارب، مع تطبيق اختبارات t المزدوجة لتقييم الأهمية الإحصائية للتحسينات من النموذج الهجين مقارنة بنماذج ML المستقلة، باستخدام عتبة قيمة p تبلغ 0.05. تم تقييم أهمية كل قاعدة ASP بناءً على تكرارها في تصحيح أخطاء نموذج ML. تقدم الورقة مثالًا من مجموعة بيانات أمراض القلب، توضح كيف قام النموذج الهجين بتصحيح تنبؤ SVM، جنبًا إلى جنب مع الميزات ذات الصلة ونقاط شجرة الإثبات التي دعمت هذا التصحيح. استخدمت التنفيذ Python ومكتبات متنوعة، بما في ذلك scikit-learn وSciPy وclingo وPandas وNumPy، منظمة في مكونات معيارية من أجل الوضوح وسهولة الصيانة.

النتائج

توضح قسم النتائج تقييم النماذج الهجينة التي تجمع بين مصنفات التعلم الآلي (ML) السوداء مع القواعد القابلة للتفسير المستمدة من FOLD-R++ باستخدام برمجة مجموعة الإجابات (ASP). تم تقييم أداء هذه النماذج الهجينة مقابل عدة مجموعات بيانات طبية، مما يكشف أنها تفوقت على نماذج ML المستقلة من حيث الدقة ودرجة F1. تقدم الجدول 1 متوسط الدقة ودرجات F1 للنماذج المختلفة، مع إشارة اختبارات t المزدوجة إلى تحسينات ذات دلالة إحصائية للنماذج الهجينة، خاصة لمصنف آلة الدعم الناقل (SVM). أثبت النهج الهجين أنه مفيد بشكل خاص للمصنفات ذات الأداء الأساسي المنخفض، مع الحفاظ على مستويات أداء مماثلة لتلك التي تحقق بالفعل درجات قريبة من الكمال.

توضح التحليلات الإضافية حسب مجموعة البيانات تأثير قواعد ASP على التنبؤات. يتم تقديم أمثلة حيث نجحت قواعد ASP في تصحيح التصنيفات الخاطئة، والحفاظ على التنبؤات الصحيحة، أو، في بعض الحالات، أدت إلى نتائج أسوأ من خلال تجاوز التصنيفات الدقيقة. تسلط هذه الحالات الضوء على الدور الدقيق لـ ASP في تعزيز قابلية التفسير وتصحيح الأخطاء، مع توفر تحليلات مفصلة في الملحق A. بشكل عام، تؤكد النتائج على إمكانيات النماذج الهجينة لتحسين الأداء التنبؤي في التطبيقات الطبية، مشروطة بالخصائص المحددة لمجموعة البيانات المستخدمة.

المناقشة

تؤكد قسم المناقشة في الورقة البحثية على الطلب المتزايد على نماذج التعلم الآلي (ML) القابلة للتفسير، خاصة في المجالات الحيوية مثل الرعاية الصحية، حيث تعتبر الشفافية والثقة أمرين أساسيين. غالبًا ما تفشل النماذج التقليدية، على الرغم من كونها قابلة للتفسير، في التقاط التفاعلات المعقدة للبيانات، بينما تتفوق النماذج المتقدمة مثل الشبكات العصبية العميقة في الأداء ولكن تفتقر إلى الوضوح في عمليات اتخاذ القرار الخاصة بها. يمكن أن تؤدي هذه الغموض إلى عدم الثقة بين الأطباء والمرضى، مما يبرز الحاجة إلى طرق توازن بين قابلية التفسير والدقة التنبؤية. تقترح الورقة نهجًا هجينًا يجمع بين القواعد القابلة للتفسير من برمجة مجموعة الإجابات (ASP) مع مجموعة متنوعة من مصنفات ML السوداء، مما يسمح بتحسين الشرح دون المساس بأداء النموذج.

تناقش القسم أيضًا خوارزمية FOLD-R++، التي تولد قواعد افتراضية قابلة للقراءة البشرية من البيانات العلائقية، وتطبيقها في إنشاء نموذج هجين يجمع بين هذه القواعد مع التنبؤات من المصنفات السوداء. تظهر النتائج تحسينات كبيرة في الأداء التنبؤي عبر عدة مجموعات بيانات طبية، خاصة لمصنفات مثل آلات الدعم الناقل (SVM). على سبيل المثال، زاد النموذج الهجين دقة SVM في مجموعة بيانات فحص التوحد من 72.6% إلى 94.0%. ومع ذلك، تشير الورقة إلى أنه على الرغم من أن النهج الهجين يعزز الأداء بشكل عام، إلا أنه لا يتفوق عالميًا على جميع النماذج أو مجموعات البيانات، مما يشير إلى أن فعاليته مشروطة بالخصائص المحددة للبيانات والنموذج الأساسي المستخدم. يقترح المؤلفون أعمالًا مستقبلية لمعالجة قضايا قابلية التوسع، وتحسين عتبات الثقة، والتحقق من قابلية تفسير النموذج الهجين من خلال تقييمات الخبراء.

Journal: Electronic Proceedings in Theoretical Computer Science, Volume: 439
DOI: https://doi.org/10.4204/eptcs.439.9
Publication Date: 2026-01-08
Author(s): Sanne Wielinga et al.
Primary Topic: Explainable Artificial Intelligence (XAI)

Overview

This research paper presents a hybrid approach that combines symbolic reasoning through Answer Set Programming (ASP) with black-box machine learning (ML) classifiers to enhance both predictive performance and interpretability in medical classification tasks. The integration of ASP-derived rules from the FOLD-R++ algorithm allows for the correction of uncertain predictions while providing human-readable explanations. Experiments conducted on five medical datasets demonstrate statistically significant improvements in accuracy and F1 scores, particularly for sub-optimal ML classifiers, indicating that the hybrid model effectively addresses limitations in handling complex or noisy data.

The study addresses two key research questions: first, whether the integration of interpretable ASP rules enhances the predictive performance of black-box ML models, and second, how this hybrid model improves interpretability. Results show that the hybrid approach significantly boosts the accuracy of classifiers like Support Vector Machines (SVM), with notable improvements in datasets such as the Autism Screening Dataset and the Ecoli dataset. Additionally, the ASP rules align with domain knowledge, providing clear explanations for predictions, thereby enhancing transparency and trust. However, the paper also acknowledges limitations, such as the potential for overfitting due to the complexity of induced rules and the computational overhead introduced by ASP solvers. Future work will focus on scalability, broader empirical evaluations, and the refinement of rules to improve robustness and clinical utility.

Introduction

The introduction of the paper highlights the critical role of machine learning (ML) in predictive analytics across various fields, particularly in healthcare, where understanding the rationale behind predictions is crucial for patient outcomes. While advanced ML models, especially black-box types like neural networks and ensemble methods, demonstrate high predictive accuracy, their lack of transparency poses challenges for adoption in sensitive applications. To address this issue, the paper discusses the potential of symbolic methods, such as Answer Set Programming (ASP), which can provide clear, logical rules that enhance interpretability.

The proposed FOLD-R++ algorithm learns ASP rules that can complement black-box models by offering explanations for their predictions. However, integrating these symbolic rules with black-box models without altering their internal mechanisms remains a challenge. The paper introduces a hybrid approach that combines FOLD-R++ with various black-box ML models, aiming to improve both predictive performance and interpretability. The research is guided by two key questions: (1) whether the integration of interpretable ASP rules enhances the predictive performance of black-box models across medical datasets, and (2) how this hybrid model improves the interpretability of predictions. The structure of the paper is outlined, indicating a comprehensive exploration of related work, methodology, and empirical findings.

Methods

The methodology section of the paper outlines the development and evaluation of hybrid models that integrate black-box machine learning (ML) classifiers with interpretable rules generated by the FOLD-R++ algorithm using Answer Set Programming (ASP). The pipeline consists of data preparation, training of various ML models (including Random Forest, Support Vector Machine, K-Nearest Neighbors, and Multi-Layer Perceptron), rule induction via FOLD-R++, and the integration of predictions based on a confidence threshold. The experimental setup involved ten iterations for each dataset and model combination, employing stratified sampling for an 80-20 train-test split to assess robustness through variability in splits and model initialization.

Performance metrics such as accuracy, precision, recall, and F1 score were calculated and averaged across experiments, with paired t-tests applied to evaluate the statistical significance of improvements from the hybrid model compared to standalone ML models, using a p-value threshold of 0.05. The importance of each ASP rule was assessed based on its frequency in correcting ML model errors. The paper provides an example from the Heart Disease dataset, illustrating how the hybrid model corrected an SVM prediction, along with the relevant features and proof tree points that supported this correction. The implementation utilized Python and various libraries, including scikit-learn, SciPy, clingo, Pandas, and NumPy, organized into modular components for clarity and maintainability.

Results

The results section details the evaluation of hybrid models that combine black-box machine learning (ML) classifiers with interpretable rules derived from FOLD-R++ using Answer Set Programming (ASP). The performance of these hybrid models was assessed against multiple medical datasets, revealing that they outperformed standalone ML models in terms of accuracy and F1 score. Table 1 presents the average accuracy and F1 scores for the various models, with paired t-tests indicating statistically significant improvements for the hybrid models, particularly for the Support Vector Machine (SVM) classifier. The hybrid approach proved especially advantageous for classifiers with lower baseline performance, while maintaining similar performance levels for those already achieving near-perfect scores.

Further analysis by dataset illustrates the impact of ASP rules on predictions. Examples are provided where ASP rules successfully corrected misclassifications, maintained correct predictions, or, in some cases, resulted in worse outcomes by overriding accurate classifications. These instances highlight the nuanced role of ASP in enhancing interpretability and correcting errors, with detailed analyses available in Appendix A. Overall, the findings underscore the potential of hybrid models to improve predictive performance in medical applications, contingent upon the specific characteristics of the dataset used.

Discussion

The discussion section of the research paper emphasizes the growing demand for interpretable machine learning (ML) models, particularly in critical fields like healthcare, where transparency and trust are paramount. Traditional models, while interpretable, often fail to capture complex data interactions, whereas advanced models like deep neural networks excel in performance but lack clarity in their decision-making processes. This opacity can lead to mistrust among clinicians and patients, highlighting the need for methods that balance interpretability with predictive accuracy. The paper proposes a hybrid approach that integrates interpretable rules from Answer Set Programming (ASP) with various black-box ML classifiers, allowing for enhanced explainability without compromising model performance.

The section also discusses the FOLD-R++ algorithm, which generates human-readable default rules from relational data, and its application in creating a hybrid model that combines these rules with predictions from black-box classifiers. The results demonstrate significant improvements in predictive performance across several medical datasets, particularly for classifiers like Support Vector Machines (SVM). For instance, the hybrid model increased the SVM’s accuracy in the Autism Screening dataset from 72.6% to 94.0%. However, the paper notes that while the hybrid approach generally enhances performance, it does not universally outperform all models or datasets, indicating that its effectiveness is contingent on the specific characteristics of the data and the base ML model used. The authors suggest future work to address scalability issues, optimize confidence thresholds, and validate the interpretability of the hybrid model through expert evaluations.