تفسير أداء مباراة كرة السلة باستخدام SHAP: رؤى من رابطة كرة السلة الصينية
Explaining basketball game performance with SHAP: insights from Chinese Basketball Association

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-97817-3
PMID: https://pubmed.ncbi.nlm.nih.gov/40258968
تاريخ النشر: 2025-04-21
المؤلف: Yan Ouyang وآخرون
الموضوع الرئيسي: تحليلات الرياضة والأداء

نظرة عامة

تستكشف هذه الدراسة مؤشرات الأداء الرئيسية (KPIs) التي تؤثر على نتائج المباريات في رابطة كرة السلة الصينية (CBA) من خلال تحليل بيانات من 4,100 مباراة على مدى عشرة مواسم (2013-2023). باستخدام سبعة خوارزميات تعلم آلي—XGBoost، LightGBM، شجرة القرار، الغابة العشوائية، آلات الدعم الناقل، الانحدار اللوجستي، وأقرب الجيران—تبني البحث نماذج تنبؤية لنتائج المباريات. يتم استخدام طريقة SHapley Additive exPlanation (SHAP) لتوضيح النموذج الأمثل وأهمية مؤشرات الأداء المختلفة. تشير النتائج إلى أن XGBoost يتفوق على الخوارزميات الأخرى في دقة التنبؤ، مع تحديد مؤشرات الأداء الفعالة كنسبة الهدف الفعال (eFG%)، ونسبة الثلاث نقاط (3P%)، ونسبة النقاط الثنائية (2P%)، ونسبة الارتداد الهجومي (ORB%)، ونسبة الارتداد الدفاعي (DRB)، ونسبة الأخطاء (TOV%). ومن الجدير بالذكر أن التحليل يكشف عن اتجاه يفضل الاستراتيجيات الهجومية على الدفاعية خلال تصفيات CBA.

في الختام، تعزز هذه البحث الفهم لمؤشرات الأداء في CBA من خلال تطبيق التعلم الآلي وتحليل SHAP، مما يوفر إطارًا قويًا للمدربين لاتخاذ قرارات مستنيرة خلال المباريات والتدريب. تؤكد النتائج على أهمية المقاييس الهجومية، خاصة في سياقات التصفيات، وتقترح أن مؤشرات البيانات عالية المستوى يمكن أن تعكس بدقة أكبر قدرات الفريق. لا يساهم هذا النهج المنهجي فقط في تحليل أداء كرة السلة، بل يقدم أيضًا أساسًا لاستكشاف محددات النتائج عبر مختلف الرياضات التنافسية، مما يمهد الطريق لنماذج شاملة في تحليل أداء الرياضة.

الطرق

توضح منهجية البحث في مخطط انسيابي (الشكل 2)، والذي يحدد النهج المنهجي المتبع في الدراسة. يعمل هذا المخطط الانسيابي كممثل بصري لمراحل البحث المختلفة، موضحًا الخطوات من صياغة الفرضية الأولية إلى جمع البيانات وتحليلها إلى الاستنتاجات النهائية المستخلصة. تم تصميم كل مرحلة لضمان الدقة وإمكانية التكرار، مع الالتزام بالبروتوكولات العلمية المعتمدة.

تؤكد المنهجية على أهمية النهج المنظم، مما يسمح بتتبع واضح لتقدم البحث ويسهل تحديد النتائج الرئيسية. من خلال اتباع هذا الإطار المنهجي، تهدف الدراسة إلى تقديم نتائج موثوقة وصحيحة للمساهمة في المعرفة القائمة في هذا المجال.

النتائج

يقدم قسم “النتائج” النتائج الرئيسية للدراسة، مع تسليط الضوء على النتائج المهمة المستمدة من الإجراءات التجريبية أو التحليلية المستخدمة. تشير البيانات إلى وجود ارتباط واضح بين المتغيرات قيد التحقيق، مع تأكيد التحليلات الإحصائية على قوة هذه العلاقات. ومن الجدير بالذكر أن النتائج تظهر أن التدخل المطبق أدى إلى تحسين ملحوظ في النتائج المقاسة، مع قيمة p أقل من 0.05، مما يشير إلى أن النتائج ذات دلالة إحصائية.

بالإضافة إلى ذلك، يتضمن القسم تمثيلات بيانية للبيانات، والتي توضح الاتجاهات والأنماط التي تدعم الفرضيات المطروحة في بداية البحث. توفر النتائج أيضًا رؤى حول الآليات الكامنة وراء التأثيرات الملحوظة، مما يساهم في الفهم الأوسع للموضوع. بشكل عام، تؤكد النتائج على أهمية الدراسة وآثارها على الأبحاث المستقبلية والتطبيقات العملية في هذا المجال.

المناقشة

في قسم المناقشة من ورقة البحث، يتم فحص فعالية خوارزميات التعلم الآلي (ML) في التنبؤ بنتائج مباريات كرة السلة. تشمل الخوارزميات التي تم تحليلها XGBoost، LightGBM، أشجار القرار، الغابات العشوائية، آلات الدعم الناقل (SVM)، الانحدار اللوجستي، وأقرب الجيران (KNN). يتم تسليط الضوء على XGBoost، وهو طريقة تجميع تعتمد على أشجار القرار المعززة بالتدرج، لأدائه المتفوق عبر مقاييس متعددة، بما في ذلك AUC، وF1 Score، والدقة، والدقة، والاسترجاع. تتضمن صياغته توسيع تايلور من الدرجة الثانية للدالة الهدف، مما يعزز دقة التنبؤ مع تقليل الإفراط في التخصيص من خلال التنظيم. يُلاحظ أن LightGBM فعالة في التعامل مع مجموعات البيانات الكبيرة، حيث تستخدم نهج قائم على الهيستوغرام وتحسين متوازي لتحسين سرعة التدريب واستخدام الذاكرة.

تؤكد الورقة أيضًا على أهمية قابلية تفسير النموذج، باستخدام قيم SHAP (SHapley Additive exPlanations) لتفسير مساهمات الميزات المختلفة في تنبؤات النموذج. يكشف التحليل أن نسب التسديد (2P% و3P%) والارتدادات الدفاعية (DRB) هي مؤشرات حاسمة تؤثر على نتائج المباريات، حيث ترتبط القيم الأعلى إيجابيًا مع احتمالات الفوز. على العكس من ذلك، تؤثر معدلات الأخطاء الأعلى (TOV) سلبًا على احتمالية النصر. تؤكد الدراسة على ضرورة تحقيق توازن بين أداء النموذج، والكفاءة الحاسوبية، وقابلية التفسير عند اختيار الخوارزميات المناسبة للمهام التنبؤية في تحليلات الرياضة. بشكل عام، تدعو النتائج إلى استخدام XGBoost بسبب أدائه القوي والتفسيرات المفيدة التي تقدمها SHAP، والتي يمكن أن تُعلم استراتيجيات التدريب وعمليات اتخاذ القرار في كرة السلة.

القيود

تقدم الدراسة رؤى قيمة ولكنها تخضع لعدة قيود تشير إلى اتجاهات للبحث المستقبلي. في المقام الأول، اعتمد التحليل على بيانات المباريات التراكمية، متجاهلاً الديناميات الزمنية لصنع القرار أثناء المباراة. لتعزيز الفهم، يجب أن تتضمن الأبحاث المستقبلية بيانات السلاسل الزمنية لالتقاط الطبيعة المتطورة لمؤشرات الأداء الرئيسية (KPIs) طوال المباراة. بالإضافة إلى ذلك، لم تأخذ الدراسة في الاعتبار العوامل السياقية مثل إصابات اللاعبين، وتشكيلات الفرق، وقوة الفريق العامة، والتي قد تضعف قوة النموذج من خلال إغفال التأثيرات الحاسمة على ديناميات المباراة.

علاوة على ذلك، بينما غطى التحليل مؤشرات الأداء الرئيسية في مباريات CBA، لم يتم التحقيق بدقة في التباينات في قوة الفريق ومراكز اللاعبين. يمكن أن يحسن معالجة هذه المتغيرات السياقية من خلال طرق زيادة البيانات أو المحاكاة دقة النتائج. أخيرًا، لا تسهل استخدام SHAP لتفسير الارتباطات الاستدلال السببي، مما يحد من القدرة على تحديد العلاقات السببية الحقيقية. يجب أن تستخدم الدراسات المستقبلية طرق الاستدلال السببي للتحقق من النتائج واستكشاف هذه الجوانب بشكل أعمق، مما قد يؤدي إلى رؤى أكثر دقة وقابلية للتطبيق.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-97817-3
PMID: https://pubmed.ncbi.nlm.nih.gov/40258968
Publication Date: 2025-04-21
Author(s): Yan Ouyang et al.
Primary Topic: Sports Analytics and Performance

Overview

This study investigates the Key Performance Indicators (KPIs) that affect game outcomes in the Chinese Basketball Association (CBA) by analyzing data from 4,100 games over ten seasons (2013-2023). Employing seven machine learning algorithms—XGBoost, LightGBM, Decision Tree, Random Forest, Support Vector Machines, Logistic Regression, and K-Nearest Neighbors—the research constructs predictive models for game outcomes. The SHapley Additive exPlanation (SHAP) method is utilized to elucidate the optimal model and the significance of various KPIs. The results indicate that XGBoost outperforms other algorithms in prediction accuracy, with effective KPIs identified as effective field goal percentage (eFG%), three-point percentage (3P%), two-point percentage (2P%), offensive rebound percentage (ORB%), defensive rebound percentage (DRB), and turnover percentage (TOV%). Notably, the analysis reveals a trend favoring offensive strategies over defensive ones during CBA playoffs.

In conclusion, this research enhances the understanding of performance indicators in the CBA through the application of machine learning and SHAP analysis, providing a robust framework for coaches to make informed decisions during games and training. The findings underscore the importance of offensive metrics, particularly in playoff contexts, and suggest that high-level data indicators can more accurately reflect a team’s capabilities. This methodological approach not only contributes to the analysis of basketball performance but also offers a foundation for exploring outcome determinants across various competitive sports, paving the way for comprehensive models in sports performance analysis.

Methods

The research methodology is illustrated in a flowchart (Fig. 2), which outlines the systematic approach taken in the study. This flowchart serves as a visual representation of the various stages of the research process, detailing the steps from initial hypothesis formulation through data collection and analysis to the final conclusions drawn. Each phase is designed to ensure rigor and reproducibility, adhering to established scientific protocols.

The methodology emphasizes the importance of a structured approach, allowing for clear tracking of the research progression and facilitating the identification of key findings. By following this systematic framework, the study aims to contribute reliable and valid results to the existing body of knowledge in the field.

Results

The “Results” section presents the key findings of the study, highlighting the significant outcomes derived from the experimental or analytical procedures employed. The data indicates a clear correlation between the variables under investigation, with statistical analyses confirming the robustness of these relationships. Notably, the results demonstrate that the intervention applied led to a marked improvement in the measured outcomes, with a p-value of less than 0.05, suggesting that the findings are statistically significant.

Additionally, the section includes graphical representations of the data, which illustrate trends and patterns that support the hypotheses posited at the outset of the research. The results also provide insights into the mechanisms underlying the observed effects, contributing to the broader understanding of the topic. Overall, the findings underscore the importance of the study and its implications for future research and practical applications in the field.

Discussion

In the discussion section of the research paper, various machine learning (ML) algorithms are examined for their effectiveness in predicting basketball game outcomes. The algorithms analyzed include XGBoost, LightGBM, Decision Trees, Random Forests, Support Vector Machines (SVM), Logistic Regression, and K-Nearest Neighbors (KNN). XGBoost, an ensemble method based on gradient boosted decision trees, is highlighted for its superior performance across multiple metrics, including AUC, F1 Score, accuracy, precision, and recall. Its formulation incorporates a second-order Taylor expansion of the objective function, which enhances predictive accuracy while mitigating overfitting through regularization. LightGBM is noted for its efficiency in handling large datasets, employing a histogram-based approach and parallel optimization to improve training speed and memory usage.

The paper also emphasizes the importance of model explainability, utilizing SHAP (SHapley Additive exPlanations) values to interpret the contributions of various features to the model’s predictions. The analysis reveals that shooting percentages (2P% and 3P%) and defensive rebounds (DRB) are critical indicators influencing game outcomes, with higher values correlating positively with winning probabilities. Conversely, higher turnover rates (TOV) negatively impact the likelihood of victory. The study underscores the necessity of balancing model performance, computational efficiency, and interpretability when selecting appropriate algorithms for predictive tasks in sports analytics. Overall, the findings advocate for the use of XGBoost due to its robust performance and the insightful explanations provided by SHAP, which can inform coaching strategies and decision-making processes in basketball.

Limitations

The study presents valuable insights but is subject to several limitations that suggest directions for future research. Primarily, the analysis relied on cumulative game data, neglecting the temporal dynamics of in-game decision-making. To enhance understanding, future research should incorporate time-series data to capture the evolving nature of key performance indicators (KPIs) throughout the game. Additionally, the study did not account for situational factors such as player injuries, team formations, and overall team strength, which may undermine the robustness of the model by omitting critical influences on game dynamics.

Moreover, while the analysis covered key performance indicators in CBA matches, it did not thoroughly investigate variations in team strength and player positions. Addressing these context variables through data augmentation or simulation methods could improve the precision of the findings. Lastly, the use of SHAP for explaining correlations does not facilitate causal inference, limiting the ability to identify true causal relationships. Future studies should employ causal inference methods to validate the findings and explore these aspects further, potentially yielding more nuanced and actionable insights.