أداة التحليل الإحصائي CMS ودمج البيانات: دمج
The CMS Statistical Analysis and Combination Tool: Combine

المجلة: Computing and Software for Big Science، المجلد: 8، العدد: 1
DOI: https://doi.org/10.1007/s41781-024-00121-4
تاريخ النشر: 2024-11-08
المؤلف: A. Hayrapetyan وآخرون
الموضوع الرئيسي: دراسات فيزياء الجسيمات النظرية والتجريبية

نظرة عامة

تحدد هذه القسم حزمة البرمجيات Combine المستخدمة في التحليلات الإحصائية من قبل تعاون CMS، والتي تم تطويرها في البداية للبحث عن بوزون هيغز وتحليلاتها المجمعة. مع مرور الوقت، أصبحت Combine الأداة الإحصائية الرئيسية لمجموعة واسعة من القياسات والبحث ضمن تعاون CMS، بينما يمكن استخدامها أيضًا من قبل مستخدمين خارج هذه التجربة المحددة.

تعمل الورقة كمصدر مرجعي للمستخدمين الخارجيين، حيث توضح الميزات الرئيسية وإمكانيات Combine. وتؤكد على توفر صورة حاوية يمكن الوصول إليها علنًا تتيح للمستخدمين تشغيل Combine وتكرار الأمثلة المقدمة. على الرغم من أن الحزمة يتم تحديثها باستمرار لتلبية مجموعات البيانات المتزايدة وتعقيد التحليل، تعترف الورقة بأنها لا يمكن أن تشمل جميع جوانب Combine. للحصول على إرشادات شاملة، يتم توجيه القراء إلى الوثائق عبر الإنترنت، التي تقدم أحدث وأشمل تعليمات للمستخدمين.

مقدمة

تحدد مقدمة الورقة البحثية وظائف وأهمية برنامج التحليل الإحصائي CMS، Combine. تم تصميمه بشكل أساسي لفيزياء الطاقة العالية، حيث يقدم Combine واجهة سطر الأوامر لتدفقات العمل الإحصائية الشائعة ويستخدم ملف تكوين قابل للقراءة البشرية، يعرف باسم “بطاقة البيانات”، لتجميع النماذج الإحصائية. يعزز هذا التصميم الاتساق المنهجي ويسهل استكشاف القضايا المحتملة دون تقييد تعقيد التحليلات. ميزة رئيسية لـ Combine هي قدرته على دمج الاحتمالات المبنية، مما يعزز الحساسية في البحث أو القياسات عندما تكون مجموعات البيانات مستقلة إحصائيًا.

تم تطوير Combine في الأصل للبحث عن بوزون هيغز في تصادمات البروتون-بروتون، وقد تطور ليصبح أداة متعددة الاستخدامات قابلة للتطبيق على تحليلات إحصائية متنوعة ضمن إطار LHC. كانت وظائفه أساسية في العديد من منشورات CMS، بما في ذلك قياسات خصائص بوزون هيغز، والبحث عن الفائض، وقياسات معلمات النموذج القياسي. يدعم البرنامج أيضًا القياسات المجمعة من تجارب ATLAS وCMS. تعد الورقة بمراجعة شاملة لأساليب Combine الإحصائية وإمكاناته، مع أقسام مفصلة حول التثبيت، ونمذجة إحصائية، وأنواع التحليل المدعومة، وتعليمات الاستخدام العملي، مما culminates في ملخص لميزاته.

مناقشة

في القسم المناقش، يتم توضيح تثبيت ووظائف حزمة Combine لنمذجة الإحصاء في فيزياء الطاقة العالية. تعتمد Combine على عدة مكتبات، بما في ذلك ROOT وRooFit وغيرها من المكتبات للحسابات المحسنة، ويمكن تجميعها ضمن بيئة برمجيات CMS أو كحزمة مستقلة. الهدف الرئيسي من Combine هو بناء نموذج إحصائي \( p(\text{data}; \theta) \) الذي يشفر كثافة الاحتمال للبيانات المرصودة، معبرًا عنه بواسطة معلمات النموذج \( \theta \). يتم تحليل هذا النموذج إلى مكونات تتضمن معلمات الاهتمام \( \mu \) ومعلمات الإزعاج \( \nu \)، التي تأخذ في الاعتبار عدم اليقين في التنبؤات النظرية والتجريبية. يتم اشتقاق دالة الاحتمال \( L(\theta) \) من الملاحظات المستقلة، مما يسهل كل من التحليلات البايزية والتكرارية.

يتناول القسم أيضًا هيكل بطاقة البيانات، التي تعتبر ضرورية لتعريف الملاحظات ووظائف كثافة الاحتمال الخاصة بها (pdfs). يميز بين تحليلات العد، التي تركز على إجمالي عدد الأحداث المودل بواسطة توزيعات بواسون، وتحليلات الشكل، التي تتضمن ملاحظات متعددة وتتطلب مواصفات إضافية لـ pdfs. يتم تسليط الضوء على تحليلات الشكل المعتمدة على القوالب كطريقة شائعة في CMS، مما يسمح باستخدام الرسوم البيانية لتمثيل التوزيعات المتوقعة. تدعم صيغة بطاقة البيانات عدم اليقين النظامي المتنوع، مما يمكّن من نمذجة سيناريوهات إحصائية معقدة مع الحفاظ على الوضوح والمرونة في عملية التحليل.

Journal: Computing and Software for Big Science, Volume: 8, Issue: 1
DOI: https://doi.org/10.1007/s41781-024-00121-4
Publication Date: 2024-11-08
Author(s): A. Hayrapetyan et al.
Primary Topic: Particle physics theoretical and experimental studies

Overview

This section outlines the Combine software package utilized for statistical analyses by the CMS Collaboration, initially developed for Higgs boson searches and their combined analyses. Over time, Combine has become the primary statistical tool for a wide range of measurements and searches within the CMS Collaboration, while also being applicable to users beyond this specific experiment.

The paper serves as a reference for external users, detailing the key features and capabilities of Combine. It emphasizes the availability of a publicly accessible container image that allows users to run Combine and replicate the examples presented. Although the package is continuously updated to accommodate growing data sets and analytical complexity, the paper acknowledges that it cannot encompass all aspects of Combine. For comprehensive guidance, readers are directed to the online documentation, which offers the most current and thorough user instructions.

Introduction

The introduction of the research paper outlines the functionalities and significance of the CMS statistical analysis software, Combine. Designed primarily for high-energy physics, Combine offers a command-line interface for common statistical workflows and utilizes a human-readable configuration file, known as a “datacard,” to encapsulate statistical models. This design promotes methodological consistency and facilitates the exploration of potential issues without constraining the complexity of analyses. A key advantage of Combine is its ability to combine constructed likelihoods, enhancing sensitivity in searches or measurements when data sets are statistically independent.

Originally developed for Higgs boson searches in proton-proton collisions, Combine has evolved into a versatile tool applicable to various statistical analyses within the LHC framework. Its functionalities have been instrumental in numerous CMS publications, including measurements of Higgs boson properties, searches for supersymmetry, and standard model parameter measurements. The software also supports combined measurements from both ATLAS and CMS experiments. The paper promises a comprehensive overview of Combine’s statistical methods and capabilities, with detailed sections on installation, statistical modeling, supported analysis types, and practical usage instructions, culminating in a summary of its features.

Discussion

In the discussed section, the installation and functionality of the Combine package for statistical modeling in high-energy physics are outlined. Combine relies on several libraries, including ROOT, RooFit, and others for optimized calculations, and can be compiled within a CMS software environment or as a standalone package. The primary objective of Combine is to construct a statistical model \( p(\text{data}; \theta) \) that encodes the probability density of observed data, parameterized by model parameters \( \theta \). This model is factorized into components involving parameters of interest \( \mu \) and nuisance parameters \( \nu \), which account for uncertainties in theoretical and experimental predictions. The likelihood function \( L(\theta) \) is derived from independent observables, facilitating both Bayesian and frequentist analyses.

The section further elaborates on the structure of the datacard, which is essential for defining observables and their probability density functions (pdfs). It distinguishes between counting analyses, which focus on total event counts modeled by Poisson distributions, and shape analyses, which involve multiple observables and require additional specifications for pdfs. Template-based shape analyses are highlighted as a prevalent method in CMS, allowing for the use of histograms to represent expected distributions. The datacard syntax supports various systematic uncertainties, enabling the modeling of complex statistical scenarios while maintaining clarity and flexibility in the analysis process.