المنطقة الدقيقة وعدم المساواة بين ارتباطات الرتبة لتشاتيرجي وسبيرمان
The exact region and an inequality between Chatterjee’s and Spearman’s rank correlations

المجلة: Journal of Multivariate Analysis، المجلد: 214
DOI: https://doi.org/10.1016/j.jmva.2026.105630
تاريخ النشر: 2026-03-06
المؤلف: Zhenyun Du
الموضوع الرئيسي: طرق إحصائية واستدلال

نظرة عامة

في هذا القسم، يناقش المؤلفون ارتباط الرتبة $\xi(X, Y)$ الذي قدمه سوراف تشاتيرجي، والذي يتراوح من 0 إلى 1، مما يدل على استقلالية واعتماد مثالي للمتغيرات $X$ و $Y$، على التوالي. على عكس مقاييس التوافق التقليدية مثل معامل سبيرمان $\rho$، التي تقيم درجة الاعتماد، فإن $\xi$ يقيس بشكل محدد قوة الاعتماد الوظيفي. تستكشف الورقة الأزواج الممكنة $(\xi(X, Y), \rho(X, Y))$، كاشفة أن منطقة $\xi$-$\rho$ الناتجة تشكل مجموعة محدبة تتميز بعائلة جديدة من الكوبولات المستمرة تمامًا وغير المتماثلة ذات هيكل شريطي قطري.

يؤكد المؤلفون أن $\xi(X, Y) \leq |\rho(X, Y)|$ عندما يكون $Y$ متزايدًا أو متناقصًا عشوائيًا في $X$، ويحددون الفرق الأقصى $\rho(X, Y) – \xi(X, Y)$ على أنه بالضبط 0.4. تستخدم براهينهم إطار تحسين محدب جنبًا إلى جنب مع قيود وخصائص ترتيب مختلفة لـ $\xi$ و $\rho$. يعزز هذا العمل الفهم لارتباط الرتبة لتشاتيرجي، الذي غالبًا ما يعطي قيمًا أقل من معامل سبيرمان $\rho$ في سياق الاعتماد الإيجابي. ومن الجدير بالذكر أن المؤلفين يقترحون أن تفسير ارتباط الرتبة لتشاتيرجي على مقياس $\rho$ قد يتم تمثيله بشكل أكثر ملاءمة بالكمية $\sqrt{\xi}$.

مقدمة

تناقش مقدمة الورقة مقاييس ارتباط الرتبة المعروفة، مثل معامل سبيرمان و كيندال، التي تقيس قوة الاعتماد بين متغيرين، \(X\) و \(Y\)، بقيم تتراوح من -1 إلى 1. يتم تعريف معامل سبيرمان من حيث الكوبولا \(C\) للمتجه العشوائي الثنائي \((X, Y)\) ويمثل رياضيًا كـ \(\rho(X, Y) = \rho(C) = \int_0^1 \int_0^1 C(u, v) \, d\lambda_2(u, v) – 3\). بالمقابل، يتم تقديم ارتباط رتبة جديد من قبل تشاتيرجي، يُشار إليه بـ \(\xi(X, Y)\)، يقيس الاعتماد الوظيفي ويمكنه اكتشاف العلاقات غير الأحادية، وهو أمر حاسم للنمذجة الإحصائية. تتراوح هذه المقياس من 0 (استقلالية) إلى 1 (اعتماد مثالي)، ويتم تعريف نسخته السكانية كـ \(\xi(X, Y) := \frac{\int R \text{Var}(P(Y \geq y | X)) \, dP_Y(y)}{\int R \text{Var}(1\{Y \geq y\}) \, dP_Y(y)}\).

تسلط الورقة الضوء على أنه بينما يمكن أن تكون كل من \(\xi\) و \(\rho\) صفرًا عندما يكون \(X\) و \(Y\) مستقلين، يمكن أن تصل \(\xi\) إلى قيمتها القصوى 1 حتى عندما تكون \(\rho\) 0، كما يتضح من المثال حيث \(Y = |X|\). يهدف المؤلفون إلى استكشاف العلاقة بين \(\xi\) و \(\rho\)، لا سيما كيف يمكن لقيم واحدة أن تُعلم القيم الممكنة للأخرى. يقدمون نتيجتهم الرئيسية الأولى، التي تعرف منطقة \(\xi\)-\(\rho\) الدقيقة، موضحين أنه مع انخفاض \(\xi\)، يتقلص أيضًا النطاق الممكن لـ \(\rho\)، ليصل في النهاية إلى \(\rho = 0\) عندما تكون \(\xi = 0\). تتميز هذه العلاقة بعائلة جديدة من الكوبولات ذات الخصائص الهيكلية المحددة، والتي سيتم مناقشتها بالتفصيل في الأقسام التالية.

مناقشة

في قسم المناقشة من الورقة، يقدم المؤلفون النظرية 1، التي تعرف منطقة $\xi$-$\rho$ الدقيقة كمجموعة محدبة $R$ تتميز بعائلة الكوبولا $(C_b)_{b \in \mathbb{R} \setminus \{0\}}$. يتم تحديد هذه المنطقة من خلال العلاقات بين ارتباط الرتبة لتشاتيرجي $\xi(C)$ ومعامل سبيرمان $\rho(C)$ لمختلف الكوبولات $C$. تؤكد النظرية أن الفرق الأقصى $\rho(C) – \xi(C)$ يتحقق بواسطة الكوبولا $C_{b_{0.3}}$، مما يعطي قيمة قصوى تبلغ 0.4، مع قيم محددة لـ $\rho(C_1) = 0.7$ و $\xi(C_1) = 0.3$ للمحقق الفريد $C_1$. كما يبرز المؤلفون أن مقاييس التوافق تتأثر بهيكل اعتماد الكوبولا، مع تداعيات لمفاهيم الاعتماد الإيجابي مثل الكوبولات المتزايدة عشوائيًا (SI) والمتناقصة عشوائيًا (SD).

علاوة على ذلك، تشير النتيجة 1 إلى أنه إذا تجاوزت $\xi(X, Y)$ $|\rho(X, Y)|$، فإن $Y$ لا تظهر اعتمادًا عشوائيًا على $X$. يستكشف المؤلفون العلاقة بين \(\xi\) و \(\rho\) تحت فرضية الكوبولات SI، ويستنتجون أن \(\xi(C) \leq |\rho(C)|\)، مع المساواة فقط في حالات الاستقلال أو الاعتماد الإيجابي المثالي. يبرز القسم أهمية فهم الفروق بين هذه المقاييس للارتباط، لا سيما في السياقات التجريبية، ويقترح أن الفروق الملحوظة بين \(\xi\) و \(\rho\) قد يكون لها تداعيات عملية لنمذجة هياكل الاعتماد في التطبيقات الإحصائية.

Journal: Journal of Multivariate Analysis, Volume: 214
DOI: https://doi.org/10.1016/j.jmva.2026.105630
Publication Date: 2026-03-06
Author(s): Zhenyun Du
Primary Topic: Statistical Methods and Inference

Overview

In this section, the authors discuss the rank correlation $\xi(X, Y)$ introduced by Sourav Chatterjee, which ranges from 0 to 1, indicating the independence and perfect dependence of variables $X$ and $Y$, respectively. Unlike traditional concordance measures like Spearman’s $\rho$, which assess the degree of dependence, $\xi$ specifically measures the strength of functional dependence. The paper explores the attainable pairs $(\xi(X, Y), \rho(X, Y))$, revealing that the resulting $\xi$-$\rho$ region forms a convex set characterized by a new family of absolutely continuous, asymmetric copulas with a diagonal band structure.

The authors establish that $\xi(X, Y) \leq |\rho(X, Y)|$ when $Y$ is stochastically increasing or decreasing in $X$, and they identify the maximal difference $\rho(X, Y) – \xi(X, Y)$ as exactly 0.4. Their proofs utilize a convex optimization framework alongside various constraints and ordering properties for $\xi$ and $\rho$. This work enhances the understanding of Chatterjee’s rank correlation, which often yields lower values than Spearman’s $\rho$ in the context of positive dependencies. Notably, the authors suggest that interpreting Chatterjee’s rank correlation on the scale of $\rho$ may be more appropriately represented by the quantity $\sqrt{\xi}$.

Introduction

The introduction of the paper discusses the well-known rank correlation measures, Spearman’s rho and Kendall’s tau, which quantify the strength of dependence between two variables, \(X\) and \(Y\), with values ranging from -1 to 1. Spearman’s rho is defined in terms of the copula \(C\) of the bivariate random vector \((X, Y)\) and is represented mathematically as \(\rho(X, Y) = \rho(C) = \int_0^1 \int_0^1 C(u, v) \, d\lambda_2(u, v) – 3\). In contrast, a new rank correlation introduced by Chatterjee, denoted as \(\xi(X, Y)\), measures functional dependence and can detect non-monotone relationships, which is crucial for statistical modeling. This measure ranges from 0 (independence) to 1 (perfect dependence), and its population version is defined as \(\xi(X, Y) := \frac{\int R \text{Var}(P(Y \geq y | X)) \, dP_Y(y)}{\int R \text{Var}(1\{Y \geq y\}) \, dP_Y(y)}\).

The paper highlights that while both \(\xi\) and \(\rho\) can be zero when \(X\) and \(Y\) are independent, \(\xi\) can reach its maximum value of 1 even when \(\rho\) is 0, as illustrated by the example where \(Y = |X|\). The authors aim to explore the relationship between \(\xi\) and \(\rho\), particularly how the values of one can inform the possible values of the other. They present their first main result, which defines the exact \(\xi\)-\(\rho\) region, showing that as \(\xi\) decreases, the attainable interval for \(\rho\) also shrinks, ultimately reaching \(\rho = 0\) when \(\xi = 0\). This relationship is characterized by a new family of copulas with specific structural properties, which will be discussed in detail in subsequent sections.

Discussion

In the discussion section of the paper, the authors present Theorem 1, which defines the exact $\xi$-$\rho$-region as a convex set $R$ characterized by the copula family $(C_b)_{b \in \mathbb{R} \setminus \{0\}}$. This region is delineated by the relationships between Chatterjee’s rank correlation $\xi(C)$ and Spearman’s rho $\rho(C)$ for various copulas $C$. The theorem establishes that the maximal difference $\rho(C) – \xi(C)$ is achieved by the copula $C_{b_{0.3}}$, yielding a maximum value of 0.4, with specific values of $\rho(C_1) = 0.7$ and $\xi(C_1) = 0.3$ for the unique maximizer $C_1$. The authors also highlight that the measures of concordance are influenced by the copula’s dependence structure, with implications for positive dependence concepts such as stochastic increasing (SI) and stochastic decreasing (SD) copulas.

Furthermore, Corollary 1 indicates that if $\xi(X, Y)$ exceeds $|\rho(X, Y)|$, then $Y$ does not exhibit stochastic dependence on $X$. The authors explore the relationship between $\xi$ and $\rho$ under the assumption of SI copulas, concluding that $\xi(C) \leq |\rho(C)|$, with equality only in cases of independence or perfect positive dependence. The section emphasizes the significance of understanding the differences between these measures of association, particularly in empirical contexts, and suggests that the observed discrepancies between $\xi$ and $\rho$ may have practical implications for modeling dependence structures in statistical applications.