DOI: https://doi.org/10.1038/s41598-023-50085-5
PMID: https://pubmed.ncbi.nlm.nih.gov/38605090
تاريخ النشر: 2024-04-11
المؤلف: Aamir Shahzad وآخرون
الموضوع الرئيسي: طرق ونماذج إحصائية متقدمة
نظرة عامة
تبحث الدراسة في تطبيق نموذج الانحدار شبه بواسون (QPRM) لبيانات العد، وخاصة في سيناريوهات التشتت الزائد حيث قد يفشل الانحدار التقليدي لبواسون. تسلط الدراسة الضوء على قيود مقدر شبه الاحتمالية (QLE) في وجود التعدد الخطي بين المتغيرات المستقلة، مما يمكن أن يؤدي إلى تقديرات غير فعالة ومتحيزة. لمعالجة هذه المشكلة، يقترح المؤلفون استخدام مقدرات الحافة (RE) ومقدرات معلمات الحافة المختلفة (RPEs) لتعزيز موثوقية تقديرات المعاملات في QPRM.
من خلال الاشتقاقات النظرية وتحليل مقارن لمقدر الحافة مقابل مقدر شبه الاحتمالية، تُظهر الدراسة أن مقدر الحافة يتفوق بشكل كبير على QLE، خاصة عندما يكون التعدد الخطي موجودًا. تدعم هذه النتيجة نتائج من كل من محاكاة مونت كارلو وتطبيق حقيقي يتضمن بيانات هجرة المتدربين. تشير النتائج إلى أن QPRM، عندما يتم تعزيزه بمقدرات حافة مناسبة، يوفر إطارًا أكثر قوة لتحليل بيانات العد ذات التشتت الزائد، مما يقدم بديلاً قيمًا لطرق التقدير التقليدية في وجود التعدد الخطي.
طرق
يتم استخدام نموذج الانحدار شبه بواسون (QPRM) لتحليل بيانات العد التي تتبع توزيع بواسون مع تشتت زائد، حيث تتجاوز التباين المتوسط. يستخدم النموذج توزيع شبه بواسون (QP)، الذي يتميز بمتوسطه $\mu$ ومعامل التشتت الزائد $\gamma$. يتم التعبير عن العلاقة بين المتوسط والتباين كالتالي: $E(Y) = \mu$ و$Var(Y) = \gamma \mu$. يتم بناء دالة الاحتمال لـ QPRM بشكل مشابه لدالة الاحتمال القياسية، مما يسمح بتقدير معلمات الانحدار دون دالة كثافة احتمالية محددة، مع الاعتماد بدلاً من ذلك على فرضية المتغير الاستجابي.
يتم تحقيق تقدير معلمات النموذج من خلال المربعات الصغرى المعاد وزنها تكراريًا (IWLS)، حيث يتم اشتقاق دالة شبه الدرجة من خلال تفاضل دالة شبه الاحتمالية. تقوم العملية التكرارية بتحديث معاملات الانحدار $\beta$ باستخدام المعادلة $\beta^{[t+1]} = (X’WX)^{-1}X’Wm^{[t]}$، حيث $W$ هو مصفوفة قطرية تعتمد على تباين $\mu$. التقديرات النهائية، $\beta_{QLE}$، موزعة بشكل طبيعي، ويتم تحديد متوسط مربع الخطأ (MSE) من خلال أثر مصفوفة التباين، التي تتأثر بالقيم الذاتية لمصفوفة $F$. ومع ذلك، يمكن أن يؤدي الارتباط العالي بين المتغيرات التفسيرية إلى عدم الكفاءة في QLE، مما يؤدي إلى تباينات أكبر ويعقد تفسير المعاملات المقدرة.
نتائج
تقيم نتائج المحاكاة المقدمة في هذا القسم أداء مقدرات المعلمات القوية المقترحة (RPEs) لنموذج الانحدار المعتمد على الكوانتيل مع تأثيرات عشوائية (QPRRE) في سياق التعدد الخطي، وحجم العينة، والتشتت، وعدد المتغيرات المستقلة. تشير النتائج إلى أنه مع زيادة التعدد الخطي، ترتفع متوسطات مربعات الخطأ (MSEs) لجميع طرق التقدير أيضًا. ومع ذلك، عند مستويات عالية من التعدد الخطي وأحجام عينات أكبر، فإن بعض RPEs (k = 3، 5، 9، 11، 12، و16) تحقق باستمرار متوسطات مربعات خطأ أقل مقارنة بكل من RPEs الأخرى ومقدر الكوانتيل الخطي (QLE).
علاوة على ذلك، تكشف التحليلات عن علاقة تناسبية مباشرة بين عدد المتغيرات المستقلة ومتوسطات MSE المقدرة، مما يشير إلى أن زيادة المتغيرات المستقلة تؤدي إلى ارتفاع MSE لكل من QPRRE وQLE. على العكس، العلاقة بين حجم العينة وMSE عكسية؛ حيث تتوافق أحجام العينات الأكبر مع متوسطات MSE المقدرة الأقل. بشكل عام، تُظهر نتائج المحاكاة أن QLE تظهر متوسطات MSE أعلى من جميع RPEs المقترحة لـ QPRRE عبر ظروف مختلفة، مما يؤكد أن RPEs المقترحة تقلل بشكل فعال من متوسطات MSE المقدرة. تختتم الدراسة بأن الباحثين يجب أن يفضلوا QPRRE مع RPEs المثلى (k = 3، 5، 9، 11، 12، و16) للتخفيف من آثار التعدد الخطي، نظرًا لأدائها المتفوق في تقليل MSEs.
مناقشة
في هذا القسم، يقدم المؤلفون مقدر الانحدار شبه بواسون (QPRRE) كحل لعدم كفاءة مقدر شبه الاحتمالية (QLE) في وجود التعدد الخطي بين المتغيرات التفسيرية. يتم تعريف QPRRE رياضيًا بمعامل تحيز $k$ ويظهر أنه يقلل من آثار التعدد الخطي، مما يؤدي إلى تحسين تقديرات المعاملات. يستنتج المؤلفون التحيز والتباين ومتوسط مربع الخطأ (MSE) لـ QPRRE، موضحين أن التباين والتحيز المربع هما دالتان مستمرتان ومن monotonic من $k$. يثبتون أنه يوجد $k$ إيجابي بحيث يكون MSE لـ QPRRE أقل من MSE لـ QLE، مما يثبت تفوق QPRRE.
يناقش القسم أيضًا اختيار معلمات التحيز المثلى لمقدر الانحدار الحدي، مشيرًا إلى دراسات مختلفة اقترحت مقدرات معلمات الحافة المختلفة (RPEs). يتم إجراء محاكاة مونت كارلو لتقييم أداء QPRRE مقابل QLE تحت ظروف متغيرة من حجم العينة، وعدد المتنبئين، ومستويات التعدد الخطي. تشير النتائج إلى أن QPRRE يتفوق باستمرار على QLE، خاصة في السيناريوهات التي تتسم بالتعدد الخطي الشديد. بالإضافة إلى ذلك، يطبق المؤلفون نتائجهم على مجموعة بيانات حقيقية حول هجرة المتدربين، مؤكدين أن QPRRE يوفر تقديرات أفضل من QLE، خاصة عندما يكون التعدد الخطي موجودًا. بشكل عام، تدعو الدراسة إلى استخدام QPRRE مع RPEs محددة لمعالجة التعدد الخطي بفعالية في بيانات العد ذات التشتت الزائد.
DOI: https://doi.org/10.1038/s41598-023-50085-5
PMID: https://pubmed.ncbi.nlm.nih.gov/38605090
Publication Date: 2024-04-11
Author(s): Aamir Shahzad et al.
Primary Topic: Advanced Statistical Methods and Models
Overview
The research investigates the application of the quasi-Poisson regression model (QPRM) for count data, particularly in scenarios of over-dispersion where traditional Poisson regression may fail. The study highlights the limitations of the quasi-likelihood estimator (QLE) in the presence of multicollinearity among regressors, which can lead to inefficient and biased estimates. To address this issue, the authors propose the use of ridge estimators (RE) and various ridge parameter estimators (RPEs) to enhance the reliability of coefficient estimates in the QPRM.
Through theoretical derivations and a comparative analysis of the ridge estimator against the quasi-likelihood estimator, the study demonstrates that the ridge estimator significantly outperforms the QLE, particularly when multicollinearity is present. This conclusion is supported by results from both Monte Carlo simulations and a real-life application involving apprentice migration data. The findings suggest that the QPRM, when augmented with appropriate ridge estimators, provides a more robust framework for analyzing over-dispersed count data, thereby offering a valuable alternative to traditional estimation methods in the presence of multicollinearity.
Methods
The Quasi-Poisson Regression Model (QPRM) is employed for analyzing count data that follows a Poisson distribution with over-dispersion, where the variance exceeds the mean. The model utilizes the quasi-Poisson (QP) distribution, characterized by its mean $\mu$ and an over-dispersion parameter $\gamma$. The relationship between the mean and variance is expressed as $E(Y) = \mu$ and $Var(Y) = \gamma \mu$. The likelihood function for the QPRM is constructed similarly to the standard likelihood function, allowing for the estimation of regression parameters without a specific probability density function, relying instead on the assumption of the response variable.
Estimation of the model parameters is achieved through iterative reweighted least squares (IWLS), where the Quasi-score function is derived by differentiating the quasi-log likelihood function. The iterative process updates the regression coefficients $\beta$ using the equation $\beta^{[t+1]} = (X’WX)^{-1}X’Wm^{[t]}$, where $W$ is a diagonal matrix based on the variance of $\mu$. The final estimates, $\beta_{QLE}$, are normally distributed, and their mean squared error (MSE) is determined through the trace of the covariance matrix, which is influenced by the eigenvalues of the matrix $F$. However, high correlation among explanatory variables can lead to inefficiencies in the QLE, resulting in larger variances and complicating the interpretation of the estimated coefficients.
Results
The simulation results presented in this section evaluate the performance of proposed Robust Parameter Estimators (RPEs) for the Quantile Parameterized Regression with Random Effects (QPRRE) in the context of multicollinearity, sample size, dispersion, and the number of regressors. The findings indicate that as multicollinearity increases, the Mean Squared Errors (MSEs) for all estimation methods also rise. However, at high levels of multicollinearity and larger sample sizes, specific RPEs (k = 3, 5, 9, 11, 12, and 16) consistently yield lower MSEs compared to both other RPEs and the Quantile Linear Estimator (QLE).
Furthermore, the analysis reveals a direct proportionality between the number of regressors and the estimated MSEs, suggesting that an increase in regressors leads to higher MSEs for both QPRRE and QLE. Conversely, the relationship between sample size and MSE is inverse; larger sample sizes correspond to lower estimated MSEs. Overall, the simulation results demonstrate that the QLE exhibits higher MSEs than all proposed RPEs for QPRRE across various conditions, affirming that the suggested RPEs effectively reduce estimated MSEs. The study concludes that researchers should favor the QPRRE with optimal RPEs (k = 3, 5, 9, 11, 12, and 16) to mitigate the effects of multicollinearity, given their superior performance in minimizing MSEs.
Discussion
In this section, the authors introduce the quasi-Poisson ridge regression estimator (QPRRE) as a solution to the inefficiencies of the quasi-likelihood estimator (QLE) in the presence of multicollinearity among explanatory variables. The QPRRE is defined mathematically with a biasing parameter $k$ and is shown to minimize the effects of multicollinearity, leading to improved estimates of coefficients. The authors derive the bias, covariance, and mean squared error (MSE) of the QPRRE, demonstrating that the variance and squared bias are continuous and monotonic functions of $k$. They establish that there exists a positive $k$ such that the MSE of the QPRRE is less than that of the QLE, thus proving the superiority of the QPRRE.
The section further discusses the selection of optimal biasing parameters for the ridge regression estimator, referencing various studies that have proposed different ridge parameter estimators (RPEs). A Monte Carlo simulation is conducted to evaluate the performance of the QPRRE against the QLE under varying conditions of sample size, number of predictors, and levels of multicollinearity. The results indicate that the QPRRE consistently outperforms the QLE, particularly in scenarios with severe multicollinearity. Additionally, the authors apply their findings to a real-life dataset on apprentice migration, confirming that the QPRRE provides better estimates than the QLE, especially when multicollinearity is present. Overall, the study advocates for the use of the QPRRE with specific RPEs to effectively address multicollinearity in count data with over-dispersion.
