تطبيق إطار التقديرات على تجارب عدم التفوق: إرشادات لاختيار التقديرات الافتراضية لعدم الالتزام ومقارنة طرق التقدير
Applying the Estimands Framework to Non‐Inferiority Trials: Guidance on Choice of Hypothetical Estimands for Non‐Adherence and Comparison of Estimation Methods

المجلة: Statistics in Medicine، المجلد: 44، العدد: 5
DOI: https://doi.org/10.1002/sim.10348
PMID: https://pubmed.ncbi.nlm.nih.gov/39921280
تاريخ النشر: 2025-02-07
المؤلف: Katy E. Morgan وآخرون
الموضوع الرئيسي: طرق إحصائية في التجارب السريرية

نظرة عامة

في التجارب غير السلبية (NI)، تنشأ مخاوف كبيرة من عدم الالتزام، مما يمكن أن يؤدي إلى تشابه مصطنع بين أذرع العلاج بسبب سوء إجراء الدراسة. قد تكون تحليلات النية للعلاج التقليدية متحفظة بشكل مفرط في هذه السيناريوهات، مما يدفع إلى توصيات لتحليلات وفقًا للبروتوكول. ومع ذلك، غالبًا ما تتجاهل هذه التوصيات إطار التقديرات والانحيازات المحتملة التي تقدمها تحليلات وفقًا للبروتوكول. تهدف هذه الدراسة إلى تحسين الإرشادات حول التجارب غير السلبية من خلال دمج إطار التقديرات وتقييم تقديرات مختلفة لتعزيز أداء تحليلات وفقًا للبروتوكول.

يحدد المؤلفون “الأحداث المتداخلة الخاصة بالتجربة” (IEs) كتهديد رئيسي لصلاحية التجارب غير السلبية، مؤكدين أن هذه الأحداث قد لا تحدث في البيئات الواقعية. لتقليل خطر الاستنتاجات غير الصحيحة بشأن عدم السلبية، يقترحون تقديرًا يستخدم استراتيجية افتراضية لمعالجة الأحداث المتداخلة الخاصة بالتجربة، بينما يجب أن تسترشد معالجة الأحداث المتداخلة غير الخاصة بالتجربة بالاعتبارات السريرية. تناقش الورقة عدة تقديرات مناسبة لتقدير هذا التقدير الافتراضي، بما في ذلك وزن الاحتمالية العكسية (IPW) وطريقتين للأدوات الآلية – واحدة تستخدم أولوية بايانية معلوماتية على تأثير العلاج القياسي والأخرى تستخدم تفاعل العلاج مع المتغيرات كأداة. من خلال المحاكاة التي تركز على الالتزام الكلي أو عدمه في ذراعين نشطتين للعلاج، يستنتج المؤلفون أن كل من IPW وطريقة الأداة الآلية المعتمدة على الأولوية البايانية هما نهجان واعدان، مع كون الاختيار بينهما متوقفًا على مصداقية الافتراضات الأساسية للتجارب المحددة.

الطرق

في هذا القسم، يصف المؤلفون الطرق المستخدمة في دراسة محاكاة وإعادة تحليل تجربة TOPPS لتقييم تقديرات مختلفة لتأثيرات العلاج في تجربة عشوائية غير سلبية ذات ذراعين مع نتائج مستمرة. كانت دراسة المحاكاة تهدف إلى تقييم الانحياز والدقة ومعدلات الخطأ من النوع الأول للتقديرات تحت الافتراضات الملباة والمخالفة، مع التركيز بشكل خاص على سيناريوهات تباين تأثير العلاج (TEH) عبر مستويات الالتزام. تم إجراء دراستين للمحاكاة: واحدة تفترض عدم وجود TEH والأخرى تتضمن TEH، مع توفير معلمات مفصلة في المعلومات الداعمة. استخدم المؤلفون Stata لتوليد البيانات وتحليلها، مما يضمن إمكانية إعادة الإنتاج من خلال كود إضافي.

بالنسبة لإعادة تحليل تجربة TOPPS، ركز المؤلفون على نتيجة ثانوية – الأيام التي شهدت نزيفًا – متماشية مع إطار النتائج المستمرة لدراسة المحاكاة الخاصة بهم. قاموا بتعديل العوامل المحتملة مثل المرض المتكرر وزرع الخلايا الجذعية السابقة في كل من تحليلات النية للعلاج (ITT) وتحليلات وفقًا للبروتوكول. تم تطبيق طريقة وزن الاحتمالية العكسية (IPW) لأخذ الانحرافات عن استراتيجية نقل الدم المعينة في الاعتبار، بينما تم استخدام نهج الأدوات الآلية (IV) باستخدام المتغيرات الأساسية لنمذجة الالتزام. استكشف المؤلفون أيضًا طرق IV البايانية مع أولويات مختلفة تعكس تأثير الوقاية مقابل العلاجات البديلة. تم إجراء التحليلات تحت افتراضات قوية، والتي يعترف المؤلفون بأنها لا يمكن التحقق منها باستخدام بيانات التجربة، مما يبرز تعقيد وحدود تقديراتهم المحتملة.

النتائج

تكشف نتائج دراسة المحاكاة، كما هو موضح في الجدول 4، عن اختلافات كبيرة بين تحليلات النية للعلاج (ITT) وتحليلات وفقًا للبروتوكول فيما يتعلق بعدد الأيام التي شهدت نزيفًا. أظهرت تحليل ITT زيادة ذات دلالة إحصائية في أيام النزيف، مع فرق قدره 0.6 يوم (95% CI: 0.2 إلى 1.0، p = 0.004)، بينما لم تظهر تحليل وفقًا للبروتوكول تأثيرًا كبيرًا (فرق قدره 0.4 يوم، 95% CI: -0.1 إلى 0.8، p = 0.11). بالإضافة إلى ذلك، أكدت كل من وزن الاحتمالية العكسية (IPW) وتحليلات الأدوات الآلية (IV) نتائج ITT، حيث أظهرت IPW وIV(Bayes) نتائج مماثلة، بينما أشار IV(Bayes) مع أولوية كبيرة إلى زيادة أكبر قدرها 1.2 يوم (95% CI: 0.7 إلى 1.7).

كانت التباين في النتائج لـ IV(interaction) ملحوظة، حيث تقلبت التقديرات بشكل واسع بناءً على المتغيرات الأساسية المستخدمة كأدوات، تراوحت من -1.2 إلى 3.9 يوم. أنتجت بعض المتغيرات تقديرات تتعارض مع نتائج ITT ووفقًا للبروتوكول، بينما اقترحت أخرى عدم وجود تأثير. أنتج متغير معين تقديرًا أكبر بحوالي 6.5 مرات من التأثير الذي لوحظ في تحليل ITT، مما يبرز حساسية النتائج لاختيار الخصائص الأساسية.

المناقشة

تركز قسم المناقشة في الورقة على تداعيات تجربة TOPPS، التي قيمت عدم السلبية بين استراتيجيتين لنقل الصفائح الدموية في المرضى الذين يعانون من سرطانات دموية. كشفت نتائج التجربة أنه بينما لم تدعم تحليل النية للعلاج (ITT) عدم السلبية (فرق معدل معدل 8.4 نقطة مئوية، 90% CI 1.7 إلى 15.2)، أشار تحليل وفقًا للبروتوكول إلى عدم السلبية (فرق معدل معدل 4.5، 90% CI -3.0 إلى 12.0). يبرز هذا التباين التأثيرات المحتملة المربكة في تحليلات وفقًا للبروتوكول، حيث تم استبعاد نسبة أعلى من المرضى الذين شهدوا أحداث نزيف من المجموعة غير الوقائية، مما يشير إلى الحاجة إلى تقديرات أكثر قوة تعتمد على افتراضات أقل صرامة.

يدعو المؤلفون إلى نهج دقيق للتعامل مع الأحداث المتداخلة في التجارب غير السلبية، مميزين بين الانحرافات في الممارسة السريرية الروتينية و”الأحداث المتداخلة الخاصة بالتجربة” التي قد تتماشى بشكل مصطنع مع أذرع العلاج. يوصون بتعريف التقديرات بناءً على الاعتبارات السريرية ويقترحون أنه إذا كانت الأحداث المتداخلة الخاصة بالتجربة محتملة وقابلة للتحديد، يجب استخدام استراتيجية افتراضية لتقييم النتائج كما لو لم تحدث هذه الأحداث. يهدف هذا النهج إلى منع الاستنتاجات المضللة بشأن عدم السلبية. توضح الورقة توصيات محددة لتعريف التقديرات والتقديرات، مما يبرز أهمية النظر بعناية في الأحداث المتداخلة الخاصة بالتجربة للحفاظ على صلاحية استنتاجات التجربة.

Journal: Statistics in Medicine, Volume: 44, Issue: 5
DOI: https://doi.org/10.1002/sim.10348
PMID: https://pubmed.ncbi.nlm.nih.gov/39921280
Publication Date: 2025-02-07
Author(s): Katy E. Morgan et al.
Primary Topic: Statistical Methods in Clinical Trials

Overview

In non-inferiority (NI) trials, a significant concern arises from non-adherence, which can lead to an artificial similarity between treatment arms due to poor study conduct. Traditional intention-to-treat analyses may be overly conservative in these scenarios, prompting recommendations for per-protocol analyses. However, such recommendations often overlook the estimands framework and the potential biases introduced by per-protocol analyses. This study aims to refine guidance on NI trials by incorporating the estimands framework and evaluating various estimators to enhance the performance of per-protocol analyses.

The authors identify “trial-specific” intercurrent events (IEs) as a primary threat to the validity of NI trials, emphasizing that these events may not occur in real-world settings. To mitigate the risk of incorrect conclusions regarding non-inferiority, they propose an estimand that utilizes a hypothetical strategy for addressing trial-specific IEs, while the handling of non-trial-specific IEs should be guided by clinical considerations. The paper discusses several estimators suitable for estimating this hypothetical estimand, including inverse probability weighting (IPW) and two instrumental variable approaches—one employing an informative Bayesian prior on the effect of standard treatment and the other utilizing a treatment-by-covariate interaction as an instrument. Through simulations focused on all-or-nothing compliance in two active treatment arms, the authors conclude that both IPW and the Bayesian prior-based instrumental variable method are promising approaches, with the choice between them contingent on the plausibility of underlying assumptions for specific trials.

Methods

In this section, the authors describe the methods employed in a simulation study and a re-analysis of the TOPPS trial to evaluate various estimators for treatment effects in a two-arm randomized noninferiority trial with continuous outcomes. The simulation study aimed to assess bias, precision, and type I error rates of estimators under both fulfilled and violated assumptions, specifically focusing on scenarios of treatment effect heterogeneity (TEH) across compliance levels. Two simulation studies were conducted: one assuming no TEH and the other incorporating TEH, with detailed parameters provided in the Supporting Information. The authors utilized Stata for data generation and analysis, ensuring reproducibility through supplementary code.

For the re-analysis of the TOPPS trial, the authors focused on a secondary outcome—days with bleeding—aligning it with their simulation study’s continuous outcome framework. They adjusted for potential confounders such as relapsed disease and previous stem cell transplantation in both intention-to-treat (ITT) and per-protocol analyses. The inverse probability weighting (IPW) method was applied to account for deviations from the assigned transfusion strategy, while the instrumental variables (IV) approach was employed using baseline covariates to model compliance. The authors also explored Bayesian IV methods with various priors reflecting the effect of prophylaxis versus alternative treatments. The analyses were conducted under strong assumptions, which the authors acknowledge cannot be verified with the trial data, emphasizing the complexity and potential limitations of their estimators.

Results

The results of the simulation study, as detailed in Table 4, reveal significant discrepancies between intention-to-treat (ITT) and per-protocol analyses regarding the number of days with bleeding. The ITT analysis indicated a statistically significant increase in bleeding days, with a difference of 0.6 days (95% CI: 0.2 to 1.0, p = 0.004), while the per-protocol analysis did not show a significant effect (difference of 0.4 days, 95% CI: -0.1 to 0.8, p = 0.11). Additionally, both inverse probability weighting (IPW) and instrumental variables (IV) analyses corroborated the ITT findings, with IPW and IV(Bayes) showing similar results, while IV(Bayes) with a large prior indicated an even greater increase of 1.2 days (95% CI: 0.7 to 1.7).

The variability in results for IV(interaction) was notable, as estimates fluctuated widely based on the baseline covariates used as instruments, ranging from -1.2 to 3.9 days. Some covariates produced estimates that contradicted the ITT and per-protocol results, while others suggested no effect. One particular covariate yielded an estimate approximately 6.5 times larger than the effect observed in the ITT analysis, highlighting the sensitivity of the results to the choice of baseline characteristics.

Discussion

The discussion section of the paper centers on the implications of the TOPPS trial, which evaluated non-inferiority between two platelet transfusion strategies in patients with hematologic cancers. The trial’s findings revealed that while the intention-to-treat (ITT) analysis did not support non-inferiority (adjusted difference of 8.4 percentage points, 90% CI 1.7 to 15.2), the per-protocol analysis indicated non-inferiority (adjusted difference of 4.5, 90% CI -3.0 to 12.0). This discrepancy highlights the potential confounding effects in per-protocol analyses, where a higher proportion of patients with bleeding events were excluded from the non-prophylactic group, suggesting a need for more robust estimators that rely on less stringent assumptions.

The authors advocate for a nuanced approach to handling intercurrent events in non-inferiority trials, distinguishing between routine clinical practice deviations and “trial-specific” intercurrent events that may artificially align treatment arms. They recommend defining estimands based on clinical considerations and suggest that if trial-specific intercurrent events are likely and identifiable, a hypothetical strategy should be employed to assess outcomes as if these events had not occurred. This approach aims to prevent misleading conclusions regarding non-inferiority. The paper outlines specific recommendations for defining estimands and estimators, emphasizing the importance of careful consideration of trial-specific intercurrent events to maintain the validity of trial conclusions.