إطار التقديرات: مقدمة حول الملحق ICH E9(R1) The estimands framework: a primer on the ICH E9(R1) addendum

المجلة: BMJ
DOI: https://doi.org/10.1136/bmj-2023-076316
PMID: https://pubmed.ncbi.nlm.nih.gov/38262663
تاريخ النشر: 2024-01-23

إطار العمل الخاص بالتقديرات: مقدمة عن الملحق ICH E9(R1)

برينان سي كاهان، جوانا هيندلي، مارك إدواردز، سوزي كرو، تيم بي موريس

وحدة التجارب السريرية في MRC في UCL، كلية لندن الجامعية، لندن WC1V 6LJ، المملكة المتحدة
قسم التخدير، مستشفى جامعة ساوثهامبتون، مؤسسة NHS، ساوثهامبتون، المملكة المتحدة
مركز ساوثهامبتون للأبحاث الطبية الحيوية، جامعة ساوثهامبتون، ساوثهامبتون، المملكة المتحدة
وحدة التجارب السريرية الإمبراطورية، مدرسة الصحة العامة، كلية إمبريال لندن، لندن، المملكة المتحدة
المراسلة إلى: ب كاهانb.kahan@ucl.ac.uk
(أو @Brennan_Kahan على تويتر؛ ORCID 0000-0001-9957-0844)
استشهد بهذا كـ: BMJ 2024;384:e076316
http://dx.doi.org/10.1136/
bmj-2023-076316
تم القبول: 07 نوفمبر 2023
يمكن استخدام التقديرات في دراسات التدخلات الصحية لتوضيح تفسير آثار العلاج. يصف الملحق الخاص بإرشادات ICH E9 الموحدة حول المبادئ الإحصائية للتجارب السريرية (ICH E9(R1)) إطار عمل لاستخدام التقديرات كجزء من الدراسة. تقدم هذه الورقة نظرة عامة على إطار العمل الخاص بالتقديرات، كما هو موضح في الملحق، بهدف شرح لماذا تعتبر التقديرات مفيدة؛ وتوضيح المصطلحات المستخدمة؛ وتقديم إرشادات عملية حول استخدام التقديرات لتحديد تصميم الدراسة المناسب، وجمع البيانات، وطرق التقدير. توضح هذه المقالة كيفية استخدام إطار العمل الخاص بالتقديرات من خلال تطبيقه على تجربة جارية في جراحة الأمعاء الطارئة. يمكن أن تكون التقديرات وسيلة مفيدة لتوضيح السؤال البحثي الدقيق الذي يتم تقييمه في دراسة، لتجنب سوء التفسير ولضمان توافق طرق الدراسة مع الأهداف العامة للدراسة.
غالبًا ما تستخدم الدراسات البحثية للإجابة على أسئلة حول تأثير تدخل ما. ومع ذلك، فإن تحديد السؤال البحثي الدقيق الذي يجب طرحه، أو كيفية تصميم الدراسة بشكل أفضل للإجابة على هذا السؤال، يمكن أن يكون تحديًا. اعتبر تجربة FLO-ELA، وهي تجربة عملية تقارن بين طريقتين لتوصيل السوائل (مراقبة الناتج القلبي، حكم الطبيب) في المرضى الذين يخضعون لجراحة الأمعاء الطارئة. بسبب الوقت المطلوب للتحضير للتدخل،

نقاط ملخصة

توفر التقديرات وصفًا منظمًا لتأثير العلاج الذي تهدف الدراسة إلى قياسه
يساعد استخدامها في توافق طرق الدراسة مع أهدافها ويضمن وضوح تفسير تأثير العلاج
يمكن أن تؤثر تصميم الدراسة، وجمع البيانات، وطرق التحليل جميعها على القدرة على تقدير التقديرات المرغوبة، وبالتالي يجب اختيارها مع وضع التقديرات في الاعتبار
يجب الإبلاغ عن التقديرات بشكل روتيني لضمان وضوح السؤال البحثي، وتسهيل التقييم النقدي لطرق الدراسة
تأخير صغير بين العشوائية وبدء الجراحة ضروري، وبالتالي قد يتم إلغاء جراحة بعض المشاركين في FLO-ELA بعد العشوائية، إما لأنهم يصبحون غير أصحاء جدًا أو لأن المشكلة الأساسية قد تم حلها.
نهج قياسي للتجارب العملية هو إجراء تحليل بنية النية للعلاج، والذي سيشمل المشاركين الذين لم يخضعوا للجراحة. ومع ذلك، قد يؤدي النظر في السؤال البحثي إلى تساؤل المحققين حول هذا النهج. يجيب تحليل بنية النية للعلاج على السؤال “ما الفرق بين طرق توصيل السوائل، بغض النظر عما إذا كان المرضى يخضعون للجراحة؟” لأن السوائل تُعطى فقط للمرضى الذين يخضعون للجراحة، فإن الاهتمام عادة ما يكمن في التأثير في هؤلاء المرضى. وبالتالي، قد يكون السؤال البحثي الأكثر صلة هو “ما الفرق بين طرق توصيل السوائل، في المرضى الذين يخضعون فعليًا للجراحة؟” بعد الاستقرار على السؤال الأكثر صلة، يمكن للمحققين بعد ذلك تحديد طريقة تحليل أكثر ملاءمة للإجابة على هذا السؤال.
هنا، إلغاء الجراحة هو مثال على حدث متداخل، والذي يتضمن الأحداث التي تؤثر على العلاج المخصص للمريض (على سبيل المثال، إذا توقفوا عن تناول العلاج مبكرًا، أو تلقوا علاجًا مختلفًا عن الذي كان من المفترض أن يتلقوه). من المهم النظر في كيفية انعكاس مثل هذه الأحداث المتداخلة في السؤال البحثي، لأن الطرق المختلفة للقيام بذلك يمكن أن تؤثر على تفسير النتائج (الصندوق 1). على سبيل المثال، في FLO-ELA، لا يمكن أن يكون للتدخل تأثير في المرضى الذين لا يخضعون للجراحة، وبالتالي فإن تضمين هؤلاء المرضى يسحب التأثير العام للعلاج نحو الصفر، مما يجعل من الصعب تحديد تأثير تدخل مفيد (أو ضار).
توفر التقديرات وسيلة لتوضيح الأسئلة البحثية (الصندوق 2). 14-27 يصف الملحق الخاص بإرشادات ICH E9 الموحدة حول المبادئ الإحصائية للتجارب السريرية (ICH E9(R1)) إطار عمل لإدماج التقديرات في تصميم الدراسة. في هذه الورقة، نقوم بتلخيص إطار العمل الخاص بالتقديرات، كما هو موضح في الملحق ICH E9(R1)، بهدف شرح لماذا تعتبر التقديرات مفيدة؛ وتوضيح المصطلحات المستخدمة؛ وتقديم إرشادات عملية حول استخدام التقديرات لتحديد تصميم الدراسة المناسب، وجمع البيانات، وطرق التقدير. يوفر الصندوق 3 قائمة بالمصطلحات الرئيسية.

إطار العمل الخاص بالتقديرات

تصف التقديرات تأثير العلاج الذي تهدف الدراسة إلى قياسه، ويمكن أن تساعد استخدام التقديرات في توضيح الأسئلة البحثية التي يتم التحقيق فيها (الجدول 1) وضمان استخدام طرق الدراسة المناسبة للإجابة على هذه الأسئلة. إطار العمل الخاص بالتقديرات هو وسيلة لإدماج التقديرات في دراسة لضمان تحقيق هذه الأهداف (الجدول 2).

الصندوق 1: أهمية الأحداث المتداخلة

مثال 1

في دراسة لمقارنة الدوبيلوماب مع الدواء الوهمي لعلاج الربو غير المنضبط، قد يتلقى المرضى في ذراع الدواء الوهمي علاج إنقاذ أكثر من المرضى في ذراع الدوبيلوماب. أين يكمن الاهتمام: في تأثير الدوبيلوماب مقابل الدواء الوهمي عندما يكون الإنقاذ جزءًا من استراتيجيات العلاج، أم في تأثير الدوبيلوماب إذا لم يتلق المرضى إنقاذ؟

مثال 2

في دراسة تقارن بين طريقتين مختلفتين لتوصيل السوائل في المرضى الذين يخضعون لجراحة الأمعاء الطارئة، قد يتم إلغاء جراحة المرضى بعد التسجيل. هل يرغب الباحثون في مقارنة طريقتي توصيل السوائل فقط في هؤلاء المرضى الذين يخضعون فعليًا للجراحة، أم في جميع المرضى بغض النظر عما إذا كانوا يخضعون للجراحة؟

مثال 3

في دراسة تقييم تدخل موسيقي يتم تقديمه من قبل مقدمي الرعاية للأشخاص المصابين بالخرف لتقليل الأعراض بعد 90 يومًا، قد يموت بعض المشاركين قبل اليوم هل يجب على الباحثين استخدام درجة الأعراض النهائية الخاصة بهم قبل وفاتهم لتقييم تأثير التدخل بينما كانوا لا يزالون على قيد الحياة، أم تعيين درجة 90 يومًا لهم قيمة منخفضة، لتعكس أن الموت هو نتيجة سيئة؟

مثال 4

في دراسة لمقارنة التريامسينولون مع الرعاية المعتادة في المرضى الذين يخضعون لجراحة العين، قد يتناول بعض المرضى علاجات إضافية غير مدروسة. هل يجب على الباحثين تقييم تأثير التريامسينولون جنبًا إلى جنب مع هذه العلاجات الإضافية غير المدروسة، أم تأثيره إذا لم يتناول المرضى أي علاجات إضافية؟
تم توضيح إطار العمل الخاص بالتقديرات هنا لأول مرة في الملحق ICH E9(R1). ومع ذلك، تم الاعتراف بمعظم جوانب الإطار (بما في ذلك مفهوم التقديرات، وتحليلات الحساسية، وضمان أن التحليلات الإحصائية تجيب على أسئلة ذات صلة سريرية) كأمور مهمة لسنوات (على سبيل المثال، في دراسة المجلس الوطني للبحوث لعام 2010 حول الوقاية وعلاج البيانات المفقودة في التجارب السريرية، وكذلك في أدبيات الاستدلال السببي). يجمع إطار العمل الخاص بالتقديرات هذه المفاهيم المختلفة تحت إطار عام واحد، ويوفر وسيلة منظمة للتعامل مع كل عنصر باستخدام لغة شائعة لوصف المفاهيم.
في الأقسام التالية، نصف كل جانب من جوانب إطار العمل الخاص بالتقديرات، بما في ذلك ما هي السمات التي تشكل تقديرًا، والنقاط العامة التي يجب مراعاتها عند اختيار استراتيجية للتعامل مع الأحداث المتداخلة، بالإضافة إلى استراتيجيات لتنفيذ إطار العمل الخاص بالتقديرات.

ما هو التقدير؟

يستخدم مصطلح “التقدير” لتحديد السؤال البحثي الذي تهدف الدراسة إلى قياسه، وبالتالي يتم استخدامه على نطاق واسع عبر مختلف التخصصات، من الوصفية
علم الأوبئة لنمذجة التنبؤ. هنا، نصف التقديرات في سياق الدراسات المستخدمة لتقييم التدخلات الصحية.
في هذا السياق، تصف التقديرات تأثير العلاج الذي تهدف الدراسة إلى قياسه لنتيجة معينة. تفعل ذلك باستخدام نهج منظم، مع مصطلحات موحدة. يضمن النهج المنظم أن يتم وصف جميع جوانب تأثير العلاج، بينما يضمن استخدام المصطلحات الموحدة أن تكون التقديرات مفهومة بسهولة. من المهم أن تصف التقديرات تأثيرًا سببيًا للعلاج – أي أنها تصف كيف ستتغير النتائج بين استراتيجيات العلاج المختلفة لنفس مجموعة المشاركين. يتم تعريف تقدير منفصل لكل نتيجة دراسية، على الرغم من أنه بالنسبة لبعض النتائج قد تكون هناك أكثر من تقدير واحد قد يكون ذا أهمية. تسرد الجدول 3 السمات الأساسية الخمس التي تتكون منها التقدير: السكان، ظروف العلاج، النقطة النهائية، مقياس الملخص، والاستراتيجيات المستخدمة للتعامل مع كل نوع من الأحداث المتداخلة في تعريف تأثير العلاج.

الأحداث المتداخلة

الأحداث المتداخلة هي أحداث بعد خط الأساس (أو أحداث بعد التوزيع العشوائي في التجارب العشوائية) التي تؤثر

الصندوق 2: كيف يمكن أن توضح التقديرات أسئلة البحث

  • من المهم فهم نوع تأثير العلاج الذي تهدف الدراسة إلى تقديره. تاريخيًا، تم اعتبار نوعين من الدراسات : الدراسات العملية التي تسعى لتقدير تأثير التدخل في العالم الحقيقي، والدراسات التفسيرية التي تسعى لتقدير تأثير التدخل في ظل ظروف مثالية.
  • ومع ذلك، فإن هذين النموذجين ليسا كافيين لتعريف السؤال البحثي بدقة، لأنه ضمن هذه التعريفات الواسعة توجد نسخ متعددة من تأثير عملي أو تفسيري يمكن تقديره. وبالتالي، دعت الإرشادات الدولية إلى مزيد من الوضوح.
  • توسع التقديرات الإطار المستخدم عادةً (PICO) (السكان، التدخل، المقارن، النتيجة) لتعريف أسئلة البحث من خلال إضافة سمتين إضافيتين: مقياس الملخص، الذي يحدد كيفية تلخيص النتائج ومقارنتها بين العلاجات؛ والاستراتيجيات المستخدمة للتعامل مع كل نوع من الأحداث المتداخلة، التي تحدد كيفية التعامل مع أشياء مثل تبديل العلاج أو انقطاع العلاج في تعريف تأثير العلاج.
  • تُطلب التقديرات الآن في بعض إرشادات التقرير، ويطلب المنظمون الطبيون في أوروبا والولايات المتحدة وكندا وسنغافورة والصين وسويسرا وتايبيه الصينية الآن أن تتضمن الطلبات التنظيمية التقديرات، بينما المنظمون في البرازيل وجمهورية كوريا واليابان في الوقت الحالي في عملية تنفيذ إدراج التقديرات.

الصندوق 3: قائمة بالمصطلحات الرئيسية

  • التقدير: وصف لتأثير العلاج الدقيق الذي تهدف الدراسة إلى قياسه.
  • المقدر: الطريقة الإحصائية المستخدمة لحساب تقدير تأثير العلاج.
  • التقدير: القيمة العددية المحسوبة بواسطة المقدر. على سبيل المثال، في دراسة تُبلغ عن فرق متوسط تقديري بين المجموعات قدره -0.7 ( فترة الثقة -0.3 إلى -1.1)، القيمة -0.7 هي التقدير.
  • تحليل الحساسية: تحليلات مصممة لاستكشاف قوة النتائج الرئيسية من الانحرافات عن الافتراضات الأساسية للمقدر. تستهدف تحليلات الحساسية نفس التقدير مثل المقدر الرئيسي، باستخدام افتراضات مختلفة معقولة.
  • الأحداث المتداخلة: أحداث بعد خط الأساس (أحداث بعد التوزيع العشوائي في التجارب العشوائية) التي تؤثر إما على تفسير بيانات النتائج (مثل، عدم الالتزام بالعلاج أو استخدام علاج إنقاذ) أو وجود بيانات النتائج (مثل، الوفاة إذا لم تُستخدم بالفعل كجزء من تعريف النتيجة). البيانات المفقودة أو فقدان المتابعة ليست أحداثًا متداخلة.
    إما تفسير أو وجود بيانات النتائج (الشكل 1، الصندوق 5). عمومًا، تقع هذه في فئتين متميزتين: أحداث تعديل العلاج وأحداث التقطيع. يمكن أيضًا تعريف أنواع أخرى من الأحداث المتداخلة، لكن استخدامها أقل تكرارًا ولا نعتبرها هنا.
تؤثر أحداث تعديل العلاج على تلقي العلاج المعين. في مثال دراسة الربو الموصوفة في الجدول 1، كان الانقطاع المبكر عن الدوبيلوماب واستخدام علاج الإنقاذ أحداثًا متداخلة تعدل العلاج. قد تكون أمثلة أخرى إذا تلقى المرضى الجرعة الخاطئة من الدوبيلوماب، أو إذا تلقى المرضى في ذراع الدواء الوهمي الدوبيلوماب بدلاً من ذلك. تؤثر هذه الأحداث على تفسير بيانات النتائج لأن النتائج من المشاركين الذين عانوا من الحدث المتداخل قد تقدم معلومات مختلفة عن العلاج مقارنة بالنتائج من المشاركين الذين لم يعانوا من الحدث المتداخل.
تمنع أحداث التقطيع وجود النتيجة. أكثر أحداث التقطيع شيوعًا هي الوفاة (غالبًا ما يُشار إليها بالتقطيع بسبب الوفاة). على سبيل المثال، في مثال دراسة الربو، إذا توفي مريض في الأسبوع 6، فلن توجد قياس حجم الزفير القسري ( ) في الأسبوع 12. من المهم أن القياس في الأسبوع لا يُعتبر بيانات مفقودة، مما يعني أنه كان يمكن جمعه ولكنه لم يُجمع. قد تكون أحداث التقطيع الأخرى
مثل بتر طرف عندما تكون النتيجة درجة عرضية بناءً على ذلك الطرف، أو الإجهاض عندما تكون النتيجة وزن الولادة حديثي الولادة. في إعدادات الوقت حتى الحدث، تُشار إلى أحداث التقطيع التي تمنع حدوث النتيجة المعنية غالبًا على أنها أحداث متنافسة.

استراتيجيات للتعامل مع الأحداث المتداخلة في تعريف التقدير

يجب تعريف استراتيجية للتعامل مع كل نوع من الأحداث المتداخلة المتوقعة كجزء من التقدير. لن تكون جميع الأحداث المحتملة ذات صلة بجميع الدراسات، لذا يجب على الباحثين التفكير بعناية في أنواع الأحداث المتداخلة التي قد تحدث في دراستهم والنظر في الاستراتيجيات المختلفة للتعامل مع مثل هذه الأحداث (الجدول 4). يجب تعريف استراتيجيات الأحداث المتداخلة حسب الحدث بدلاً من الدراسة (أي، يمكن استخدام استراتيجيات مختلفة لأنواع مختلفة من الأحداث المتداخلة في نفس الدراسة). أدناه، نحدد الاستراتيجيات المختلفة التي يمكن استخدامها.

استراتيجية سياسة العلاج

التعريف

تحت استراتيجية سياسة العلاج، يُعتبر حدوث الحدث المتداخل جزءًا من ظروف العلاج. على سبيل المثال، كجزء من تخصيص المشاركين لتدخل معين، يُعترف بأن بعض المشاركين سيتوقفون مبكرًا، وتهتم التأثيرات بالتدخل نظرًا لأنه يمكن أن يؤدي إلى بعض التوقفات المبكرة. وبالتالي، تُستخدم نتائج المشاركين بغض النظر عما إذا كانوا قد عانوا من الحدث المتداخل أم لا.

اعتبارات لأحداث تعديل العلاج

يمكن استخدام استراتيجية سياسة العلاج لتقييم تأثير تدخل إذا تم استخدامه كجزء من الممارسة الروتينية، على الرغم من أنه فقط إذا حدث الحدث المتداخل أيضًا في الممارسة. إذا لم يحدث، فإن استخدام استراتيجية سياسة العلاج لا يعكس الظروف خارج الإعداد البحثي.

اعتبارات لأحداث التقطيع

نظرًا لأن استراتيجية سياسة العلاج تتطلب بيانات النتائج بعد الحدث المتداخل، فلا يمكن استخدامها لأحداث التقطيع.
BMJ: نُشر لأول مرة كـ 10.1136/bmj-2023-076316 في 23 يناير 2024. تم تنزيله منhttps://www.bmj.com/ في 28 أغسطس 2025 بواسطة الضيف. محمي بموجب حقوق الطبع والنشر، بما في ذلك الاستخدامات المتعلقة بتعدين النص والبيانات، وتدريب الذكاء الاصطناعي، والتقنيات المماثلة.
الجدول 1 | مثال على كيفية مساعدة التقديرات الباحثين في فهم السؤال البحثي
وصف الدراسة طرق إحصائية مشاكل فهم السؤال البحثي كيف تفسر التقديرات السؤال البحثي
قارن تجربة الدوبيلوماب مع الدواء الوهمي على حجم الزفير القسري في الأسبوع 12 في مرضى الربو المستمر غير المنضبط. توقف بعض المرضى عن الدوبيلوماب مبكرًا أو تلقوا علاجات إنقاذ للتفاقمات. تم تحليل البيانات على أساس نية العلاج. تم اعتبار بيانات النتائج بعد تلقي علاج الإنقاذ أو انقطاع الدوبيلوماب مفقودة، وتم استخدام نموذج مختلط للقياسات المتكررة لتقدير تأثير العلاج.* لأن الأساليب الإحصائية لا توضح بشكل صريح كيف تتعامل مسألة البحث مع التوقف المبكر عن الدوبيلوماب أو تلقي العلاج الإنقاذي، يجب على القراء استنتاج ذلك.* نظرًا لأن التحليل كان بناءً على نية العلاج، قد يفترضون بشكل غير صحيح أن الاهتمام يكمن في تأثير الدوبيلوماب بغض النظر عن التوقف المبكر أو استخدام العلاج الإنقاذي.
يصف التقدير بشكل صريح كيف يتم التعامل مع التوقف المبكر وتلقي العلاج الإنقاذي في مسألة البحث:
“التقدير هو الفرق في المتوسط في الأسبوع 12 بين الدوبيلوماب بالإضافة إلى الرعاية القياسية مقابل الدواء الوهمي بالإضافة إلى الرعاية القياسية، في المرضى الذين يعانون من الربو المستمر غير المنضبط، إذا استمروا في استخدام الدوبيلوماب طوال فترة التجربة دون استخدام العلاج الإنقاذي.”
الجدول 2 | إطار التقديرات، باستخدام تجربة ASCOT كمثال
الخطوات مثال من تجربة ASCOT* الشرح
1) تحديد التقدير لكل نتيجة دراسية بناءً على هدف الدراسة التقدير الأساسي هو الفرق في نسبة المرضى الذين شهدوا تحسنًا في درجة ETDRS بين الأساس إلى ستة أشهر بمقدار 10 نقاط على الأقل بين التريامسينولون أثناء الجراحة القياسية مقابل الجراحة القياسية وحدها، بغض النظر عن تقاطعات العلاج أو استخدام أي علاجات غير دراسية، في المرضى الذين يخضعون لجراحة زجاجية شبكية بعد إصابة كرة العين المفتوحة. تساعد هذه الخطوة في ضمان أن تكون مسألة البحث محددة بوضوح. في تجربة ASCOT، ينبه التقدير القراء إلى أن الاهتمام يكمن في تأثير التريامسينولون، بغض النظر عن تقاطعات العلاج أو استخدام العلاجات غير الدراسية.
2) اختيار تصميم الدراسة، وجمع البيانات، والأساليب الإحصائية لتمكين تقدير التقديرات المختارة تشير اعتبارات مسألة البحث إلى أنه يجب جمع بيانات النتائج لجميع المرضى، بغض النظر عما إذا كان المرضى يلتزمون بالعلاجات المخصصة لهم أم لا؛ وأن جميع المرضى الذين تتوفر لديهم بيانات النتائج يجب أن يتم تضمينهم في التحليل، بغض النظر عما إذا كانوا يلتزمون أم لا. تضمن هذه الخطوة أن الدراسة ستكون قادرة على الإجابة على كل سؤال تم تحديده. في تجربة ASCOT، كان جمع بيانات النتائج بعد عدم الالتزام، وتضمين جميع المرضى في التحليل ضروريًا لتقدير تأثير التريامسينولون، بغض النظر عن تقاطعات العلاج أو استخدام العلاجات غير الدراسية. وجدت التجربة أن هذه المسألة البحثية المحددة، كان للتريامسينولون تأثير ضئيل (فرق 3.5% (فترة الثقة 95% -8.6% إلى 15.6%)، ).
3) إجراء تحليلات حساسية لتقييم متانة النتائج تجاه الانحرافات عن الافتراضات التي تستند إليها التحليلات الإحصائية نظرًا لأن بيانات النتائج لم تكن متاحة لجميع المرضى، تم استخدام تحليلات الحساسية لاستكشاف ما إذا كانت الافتراضات المختلفة حول البيانات المفقودة قد تؤثر على الاستنتاجات. وجد الباحثون أن الاستنتاجات لم تتغير تحت تحليلات الحساسية. تستخدم هذه الخطوة لتوفير ضمان حول مدى موثوقية نتائج الدراسة. لم تغير تحليلات الحساسية الاستنتاجات في تجربة ASCOT، مما يمنح القراء مزيدًا من الثقة في أن النتائج صحيحة.
*تم تعديل بعض جوانب الدراسة من أجل البساطة.

استراتيجية مركبة

التعريف

تحت استراتيجية مركبة، يتم دمج حدوث الحدث المتداخل في تعريف نقطة النهاية، على سبيل المثال، من خلال تعيين المشاركين الذين يختبرون الحدث قيمة معينة من النتيجة. تعدل الاستراتيجية المركبة سمة نقطة النهاية للتقدير. يمكن استخدام استراتيجيات مركبة مختلفة اعتمادًا على أي قيمة نتيجة يتم تعيينها للمشاركين (على سبيل المثال، في دراسة الربو المثال، يمكن تعيين المشاركين الذين يتوقفون قيمة غير طبيعية معتدلة، قيمة ، أو قيمة غير طبيعية شديدة من ). كل اختيار سي correspond إلى تقدير مختلف.

اعتبارات للأحداث المعدلة للعلاج

تغير الاستراتيجية المركبة تفسير نقطة النهاية، لذا يجب توخي الحذر لضمان عدم تغيير التفسير لدرجة تفقد فيها أهميته السريرية. على سبيل المثال، إذا تم استخدام استراتيجية مركبة في دراسة الربو المثال، فإن تأثير العلاج الناتج لن يمثل الفرق المتوسط في ، بل مزيج من الفروق في كل من معدلات التوقف و القيم، والتي قد لا تكون سهلة التفسير.

اعتبارات للأحداث المقطوعة

يمكن أن تكون الاستراتيجية المركبة وسيلة مفيدة لضمان أن الموت، أو غيرها من الأحداث المقطوعة، يتم تمثيلها كنتائج سيئة. على سبيل المثال، في دراسة كوفيد-19، قد يعاني المرضى الذين يموتون من عدد أقل من الأيام على جهاز التنفس الصناعي؛ استخدام استراتيجية مركبة لتعيين قيمة سيئة للمرضى الذين يموتون (أو بدلاً من ذلك، لإعادة تعريف النتيجة كأيام على قيد الحياة دون جهاز تنفس صناعي) يضمن أن الموت لا يتم تمثيله كنتيجة جيدة.

استراتيجية أثناء العلاج/أثناء الحياة

التعريف

تهدف استراتيجية أثناء العلاج/أثناء الحياة إلى تقييم تأثير التدخل قبل الحدث المتداخل. وبالتالي، يتم استخدام نتائج المشاركين
قبل حدوث الحدث المتداخل.
تعدل استراتيجية أثناء العلاج سمة نقطة النهاية للتقدير. يمكن تعريف استراتيجيات مختلفة أثناء العلاج. على سبيل المثال، يمكن استخدام قيمة النتيجة مباشرة قبل الحدث المتداخل. بديل سيكون استخدام متوسط النتيجة عبر جميع النقاط الزمنية قبل الحدث المتداخل. تعتمد مصطلحات استراتيجية أثناء العلاج على الحدث المتداخل. إذا كان الحدث المتداخل هو الموت، فإنه يُشار إليه كاستراتيجية أثناء الحياة.

اعتبارات للأحداث المعدلة للعلاج

يمكن استخدام استراتيجية أثناء العلاج فقط عندما تكون بيانات النتائج متاحة قبل حدوث الحدث المتداخل. وبالتالي، فهي مناسبة تمامًا للنتائج الثنائية التي يمكن إعادة تعريفها كحدوث الحدث السريري قبل نهاية المتابعة أو الحدث المتداخل، أيهما يحدث أولاً، أو مقاييس النتائج المستمرة التي يتم قياسها بشكل متكرر عبر نقاط زمنية مختلفة.
يمكن أن تقارن هذه الاستراتيجية النتائج في نقاط زمنية مختلفة بين التدخل والرقابة. في دراسة الربو المثال، إذا كانت درجات تزداد سوءًا مع مرور الوقت بغض النظر عن العلاج، وأدى الدوبيلوماب إلى معدلات أعلى من التوقف المبكر، فإن استراتيجية أثناء العلاج قد تظهر تأثيرًا مفيدًا للدوبيلوماب فقط لأن القيم المبكرة تُستخدم بشكل متكرر أكثر في مجموعة الدوبيلوماب مقارنة بمجموعة الدواء الوهمي. وبالتالي، يجب تفسير النتائج في ضوء أي اختلافات في معدلات الأحداث المتداخلة بين العلاجات.

اعتبارات للأحداث المقطوعة

يمكن استخدام استراتيجية أثناء الحياة للأحداث المقطوعة مثل الموت، عندما يكمن الاهتمام في ما حدث للمريض أثناء بقائهم على قيد الحياة. على سبيل المثال، في الرعاية التلطيفية أو دراسات السرطان، قد يكون من المفيد فهم كيف أثر العلاج على جودة حياة المرضى حتى وفاتهم. ومع ذلك، فإن
الاعتبارات المذكورة أعلاه لا تزال تنطبق، لذا يجب تفسير النتائج في ضوء أي اختلافات في معدلات الوفاة بين العلاجات.

استراتيجية افتراضية

التعريف

تحت استراتيجية افتراضية، يتم تصور سيناريو افتراضي حيث لن يحدث (أو سيحدث) الحدث المتداخل، وتستخدم نتائج المشاركين التي تتوافق مع هذا السيناريو الافتراضي. الهدف هو تقييم تأثير العلاج في هذا الإعداد الافتراضي (على سبيل المثال، ما كان سيكون تأثير العلاج لو استمر المرضى في تناول العلاج). في تجربة الربو المثال، إذا توقف المشاركون عن تناول الدوبيلوماب مبكرًا لأنه كان يسبب صداعًا خفيفًا، فقد يكون الإعداد الافتراضي المعني هو إذا كان المشاركون قد استمروا في تناول الدوبيلوماب بمساعدة مسكن خفيف لإدارة صداعهم.
يمكن أن تعدل الاستراتيجية الافتراضية سمة العلاج للتقدير. على سبيل المثال، في الإعداد الافتراضي حيث لا يتوقف المشاركون عن تناول الدوبيلوماب، يتم تغيير سمة العلاج لتقييم الدوبيلوماب تحت الالتزام الافتراضي.

اعتبارات للأحداث المعدلة للعلاج

يجب على الباحثين تحديد الآلية المستخدمة لتجنب الحدث المتزامن في الإعداد الافتراضي، لأنه بدون هذه الآلية لا يكون التقدير محددًا بشكل جيد، وسيكون من المستحيل معرفة ما ينبغي أن تكون عليه نتائج المشاركين. على سبيل المثال، في دراسة الربو المذكورة، قد يؤدي الإعداد الافتراضي حيث يتم إعطاء المشاركين مسكنات للألم لمساعدتهم على الاستمرار في استخدام الدوبيلوماب إلى نتائج مختلفة مقارنةً بإعداد يتم فيه استخدام جرعة أقل من الدوبيلوماب لا تسبب الصداع، أو مقارنةً بتلك الناتجة عن إعداد يستمر فيه الأطباء في استخدام الدوبيلوماب على الرغم من آثاره السلبية. كما أن تعريف الآلية يسهل التقييم النقدي للأهمية السريرية للتقدير. على سبيل المثال، من غير المحتمل أن تكون مسألة بحثية تركز على استمرار الأطباء في استخدام علاج على الرغم من الآثار السلبية ذات معنى سريري.
لهذه الأسباب، ستكون الاستراتيجية الافتراضية عادة الأكثر ملاءمة للأحداث المتداخلة التي يمكن تعديلها، لأن الآلية وراء السيناريو الافتراضي يمكن عادة تعريفها بشكل جيد.

اعتبارات لتقليص الأحداث

كما هو مذكور أعلاه، يجب تعريف الآلية وراء الإعداد الافتراضي. ومع ذلك، نظرًا لأن الأحداث المقطوعة مثل الوفاة عادةً ما تكون غير قابلة للتعديل (أي، لا يمكننا تحديد كيف سيتجنب المرضى في دراسة السرطان الوفاة)، فإنه لا يمكن عادةً تعريف آلية مناسبة.

تعريف استراتيجية الطبقة الرئيسية

تحت استراتيجية الطبقة الرئيسية، يتم إعادة تعريف مجموعة التقدير لتشمل فقط المرضى الذين لن (أو سيقومون) بتجربة الحدث المتداخل. تعدل استراتيجية الطبقة الرئيسية سمة السكان في مجموعة التقدير. يمكن تعريف مجموعات طبقات رئيسية مختلفة. على سبيل المثال، في تجربة الربو، يمكن تعريف المجموعة على أنها المرضى الذين لن يتوقفوا مبكرًا إذا تم تعيينهم إما إلى الدوبيلوماب أو الدواء الوهمي. وعلى العكس، يمكن تعريفها على أنها المشاركين الذين لن يتوقفوا مبكرًا إذا تم تعيينهم للدوبيلوماب، بغض النظر عما إذا كانوا قد تم تعيينهم فعليًا للدوبيلوماب. بالنسبة للأحداث المتداخلة التي تعدل العلاج، يُعرف استخدام استراتيجية الطبقة الرئيسية أحيانًا بتأثير متوسط الالتزام السببي، بينما بالنسبة للأحداث المقطوعة مثل الوفاة، يُعرف غالبًا بتأثير متوسط الناجين السببي.

اعتبارات للأحداث التي تعدل العلاج

في الممارسة العملية، لا يمكننا تحديد أي المرضى ينتمون إلى مجموعة الطبقة الرئيسية في اللحظة التي يتم فيها تعيين العلاج، لأن هذه المعلومات تتطلب معرفة حالة الأحداث المتداخلة المستقبلية لديهم تحت كل استراتيجية علاج. وبالتالي، إذا تم استخدام تأثيرات الطبقة الرئيسية لإبلاغ اتخاذ القرارات السريرية، فقد يتم علاج بعض المرضى خارج مجموعة الطبقة الرئيسية بناءً على هذه النتيجة.
الجدول 3 | الخصائص الأساسية للقياسات
صفة تعريف مثال من تجربة FLO-ELA
السكان المرضى الذين يرغب الباحثون في تقدير تأثير العلاج عليهم المرضى سنوات من العمر الذين سيخضعون لجراحة طارئة في الأمعاء تحت أي تعيين للعلاج
ظروف العلاج استراتيجيات التدخل المختلفة التي تتم مقارنتها في تعريف تأثير العلاج مجموعة التدخل: التعيين للعلاج الهيموديناميكي الموجه بواسطة تدفق الدم القلبي خلال الجراحة ولمدة ست ساعات بعدها، بغض النظر عما إذا تم اتباع مراقبة تدفق الدم القلبي بشكل صحيح؛ مجموعة الرعاية المعتادة: التعيين لاستخدام السوائل الوريدية دون مراقبة تدفق الدم القلبي أو بروتوكول خلال الجراحة، ولمدة ست ساعات بعدها.
نقطة النهاية النتيجة لكل مشارك التي تُستخدم في تعريف تأثير العلاج عدد الأيام التي عاشها المريض خارج المستشفى خلال 90 يومًا من التوزيع العشوائي
مقياس ملخص الطريقة المستخدمة لتلخيص ومقارنة النقطة النهائية بين ظروف العلاج (مثل، نسبة المخاطر، نسبة الأرجحية) نسبة المتوسطات
التعامل مع الأحداث المتزامنة استراتيجيات تُستخدم للتعامل مع كل حدث متداخل* في تعريف تأثير العلاج؛ يمكن استخدام استراتيجيات مختلفة لأنواع مختلفة من الأحداث المتداخلة تم إلغاء الجراحة بعد التوزيع العشوائي (ينطبق على كلا مجموعتي العلاج): الطبقة الرئيسية (مجموعة فرعية من المرضى الذين سيخضعون للجراحة تحت أي تعيين للعلاج)؛ تلقي مراقبة الناتج القلبي (مجموعة الرعاية المعتادة): سياسة العلاج؛ الفشل في بدء مراقبة الناتج القلبي (مجموعة التدخل): سياسة العلاج؛ عدم اتباع خوارزمية مراقبة الناتج القلبي (مجموعة التدخل): سياسة العلاج
الشكل 1 | استراتيجيات مختلفة بشأن الأحداث المتزامنة. في هذا المثال، يقارن تجربة عشوائية التدخل مع التحكم لفهم كيف تختلف النتائج في الشهر الثاني. ومع ذلك، يتوقف أحد المشاركين عن العلاج قبل الشهر الثاني (أي، حدث متزامن). يوضح الشكل ما يحدث لهذا المشارك تحت كل استراتيجية حدث متزامن. بموجب استراتيجية مركبة، قرر الباحثون تخصيص درجة 0 لأي مشارك عانى من حدث متزامن. بموجب استراتيجية أثناء العلاج، نظرًا لأن المشارك عانى من حدث متزامن قبل الشهر الثاني، يتم استخدام درجته في الشهر الأول والتي تبلغ 3 بدلاً من درجته في الشهر الثاني. بموجب استراتيجية افتراضية، يتم استخدام نتيجة المشارك التي كانت ستحدث لو استمر في العلاج في الشهر الثاني (هنا، هي قيمة 9)؛ ولكن في الممارسة العملية، لن تكون هذه القيمة معروفة وبالتالي يجب تقديرها. م=الشهر
لذا يجب اتخاذ الحيطة لضمان أن العلاج لا يسبب ضررًا للأفراد خارج هذه الفئة. على سبيل المثال، إذا كان من المحتمل أن يتسبب الدوبيلوماب في توقف معظم المرضى مبكرًا بسبب آثار جانبية شديدة، ولكن استخدام الدواء يزيد في مجموعة صغيرة يمكنها تحمل ذلك، سيظهر تقدير الطبقة الرئيسية تأثيرًا إيجابيًا، مما قد يؤدي إلى تعرض معظم المرضى الذين يتلقون العلاج لآثار جانبية شديدة.

اعتبارات لتقليص الأحداث

تنطبق الاعتبارات الموضحة أعلاه أيضًا على تقصير الأحداث. علاوة على ذلك، بالنسبة للأحداث مثل الوفاة، فإن استراتيجية الطبقة الرئيسية تعني أن النتائج قبل الوفاة (مثل جودة حياة المشارك أثناء حياته) غير ذات صلة بسؤال البحث.

اختيار المقياس

يجب اختيار المقياس وفقًا لأهداف الدراسة العامة. على سبيل المثال، إذا كان الهدف هو تقييم تأثير التدخل كما هو مستخدم في العالم الحقيقي، في الممارسة السريرية الروتينية، يجب أن يعكس المقياس ذلك. سيتطلب هذا القرار التفكير في الأحداث المتداخلة المحتملة التي قد تحدث ثم تحديد الاستراتيجية المناسبة للتعامل معها.
كل حدث متزامن يتناسب بشكل أفضل مع الأهداف العامة.
سيحتاج اختيار المقياس أيضًا إلى النظر في استراتيجية التقدير (الموصوفة أدناه)، لأن بعض المقاييس يمكن أن يتم تقديرها بشكل أكثر موثوقية من غيرها. على سبيل المثال، قد تتطلب بعض المقاييس افتراضات قوية وغير معقولة من أجل التقدير، أو قد تؤدي إلى كميات أكبر من البيانات المفقودة مقارنةً بخيارات أخرى. لذا، قد يكون من الضروري إجراء بعض التنازلات بين تقدير مثالي لا يمكن تقديره بشكل موثوق وتقدير جيد ولكنه غير مثالي يمكن تقديره بشكل موثوق. وبالتالي، يتطلب اختيار التقدير إجراء عملية تكرارية، قد يتم مراجعتها بعد النظر في طرق الدراسة. من الناحية المثالية، يجب اختيار التقدير بشكل تعاوني بين مختلف أصحاب المصلحة، بما في ذلك المتخصصين في الرعاية الصحية، وعلماء الإحصاء، وممثلي المرضى.

مواءمة طرق الدراسة مع تصميم الدراسة المحدد

يمكن أن يؤثر تصميم الدراسة على القدرة على تقدير الهدف المطلوب. على سبيل المثال، تتطلب تجارب التشغيل الوهمي أن يبدأ جميع المشاركين على العلاج الوهمي. ثم، فقط المشاركون الذين يلتزمون بالعلاج الوهمي

الصندوق 5: الأحداث المتداخلة، انحرافات البروتوكول، والبيانات المفقودة

تعريف الحدث المتداخل واسع، ويشمل عدة مفاهيم متميزة (مثل الأحداث التي تعدل العلاج، والأحداث المقطوعة). نظرًا لبعض التداخل مع مفاهيم شائعة أخرى، قد يكون من الصعب فهم ما هو (وما ليس) حدثًا متداخلًا. نحن نلخص أدناه كيف تختلف الأحداث المتداخلة عن الانحرافات عن البروتوكول والبيانات المفقودة.

انحرافات البروتوكول

بعض الانحرافات عن البروتوكول ولكن ليس كلها يمكن أن تكون أيضًا أحداث متداخلة. يعتمد وضع الحدث المتداخل على ما إذا كان الانحراف عن البروتوكول يؤثر على العلاج المعين. إذا كان يؤثر على العلاج المعين (مثل تلقي علاج دوائي محظور)، فإن الانحراف يعتبر أيضًا حدثًا متداخلًا؛ إذا لم يؤثر (مثل عدم الحصول على موافقة مستنيرة صحيحة)، فإن الانحراف عادةً لا يعتبر حدثًا متداخلًا.
وبالمثل، بعض الأحداث المتداخلة ولكن ليس كلها يمكن أن تكون أيضًا انحرافات عن البروتوكول. سيعتمد وضع الانحراف عن البروتوكول على ما إذا كان الحدث المتداخل مسموحًا به بموجب البروتوكول. على سبيل المثال، إذا كان البروتوكول يسمح للمرضى بتعديل أو إيقاف العلاج استجابةً لحدث سلبي، فإن هذا الحدث ليس انحرافًا. ومع ذلك، إذا تلقى مشارك علاجًا دوائيًا محظورًا بموجب البروتوكول، فإن هذا الحدث يعتبر انحرافًا.

بيانات مفقودة

فقدان المتابعة، انسحاب الدراسة، والبيانات المفقودة تحدث غالبًا جنبًا إلى جنب مع بعض الأحداث المتداخلة، لكنها ليست أحداثًا متداخلة في حد ذاتها. على سبيل المثال، قد ينسحب المشاركون الذين يوقفون العلاج مبكرًا من الدراسة أيضًا. ومع ذلك، فإن انقطاع العلاج هو ما يؤثر على تفسيرنا لبيانات النتائج، وليس الانسحاب من الدراسة (الذي يطرح ببساطة مشكلة البيانات المفقودة التي تحتاج إلى معالجة كجزء من التحليل الإحصائي، ولكن ليس كجزء من تعريف التقدير).
يتم توزيعهم عشوائيًا للبقاء على العلاج الوهمي أو التحول إلى التدخل. يسهل هذا التصميم تقدير تأثير العلاج ببساطة في مجموعة المرضى الذين سيلتزمون بالعلاج الوهمي إذا تم تعيينهم (أي، يستخدم استراتيجية الطبقة الرئيسية). ومع ذلك، فإن اختيار الاستراتيجية للتعامل مع مثل هذا عدم الالتزام مقيد بالتصميم، لذا يمكن استخدام استراتيجية الطبقة الرئيسية فقط.
بشكل عام، يجب تصميم الدراسات التي تهدف إلى تقدير تأثير التدخل إذا تم استخدامه كجزء من الممارسة الروتينية للحد من حدوث الأحداث المتداخلة التي لن تحدث في الممارسة. على سبيل المثال، إذا لم يكن علاج الإنقاذ التجريبي متاحًا بشكل روتيني، فلا ينبغي أن يتاح للمشاركين في الدراسة، لأن القيام بذلك سيؤدي إلى مقارنة علاجية لا تعكس الممارسة المعتادة. على العكس من ذلك، يجب ألا تكون هذه الدراسات
مصممة لتقليل حدوث الأحداث المتداخلة التي ستحدث في الممارسة لأن هذا التصميم يمكن أن يؤدي أيضًا إلى مقارنات لا تعكس الممارسة الروتينية.

جمع البيانات

يلعب جمع البيانات دورًا أساسيًا في تحديد أي التقديرات يمكن تقديرها، ومدى موثوقيتها. لذلك، في بداية الدراسة، يجب على الباحثين تحديد البيانات المطلوبة لدعم تقدير كل تقدير والتأكد من جمعها. على سبيل المثال، تتطلب استراتيجية سياسة العلاج جمع بيانات النتائج حتى بعد حدوث الحدث المتداخل، بينما تتطلب استراتيجيات أثناء العلاج/أثناء الحياة جمع بيانات النتائج قبل حدوث الحدث المتداخل. مشابهة
الجدول 4 | استراتيجيات للتعامل مع الأحداث المتداخلة في تعريف التقدير
استراتيجية تعريف نقاط يجب مراعاتها
سياسة العلاج يعتبر الحدث المتداخل جزءًا من استراتيجية العلاج، لذا يتم استخدام النتائج سواء حدث الحدث المتداخل أم لا لا يمكن استخدامها لتقليص الأحداث المتداخلة، مثل الوفاة
يمكن استخدامها لتقييم التدخل إذا تم استخدامه كجزء من الممارسة الروتينية، بشرط أن يكون الحدث المتداخل المعني سيحدث في الممارسة الروتينية وكذلك في بيئة الدراسة
تركيبي يتم دمج الحدث المتداخل في تعريف النتيجة، ويتم تعيين المشاركين الذين يختبرون الحدث المتداخل إلى قيمة نتيجة معينة يعدل خاصية نقطة النهاية للتقدير
يغير تفسير التقدير ليشمل تأثير العلاج على حدوث الحدث المتداخل
يمكن تعريف تقديرات تركيبية مختلفة بناءً على اختيار القيمة المعينة للنتيجة
يجب ألا تستخدم للأحداث المتداخلة التي تؤثر فقط على مجموعة علاج واحدة، لأن هذا الإجراء ينطوي على تعريف النتيجة بشكل مختلف بين العلاجات، مما قد يقدم اختلافات مصطنعة
أثناء العلاج/أثناء الحياة النتيجة قبل حدوث الحدث المتداخل هي موضع اهتمام يعدل خاصية نقطة النهاية للتقدير
يمكن تعريف تقديرات مختلفة أثناء العلاج/أثناء الحياة، اعتمادًا على أي النتائج تستخدم قبل حدوث الحدث المتداخل
يمكن أن تقارن هذه الاستراتيجية النتائج في نقاط زمنية مختلفة بين مجموعات العلاج، مما قد يجعل التدخل يبدو فعالًا (أو ضارًا) حتى عندما لا يكون له تأثير مباشر على النتيجة
افتراضي النتيجة المتعلقة بإعداد افتراضي حيث لن يحدث (أو سيحدث) الحدث المتداخل هي موضع اهتمام يمكن أن تعدل خاصية العلاج للتقدير
يمكن أن تنطبق إعدادات افتراضية متعددة، لذا يجب وصف الإعداد الافتراضي الدقيق المتصور
يجب تبرير كيفية حدوث الإعداد الافتراضي، لضمان أن التقدير محدد جيدًا ولتسهيل التقييم النقدي لأهمية التقدير السريرية
الطبقة الرئيسية النتيجة في مجموعة فرعية من المرضى الذين لن (أو سيختبرون) الحدث المتداخل هي موضع اهتمام يعدل خاصية السكان للتقدير
يمكن تعريف مجموعات طبقة رئيسية مختلفة – على سبيل المثال، المشاركون الذين لن يوقفوا أي علاج معين مقابل أولئك الذين لن يوقفوا إذا تم تعيينهم للتدخل
توجد اعتبارات لتقدير الاستراتيجيات الافتراضية واستراتيجيات الطبقة الرئيسية. 50-52

التقدير

تعتمد الطريقة المناسبة للتحليل الإحصائي (المقدر ) على الاستراتيجيات التي تم تحديدها للتعامل مع كل حدث متداخل. يتم تقديم نظرة عامة موجزة عن المقدرون المختلفون في الجدول 5، جنبًا إلى جنب مع المراجع للمقالات التي تقدم وصفًا أكثر تفصيلًا لكيفية تنفيذ طرق معينة.
في غياب البيانات المفقودة، يمكن تقدير سياسة العلاج، والتركيبية، واستراتيجيات أثناء العلاج/أثناء الحياة من تجربة عشوائية مع افتراضات قليلة. على العكس من ذلك، يتطلب تقدير الاستراتيجيات الافتراضية أو استراتيجيات الطبقة الرئيسية افتراضات أقوى، والتي لا يمكن التحقق منها باستخدام بيانات الدراسة. تحتاج هذه الحاجة إلى افتراضات أقوى لأن البيانات المطلوبة (مثل نتيجة المشارك في الإعداد الافتراضي المعني أو ما إذا كانوا ينتمون إلى مجموعة الطبقة الرئيسية) غير معروفة، وبالتالي تتطلب افتراضات حول ما قد تكون هذه البيانات. لذلك، يمكن أن يكون تقدير هذه الاستراتيجيات أحيانًا أقل موثوقية (أي، أكثر عرضة للتحيز) من تقدير الاستراتيجيات الثلاثة الأولى للأحداث المتداخلة. في الدراسات غير العشوائية أو الدراسات التي تحتوي على بيانات مفقودة، سيتطلب تقدير جميع الاستراتيجيات عادةً افتراضات إضافية – على سبيل المثال، حول التداخل أو طبيعة البيانات المفقودة.

تحليلات الحساسية

تجري العديد من التحليلات بعض الافتراضات حول بيانات الدراسة، وعندما لا يتم الوفاء بهذه الافتراضات، قد تنتج تقديرات متحيزة (أي، غير صحيحة) لتأثير العلاج. تستخدم تحليلات الحساسية لتقييم قوة النتائج تجاه الانحرافات عن هذه الافتراضات، من أجل إبلاغ الباحثين والقراء حول موثوقية النتائج. على سبيل المثال، إذا
أظهرت تحليلات الحساسية نتائج مشابهة للنتائج الرئيسية، يمكن أن يكون لدى الباحثين ثقة أكبر في استنتاجاتهم. من المهم أن تستهدف تحليلات الحساسية نفس التقدير مثل التحليل الرئيسي، لأن الحصول على إجابة مختلفة لسؤال مختلف لا يعطي أي مؤشر حول قوة النتائج.

مثال 1: تطبيق إطار التقديرات على تجربة FLO-ELA

نحن الآن نوضح كيف يمكن تنفيذ إطار التقديرات باستخدام تجربة FLO-ELA، التي تم وصفها سابقًا. كانت FLO-ELA تجربة مفتوحة، عملية تقارن بين طريقتين لتوصيل السوائل (مراقبة الناتج القلبي حكم الأطباء في المرضى الذين يخضعون لجراحة طارئة في الأمعاء. كانت مقياس النتيجة الرئيسي هو عدد الأيام التي كان فيها المشاركون على قيد الحياة وخارج المستشفى، خلال 90 يومًا من التوزيع العشوائي. نصف أدناه الخطوات المختلفة لإطار التقديرات. من أجل الوضوح، قمنا بتبسيط عدة جوانب من التجربة.

اختيار التقدير

كان هدف FLO-ELA هو تقييم تأثير خوارزمية العلاج باستخدام جهاز مراقبة الناتج القلبي (COM) إذا تم استخدامه كجزء من الممارسة الروتينية في الحياة الواقعية. وبالتالي، يجب أن تعكس خيارات خصائص التقدير والاستراتيجيات للتعامل مع الأحداث المتداخلة الممارسة الحياتية.
يتطلب تعريف التقدير تحديد الخصائص الأربعة الأولى (السكان، العلاجات، نقطة النهاية، مقياس الملخص)، ثم توقع الأحداث المتداخلة التي من المحتمل أن تحدث وتحديد الاستراتيجيات التي ستستخدم للتعامل مع كل نوع من الأحداث المتداخلة.
كانت الأحداث المتداخلة المحتملة في FLO-ELA تُعتبر (1) قد يتم إلغاء الجراحة بعد التوزيع العشوائي لبعض المشاركين، إما لأنهم أصبحوا غير أصحاء جدًا أو أن المشكلة الأساسية قد تم حلها؛ (2)
الجدول 5 | نظرة عامة على طرق التقدير المستخدمة لاستراتيجيات الأحداث المتداخلة المختلفة
استراتيجية الحدث المتداخل وصف طرق التقدير*
سياسة العلاج يتم تقديرها من خلال تضمين نتائج المشاركين في التحليل بغض النظر عن حدوث الحدث المتداخل.
تركيبي يتم تقديرها من خلال تعديل نقطة النهاية أولاً لجعلها تركيبة، ثم تضمين هذه النقطة المعدلة في التحليل.
أثناء العلاج/أثناء الحياة يتم تقديرها من خلال تعديل نقطة النهاية أولاً (على سبيل المثال، باستخدام بيانات النتائج من قبل الحدث المتداخل بدلاً من بيانات النتائج النهائية)، ثم تضمين هذه النقطة المعدلة في التحليل.
يجب ألا يتم اعتبار بيانات النتائج بعد الحدث المتداخل مفقودة، لأن القيام بذلك يمكن أن يؤدي إلى استبعاد بعض المشاركين من التحليل، مما يمكن أن يؤدي إلى تحيز؛ أو يؤدي إلى نماذج إحصائية معينة، مثل النماذج المختلطة للقياسات المتكررة أو نموذج كوكس، إلى تقدير بيانات النتائج بعد الحدث المتداخل بشكل ضمني. ستقدر هذه التقديرات الضمنية استراتيجية افتراضية.
افتراضية يمكن استخدام طرق مختلفة لتقدير الاستراتيجية الافتراضية.
نهج شائع هو اعتبار بيانات النتائج بعد الأحداث المتداخلة كبيانات مفقودة، ثم استخدام طريقة (مثل وزن الاحتمالية العكسية، أو التقدير المتعدد، أو التحليلات المعتمدة على الاحتمالية) لمحاولة إعادة إنشاء ما كانت ستبدو عليه بيانات النتائج المفقودة، لو لم يحدث الحدث المتداخل.
تم وصف طرق بديلة، مثل المتغيرات الآلية أو تقدير g.
يتطلب تقدير الاستراتيجية الافتراضية افتراضات لا يمكن اختبارها باستخدام بيانات الدراسة. تتطلب طرق مختلفة افتراضات مختلفة، لذا قد تختلف الطريقة الأكثر ملاءمة من دراسة إلى أخرى اعتمادًا على مجموعة الافتراضات الأكثر واقعية.
الطبقة الرئيسية يمكن استخدام طرق مختلفة لتقدير استراتيجية الطبقة الرئيسية، وكل منها يتطلب افتراضات مختلفة. تقدم عدة مراجع نظرة عامة.
عندما لا يتأثر الحدث المتداخل بتعيين العلاج (أي، لا يوجد مرضى سيختبرون الحدث في ذراع علاج واحدة ولكن ليس في الذراع الأخرى)، فإن نهجًا بسيطًا هو استبعاد المرضى الذين يختبرون الحدث المتداخل من التحليل.
يمكن استخدام المتغيرات الآلية في العديد من الإعدادات عندما يتأثر حدوث الحدث المتداخل بتعيين العلاج.
عادة ما تتطلب الطرق الأكثر تعقيدًا عندما يكون الحدث المتداخل هو الوفاة – على سبيل المثال، تلك الأحداث التي تتضمن المتغيرات الأساسية للمساعدة في تحديد الطبقات الرئيسية.
قد يتم علاج المشاركين في مجموعة الرعاية المعتادة باستخدام COM؛ (3) قد لا يتم علاج المشاركين في مجموعة التدخل باستخدام COM؛ و (4) قد يتم استخدام COM بشكل غير صحيح (أي، عدم اتباع الخوارزمية).
تم اختيار استراتيجية سياسة العلاج للأحداث المتداخلة 3 و 4 أعلاه (أي، عدم استخدام COM، أو استخدامه بشكل غير صحيح لمشاركي مجموعة التدخل)؛ تعكس هذه الاختيار الاستراتيجي أن هذه الأحداث المتداخلة قد تحدث في الممارسة ويمكن اعتبارها جزءًا جوهريًا من العلاج.
نظرًا لأن الممارسة الحالية للرعاية القياسية لا تتضمن استخدام COM، فإن السماح للمشاركين في مجموعة الرعاية المعتادة باستخدام COM لا يعكس الممارسة الروتينية. لذلك، ستكون الاستراتيجية الافتراضية، التي تتصور إعدادًا حيث لم يتم علاج المشاركين في مجموعة الرعاية المعتادة باستخدام COM، هي الأكثر ملاءمة. ومع ذلك، من المحتمل أن يؤثر هذا الحدث المتداخل على عدد قليل فقط من المشاركين. نظرًا للتحديات الجوهرية في تقدير الاستراتيجيات الافتراضية، تم اختيار استراتيجية سياسة العلاج بدلاً من ذلك لتبسيط التحليل، على افتراض أنه لن يكون له تأثير مادي على النتائج، نظرًا لعدد الأحداث المتوقع المنخفض.
كما تم مناقشته سابقًا، على الرغم من أن إلغاء الجراحة سيحدث في الممارسة، فإن استراتيجية سياسة العلاج لن تكون مناسبة كوسيلة لتقييم تأثير COM كما هو مستخدم في الممارسة. يمكن استخدام COM فقط للمرضى الذين يخضعون للجراحة، وبالتالي فإن الاهتمام يكمن بشكل طبيعي في تأثيره على هؤلاء المرضى. ومع ذلك، ستوفر استراتيجية سياسة العلاج تأثير COM بغض النظر عما إذا كان المرضى قد خضعوا للجراحة أم لا. وبالتالي، فإن استراتيجية الطبقة الرئيسية المستندة إلى مجموعة فرعية من المرضى الذين سيخضعون للجراحة، بغض النظر عن تعيين العلاج، هي الأكثر ملاءمة. يمكن أيضًا تقدير هذه الاستراتيجية بسهولة، كما هو موضح أدناه.
هنا، أثر التعامل مع الأحداث المتداخلة على تعريف خاصية السكان من خلال توضيح أن الاهتمام يكمن في المرضى الذين سيخضعون لجراحة طارئة في الأمعاء تحت تعيين أي علاج. كما أثر أيضًا على خاصية العلاج، من خلال توضيح أن الاهتمام يكمن في استخدام COM بغض النظر عما إذا تم استخدامه تمامًا كما هو محدد.
يتم وصف التقدير الكامل في الجدول 3، ويمكن كتابته كالتالي: “التقدير للنتيجة الرئيسية (DAOH90) هو نسبة متوسطات الأيام التي كانت فيها الحياة وخارج المستشفى خلال 90 يومًا من التوزيع العشوائي بين العلاج الموجه بواسطة الناتج القلبي مقابل الرعاية المعتادة (السائل الوريدي المقدم دون استخدام مراقبة الناتج القلبي)، بغض النظر عن الالتزام في ذراع المراقبة القلبية أو استخدام المراقبة القلبية في ذراع التحكم، في المرضى الذين تتراوح أعمارهم بين سنوات الذين سيخضعون لجراحة طارئة في الأمعاء تحت تعيين أي علاج.”

تصميم الدراسة، جمع البيانات، والتقدير

تجربة قياسية، ذراعين، مجموعة متوازية كافية للتعامل مع التقدير في الجدول 3. لضمان أن
كان السكان التجريبيون ممثلين عن سكان التقدير، يمكن وضع استراتيجيات توظيف محددة لتسهيل توظيف المجموعات غير الممثلة، مثل أولئك الذين يقدمون خارج ساعات العمل العادية، وأولئك الذين يفتقرون إلى القدرة على الموافقة (على سبيل المثال، بسبب الألم الشديد، أو استخدام مسكنات الألم الأفيونية). من الناحية المثالية، يجب أيضًا تصميم التجربة للحد من عدد المشاركين المسجلين الذين يتم إلغاء جراحتهم، على سبيل المثال، من خلال توزيع المشاركين بالقرب من بداية الجراحة قدر الإمكان. ومع ذلك، في الممارسة العملية، فإن التأخير الصغير بين التوزيع العشوائي والجراحة أمر لا مفر منه، بسبب التعقيدات المرتبطة بإعداد التدخل.
تشمل بيانات النتائج المطلوبة للتقدير النتائج حتى بعد حدوث الأحداث المتداخلة التي يتم استخدام استراتيجية سياسة العلاج لها. يجب أيضًا جمع حدوث ما إذا كان المشاركون قد خضعوا للجراحة أم لا لتسهيل تقدير استراتيجية الطبقة الرئيسية.
يمكن تقدير التقدير في الجدول 3 بطريقة مباشرة. ستكون مجموعة التحليل جميع المرضى الذين تم توزيعهم عشوائيًا والذين لم يتم إلغاء جراحتهم. سيتم استبعاد المرضى الذين تم إلغاء جراحتهم من التحليل. هذا الاستبعاد يهدف إلى تقدير استراتيجية الطبقة الرئيسية المتعلقة بالحدث المتداخل لإلغاء الجراحة. , مما يتطلب افتراض أن إلغاء الجراحة لا يتأثر بذراع العلاج (أي أن المرضى الذين يخضعون للجراحة تحت ذراع التدخل كانوا سيفعلون ذلك أيضًا تحت ذراع الرعاية المعتادة، والعكس صحيح). هذا الافتراض مبرر من الناحية السياقية (أي أنه من غير المعقول أن يلغي طبيب الجراحة العملية بناءً على طريقة توصيل السوائل).

تحليلات الحساسية

الافتراض الرئيسي الذي يستند إليه التحليل الموصوف أعلاه يتعلق بالنهج المستخدم لتقدير تأثير الطبقة الرئيسية، حيث يتم استبعاد المشاركين الذين لم يخضعوا للجراحة. الافتراض المطلوب، الموصوف أعلاه، مبرر من الناحية السياقية، لذا لا تتطلب التحليلات الرسمية للحساسية. إذا كانت البيانات مفقودة، فإن التحليل سيتطلب افتراضات إضافية، مما سيتطلب تحليلات حساسية (على سبيل المثال، لاستكشاف ما إذا كانت الاستنتاجات تتأثر بموجب افتراضات مختلفة حول البيانات المفقودة).

مثال 2: تطبيق إطار التقديرات على جودة الحياة في تجربة سرطان

طور الباحثون علاجًا دوائيًا جديدًا لسرطان البروستاتا. يخططون لإجراء تجربة عملية من المرحلة الثالثة لتقييم تدخلهم الجديد مقابل الرعاية المعتادة، ويتوقعون أن يؤدي ذلك إلى مكاسب متواضعة في البقاء العام تبلغ حوالي ثلاثة أشهر. ومع ذلك، فإنهم قلقون من أنه، بسبب زيادة السمية، قد يقلل التدخل الجديد من جودة الحياة. لذلك، يرغبون في مقارنة متوسط درجة جودة الحياة لكل مريض (المقاسة
شهريًا) على مدار عام بين العلاجات حتى يفهم المرضى والمهنيون الصحيون الفوائد والأضرار النسبية للتدخل.

اختيار التقدير

الهدف من التجربة هو تقييم تأثير التدخل الجديد كما هو مستخدم في الممارسة الروتينية، لذا يمكن التعامل مع الأحداث المتداخلة (مثل إيقاف العلاج، الجرعات الفائتة، أو الانتقال إلى علاجات من الخط الثاني) باستخدام استراتيجية سياسة العلاج. ومع ذلك، سيموت بعض المرضى قبل مرور عام، لذا فإن درجات جودة حياتهم غير محددة بعد النقطة التي يموتون فيها. نظرًا لأن استراتيجية سياسة العلاج لا يمكن استخدامها لتقليص الأحداث، يجب على الباحثين أن يقرروا أي استراتيجية بديلة يجب استخدامها.
تعتبر استراتيجية افتراضية السؤال “ما الفرق في متوسط جودة الحياة على مدار عام إذا لم يمت الرجال المصابون بسرطان البروستاتا أبدًا؟” ومع ذلك، لا يتطابق هذا السؤال مع هدف التجربة، لأن الإعداد الافتراضي المدروس لا يتطابق مع ما يحدث في الحياة الواقعية. علاوة على ذلك، لا يوجد آلية لتجنب الموت، وبالتالي فإن التقدير نفسه غير محدد بشكل جيد، مما يعني أن أي تقديرات تنتجها التجربة ستكون صعبة التفسير.
تعتبر استراتيجية الطبقة الرئيسية السؤال “ما الفرق في متوسط جودة الحياة على مدار عام في مجموعة الرجال الذين سيبقون على قيد الحياة بعد عام واحد على أي علاج؟” كما هو مذكور أعلاه، لا يتطابق هذا السؤال مع هدف التجربة، لأن الباحثين مهتمون بتأثير التدخل على جودة الحياة في جميع المرضى، حتى أولئك الذين يموتون.
بعد ذلك، ينظر الباحثون في استراتيجية مركبة، حيث يتم تعيين درجة جودة حياة قدرها 0 للمرضى بعد وفاتهم. يعتقد الباحثون أن هذه الاستراتيجية تتطابق بشكل عام مع هدفهم، لكنهم قلقون من أن الاختلافات في جودة الحياة بسبب سمية التدخل قد يتم إخفاؤها بسبب انخفاض حدوث الحدث المتداخل، وبالتالي قد تكون النتائج صعبة التفسير.
أخيرًا، ينظر الباحثون في استراتيجية أثناء الحياة، التي تبحث في السؤال “ما الفرق في متوسط جودة الحياة على مدار عام أو حتى يموت المريض، أيهما يأتي أولاً؟” نظرًا لأن هذه الاستراتيجية تشمل درجات جودة الحياة من المرضى الذين يموتون (أي، باستخدام متوسط درجتهم قبل نقطة الموت) فإنها تنطبق على جميع المرضى، لذا يعتقد الباحثون أنها تتطابق جيدًا مع هدفهم. ومع ذلك، فإن الباحثين قلقون من أن أي اتجاهات زمنية أساسية (على سبيل المثال، انخفاض جودة الحياة مع مرور الوقت، بغض النظر عن ذراع العلاج) قد تؤثر على النتائج، نظرًا للزيادة المتوقعة في البقاء في ذراع التدخل.
بعد دراسة متأنية، يختار الباحثون استراتيجية أثناء الحياة، لأنها تتطابق بشكل أفضل مع أهدافهم، وتفوق فوائد الاستراتيجية عيوبها. ومع ذلك، سيكون الباحثون حذرين في تفسير النتائج في ضوء أي اختلافات في معدلات الوفيات بين أذرع العلاج. يمكن بعد ذلك كتابة التقدير الكامل على النحو التالي: “التقدير هو الفرق في متوسط درجات جودة الحياة العالمية (المقاسة شهريًا باستخدام EORTC QLQ-C30)
على مدار عام أو حتى الموت، أيهما يحدث أولاً، بين التدخل بالإضافة إلى الرعاية المعتادة مقابل الرعاية المعتادة وحدها، بغض النظر عما إذا كان المرضى يتوقفون عن العلاج مبكرًا، أو ينتقلون إلى علاجات بديلة، أو يفوتون أي جرعات علاج، في الرجال الذين تتراوح أعمارهم بين سنوات مع سرطان البروستاتا.”

تصميم الدراسة، جمع البيانات، والتقدير

نظرًا لأن استراتيجية أثناء الحياة تتطلب بيانات النتائج قبل الحدث المتداخل، يخطط الباحثون لجمع درجات جودة الحياة أسبوعيًا لمدة الأسابيع الأربعة الأولى، ثم شهريًا بعد ذلك.
التقدير بسيط. يتم حساب النتيجة من خلال أخذ متوسط درجات جودة الحياة لكل مريض على مدار عام، أو حتى النقطة التي ماتوا فيها، ويمكن تقدير الفرق بين الأذرع من خلال تضمين جميع المرضى العشوائيين (حتى أولئك الذين لديهم أحداث متداخلة أخرى، مثل إيقاف العلاج أو الانتقال) في نموذج انحدار. من المهم، عدم استخدام الطرق التي تضمن ضمنيًا بيانات النتائج، مثل النماذج المختلطة للقياسات المتكررة (الجدول 5).

تحليلات الحساسية

في غياب البيانات المفقودة، لا يتطلب المقدّر الموصوف أعلاه أي افتراضات قوية. إذا كانت بعض البيانات مفقودة، فسيتطلب المقدّر افتراضات حول طبيعة البيانات المفقودة (على سبيل المثال، مفقودة بشكل عشوائي)، وبالتالي يمكن استخدام تحليلات الحساسية لتقييم ما إذا كانت الاستنتاجات تتغير بموجب افتراضات مختلفة.

المناقشة

فهم السؤال البحثي الدقيق الذي يتم الإجابة عليه في دراسة ما أمر ضروري لتفسير النتائج بشكل مناسب. لكن معظم الدراسات لا تحدد بوضوح السؤال البحثي، حتى عندما يحاول الباحثون وصفه باستخدام الأطر الموجودة، مثل تصنيف الدراسة على أنها عملية أو تفسيرية، أو استخدام إطار PICO (السكان، التدخل، المقارن، النتيجة). هذه الافتقار إلى التعريف هو لأن هذه الأطر تترك معلومات رئيسية ضرورية للتفسير الصحيح للسؤال البحثي.
إطار التقديرات يحل هذه المشكلات من خلال توسيع إطار PICO ليشمل سمات إضافية أساسية. يمكن استخدام التقديرات لتوضيح التفسير الدقيق للأسئلة البحثية من خلال مطالبة الباحثين بوصف كل سمة من سمات تأثير العلاج (أو العلاجات) التي يرغبون في قياسها. من خلال ضمان وصف الأسئلة البحثية بوضوح، يمكن أن تساعد التقديرات أصحاب المصلحة الخارجيين في اتخاذ قرارات مستنيرة بشأن التدخلات، من خلال تجنب التفسيرات الخاطئة لنتائج الدراسة. يمكن أن تساعد التقديرات أيضًا الباحثين في التأكد من أنهم يستخدمون طرقًا مناسبة في دراستهم بالنسبة للسؤال البحثي الذي اختاروه.
في هذه المقالة، وصفنا إطار التقديرات الموصوف في الملحق ICHE9(R1)، الذي تم اعتماده الآن من قبل الجهات التنظيمية للأدوية في جميع أنحاء العالم. ومع ذلك، توجد أطر أخرى لوصف تأثيرات العلاج. بينما الهيكل المقدم من قبل
BMJ: تم نشره لأول مرة كـ 10.1136/bmj-2023-076316 في 23 يناير 2024. تم تنزيله من https://www.bmj.com/ في 28 أغسطس 2025 بواسطة الضيف. محمي بموجب حقوق الطبع والنشر، بما في ذلك الاستخدامات المتعلقة بتعدين النص والبيانات، وتدريب الذكاء الاصطناعي، والتقنيات المماثلة.
إطار التقديرات مفيد، لكن الشيء الأكثر أهمية هو ضمان وصف السؤال البحثي بتفصيل كافٍ يسمح للآخرين بفهم ما تحاول الدراسة تقديره، بغض النظر عن الإطار المحدد المستخدم.
المساهمون: ساهم SC وTPM بالتساوي. كتب BCK المسودة الأولى من المخطوطة. قام جميع المؤلفين بمراجعة المخطوطة، وقرأوا ووافقوا على النسخة النهائية من المخطوطة. يعمل BCK كضامن. يؤكد المؤلف المراسل أن جميع المؤلفين المدرجين يستوفون معايير التأليف وأنه لم يتم استبعاد أي شخص آخر يستوفي المعايير.
التمويل: يتم تمويل BCK وJH وTPM من قبل مجلس الأبحاث الطبية في المملكة المتحدة (المنح MC_UU_00004/07 وMC_UU_00004/09). يتم تمويل SC من قبل زمالة متقدمة من المعهد الوطني للبحوث الصحية والرعاية (NIHR) (المرجع NIHR300593) لهذا المشروع البحثي. الآراء المعبر عنها في هذه المنشورة هي آراء المؤلفين وليست بالضرورة آراء المعهد الوطني للبحوث الصحية والرعاية. لم يكن للجهات الممولة أي دور في تصميم وإجراء الدراسة؛ جمع وإدارة وتحليل وتفسير البيانات؛ إعداد ومراجعة أو الموافقة على المخطوطة؛ وقرار تقديم المخطوطة للنشر.
المصالح المت competing: جميع المؤلفين قد أكملوا نموذج الإفصاح الموحد ICMJE فيhttps://www.icmje.org/disclosure-of-interest/ويعلنون: الدعم من مجلس البحوث الطبية في المملكة المتحدة والمعهد الوطني للبحوث الصحية للعمل المقدم. يعلن BCK وSC عن تمويل منحة (قابل للدفع للمؤسسات الموظفة) من شراكة منهجية تجارب MRC-NIHR. يعلن BCK وME عن تمويل منحة (قابل للدفع للمؤسسات الموظفة) من المعهد الوطني للبحوث الصحية لتجربة FLO-ELA. يعلن TPM عن أتعاب استشارية من Bayer Healthcare Pharmaceuticals وAlliance Pharmaceuticals وGilead Sciences وKite Pharma؛ ويعلن عن حضور مؤتمر وتكاليف سفر مدفوعة كمتحدث مدعو في مؤتمر الجمعية الأوروبية لزراعة الدم ونخاع العظام لعام 2023؛ وهو عضو مستقل في مجلس مراقبة البيانات والسلامة لتجربة FLO-ELA. جميع المؤلفين الآخرين يعلنون عدم وجود تضارب في المصالح.
الأصل والمراجعة من قبل الأقران: لم يتم تكليفه؛ تمت مراجعته من قبل أقران خارجيين.
هذه مقالة مفتوحة الوصول موزعة وفقًا لشروط ترخيص المشاع الإبداعي (CC BY 4.0)، الذي يسمح للآخرين بتوزيع وإعادة مزج وتكييف والبناء على هذا العمل، للاستخدام التجاري، بشرط أن يتم الاستشهاد بالعمل الأصلي بشكل صحيح. انظر:http://creativecommons.org/licenses/by/4.0/.
1 إدواردز م. ر، فوربس ج، ووكر ن، وآخرون، محققو FLO-ELA. تجربة تحسين السوائل في جراحة البطن الطارئة (FLO-ELA): بروتوكول دراسة لتجربة عشوائية متعددة المراكز لعلاج السوائل الموجه بواسطة الناتج القلبي مقارنة بالرعاية المعتادة في المرضى الذين يخضعون لجراحة الجهاز الهضمي الطارئة الكبرى. التجارب 2023؛ 24:313. doi:10.1186/s13063-023-07275-3
2 سيدجويك ب. تحليل النية للعلاج مقابل تحليل البروتوكول لبيانات التجارب. BMJ 2015;350:h681. doi:10.1136/bmj.h681
3 فيرغسون دي، آرون إس دي، غايات جي، هيبرت بي. الاستبعادات بعد العشوائية: مبدأ النية للعلاج واستبعاد المرضى من التحليل. بي إم آي 2002؛ 325: 652-4. doi:10.1136/bmj.325.7365.652
4 كاهان بي سي، وايت آي آر، إدواردز م، هارلاي مو. استخدام النية المعدلة للعلاج كمقدر رئيسي لفشل بدء العلاج. التجارب السريرية 2023؛20:269-75. doi:10.1177/17407745231160074
5 وكالة الأدوية الأوروبية. الملحق ICH E9 (R1) حول التقديرات وتحليل الحساسية في التجارب السريرية إلى الإرشادات حول المبادئ الإحصائية للتجارب السريرية. 2020.https://www.ema.europa.eu/ar/documents/scientific-guideline/ich-e9-r1-addendum-estimands-sensitivity-analysis-clinical-trials-guideline-statistical-principles_ar.pdf.
6 وينزل إس، كاسترو إم، كورين ج. فعالية وسلامة دوبيلوماب لدى البالغين الذين يعانون من الربو المستمر غير المنضبط على الرغم من استخدام جرعات متوسطة إلى عالية من الكورتيكوستيرويدات المستنشقة بالإضافة إلى عامل طويل المفعول أغونست: تجربة عشوائية مزدوجة التعمية خاضعة للرقابة باستخدام دواء وهمي في المرحلة الثانية ب لتحديد نطاق الجرعات. لانسيت 2016؛388:31-44. doi:10.1016/S0140-6736(16)30307-5
7 باك سو V، بيكر FA، سوزا TV، وآخرون. خطة التحليل الإحصائي لدراسة HOMESIDE: تجربة عشوائية محكومة لتدخلات الموسيقى والقراءة التي يقدمها مقدمو الرعاية الأسرية في المنزل للأشخاص الذين يعيشون مع الخرف. التجارب 2023؛ 24:316. doi:10.1186/s13063-023-07327-8
8 كاسويل إي جي، كرو إس، كورنيليوس في آر، وآخرون، مجموعة دراسة المحققين ASCOT. تجربة عشوائية محكومة لتطبيق تريامسينولون أسيتونيد المساعد في العيون التي تخضع لجراحة زجاجية شبكية بعد إصابة كرة العين المفتوحة: دراسة ASCOT. مجلة بريطانيا لطب العيون 2023؛ bjo-2022322787. doi:10.1136/bjo-2022-322787
9 لودون ك، ترويك س، سوليفان ف، دونان ب، ثورب ك. إيه، زوارنشتاين م. أداة PRECIS-2: تصميم التجارب التي تناسب الغرض. BMJ 2015؛350:h2147. doi:10.1136/bmj.h2147
10 هومر V، ياب C، بوند S، وآخرون. توسيع المرحلة المبكرة من التجارب السريرية لإرشادات محتوى خطط التحليل الإحصائي. BMJ 2022;376:e068177. doi:10.1136/bmj-2021-068177
11 كاهان بي سي، هول إس إس، بيلر إي إم، وآخرون. تقرير التجارب العشوائية العاملة: تمديد بيان CONSORT 2010. JAMA 2023؛ 330: 2106-14. doi:10.1001/jama.2023.19793.
12 كاهان بي سي، هول إس إس، بيلر إي إم، وآخرون. بيان الإجماع لبروتوكولات التجارب العشوائية العاملية: تمديد لبيان SPIRIT 2013. مجلة JAMA Netw Open 2023؛ 6: e2346121. doi:10.1001/jamanetworkopen.2023.46121.
13 المجلس الدولي لتنسيق المتطلبات الفنية للأدوية للاستخدام البشري. تنفيذ إرشادات ICH،https://www.ich.org/page/ich-guideline-implementation (تم الوصول إليه في 23/08/2022).
14 لي إتش، وانغ سي، تشين و-سي، وآخرون. تقديرات في الدراسات الرصدية: بعض الاعتبارات بخلاف ICH E9 (R1). إحصائيات الأدوية 2022؛21:83544. doi:10.1002/pst.2196
15 ميترويو م، أود رينجيرينك ك، تيرنسترا س، بيتي في، روز ك.سي.بي. مراجعة سردية للمعايير في تطوير الأدوية والتقييم التنظيمي: هل هو نبيذ قديم في براميل جديدة؟ تجارب 2020؛21:671. doi:10.1186/s13063-020-04546-1
16 بيتافي ف، غويزارو ل، أنتونيس دوس ريس إ، تيرينسترا س، روز ك.سي.بي. ما وراء “نية العلاج” و”حسب البروتوكول”: تحسين تقييم آثار العلاج في التجارب السريرية من خلال تحديد تقدير. بر / علم الأدوية السريرية 2020؛86:1235-9. doi:10.1111/bcp.14195
17 رويدهوس جي، فلودن إل، برات إس، وآخرون. البيانات المفقودة في أبحاث الرعاية التلطيفية: التقديرات والمقدرات. BMJ دعم الرعاية التلطيفية 2022؛ 12:464-70. doi:10.1136/bmjspcare-2022-003553
18 صن س، ويبر إتش جي، باتلر إي، روفيباخ ك، رويتشودوري إس. تقديرات في تجارب الأورام الدموية. فارما ستات 2021؛20:793-805. doi:10.1002/pst.2108
19 كر. س، كاهان ب. س، ريهال س، وآخرون. تقييم مدى وضوح الأسئلة التي يتم التحقيق فيها في التجارب العشوائية: مراجعة منهجية للمعايير التقديرية. BMJ 2022؛378:e070146. doi:10.1136/bmj-2022070146
20 كاهان بي سي، كرو إس، لي إف، هارهاي إم أو. القضاء على آثار العلاج الغامضة باستخدام التقديرات. مجلة علم الأوبئة الأمريكية 2023؛192:987-94. doi:10.1093/aje/kwad036
21 كاهان بي سي، موريس تي بي، وايت آي آر، كاربانتر ج، كرو إس. تقديرات في البروتوكولات المنشورة للتجارب العشوائية: حاجة ملحة للتحسين. تجارب 2021؛ 22:686. doi:10.1186/s13063-021-05644-4
22 كاهان بي سي، موريس تي بي، وايت آي آر، وآخرون. تقديرات العلاج في التجارب السريرية للمرضى الذين تم إدخالهم إلى المستشفى بسبب COVID-19: ضمان طرح التجارب للأسئلة الصحيحة. BMC Med 2020؛ 18:286. doi:10.1186/s12916-020-01737-0
23 كلارك تي بي، كاهان بي سي، فيليبس أ، وايت آي، كارپنتير جي آر. تقديرات: جلب الوضوح والتركيز إلى أسئلة البحث في التجارب السريرية. BMJ Open 2022;12:e052953. doi:10.1136/bmjopen-2021-052953
24 فليتشر سي، هيفتينغ ن، رايت م، وآخرون. الاحتفال بسنتين من التفكير الجديد في التجارب السريرية: رحلة الاستيماند. الابتكار العلاجي والعلوم التنظيمية 2022؛ 56: 637-50. doi:10.1007/s43441-022-00402-3
25 ميترويو م، تيرنسترا س، أود رينجيرينك ك، بيتي في، روز ك.ت.ب. تقدير تأثيرات العلاج في دراسات الاكتئاب قصيرة الأمد. تقييم استنادًا إلى إطار تقديرات ICH E9(R1). فارما ستات 2022؛21:1037-57. doi:10.1002/pst.2214
26 كين ON، رايت D، فيليبس A، رايت M. لماذا تحليل ITT ليس دائمًا الجواب لتقدير تأثيرات العلاج في التجارب السريرية. التجارب السريرية المعاصرة 2021؛108:106494. doi:10.1016/j.cct.2021.106494
27 ليتل آر جي، لويس آر جي. التقديرات، والمقدرات، والتقديرات. مجلة الجمعية الطبية الأمريكية 2021؛326:967-8. doi:10.1001/jama.2021.2886
28 لجنة المجلس الوطني للبحوث حول التعامل مع البيانات المفقودة في التجارب السريرية. الوقاية والعلاج من البيانات المفقودة في التجارب السريرية. مطبعة الأكاديميات الوطنية؛ 2010.
29 لوخس AK، زينسرلينغ J، براندت A، ويرتس D، بيندا N. اختيار التقديرات المناسبة في التجارب السريرية. الابتكار العلاجي والعلوم التنظيمية 2015؛49:584-92. doi:10.1177/2168479014567317
30 مالينكروتد CH، لين Q، ليبكوفيتش I، مولينبرغس G. نهج منظم لاختيار التقديرات والمقدرات في التجارب السريرية الطولية. إحصائيات الأدوية 2012؛ 11: 456-61. doi:10.1002/pst.1536
31 مورس تي بي، كاهان بي سي، وايت آي آر. اختيار تحليلات الحساسية للتجارب العشوائية: المبادئ. بيمك ميد ريس ميثودول 2014؛14:11. doi:10.1186/1471-2288-14-11
32 أنغريست JD، إيمبنس GW، روبين DB. تحديد التأثيرات السببية باستخدام المتغيرات الآلية. الجمعية الأمريكية للإحصاء 1996؛91:444-55. doi: 10.1080/01621459.1996.10476902.
33 فرنجاكيس سي إي، روبين دي بي. التصنيف الرئيسي في الاستدلال السببي. البيومترية 2002؛ 58: 21-29. doi:10.1111/j.0006341X.2002.00021.x
34 هيرنان MA، روبينز JM. استخدام البيانات الكبيرة لمحاكاة تجربة مستهدفة عندما لا تكون تجربة عشوائية متاحة. مجلة علم الأوبئة الأمريكية 2016؛183:75864. doi:10.1093/aje/kwv254.
35 روبينز ج. نهج جديد لاستنتاج الأسباب في دراسات الوفيات مع فترة تعرض مستمرة – تطبيق على التحكم في تأثير الناجي من العمال الأصحاء. نموذج رياضي 1986؛7:1393-512. doi:10.1016/0270-0255(86)90088-6.
36 روبين دي بي. الاستدلال البايزي للتأثيرات السببية: دور العشوائية. آنالز ستات 1978;6:34-58. doi:10.1214/aos/1176344064.
37 زالا LC، ليسكو CRRE. RE: “إزالة آثار العلاج الغامضة باستخدام التقديرات”. أم أنا وبائيات 2023؛ 192: 1029-30. doi:10.1093/aje/kwad070
38 فان جيلوفن ن، سوانسون إس إيه، رامسبيك سي إل، وآخرون. التنبؤ يلتقي بالاستدلال السببي: دور العلاج في نماذج التنبؤ السريرية. المجلة الأوروبية لعلم الأوبئة 2020؛ 35: 619-30. doi:10.1007/s10654-020-00636-1
39 سبلاوا-نييمان ج، دابروفسكا د، سبيد ت. حول تطبيق نظرية الاحتمالات على التجارب الزراعية. مقال عن المبادئ. القسم 9. علوم الإحصاء 1990؛5. doi:10.1214/ss/1177012031.
40 ليتل آر، كانغ إس. تحليل النية للعلاج مع انقطاع العلاج والبيانات المفقودة في التجارب السريرية. ستات ميد 2015؛ 34: 2381-90. doi:10.1002/sim.6352
41 تينغ ن، هوانغ ل، دينغ ق، وآخرون. الاستجابة المتوسطة على مر الزمن كمعيار: تنفيذ بديل لاستراتيجية أثناء العلاج. إحصائيات علوم الحياة 2021؛ 13: 479-94. doi:10.1007/s12561-021-09301-x.
42 ليتل آر جي، وانغ جي، صن إكس، وآخرون. معالجة البيانات المفقودة في دراسة نتائج سريرية كبيرة لأمراض القلب والأوعية الدموية. التجارب السريرية 2016؛ 13: 344-51. doi:10.1177/1740774515626411
43 كر. س، كاهان بي. سي، باتيل أ، وآخرون. بدء محادثة حول التقديرات مع الشركاء العامين المشاركين في التجارب السريرية: أداة تم تطويرها بشكل مشترك. التجارب 2023؛ 24:443. doi:10.1186/s13063-023-07469-9
44 بوردن ج، بورنكامب ب، غليم إ، بريتيز ف. ربط طرق المتغيرات الآلية للاستدلال السببي بإطار التقدير. ستات ميد 2021؛ 40: 5605-27. doi:10.1002/sim.9143
45 كر. س، مورس تي. بي، كاهان بي. سي، كورنيليوس في. آر، كاربنتر جي. آر. استراتيجية من أربع خطوات للتعامل مع بيانات النتائج المفقودة في التجارب العشوائية المتأثرة بجائحة. ب. م. سي. ميد. ريس. ميثودول 2020؛20:208. doi:10.1186/s12874-020-01089-6
46 هيرنان MA، روبينز JM. الاستدلال السببي: ماذا لو. تشابمان وهول/ CRC، 2020.
47 مانسورنيا ما، ألتمن دي جي. وزن الاحتمالات العكسية. BMJ 2016؛ 352: 1189. doi:10.1136/bmj.i189
48 أولارتي بارا سي، دانيال آر إم، بارتليت جي دبليو. تقديرات افتراضية في التجارب السريرية: توحيد الاستدلال السببي وطرق البيانات المفقودة. بحوث الإحصاء الحيوي والصيدلاني 2022؛15:421-32. doi:10.1080/19466 315.2022.2081599
49 فان لانكر ك، تاريمه س، بارتليت ج، وآخرون. التقديرات ومقدراتها للتجارب السريرية المتأثرة بجائحة كوفيد-19: تقرير من سلسلة منتدى إنغرام أولكين NISS حول الاضطرابات غير المخطط لها في التجارب السريرية. ستات بيوفارم ريس 2022؛15:94-111. doi:10.1080/19466315.2022.2094459.
50 هايدن دي، بولر دي كيه، شونفيلد دي. مقدر للمقارنات العلاجية بين الناجين في التجارب العشوائية. البيومترية 2005؛ 61: 305-10. doi:10.1111/j.0006341X.2005.030227.x
51 ليبكوفيتش I، راتيتش B، كيو Y، زانغ X، شان M، مالينكروت C. استخدام التقسيم الرئيسي في تحليل التجارب السريرية. ستات ميد 2022؛ 41: 3837-77. doi:10.1002/sim.9439
52 مالينكروت سي، مولينبرغس جي، ليبكوفيتش آي، وآخرون. التقديرات، والمقدرات، وتحليل الحساسية في التجارب السريرية. تشابمان وهول/سي آر سي، 2020.
53 بوند إس جاي، وايت آي آر. تقدير التأثيرات السببية باستخدام المعلومات السابقة عن العلاجات غير التجريبية. التجارب السريرية 2010؛ 7: 664-76. doi:10.1177/1740774510382439
54 كارپنتر جي آر، روجر جي إتش، كينوارد إم جي. تحليل التجارب الطولية مع انحراف عن البروتوكول: إطار لافتراضات ذات صلة وقابلة للوصول واستنتاج عبر الإحلال المتعدد. مجلة الإحصاء الحيوي والصيدلاني 2013؛ 23: 1352-71. doi:10.1080/10543406.2013.834911
55 هارتلي ب، دروري ت، ليتيس س، ماير ب، كين أون، أبيلان ج. تقدير تقدير سياسة العلاج لبيانات الوقت حتى الحدث باستخدام البيانات المجمعة بعد إنهاء العلاج العشوائي. فارما ستات 2022؛21:612-24. doi:10.1002/pst.2189
56 فام تي إم، وايت آي آر، كاهان بي سي، موريس تي بي، ستانوورث إس جي، فوربس جي. مقارنة بين طرق تحليل نقطة نهاية مركبة ثنائية مع مكونات مشروطة جزئيًا في التجارب السريرية العشوائية. ستات ميد 2021؛ 40: 6634-50. doi:10.1002/sim.9203
57 بولفيريجان إ، دراجالين ف. مواءمة تقديرات سياسة العلاج والمقدرات – دراسة محاكاة في مرض الزهايمر. أبحاث الإحصاء الحيوي والصيدلاني 2020؛ 12: 142-54. doi:10.1080/19466315.2019.1689845.
58 روجر جيه، براتون دي جي، ماير ب، أبيلان جي جي، كين أون. تقديرات سياسة العلاج لبيانات الأحداث المتكررة باستخدام البيانات المجمعة بعد توقف العلاج العشوائي. فارما ستات 2019؛ 18: 85-95. doi:10.1002/pst.1910
59 وايت آي آر، كالايتزاكي إي، طومسون إس جي. السماح بوجود بيانات نتائج مفقودة وعدم اكتمال استيعاب التدخلات العشوائية، مع تطبيق ذلك على تجربة الكحول المعتمدة على الإنترنت. ستات ميد 2011؛30:3192-207. doi:10.1002/sim.4360
60 لاتيمر NR، أبراهامز KR، سيبرت U. تقدير من مرحلتين للتعديل على تبديل العلاج في التجارب العشوائية: دراسة محاكاة تبحث في استخدام وزن الاحتمالات العكسية بدلاً من إعادة التقطيع. BMC Med Res Methodol 2019؛ 19:69. doi:10.1186/s12874-019-0709-9
61 كيرلاند بي إف، جونسون إل إل، إجلستون بي إل، دير PH. بيانات طولية مع متابعة مقطوعة بسبب الوفاة: مطابقة طريقة التحليل مع أهداف البحث. إحصائيات العلوم 2009؛24:211. doi:10.1214/09-STS293.
62 ماغنوسون بي بي، شمدلي إتش، رويير ن، شارفشتاين دي أو. الاستدلال البايزي لتقدير طبقة رئيسية لتقييم تأثير العلاج في مجموعة فرعية تتميز بحدوث أحداث بعد العشوائية. ستات ميد 2019؛ 38: 4761-71. doi:10.1002/sim.8333
63 زهافي ت، نيفو د. طرق المطابقة لمشاكل الاقتطاع بسبب الوفاة. ج Stat Soc Ser A Stat Soc 2023;qnad026. doi:10.1093/jrsssa/qnad026.
64 زانغ جي إل، روبين دي بي. تقدير التأثيرات السببية من خلال التصنيف الرئيسي عندما تكون بعض النتائج مقطوعة بـ “الموت”. مجلة الإحصاء السلوكي التعليمي 2003؛ 28: 353-68. doi:10.3102/10769986028004353.
65 هيرنان MA، روبينز JM. تحليلات وفقًا للبروتوكول للتجارب العملية. نيو إنجلاند / ميد 2017؛ 377: 1391-8. doi:10.1056/NEJMsm1605385
66 ليتل آر جي، روبين دي بي. التأثيرات السببية في الدراسات السريرية والوبائية من خلال النتائج المحتملة: المفاهيم والأساليب التحليلية. مراجعة سنوية للصحة العامة 2000؛21:121-45. doi:10.1146/annurev.publhealth.21.1.121
67 روبينز JM، هيرنان MA، برومباك B. النماذج الهيكلية الهامشية والاستدلال السببي في علم الأوبئة. علم الأوبئة 2000؛11:550-60. doi:10.1097/00001648-200009000-00011
68 كرو إس، موريس تي بي، كينورد إم جي، كاربانتر جي آر. تحليل الحساسية للتجارب السريرية مع بيانات النتائج المستمرة المفقودة باستخدام الاستيفاء المتعدد المنضبط: دليل عملي. إحصاء الطب 2020؛39:2815-42. doi:10.1002/sim.8569

  1. *في هذا الإعداد، يقدر النموذج المختلط للقياسات المتكررة التأثير الافتراضي للدوبيلوماب إذا استمر المرضى في تناول الدوبيلوماب ولم يتلقوا علاجًا إنقاذيًا، لأن الباحثين عالجوا بيانات النتائج بعد تلقي العلاج الإنقاذي أو التوقف عن تناول الدوبيلوماب على أنها مفقودة. هنا، خدم النموذج المختلط ضمنيًا لتقدير ما كانت ستبدو عليه بيانات النتائج لو لم يتلق المشاركون العلاج الإنقاذي أو توقفوا. هنا، يتطلب فك شفرة سؤال البحث فهمًا عميقًا للميكانيكيات الأساسية للنماذج المختلطة للقياسات المتكررة، وهو ما قد لا يمتلكه جميع القراء.
  2. *الأحداث المتداخلة هي أحداث بعد خط الأساس (أو أحداث بعد التوزيع العشوائي في التجارب العشوائية) التي تؤثر على تفسير أو وجود بيانات النتائج. تؤثر هذه الأحداث بشكل متكرر على تلقي العلاج (مثل، تغيير العلاج أو التوقف عن العلاج) أو تمنع وجود النتيجة (مثل، الوفاة، إذا لم يتم تعريفها كجزء من النتيجة).
  3. *تفترض الأوصاف عدم وجود بيانات نتائج مفقودة. عندما تكون بيانات النتائج مفقودة، تتطلب بعض الاستراتيجيات اعتبارات إضافية.

The estimands framework: a primer on the ICH E9(R1) addendum

Brennan C Kahan, Joanna Hindley, Mark Edwards, Suzie Cro, Tim P Morris

MRC Clinical Trials Unit at UCL, University College London, London WC1V 6LJ, UK
Department of Anaesthesia, University Hospital Southampton NHS Foundation Trust, Southampton, UK
Southampton NIHR Biomedical Research Centre, University of Southampton, Southampton, UK
Imperial Clinical Trials Unit, School of Public Health, Imperial College London, London, UK
Correspondence to: B Kahan b.kahan@ucl.ac.uk
(or @Brennan_Kahan on Twitter; ORCID 0000-0001-9957-0844)
Citethis as: BMJ 2024;384:e076316
http://dx.doi.org/10.1136/
bmj-2023-076316
Accepted: 07 November 2023
Estimands can be used in studies of healthcare interventions to clarify the interpretation of treatment effects. The addendum to the ICH E9 harmonised guideline on statistical principles for clinical trials (ICH E9(R1)) describes a framework for using estimands as part of a study. This paper provides an overview of the estimands framework, as outlined in the addendum, with the aim of explaining why estimands are beneficial; clarifying the terminology being used; and providing practical guidance on using estimands to decide the appropriate study design, data collection, and estimation methods. This article illustrates how to use the estimands framework by applying it to an ongoing trial in emergency bowel surgery. Estimands can be a useful way of clarifying the exact research question being evaluated in a study, both to avoid misinterpretation and to ensure that study methods are aligned to the overall study objectives.
Research studies are often used to answer questions about the effect of an intervention. However, deciding on the precise research question to ask, or how best to design the study to answer that question, can be challenging. Consider the FLO-ELA trial, a pragmatic trial comparing two methods of fluid delivery (cardiac output monitor clinician judgment) in patients undergoing emergency bowel surgery. Because of the lead-in time required to prepare the intervention,

SUMMARY POINTS

Estimands provide a structured description of the treatment effect(s) a study intends to quantify
Their use helps to align a study’s methods with its aims and ensures clarity in the treatment effect’s interpretation
The study design, data collection, and analysis methods can all affect the ability to estimate the desired estimand(s), and thus should be chosen with the estimand(s) in mind
Estimands should be routinely reported to ensure clarity of the research question, and facilitate critical appraisal of the study’s methods
a small delay between randomisation and the start of surgery is necessary, and so some participants in FLO-ELA could have their surgery cancelled after randomisation, either because they become too unwell or the underlying issue has resolved itself.
A standard approach for pragmatic trials is to conduct an intention-to-treat analysis, which would include participants who did not undergo surgery. However, consideration of the research question could lead investigators to question this approach. An intention-to-treat analysis answers the question “What is the difference between fluid delivery methods, regardless of whether patients undergo surgery?” Because fluid is only given to patients who do undergo surgery, interest would typically lie in the effect in these patients. Thus, a more relevant research question might be “What is the difference between fluid delivery methods, in patients who actually undergo surgery?” Having settled on the most relevant question, investigators can then identify a more appropriate method of analysis to answer this question.
Here, cancellation of surgery is an example of an intercurrent event, which includes events that affect a patient’s assigned treatment (for instance, if they stop taking treatment early, or receive a different treatment to the one they were meant to). It is important to consider how such intercurrent events are reflected in the research question, because different ways of doing so can affect interpretation of results (box 1). For instance, in FLO-ELA, the intervention cannot have an effect in patients not undergoing surgery, and thus inclusion of these patients pulls the overall treatment effect towards zero, rendering it more difficult to identify a beneficial (or harmful) intervention effect.
Estimands provide a way to clarify research questions (box 2). 14-27 The addendum to the ICH E9 harmonised guideline on statistical principles for clinical trials (ICH E9(R1)) describes a framework for incorporating estimands into a study’s design. In this paper, we summarise the estimands framework, as outlined in the ICH E9(R1) addendum, with the aim to explain why estimands are beneficial; clarify the terminology being used; and provide practical guidance on using estimands to decide the appropriate study design, data collection, and estimation methods. Box 3 provides a list of key terms.

The estimands framework

An estimand describes the treatment effect a study sets out to quantify, and use of estimands can help to both clarify the research questions being investigated (table 1) and ensure that appropriate study methods are used to answer these questions. The estimands framework is a way of incorporating estimands into a study to ensure these goals are met (table 2).

Box 1: Importance of intercurrent events

Example 1

In a study of dupilumab versus placebo for uncontrolled asthma, patients in the placebo arm might receive rescue treatment more often than patients in the dupilumab arm. Where does interest lie: in the effect of dupilumab versus placebo when rescue forms part of the two treatment strategies, or in the effect of dupilumab if patients had not received rescue?

Example 2

In a study comparing two different fluid delivery methods in patients undergoing emergency bowel surgery, patients could have their surgery cancelled after enrolment. Do researchers want to compare the two fluid delivery methods only in those patients who actually undergo surgery, or in all patients regardless of whether they undergo surgery?

Example 3

In a study evaluating a music intervention delivered by caregivers for people with dementia on symptom reduction at 90 days, some participants could die before day Should researchers use their final symptom score before they died to evaluate the intervention effect while they still lived, or assign their 90 day score a low value, to reflect that death is a poor outcome?

Example 4

In a study of triamcinolone versus usual care in patients undergoing eye surgery, some patients might take additional non-study treatments. Should researchers evaluate the effect of triamcinolone alongside these additional non-study treatments, or its effect if patients had not taken any additional treatments?
The estimands framework described here was first outlined in the ICH E9(R1) addendum. However, most aspects of the framework (including the concept of estimands, sensitivity analyses, and ensuring that statistical analyses answer clinically relevant questions) have been acknowledged as being important for years (eg, in the National Research Council’s 2010 study on the Prevention and Treatment of Missing Data in Clinical Trials, as well as in the causal inference literature). The estimands framework brings these different concepts together under one general framework, and provides a structured way of approaching each element using common language to describe the concepts.
In the following sections, we describe each aspect of the estimands framework, including what attributes comprise an estimand, general points to consider when choosing a strategy to handle intercurrent events, as well as strategies for implementing the estimands framework.

What is an estimand?

The term “estimand” is used to specify the research question a study aims to quantify, and thus is widely used across different disciplines, from descriptive
epidemiology to prognostic modelling. Here, we describe estimands in the context of studies used to evaluate healthcare interventions.
In this setting, estimands describe the treatment effect the study sets out to quantify for a given outcome. They do so using a structured approach, with standardised terminology. The structured approach ensures that all aspects of the treatment effect are described, while the use of standardised terminology ensures that the estimand can be easily understood. Importantly, estimands describe a causal effect of treatment-that is, they describe how outcomes would change between different treatment strategies for the same set of participants. A separate estimand is defined for each study outcome, although for some outcomes more than one estimand might be of interest. Table 3 lists the five core attributes that comprise an estimand: population, treatment conditions, endpoint, summary measure, and the strategies used to handle each type of intercurrent event in the treatment effect definition.

Intercurrent events

Intercurrent events are post-baseline events (or postrandomisation events in randomised trials) that affect

Box 2: How estimands can clarify research questions

  • It is important to understand which type of treatment effect a study sets out to estimate. Historically, two types of studies have been considered : pragmatic studies that seek to estimate an intervention’s real world effect, and explanatory studies that seek to estimate an intervention’s effect underideal conditions.
  • However, these two paradigms are not sufficient to precisely define the exact research question, because within these broad definitions exist multiple versions of a pragmatic or explanatory effect that could be estimated. Thus, international guidelines have called for greater clarity.
  • Estimands extend the commonly used PICO (population, intervention, comparator, outcome) framework for defining research questions by adding two additional attributes: the summary measure, which defines how outcomes are summarised and compared between treatments; and the strategies used to handle each type of intercurrent event, which define how things such as treatment switching or treatment discontinuation are handled in the treatment effect definition.
  • Estimands are now required in some reporting guidelines, and medicine regulators in Europe, US, Canada, Singapore, China, Switzerland, and Chinese Taipei now require regulatory applications to include estimands, while regulators in Brazil, the Republic of Korea, and Japan are currently in the process of implementing the inclusion of estimands.

Box 3: List of key terms

  • Estimand: A description of the exact treatment effect a study aims to quantify.
  • Estimator: The statistical method used to compute the estimate of the treatment effect.
  • Estimate: The numerical value computed by the estimator. For example, in a study reporting an estimated mean difference between groups of -0.7 ( confidence interval -0.3 to -1.1 ), the value -0.7 is the estimate.
  • Sensitivity analysis: Analyses designed to explore the robustness of the main results from deviations from the estimator’s underlying assumptions. Sensitivity analyses target the same estimand as the main estimator, using different plausible assumptions.
  • Intercurrent events: Post-baseline events (post-randomisation events in randomised trials) that affect either the interpretation of outcome data (eg, treatment nonadherence or use of rescue treatment) or the existence of outcome data (eg, death if not already used as part of the outcome definition). Missing data or loss to follow-up are not intercurrent events.
    either the interpretation or existence of outcome data (fig 1, box 5). These generally fall into two distinct categories: treatment-modifying events and truncating events. Other types of intercurrent events can also be defined, but their use is less frequent and we do not consider them here.
Treatment-modifying events affect receipt of the assigned treatment. In the example asthma study described in table 1, early discontinuation of dupilumab and use of rescue treatment are treatmentmodifying intercurrent events. Other examples might be if patients received the wrong dose of dupilumab, or if patients in the placebo arm received dupilumab instead. These events affect the interpretation of outcome data because outcomes from participants who experienced the intercurrent event might provide different information about treatment than outcomes from participants who did not experience the intercurrent event.
Truncating events preclude the existence of the outcome. The most common truncating event is death (often referred to as truncation by death). For instance, in the example asthma study, if a patient died at week 6, then their forced expiratory volume ( ) measurement at week 12 would not exist. Importantly, the week measurement is not considered to be missing data, which implies that it could have been collected but was not. Other truncating events
might be amputation of a limb when the outcome is a symptom score based on that limb, or miscarriage when the outcome is neonatal birth weight. In time-to-event settings, truncating events that prevent the outcome of interest from occurring are often referred to as competing events.

Strategies to handle intercurrent events in the estimand definition

Astrategy to handleeach type of anticipatedintercurrent event must be defined as part of the estimand. Not all potential events will be relevant for all studies, and so investigators must carefully think through the types of intercurrent event that might occur in their study and consider the different strategies to handle such events (table 4). Intercurrent event strategies must be defined by event rather than by study (ie, different strategies can be used for different types of intercurrent events in the same study). Below, we outline the different strategies that can be used.

Treatment policy strategy

Definition

Under a treatment policy strategy, the occurrence of the intercurrent event is taken to be part of the treatment condition. For example, as part of assigning participants to a particular intervention, it is recognised that some participants will discontinue early, and interest lies in the effect of the intervention given it can lead to some early discontinuations. Thus, participant outcomes are used regardless of whether they experienced the intercurrent event or not.

Considerations for treatment-modifying events

The treatment policy strategy can be used to evaluate the effect of an intervention if it were used as part of routine practice, although only if the intercurrent event also occurs in practice. If not, use of a treatment policy strategy does not reflect conditions outside of the research setting.

Considerations for truncating events

Because the treatment policy strategy requires outcome data after the intercurrent event, it cannot be used for truncating events.
BMJ: first published as 10.1136/bmj-2023-076316 on 23 January 2024. Downloaded from https://www.bmj.com/ on 28 August 2025 by guest. Protected by copyright, including for uses related to text and data mining, AI training, and similar technologies.
Table 1 | Example of how estimands can help researchers understand the research question
Study description Statistical methods Problems understanding the research question How estimands explain the research question
A trial compared dupilumab with placebo on forced expiratory volume at week 12 in patients with uncontrolled persistent asthma. Some patients stopped dupilumab early or received rescue treatments for exacerbations. Data were analysed on an intention-to-treat basis. Outcome data after receipt of rescue treatment or discontinuation of dupilumab was treated as missing, and a mixed model for repeated measures was used to estimate the treatment effect.* Because the statistical methods do not make explicit how the research question handles early stopping of dupilumab or receipt of rescue treatment, readers must infer this.* Since the analysis was by intention to treat, they might incorrectly assume that interest lies in the effect of dupilumab regardless of the early stopping or use of rescue treatment.
The estimand explicitly describes how early stopping and receipt of rescue treatment are handled in the research question:
“The estimand is the difference in the mean at week 12 between dupilumab plus standard of care versus placebo plus standard of care, in patients with uncontrolled persistent asthma, if they were to continue using dupilumab over the entire trial period without the use of rescue treatment.”
Table 2 | The estimands framework, using the ASCOT trial as an example
Steps Example from the ASCOT trial* Explanation
1) Define the estimand for each study outcome based on the study’s objective The primary estimand is the difference in the proportion of patients with an improvement on the ETDRS letter score between baseline to six months of at least 10 points between triamcinolone during standard surgery versus standard surgery alone, regardless of treatment crossovers or use of any non-study treatments, in patients undergoing vitreoretinal surgery after open globe trauma. This step helps to ensure that the research question is clearly defined. In the ASCOT trial, the estimand alerts readers to the fact that interest lies in the effect of triamcinolone, regardless of treatment crossovers or use of non-study treatments.
2) Choose the study design, data collection, and statistical methods to enable estimation of the chosen estimands Consideration of the research question indicates that outcome data should be collected for all patients, regardless of whether patients adhere to their allocated treatments or not; and that all patients with available outcome data must be included in the analysis, regardless of whether they adhere or not. This step ensures that the study will be able to answer each question it has set out to. In the ASCOT trial, collection of outcome data after non-adherence, and inclusion of all patients in the analysis is necessary to estimate the effect of triamcinolone, regardless of treatment crossovers or use of non-study treatments. The trial found that for this specific research question, triamcinolone had little effect (difference 3.5% (95% confidence interval -8.6% to 15.6%), ).
3) Perform sensitivity analyses to evaluate the robustness of results to departures from the assumptions underpinning the statistical analyses Because outcome data were not available for all patients, sensitivity analyses were used to explore whether differing assumptions about the missing data could have affected conclusions. Investigators found that conclusions did not change under the sensitivity analyses. This step is used to provide assurance as to how reliable study results are. Sensitivity analyses did not change conclusions in the ASCOT trial, which gives readers more confidence that results are correct.
*Some study aspects have been modified for simplicity.

Composite strategy

Definition

Under a composite strategy, the occurrence of the intercurrent event is incorporated into the endpoint definition, for instance, by assigning participants who experience the event a particular value of the outcome. The composite strategy modifies the endpoint attribute of the estimand. Different composite strategies can be used depending on which outcome value is assigned to participants (eg, in the example asthma study, participants who discontinue could be assigned a moderately abnormal value of , or a severely abnormal value of ). Each choice would correspond to a different estimand.

Considerations for treatment-modifying events

A composite strategy changes the interpretation of the endpoint, so care must be taken to ensure that the interpretation is not changed so much that it loses clinical relevance. For instance, if a composite strategy was used in the example asthma study, then the resulting treatment effect would not represent the mean difference in , but rather a mixture of the differences in both the discontinuation rates and values, which might not be easy to interpret.

Considerations for truncating events

A composite strategy can be a useful way to ensure that death, or other truncating events, are reflected as poor outcomes. For example, in a covid-19 study, patients who die might experience fewer days on a ventilator; using a composite strategy to assign a poor value for patients who die (or alternatively, to redefine the outcome as days alive without a ventilator) ensures that death is not represented as a good outcome.

While-on-treatment/while-alive strategy

Definition

A while-on-treatment/while-alive strategy aims is to evaluate the effect of the intervention before the intercurrent event. Thus, only participant outcomes
before the occurrence of the intercurrent event are used.
The while-on-treatment strategy modifies the endpoint attribute of the estimand. Different while-on-treatment strategies can be defined. For instance, the outcome value immediately before the intercurrent event could be used. An alternative would be to use the average of the outcome across all time points before the intercurrent event. Terminology of the while-ontreatment strategy depends on the intercurrent event. If the intercurrent event is death, it is referred to as a while-alive strategy.

Considerations for treatment-modifying events

The while-on-treatment strategy can only be used when outcome data are available before the occurrence of the intercurrent event. Thus, it is well suited to binary outcomes that can be redefined as occurrence of the clinical event before the end of follow-up or the intercurrent event, whichever occurs first, or continuous outcome measures that are frequently measured across different time points.
This strategy can compare outcomes at different time points between intervention and control. In the example asthma study, if scores become worse over time irrespective of treatment, and dupilumab leads to higher rates of early discontinuation, then a while-on-treatment strategy might demonstrate a beneficial effect for dupilumab just because early values are used more frequently in the dupilumab group than in the placebo group. Thus, results should be interpreted in the light of any differences in intercurrent event rates between treatments.

Considerations for truncating events

The while-alive strategy can be used for truncating events such as death, when interest lies in what happened to the patient while they were still alive. For example, in palliative care or cancer studies, it might be useful to understand how treatment affected patients’ quality of life up to their death. However, the
considerations listed above still apply, and so results should be interpreted in the light of any differences in rates of death between treatments.

Hypothetical strategy

Definition

Under a hypothetical strategy, a hypothetical scenario is envisaged in which the intercurrent event would not (or would) occur, and participant outcomes corresponding to this hypothetical scenario are used. The aim is to evaluate the treatment effect in this hypothetical setting (eg, what the treatment effect would have been had the patients continued to take treatment). In the example asthma trial, if participants stopped dupilumab early because it was causing mild headaches, the hypothetical setting of interest might be if participants had instead continued dupilumab with the help of a mild analgesic to manage their headaches.
The hypothetical strategy can modify the treatment attribute of the estimand. For instance, in the hypothetical setting where participants do not discontinue dupilumab, the treatment attribute is changed to evaluate dupilumab under hypothetical compliance.

Considerations for treatment-modifying events

Researchers should define the mechanism used to avoid the intercurrent event in the hypothetical setting, because without such a mechanism the estimand is not well defined, and it would be impossible to know what participant outcomes ought to be. For instance, in the example asthma study, a hypothetical setting where participants are given analgesic to help them continue with dupilumab might lead to different outcomes compared with a setting where a lower dose of dupilumab is used that does not cause headaches, or compared with those from a setting where clinicians continue to use dupilumab despite its adverse effects. Definition of the mechanism also facilitates critical appraisal of the clinical relevance of the estimand. For instance, a research question centred around clinicians continuing to use a treatment despite adverse effects is unlikely to be clinically meaningful.
For these reasons, the hypothetical strategy will usually be most appropriate for intercurrent events that are subject to modification, because the mechanism behind the hypothetical scenario can usually be well defined.

Considerations for truncating events

As above, the mechanism behind the hypothetical setting should be defined. However, because truncating events such as death are usually not subject to modification (ie, we cannot specify how patients in a cancer study will avoid death), an appropriate mechanism cannot usually be defined.

Principal stratum strategy Definition

Under a principal stratum strategy, the estimand population is redefined to include only patients who would not (or would) experience the intercurrent event. The principal stratum strategy modifies the population attribute of the estimand. Different principal stratum populations can be defined. For instance, in the example asthma trial, the population could be defined as patients who would not discontinue early if assigned to either dupilumab or placebo. Conversely, it could be defined as those participants who would not discontinue early if assigned to dupilumab, regardless of whether they actually were assigned to dupilumab. For treatment-modifying intercurrent events, use of a principal stratum strategy is sometimes known as a complier average causal effect, whereas for truncating events such as death, it is often known as a survivor average causal effect.

Considerations for treatment-modifying events

In practice, we cannot determine which patients belong to the principal stratum population at the point they are assigned a treatment, because this information would require knowing their future intercurrent event status under each treatment strategy. Thus, if principal stratum effects are used to inform clinical decision making, some patients outside the principal stratum population might be treated on the basis of this result.
Table 3 | Core attributes of estimands
Attribute Definition Example from the FLO-ELA tria
Population Patients for whom researchers want to estimate the treatment effect Patients years old who would undergo emergency bowel surgery under any treatment assignment
Treatment conditions Different intervention strategies being compared in the treatment effect definition Intervention group: assignment to protocolised, cardiac output guided, haemodynamic treatment during surgery and for six hours after, regardless of whether cardiac output monitor is followed correctly; usual care group: assignment to intravenous fluid use without cardiac output monitoring or protocol during surgery, and for six hours after
Endpoint Outcome for each participant that is used in the treatment effect definition Number of days alive and out of hospital within 90 days of randomisation
Summary measure Method used to summarise and compare the endpoint between treatment conditions (eg, risk ratio, odds ratio) Ratio of means
Handling of intercurrent events Strategies used to handle each intercurrent event* in the treatment effect definition; different strategies could be used for different types of intercurrent events Surgery cancelled after randomisation (applies to both treatment groups): principal stratum (subpopulation of patients who would undergo surgery under either treatment assignment); receipt of cardiac output monitoring (usual care group): treatment policy; failure to initiate cardiac output monitoring (intervention group): treatment policy; cardiac output monitoring algorithm not followed (intervention group): treatment policy
Fig 1 | Different strategies regarding intercurrent events. In this example, a randomised trial compares intervention with control to understand how outcomes differ at month 2 . However, one participant stops treatment before month 2 (ie, an intercurrent event). The figure shows what happens to this participant under each intercurrent event strategy. Under a composite strategy, investigators have decided to assign a score of 0 to any participant who experienced an intercurrent event. Under a while-on-treatment strategy, because the participant experienced an intercurrent event before month 2 , their month 1 score of 3 is used in place of their month 2 score. Under a hypothetical strategy, the participant’s outcome that would have occurred had they continued treatment at month 2 is used (here, it is a value of 9 ); but in practice, this value will not be known and so must be estimated. M=month
Care should therefore be taken to ensure that treatment does not cause harm to those individuals outside this population. For instance, if dupilumab were to cause most patients to discontinue early owing to severe side effects, but use of the drug increases in a small subset who can tolerate it, a principal stratum estimand would show a positive effect, which could result in most patients who are treated experiencing severe side effects.

Considerations for truncating events

The considerations outlined above also apply to truncating events. Further, for events such as death, a principal stratum strategy implies that outcomes before death (eg, a participant’s quality of life while they are alive) are irrelevant to the research question.

Choice of estimand

The estimand should be chosen in line with the overall study objectives. For instance, if the aim is to evaluate the effect of the intervention as used in real world, routine clinical practice, the estimand should reflect this. This decision will require thinking through the potential intercurrent events that might occur and then identifying which strategy to handle
each intercurrent event best matches the overall objectives.
Choice of estimand will also need to consider the estimation strategy (described below), because some estimands can be more reliably estimated than others. For instance, some estimands might require strong, implausible assumptions in order to estimate, or they might lead to larger amounts of missing data than other choices. Thus, some trade-off might be required between a perfect estimand that cannot be reliably estimated and a good but imperfect estimand that can be reliably estimated. Thus, choosing the estimand requires an iterative procedure, which might be revisited after consideration of study methods. Ideally, the estimand should be chosen collaboratively among the different stakeholders, including healthcare professionals, statisticians, and patient representatives.

Aligning study methods with the estimand Study design

The study design can affect the ability to estimate the desired estimand. For example, placebo run-in trials require all participants to start out on placebo. Then, only participants who adhere to placebo

Box 5: Intercurrent events, protocol deviations, and missing data

The definition of an intercurrent event is broad, encompassing several distinct concepts (eg, treatment-modifying events, truncating events). Owing to some overlap with other common concepts, understanding what is (and what is not) an intercurrent event can be challenging. We summarise below how intercurrent events differ from protocol deviations and missing data.

Protocol deviations

Some but not all protocol deviations can also be intercurrent events. Intercurrent event status depends on whether the protocol deviation affects assigned treatment. If it does affect assigned treatment (eg, receipt of prohibited drug treatment), the deviation is also an intercurrent event; if it does not (eg, failure to take proper informed consent), the deviation usually is not an intercurrent event.
Similarly, some but not all intercurrent events can also be protocol deviations. Protocol deviation status will depend on whether the intercurrent event is allowed by the protocol. For instance, if the protocol allows patients to modify or stop treatment in response to an adverse event, this event is not a deviation. However, if a participant receives drug treatment prohibited by the protocol, this event is a deviation.

Missing data

Loss to follow-up, study withdrawal, and missing data frequently occur alongside certain intercurrent events, but they are not themselves intercurrent events. For instance, participants who stop treatment early might also withdraw from the study. However, it is the treatment discontinuation that affects our interpretation of outcome data, and not the withdrawal from the study (which simply poses a missing data issue that needs to be handled as part of the statistical analysis, but not as part of the estimand definition).
are randomised to stay on placebo or switch to the intervention. This design facilitates simple estimation of the treatment effect in the subset of patients who would adhere to placebo if assigned (ie, uses a principal stratum strategy). However, choice of strategy to handle such non-adherence is restricted by design, so only the principal stratum strategy can be used.
In general, studies that aim to estimate an intervention’s effect if used as part of routine practice should be designed to limit the occurrence of intercurrent events that would not occur in practice. For example, if an experimental rescue treatment is not available routinely, it should not be made available to study participants, because doing so would lead to a treatment comparison that does not reflect usual practice. Conversely, these studies should not be
designed to minimise the occurrence of intercurrent events that would occur in practice because this design can also lead to comparisons that do not reflect routine practice.

Data collection

Data collection has an essential role in determining which estimands can be estimated, and how reliably. Thus, at the study outset, researchers must identify what data are required to support estimation of each estimand and ensure that they are collected. For instance, a treatment policy strategy requires outcome data to be collected even after the occurrence of the intercurrent event, and while-on-treatment/whilealive strategies require outcome data to be collected before the occurrence of the intercurrent event. Similar
Table 4 | Strategies to handle intercurrent events in the estimand definition
Strategy Definition Points to consider
Treatment policy The intercurrent event is considered part of the treatment strategy, so outcomes are used whether or not the intercurrent event occurred Cannot be used for truncating intercurrent events, such as death
Can be used to evaluate the intervention if used as part of routine practice, provided that the intercurrent event under consideration would occur in routine practice as well as in the study setting
Composite The intercurrent event is incorporated into the outcome definition, and participants who experience the intercurrent event are assigned to a particular outcome value Modifies the endpoint attribute of the estimand
Changes the interpretation of the estimand to include the effect of treatment on the occurrence of the intercurrent event
Different composite estimands could be defined on the basis of the choice of value assigned to the outcome
Should not be used for intercurrent events only affecting one treatment group, because this action involves defining the outcome differently between treatments, which could introduce artificial differences
While-on-treatment/whilealive The outcome before the occurrence of the intercurrent event is of interest Modifies the endpoint attribute of the estimand
Different while-on-treatment/while-alive estimands could be defined, depending on which outcomes are used before occurrence of the intercurrent event
This strategy can compare outcomes at different time points between treatment groups, which can make the intervention appear effective (or harmful) even when it has no direct effect on the outcome
Hypothetical The outcome pertaining to a hypothetical setting where the intercurrent event would not (or would) occur is of interest Could modify the treatment attribute of the estimand
Multiple hypothetical settings could apply, so the precise hypothetical setting envisaged should be described
How the hypothetical setting would occur should be justified, to ensure that the estimand is well defined and to facilitate critical appraisal of the estimand’s clinical relevance
Principal stratum The outcome in a subpopulation of patients who would not (or would) experience the intercurrent event is of interest Modifies the population attribute of the estimand
Different principal stratum populations can be defined-for instance, participants who would not discontinue either assigned treatment versus those who would not discontinue if assigned to intervention
considerations exist for estimation of hypothetical and principal stratum strategies. 50-52

Estimation

The appropriate method of statistical analysis (the estimator ) depends on which strategies have been specified to handle each intercurrent event. A brief overview of different estimators is provided in table 5, alongside references to articles that provide a more detailed description of how to implement certain methods.
In the absence of missing data, the treatment policy, composite, and while-on-treatment/while-alive strategies can be estimated from a randomised trial with minimal assumptions. Conversely, estimation of hypothetical or principal stratum strategies requires stronger assumptions, which cannot be verified using the study data. This need for stronger assumptions is because the required data (such as the participant’s outcome in the hypothetical setting of interest or whether they belong to the principal stratum population) are unknown, and so assumptions about what these data might be are required. Therefore, estimation of these strategies can sometimes be less reliable (ie, more prone to bias) than estimation of the first three intercurrent event strategies. In non-randomised studies or studies with missing data, estimation of all strategies will typically require additional assumptions-for instance, around confounding or the nature of the missing data.

Sensitivity analyses

Many analyses make certain assumptions about the study data, and when these are not fulfilled, they might produce biased (ie, incorrect) estimates of the treatment effect. Sensitivity analyses are used to evaluate the robustness of results to departures from these assumptions, in order to inform investigators and readers about the reliability of results. For instance, if
sensitivity analyses show similar results to the main results, investigators can have more confidence in their conclusions. Importantly, sensitivity analyses must target the same estimand as the main analysis, because obtaining a different answer to a different question gives no indication about the robustness of the results.

Example 1: Applying the estimands framework to the FLO-ELA trial

We now demonstrate how the estimands framework can be implemented using the FLO-ELA trial, described earlier. FLO-ELA was an open label, pragmatic trial comparing two methods of fluid delivery (cardiac output monitor clinician judgment) in patients undergoing emergency bowel surgery. The primary outcome measure was the number of days that participants were alive and out of hospital, within 90 days of randomisation. We describe the different steps of the estimands framework below. For clarity, we have simplified several aspects of the trial.

Choice of estimand

The aim of FLO-ELA was to evaluate the effect of a treatment algorithm using a cardiac output monitor (COM) if used as part of real life routine practice. Thus, choice of the estimand attributes and the strategies to handle intercurrent events should reflect real life practice.
Defining an estimand requires specifying the first four attributes (population, treatments, endpoint, summary measure), and then anticipating which intercurrent events are likely to occur and deciding which strategies will be used to handle each type of intercurrent event.
Likely intercurrent events in FLO-ELA were thought to be (1) surgery might be cancelled after randomisation for some participants, either because they become too unwell or the underlying issue has resolved itself; (2)
Table 5 | Overview of estimation methods used for different intercurrent event strategies
Intercurrent event strategy Description of estimation methods*
Treatment policy Estimated by including participant outcomes in the analysis regardless of the occurrence of the intercurrent event.
Composite Estimated by first modifying the endpoint to make a composite, then including this modified endpoint in the analysis.
While-on-treatment/while-alive Estimated by first modifying the endpoint (eg, by using outcome data from before the intercurrent event in place of final outcome data), and then including this modified endpoint in the analysis.
Outcome data after the intercurrent event should not be set to missing, because doing so can lead to some participants being excluded from the analysis, which can induce bias; or lead certain statistical models, such as mixed models for repeated measures or the Cox model, to implicitly impute outcome data after the intercurrent event. This implicit imputation would then estimate a hypothetical strategy.
Hypothetical Different methods can be used to estimate the hypothetical strategy.
A common approach is to set outcome data after intercurrent events as missing data, and then use a method (eg, inverse probability weighting, multiple imputation, or likelihood based analyses) to try and recreate what the missing outcome data would have been, had the intercurrent event not occurred.
Alternative methods, such as instrumental variables or g estimation, have also been described.
Estimation of the hypothetical strategy requires assumptions that cannot be tested using the study data. Different methods require different assumptions, so the most appropriate method might vary from study to study depending on which set of assumptions is most realistic.
Principal stratum Different methods can be used to estimate the principal stratum strategy, each of which require different assumptions. Several references provide an overview.
When the intercurrent event is not affected by treatment assignment (ie, there are no patients who would experience the event in one treatment arm but not the other arm), a simple approach is to exclude patients who experience the intercurrent event from the analysis.
Instrumental variables can be used in many settings when occurrence of the intercurrent event is affected by treatment assignment.
More complex methods are typically required when the intercurrent event is death-for instance, those events that incorporate baseline covariates to help identify the principal stratums
participants in the usual care group might be treated with the COM; (3) participants in the intervention group might not be treated with the COM; and (4) the COM might be used incorrectly (ie, the algorithm not followed).
A treatment policy strategy was chosen for intercurrent events 3 and 4 above (ie, the COM not being used, or being used incorrectly for intervention group participants); this strategy choice reflects that these intercurrent events could occur in practice and so can be considered an inherent part of the treatment.
Because current standard of care practice does not involve the use of a COM, allowing participants in the usual care group to use the COM does not reflect routine practice. Therefore, a hypothetical strategy, which envisions a setting where participants in the usual care group were not treated with the COM, would be most appropriate. However, this intercurrent event is likely to affect only a small handful of participants. Given the inherent challenges in estimating hypothetical strategies, a treatment policy strategy was chosen instead to simplify the analysis, under the assumption that it would have no material impact on results, given the low anticipated number of events.
As discussed earlier, although cancellation of surgery would occur in practice, a treatment policy strategy would not be appropriate as a means to evaluate the effect of the COM as used in practice. The COM can be used only for patients who undergo surgery, and so interest naturally lies in its effect in these patients. However, a treatment policy strategy would provide the effect of the COM regardless of whether patients underwent surgery or not. Thus, a principal stratum strategy based on the subset of patients who would undergo surgery, regardless of treatment assignment, is most appropriate. This strategy can also be easily estimated, as described below.
Here, the handling of intercurrent events has affected the definition of the population attribute by clarifying that interest lies in patients who would undergo emergency bowel surgery under assignment to either treatment. It has also affected the treatment attribute, by clarifying that interest lies in the use of the COM regardless of whether it is used exactly as specified.
The full estimand is described in table 3, and can be written as: “The estimand for the primary outcome (DAOH90) is the ratio of means of days alive and out of hospital within 90 days of randomisation between protocolised, cardiac output guided, haemodynamic therapy versus usual care (intravenous fluid administered without use of cardiac output monitoring), regardless of adherence in the cardiac monitoring arm or use of cardiac monitoring in the control arm, in patients aged years who would undergo emergency bowel surgery under assignment to either treatment.”

Study design, data collection, and estimation

A standard, two arm, parallel group trial is sufficient to deal with the estimand in table 3 . To ensure that the
trial population was representative of the estimand population, specific recruitment strategies could be put into place to facilitate easier recruitment of underrepresented groups, such as those presenting outside of normal working hours, and those lacking the capacity to consent (eg, owing to severe pain, or use of opioid analgesics). Ideally, the trial would also be designed to limit the number of enrolled participants who go on to have their surgery cancelled, for instance, by randomising participants as close to the start of surgery as possible. However, in practice a small delay between randomisation and surgery is inevitable, owing to the complexities involved in preparing the intervention.
The outcome data required for estimation include outcomes even after the occurrence of intercurrent events for which a treatment policy strategy is being used. The occurrence of whether participants underwent surgery or not must also be collected to facilitate estimation of the principal stratum strategy.
The estimand in table 3 can be estimated in a straightforward manner. The analysis population will be all randomised patients who did not have their surgery cancelled. Patients whose surgery was cancelled will be excluded from the analysis. This exclusion is to estimate the principal stratum strategy relating to the intercurrent event of cancellation of surgery , which requires the assumption that cancellation of surgery is not affected by the treatment arm (ie, that patients who undergo surgery under the intervention arm would have also done so under the usual care arm, and vice versa). This assumption is justified on contextual grounds (ie, that it is implausible for a clinician to cancel surgery on the basis of the method of fluid delivery).

Sensitivity analyses

The main assumption underpinning the analysis described above relates to the approach to estimating the principal stratum effect, whereby participants who did not undergo surgery are excluded. The required assumption, described above, is justified on the contextual grounds, so formal sensitivity analyses are not required. If data are missing, the analysis would require additional assumptions, which would require sensitivity analyses (eg, to explore whether conclusions are affected under different assumptions around the missing data).

Example 2: Applying the estimands framework to quality of life in a cancer trial

Investigators have developed a new pharmaceutical treatment for prostate cancer. They plan to run a pragmatic phase 3 trial to evaluate their new intervention against usual care, and expect it will lead to modest gains in overall survival of around three months. However, they are concerned that, owing to increased toxicity, the new intervention might reduce quality of life. Therefore, they wish to compare each patient’s average quality of life score (measured
monthly) over one year between treatments so that patients and healthcare professionals understand the relative benefits and harms of the intervention.

Choice of estimand

The trial objective is to evaluate the effect of the new intervention as used in routine practice and so intercurrent events (such as treatment discontinuation, missed doses, or switching to second line treatments) can all be handled using a treatment policy strategy. However, some patients will die before one year, so their quality of life scores are not defined past the point they die. Because a treatment policy strategy cannot be used for truncating events, investigators must decide which alternative strategy to use.
A hypothetical strategy considers the question “What would be the difference in the average quality of life over one year if men with prostate cancer never died?” However, this question does not match the trial objective, because the hypothetical setting considered does not match what happens in real life. Further, no mechanism to avoid death exists, and so the estimand itself is not well defined, meaning that any estimates produced by the trial will be challenging to interpret.
A principal stratum strategy considers the question “What is the difference in the average quality of life over one year in the subset of men who would survive past one year on either treatment?” As above, this question does not match the trial objective, because investigators are interested in the intervention’s impact on quality of life in all patients, even those who die.
Investigators next consider a composite strategy, where patients are assigned a quality of life score of 0 after they die. The investigators believe that this strategy broadly matches their objective, but are concerned that differences in quality of life due to the toxicity of the intervention might be obscured by its slightly lower incidence of the intercurrent event, and so results could be difficult to interpret.
Finally, the investigators consider a while-alive strategy, which looks at the question “What is the difference in the average quality of life over one year or until the patient has died, whichever is first?” Because this strategy includes quality of life scores from patients who die (ie, by using their average score before the point of death) it applies to all patients, and so investigators believe it matches their objective well. However, the investigators are concerned that any underlying time trends (eg, a reduction in quality of life over time, irrespective of treatment arm) might affect results, given the anticipated survival increase in the intervention arm.
After careful consideration, the investigators choose a while-alive strategy, because it best matches their objectives, and the strategy’s benefits outweigh its drawbacks. However, the investigators will be careful to interpret results in the light of any differences in mortality rates between treatment arms. The full estimand can then be written as: “The estimand is the difference in means of the average global quality of life score (measured monthly using the EORTC QLQ-C30)
over one year or until death, whichever occurs first, between intervention plus usual care versus usual care alone, regardless of whether patients stop treatment early, switch to alternate treatments, or miss any treatment doses, in men aged years with prostate cancer.”

Study design, data collection, and estimation

Because a while-alive strategy requires outcome data before the intercurrent event, investigators plan to collect quality of life scores weekly for the first four weeks, then monthly thereafter.
Estimation is straightforward. The outcome is calculated by taking the mean of each patient’s quality of life scores over one year, or until the point they died, and the difference between arms can be estimated by including all randomised patients (even those with other intercurrent events, such as treatment discontinuation or switching) in a regression model. Importantly, methods that implicitly impute outcome data, such as mixed models for repeated measures, should not be used (table 5).

Sensitivity analyses

In the absence of missing data, the estimator described above does not require any strong assumptions. If some data are missing, the estimator will require assumptions about the nature of the missing data (eg, missing at random), and so sensitivity analyses could be used to assess whether conclusions change under different assumptions.

Discussion

Understanding the exact research question being answered in a study is essential for an appropriate interpretation of results. But most studies do not clearly define the research question, even when investigators attempt to describe it using existing frameworks, such as labelling the study as pragmatic or explanatory, or using the PICO (population, intervention, comparator, outcome) framework. This lack of definition is because these frameworks leave out key information essential to the proper interpretation of the research question.
The estimands framework resolves these problems by extending the PICO framework to include additional essential attributes. Estimands can therefore be used to clarify the exact interpretation of research questions by requiring investigators to describe each attribute of the treatment effect(s) they wish to quantify. By ensuring research questions are clearly described, estimands can help external stakeholders make informed decisions about interventions, by avoiding misinterpretations of study results. Estimands can also help study investigators to make sure they are using appropriate methods in their study relative to the research question they have chosen.
In this article, we have described the estimands frameworkoutlinedintheICHE9(R1)addendum, which is now adopted by medicines regulators worldwide. However, other frameworks for describing treatment effects exist. While the structure provided by the
BMJ: first published as 10.1136/bmj-2023-076316 on 23 January 2024. Downloaded from https://www.bmj.com/ on 28 August 2025 by guest. Protected by copyright, including for uses related to text and data mining, AI training, and similar technologies.
estimands framework is useful, the most important thing is to ensure the research question is described in sufficient detail to allow others to understand what the study is trying to estimate, regardless of the specific framework used.
Contributors: SC and TPM contributed equally. BCK wrote the first draft of the manuscript. All authors revised the manuscript, and read and approved the final manuscript. BCK acts as guarantor. The corresponding author attests that all listed authors meet authorship criteria and that no others meeting the criteria have been omitted.
Funding: BCK, JH, and TPM are funded by the UK Medical Research Council (grants MC_UU_00004/07 and MC_UU_00004/09). SC is funded by a National Institute for Health and Care Research (NIHR) advanced fellowship (reference NIHR300593) for this research project. The views expressed in this publication are those of the author(s) and not necessarily those of the NIHR. The funders had no role in the design and conduct of the study; collection, management, analysis, and interpretation of the data; preparation, review, or approval of the manuscript; and decision to submit the manuscript for publication.
Competing interests: All authors have completed the ICMJE uniform disclosure form at https://www.icmje.org/disclosure-of-interest/ and declare: support from the UK Medical Research Council and the NIHR for the submitted work. BCK and SC declare grant funding (payable to employing institutions) from the MRC-NIHR Trials Methodology Research Partnership. BCK and ME declare grant funding (payable to employing institutions) from the NIHR for the FLO-ELA trial. TPM declares consultancy fees from Bayer Healthcare Pharmaceuticals, Alliance Pharmaceuticals, Gilead Sciences, and Kite Pharma; declares conference attendance and travel paid for as an invited speaker at the 2023 European Society for Blood and Marrow Transplantation conference; and is an independent member of the data and safety monitoring board for the FLO-ELA trial. All other authors declare no conflicts of interest.
Provenance and peer review: Not commissioned; externally peer reviewed.
This is an Open Access article distributed in accordance with the terms of the Creative Commons Attribution (CC BY 4.0) license, which permits others to distribute, remix, adapt and build upon this work, for commercial use, provided the original work is properly cited. See: http://creativecommons.org/licenses/by/4.0/.
1 Edwards MR, Forbes G, Walker N, et al, FLO-ELA investigators. Fluid Optimisation in Emergency Laparotomy (FLO-ELA) Trial: study protocol for a multi-centre randomised trial of cardiac outputguided fluid therapy compared to usual care in patients undergoing major emergency gastrointestinal surgery. Trials 2023;24:313. doi:10.1186/s13063-023-07275-3
2 Sedgwick P. Intention to treat analysis versus per protocol analysis of trial data. BMJ 2015;350:h681. doi:10.1136/bmj.h681
3 Fergusson D, Aaron SD, Guyatt G, Hébert P. Post-randomisation exclusions: the intention to treat principle and excluding patients from analysis. BMI 2002;325:652-4. doi:10.1136/ bmj.325.7365.652
4 Kahan BC, White IR, Edwards M, Harlay MO. Using modified intention-to-treat as a principal stratum estimator for failure to initiate treatment. Clin Trials 2023;20:269-75. doi:10.1177/17407745231160074
5 European Medicines Agency. ICH E9 (R1) addendum on estimands and sensitivity analysis in clinical trials to the guideline on statistical principles for clinical trials. 2020. https://www.ema.europa.eu/en/ documents/scientific-guideline/ich-e9-r1-addendum-estimands-sensitivity-analysis-clinical-trials-guideline-statistical-principles_en.pdf.
6 Wenzel S, Castro M, Corren J. Dupilumab efficacy and safety in adults with uncontrolled persistent asthma despite use of medium-to-high-dose inhaled corticosteroids plus a long-acting agonist: a randomised double-blind placebo-controlled pivotal phase 2 b dose-ranging trial. Lancet 2016;388:31-44. doi:10.1016/S0140-6736(16)30307-5
7 Pac Soo V, Baker FA, Sousa TV, et al. Statistical analysis plan for HOMESIDE: a randomised controlled trial for home-based family caregiver-delivered music and reading interventions for people living with dementia. Trials 2023;24:316. doi:10.1186/s13063-023-07327-8
8 Casswell EJ, Cro S, Cornelius VR, et al, ASCOT Investigator Study Group. Randomised controlled trial of adjunctive triamcinolone acetonide in eyes undergoing vitreoretinal surgery following open globe trauma: The ASCOT study. Br J Ophthalmol 2023;bjo-2022322787. doi:10.1136/bjo-2022-322787
9 Loudon K, Treweek S, Sullivan F, Donnan P, Thorpe KE, Zwarenstein M. The PRECIS-2 tool: designing trials that are fit for purpose. BMJ 2015;350:h2147. doi:10.1136/bmj.h2147
10 Homer V, Yap C, Bond S, et al. Early phase clinical trials extension to guidelines for the content of statistical analysis plans. BMJ 2022;376:e068177. doi:10.1136/bmj-2021-068177
11 Kahan BC, Hall SS, Beller EM, et al. Reporting of Factorial Randomized Trials: Extension of the CONSORT 2010 Statement. JAMA 2023;330:2106-14. doi:10.1001/jama.2023.19793.
12 Kahan BC, Hall SS, Beller EM, et al. Consensus Statement for Protocols of Factorial Randomized Trials: Extension of the SPIRIT 2013 Statement. JAMA Netw Open 2023;6:e2346121. doi:10.1001/jamanetworkopen.2023.46121.
13 International Council for Harmonisation of Technical Requirements for Pharmaceuticals for Human Use. ICH Guideline Implementation, https://www.ich.org/page/ich-guideline-implementation (accessed 23/08/2022).
14 Li H, Wang C, Chen W-C, et al. Estimands in observational studies: Some considerations beyond ICH E9 (R1). Pharm Stat 2022;21:83544. doi:10.1002/pst. 2196
15 Mitroiu M, Oude Rengerink K, Teerenstra S, Pétavy F, Roes KCB. A narrative review of estimands in drug development and regulatory evaluation: old wine in new barrels?Trials 2020;21:671. doi:10.1186/s13063-020-04546-1
16 Pétavy F, Guizzaro L, Antunes Dos Reis I, Teerenstra S, Roes KCB. Beyond “Intent-to-treat” and “Per protocol”: Improving assessment of treatment effects in clinical trials through the specification of an estimand. Br / Clin Pharmacol 2020;86:1235-9. doi:10.1111/ bcp. 14195
17 Roydhouse J, Floden L, Braat S, et al. Missing data in palliative care research: estimands and estimators. BMJ Support Palliat Care 2022;12:464-70. doi:10.1136/bmjspcare-2022-003553
18 Sun S, Weber HJ, Butler E, Rufibach K, Roychoudhury S. Estimands in hematologic oncology trials. Pharm Stat 2021;20:793-805. doi:10.1002/pst. 2108
19 Cro S, Kahan BC, Rehal S, et al. Evaluating how clear the questions being investigated in randomised trials are: systematic review of estimands. BMJ 2022;378:e070146. doi:10.1136/bmj-2022070146
20 Kahan BC, Cro S, Li F, Harhay MO. Eliminating ambiguous treatment effects using estimands. Am J Epidemiol 2023;192:987-94. doi:10.1093/aje/kwad036
21 Kahan BC, Morris TP, White IR, Carpenter J, Cro S. Estimands in published protocols of randomised trials: urgent improvement needed. Trials 2021;22:686. doi:10.1186/s13063-021-05644-4
22 Kahan BC, Morris TP, White IR, et al. Treatment estimands in clinical trials of patients hospitalised for COVID-19: ensuring trials ask the right questions. BMC Med 2020;18:286. doi:10.1186/s12916-020-01737-0
23 Clark TP, Kahan BC, Phillips A, White I, Carpenter JR. Estimands: bringing clarity and focus to research questions in clinical trials. BMJ Open 2022;12:e052953. doi:10.1136/ bmjopen-2021-052953
24 Fletcher C, Hefting N, Wright M, et al. Marking 2-Years of New Thinking in Clinical Trials: The Estimand Journey. Ther Innov Regul Sci 2022;56:637-50. doi:10.1007/s43441-022-00402-3
25 Mitroiu M, Teerenstra S, Oude Rengerink K, Pétavy F, Roes KCB. Estimation of treatment effects in short-term depression studies. An evaluation based on the ICH E9(R1) estimands framework. Pharm Stat 2022;21:1037-57. doi:10.1002/pst. 2214
26 Keene ON, Wright D, Phillips A, Wright M. Why ITT analysis is not always the answer for estimating treatment effects in clinical trials. Contemp Clin Trials 2021;108:106494. doi:10.1016/j. cct.2021.106494
27 Little RJ, Lewis RJ. Estimands, Estimators, and Estimates. JAMA 2021;326:967-8. doi:10.1001/jama.2021.2886
28 National Research Council Panel on Handling Missing Data in Clinical Trials.The Prevention and Treatment of Missing Data in Clinical Trials . National Academies Press; 2010.
29 Leuchs AK, Zinserling J, Brandt A, Wirtz D, Benda N. Choosing Appropriate Estimands in Clinical Trials. Ther Innov Regul Sci 2015;49:584-92. doi:10.1177/2168479014567317
30 Mallinckrodt CH, Lin Q, Lipkovich I, Molenberghs G. A structured approach to choosing estimands and estimators in longitudinal clinical trials. Pharm Stat 2012;11:456-61. doi:10.1002/ pst. 1536
31 Morris TP, Kahan BC, White IR. Choosing sensitivity analyses for randomised trials: principles. BMC Med Res Methodol 2014;14:11. doi:10.1186/1471-2288-14-11
32 Angrist JD, Imbens GW, Rubin DB. Identification of Causal Effects Using Instrumental Variables. J Am Stat Assoc 1996;91:444-55. doi: 10.1080/01621459.1996.10476902.
33 Frangakis CE, Rubin DB. Principal stratification in causal inference. Biometrics 2002;58:21-9. doi:10.1111/j.0006341X.2002.00021.x
34 Hernán MA, Robins JM. Using Big Data to Emulate a Target Trial When a Randomized Trial Is Not Available. Am J Epidemiol 2016;183:75864. doi:10.1093/aje/kwv254.
35 Robins J. A new approach to causal inference in mortality studies with a sustained exposure period-application to control of the healthy worker survivor effect. Math Model 1986;7:1393-512. doi:10.1016/0270-0255(86)90088-6.
36 Rubin DB. Bayesian Inference for Causal Effects: The Role of Randomization. Ann Stat 1978;6:34-58. doi:10.1214/ aos/1176344064.
37 Zalla LC, Lesko CRRE. RE: “ELIMINATING AMBIGUOUS TREATMENT EFFECTS USING ESTIMANDS”. Am I Epidemiol 2023;192:1029-30. doi:10.1093/aje/kwad070
38 van Geloven N, Swanson SA, Ramspek CL, et al. Prediction meets causal inference: the role of treatment in clinical prediction models. Eur J Epidemiol 2020;35:619-30. doi:10.1007/s10654-020-00636-1
39 Splawa-Neyman J, Dabrowska D, Speed T. On the Application of Probability Theory to Agricultural Experiments. Essay on Principles. Section 9. Stat Sci 1990;5. doi:10.1214/ss/1177012031.
40 Little R, Kang S. Intention-to-treat analysis with treatment discontinuation and missing data in clinical trials. Stat Med 2015;34:2381-90. doi:10.1002/sim. 6352
41 Ting N, Huang L, Deng Q, et al. Average Response over Time as Estimand: An Alternative Implementation of the While on Treatment Strategy. Stat Biosci 2021;13:479-94. doi:10.1007/s12561-021-09301-x.
42 Little RJ, Wang J, Sun X, et al. The treatment of missing data in a large cardiovascular clinical outcomes study. Clin Trials 2016;13:344-51. doi:10.1177/1740774515626411
43 Cro S, Kahan BC, Patel A, et al. Starting a conversation about estimands with public partners involved in clinical trials: a codeveloped tool. Trials 2023;24:443. doi:10.1186/s13063-023-07469-9
44 Bowden J, Bornkamp B, Glimm E, Bretz F. Connecting Instrumental Variable methods for causal inference to the Estimand Framework. Stat Med 2021;40:5605-27. doi:10.1002/sim. 9143
45 Cro S, Morris TP, Kahan BC, Cornelius VR, Carpenter JR. A four-step strategy for handling missing outcome data in randomised trials affected by a pandemic. BMC Med Res Methodol 2020;20:208. doi:10.1186/s12874-020-01089-6
46 Hernán MA, Robins JM. Causal Inference: What If. Chapman & Hall/ CRC, 2020.
47 Mansournia MA, Altman DG. Inverse probability weighting. BMJ 2016;352:1189. doi:10.1136/bmj.i189
48 Olarte Parra C, Daniel RM, Bartlett JW. Hypothetical Estimands in Clinical Trials: A Unification of Causal Inference and Missing Data Methods. Stat Biopharm Res 2022;15:421-32. doi:10.1080/19466 315.2022.2081599
49 Van Lancker K, Tarima S, Bartlett J, et al. Estimands and their Estimators for Clinical Trials Impacted by the COVID-19 Pandemic: A Report from the NISS Ingram Olkin Forum Series on Unplanned Clinical Trial Disruptions. Stat Biopharm Res 2022;15:94-111. doi:10 .1080/19466315.2022.2094459.
50 Hayden D, Pauler DK, Schoenfeld D. An estimator for treatment comparisons among survivors in randomized trials. Biometrics 2005;61:305-10. doi:10.1111/j.0006341X.2005.030227.x
51 Lipkovich I, Ratitch B, Qu Y, Zhang X, Shan M, Mallinckrodt C. Using principal stratification in analysis of clinical trials. Stat Med 2022;41:3837-77. doi:10.1002/sim. 9439
52 Mallinckrodt C, Molenberghs G, Lipkovich I, et al. Estimands, Estimators and Sensitivity Analysis in Clinical Trials. Chapman and Hall/CRC, 2020.
53 Bond SJ, White IR. Estimating causal effects using prior information on nontrial treatments. Clin Trials 2010;7:664-76. doi:10.1177/1740774510382439
54 Carpenter JR, Roger JH, Kenward MG. Analysis of longitudinal trials with protocol deviation: a framework for relevant, accessible assumptions, and inference via multiple imputation. J Biopharm Stat 2013;23:1352-71. doi:10.1080/10543406.2013.834911
55 Hartley B, Drury T, Lettis S, Mayer B, Keene ON, Abellan JJ. Estimation of a treatment policy estimand for time to event data using data collected post discontinuation of randomised treatment. Pharm Stat 2022;21:612-24. doi:10.1002/pst. 2189
56 Pham TM, White IR, Kahan BC, Morris TP, Stanworth SJ, Forbes G. A comparison of methods for analyzing a binary composite endpoint with partially observed components in randomized controlled trials. Stat Med 2021;40:6634-50. doi:10.1002/sim. 9203
57 Polverejan E, Dragalin V. Aligning Treatment Policy Estimands and Estimators-A Simulation Study in Alzheimer’s Disease. Stat Biopharm Res 2020;12:142-54. doi:10.1080/19466315.2019.16 89845.
58 Roger JH, Bratton DJ, Mayer B, Abellan JJ, Keene ON. Treatment policy estimands for recurrent event data using data collected after cessation of randomised treatment. Pharm Stat 2019;18:85-95. doi:10.1002/pst. 1910
59 White IR, Kalaitzaki E, Thompson SG. Allowing for missing outcome data and incomplete uptake of randomised interventions, with application to an Internet-based alcohol trial. Stat Med 2011;30:3192-207. doi:10.1002/sim. 4360
60 Latimer NR, Abrams KR, Siebert U. Two-stage estimation to adjust for treatment switching in randomised trials: a simulation study investigating the use of inverse probability weighting instead of re-censoring. BMC Med Res Methodol 2019;19:69. doi:10.1186/ s12874-019-0709-9
61 Kurland BF, Johnson LL, Egleston BL, Diehr PH. Longitudinal Data with Follow-up Truncated by Death: Match the Analysis Method to Research Aims. Stat Sci 2009;24:211. doi:10.1214/09-STS293.
62 Magnusson BP, Schmidli H, Rouyrre N, Scharfstein DO. Bayesian inference for a principal stratum estimand to assess the treatment effect in a subgroup characterized by postrandomization event occurrence. Stat Med 2019;38:4761-71. doi:10.1002/sim. 8333
63 Zehavi T, Nevo D. Matching methods for truncation by death problems. J Stat Soc Ser A Stat Soc 2023;qnad026. doi:10.1093/ jrsssa/qnad026.
64 Zhang JL, Rubin DB. Estimation of Causal Effects via Principal Stratification When Some Outcomes are Truncated by “Death”. J Educ Behav Stat 2003;28:353-68. doi:10.3102/10769986028004353.
65 Hernán MA, Robins JM. Per-Protocol Analyses of Pragmatic Trials. N Engl / Med 2017;377:1391-8. doi:10.1056/NEJMsm1605385
66 Little RJ, Rubin DB. Causal effects in clinical and epidemiological studies via potential outcomes: concepts and analytical approaches. Annu Rev Public Health 2000;21:121-45. doi:10.1146/annurev. publhealth.21.1.121
67 Robins JM, Hernán MA, Brumback B. Marginal structural models and causal inference in epidemiology. Epidemiology 2000;11:550-60. doi:10.1097/00001648-200009000-00011
68 Cro S, Morris TP, Kenward MG, Carpenter JR. Sensitivity analysis for clinical trials with missing continuous outcome data using controlled multiple imputation: A practical guide. Stat Med 2020;39:2815-42. doi:10.1002/sim. 8569

  1. *In this setting, the mixed model for repeated measures estimates dupilumab’s hypothetical effect if patients were to continue taking dupilumab and did not receive rescue treatment, because investigators treated outcome data after receipt of rescue treatment or discontinuation of dupilumab as missing. Here, the mixed model served to implicitly impute what the outcome data would have been had participants not received rescue treatment or discontinued. Here, deciphering the research question requires an in-depth understanding of the mechanics underlying mixed models for repeated measures, which not all readers will have.
  2. *Intercurrent events are post-baseline events (or post-randomisation events in randomised trials) that affect the interpretation or existence of outcome data. These events frequently affect receipt of treatment (eg, treatment switching or treatment discontinuation) or preclude existence of the outcome (eg, death, if it is not defined as part of the outcome).
  3. *Descriptions assume no missing outcome data. When missing outcome data are missing, some strategies require additional considerations.