تحدي الممارسة العلمية الحالية: كيف يمكن لتحول في منهجية البحث أن يقلل من استخدام الحيوانات Challenging current scientific practice: how a shift in research methodology could reduce animal use
تحدي الممارسات العلمية الحالية: كيف يمكن أن يؤدي تغيير منهجية البحث إلى تقليل استخدام الحيوانات
س. هيلين ريشتر
مبادئ 3R توفر إطارًا أخلاقيًا للبحث على الحيوانات في جميع أنحاء العالم. ومع ذلك، على الرغم من الوعي المتزايد بهذه المبادئ، لا يزال هناك مجال كبير لتحسين تنفيذها، خاصة عندما يتعلق الأمر بالتقليل. من خلال دمج الإحصاءات البايزية مع تغيير في تصميم التجارب، نقدم هنا فكرة جديدة تمامًا لتقليل أعداد الحيوانات في التجارب.
استبدل، قلل، صقل: الالتزام بـالمبادئ هي اليوم مفتاح الممارسة العلمية الجيدة في أبحاث الحيوانات في جميع أنحاء العالم. باختصار، الإطار يعتمد على فكرة أنه إذا كان من المقرر استخدام الحيوانات في التجارب العلمية، يجب بذل كل جهد ممكن لـ ‘استبدالها’ ببدائل غير حساسة، و’تقليل’ عدد الحيوانات المطلوبة و’تحسين’ التجارب بطريقة تسبب الحد الأدنى من الألم والمعاناة للموضوعات التجريبية.
التقليل كمبدأ أساسي في أبحاث الحيوانات
على الرغم من الوعي المتزايد بهذه المبادئ، إلا أنه لا يزال هناك الكثير من المجال لتحسين تنفيذها. يبدو أن هذا مهم بشكل خاص لمبدأ التخفيض، لأنه تم إحراز تقدم كبير في كل من تطوير بدائل لاختبار الحيوانات (الاستبدال) وتحسين ظروف تربية وإيواء الحيوانات (التنقيح) على مدار العقد الماضي. لتحقيق أهداف مماثلة من حيث التخفيض، أكد الباحثون في مجال الحيوانات مرارًا وتكرارًا على الحاجة إلى إعادة التفكير في المنهجيات الحالية، منتقدين بشكل أساسي جوانب التخطيط وإجراء وتحليل التجارب على الحيوانات (على سبيل المثال، انظر المرجع 1). على وجه الخصوص، تم تحديد مسألة كيفية تحديد حجم العينة الأمثل على أنها مفتاح لتطوير استراتيجيات تخفيض فعالة (على سبيل المثال، انظر المرجع 2).
الطريقة التقليدية لتحديد حجم العينة
تقليديًا، تتبع تقديرات حجم العينة ما يُعرف بالنهج التكراري، مما يسمح بتحديد حجم العينة الأصغر الكافي لتحقيق القوة المطلوبة (عادةً ما تكون ) مع حجم تأثير مقدر ومستوى دلالة محدد (عادةً ما يكون ; انظر المربع 1 لتعريفات المصطلحات الرئيسية). بهذه الطريقة، يتم تشجيع العلماء بشكل صريح على تحديد أحجام عيناتهم بعناية قبل بدء التجربة، مما يمنع استخدام نفس حجم العينة ‘القياسي’ منالحيوانات لكل مجموعة، ببساطة بسبب اعتبارات لوجستية أو اقتصادية أو سياسية. بينما يُنصح بشدة بمثل هذا النهج لضمان تخطيط أفضل بشكل عام للتجارب الحيوانية، فإنه يأتي مع تحديات معينة في الممارسة التجريبية. بشكل أكثر تحديدًا، فإن تقديرات حجم العينة المسبقة هذه تجبر العلماء على وضع افتراضات حول حجم التأثير المتوقع قيد التحقيق، وبالتالي تعتمد بشكل حاسم على المعرفة أو البيانات التاريخية. وهذا، بدوره، يحمل خطر ملاحظة تباين محتمل بين القوة المفترضة مسبقًا والقوة الفعلية. نظريًا، يمكن أن يؤدي هذا التباين إلى إما تقدير زائد أو ناقص للقوة الفعلية، مما ينتج عنه إما أحجام عينات صغيرة جدًا أو كبيرة جدًا، على التوالي (أي استخدام عدد أقل أو أكثر من الحيوانات مما هو مطلوب لاكتشاف تأثير العلاج المحتمل).
فيما يتعلق بالاحتمال المبالغ فيه للقوة الفعلية، هناك بالفعل أدلة متزايدة على أن القوة الإحصائية للتجارب الحيوانية أقل بكثير مما يُفترض عادةً مسبقًا.العواقب مزدوجة: أولاً، العديد من الدراسات تعاني من ضعف القوة بشكل كبير في أبحاث الحيوانات، حيث تتضمن عددًا قليلًا جدًا من الحيوانات لكل مجموعة لتحديد تأثيرات العلاج الحقيقية بشكل صحيح. قد يؤدي تطبيق أحجام عينات صغيرة جدًا لتقليل استخدام الحيوانات إلى تأثير عكسي، حيث أن هذا النهج يقوض الهدف العلمي المتمثل في إنتاج استنتاجات صحيحة وصالحة، وبالتالي يهدر الحيوانات بدلاً من إنقاذها. ثانيًا، إذا كانت أحجام التأثير الملاحظة أقل بكثير من تلك المفترضة، فإن هذا يستدعي تقديرًا أكثر واقعية لأحجام العينات في الممارسة التجريبية، مما قد يؤدي إلى زيادة كبيرة في الأعداد المقدرة مسبقًا من الحيوانات ضمن التجارب الفردية. ومع ذلك، في ضوء الجهود الحالية لتقليل الاستخدام العام للحيوانات في البحث، قد تواجه زيادة الأعداد في كل تجربة مقاومة على الأقل من السلطات التنظيمية.
وبالمثل، فيما يتعلق بتقليل تقدير القوة الفعلية، فإن استخدام أحجام عينات كبيرة جدًا يثير أيضًا مخاوف أخلاقية، لأنه مرتبط مباشرة بإهدار غير ضروري للحيوانات. وهذا أمر مقلق بشكل خاص لأن حسابات القوة المسبقة تستبعد إمكانية تغيير عدد الحيوانات مع ورود المعلومات الفعلية. وبالتالي، فإن حسابات القوة المسبقة تستبعد صراحة إمكانية إنقاذ الحيوانات في حال تغيرت المعلومات وأصبح التباين من حيث القوة واضحًا خلال سير التجربة. لذلك، من المرغوب فيه تنفيذ استراتيجية تقليل ناجحة، من خلال طريقة أكثر مرونة لتحديد أحجام العينات تسمح بتقليل عدد الحيوانات في كل تجربة قدر الإمكان، مع ضمان في الوقت نفسه صحة البحث وقابلية إعادة إنتاج النتائج.
استخدام البيانات التاريخية لحسابات القوة
مؤخراً، أدت الزيادة في الوعي بالمشاكل المحيطة بمفهوم الدلالة الإحصائية (على سبيل المثال، انظر المراجع 4، 5) إلى تعزيز تطبيق الأساليب الإحصائية البايزية في الأبحاث التجريبية (الحيوانية) (على سبيل المثال، انظر المراجع 6، 7). على وجه الخصوص، أثارت الممارسات البحثية المشكوك فيها، مثل ‘تلاعب p’ أو ‘HARKing’ (الصندوق 1)، التي لها جذورها في الاستدلال التكراري، نقاشاً حول الاستخدام (المحتمل) الخاطئ لـالقيم وع thresholds الدلالة. على عكس الأساليب التقليدية القائمة على التكرار، لا تعتمد الإحصاءات البايزية على مستويات دلالة محددة مسبقًا، والأهم من ذلك، أنها تسمح للباحثين
المربع 1 | مسرد المصطلحات الرئيسية
التحديث البايزي
تُحدَّث حالة المعرفة حول الكميات ذات الاهتمام قبل، أو قبل الدراسة، بواسطة الأدلة الواردة لتنتج حالة المعرفة بعد، أو بعد الدراسة.
حجم التأثير
مقياس كمي لحجم التأثير التجريبي.
الصلاحية الخارجية
مدى قدرة نتائج تجربة ما على توفير أساس صحيح للتعميمات على مجموعات سكانية أخرى و/أو ظروف بيئية أخرى.
معدل الإيجابيات الكاذبة
نسبة الحالات الإيجابية التي تم تحديدها أو تصنيفها بشكل غير صحيح على أنها إيجابية في اختبار.
هارك
افتراض بعد معرفة النتائج.
تحليل مؤقت
تحليل البيانات الذي يتم إجراؤه قبل اكتمال جمع البيانات.
الصلاحية الداخلية
يشير إلى ما إذا كانت التأثيرات التي لوحظت في دراسة ما ناتجة عن التلاعب بالمتغيرات المستقلة وليس بسبب عوامل أخرى غير معروفة.
تحليل P
أي إجراء يطبقه الباحث لجعل شيء غير ذي دلالة سابقًاقيمة مهمة.
حساب القوة
إجراء إحصائي لحساب الحد الأدنى لحجم العينة المطلوب لاكتشاف تأثير بحجم معين.
قيمة
يستخدم في اختبار الفرضيات للمساعدة في اتخاذ قرار بشأن رفض الفرضية الصفرية؛ كلما كانت أصغرالقيمة، كلما كانت أكبر، زادت احتمالية رفض الفرضية الصفرية.
إعادة الإنتاجية
قدرة النتيجة على أن يتم تكرارها بواسطة تجربة مستقلة في نفس المختبر أو مختبر مختلف.
حجم العينة
عدد الوحدات التجريبية المضمنة في دراسة للإجابة على سؤال البحث (غالبًا ما يتم وضع علامة عليها بـ ‘ ‘).
مستوى الدلالة
احتمالية رفض الفرضية الصفرية عندما تكون صحيحة بالفعل (غالبًا ما تُسمى بـ ‘ ‘).
التوحيد القياسي
توحيد خصائص أي حيوان معين (أو مجموعة حيوانات) وبيئته، مع المهمة اللاحقة للحفاظ على هذه الخصائص ثابتة أو تنظيمها.
القوة الإحصائية
احتمالية اكتشاف تأثير عندما يكون هناك فعلاً تأثير.
التغير المنهجي
التغير المنهجي في خصائص أي حيوان معين (أو مجموعة حيوانات) وبيئته ضمن تجربة واحدة (يشار إليه أيضًا في الأدبيات باسم ‘التباين المنهجي’). لتحديث تقديرات الاحتمالات السابقة باستخدام البيانات التي تم جمعها سابقًا (على سبيل المثال، انظر المراجع 8، 9؛ ‘التحديث البايزي’، المربع 1).
تماشياً مع هذا المنطق، أوضحت دراسة محاكاة في عام 2021 كيفية تطبيق الأولويات البايزية بشكل أفضل في سياق أبحاث الحيوانات: في هذه الدراسة، تم استخدام التحديث البايزي لتضمين المعرفة من التجارب التاريخية وبالتالي للحد من عدد الحيوانات المستخدمة في تجربة واحدة. (‘التحديث البايزي’، المربع 1). بهذه الطريقة، تمكن المؤلفون من إظهار بشكل مثير للإعجاب أن تضمين بيانات التحكم التاريخية في نهج التحديث البايزي يمكن أن يقلل الحد الأدنى لحجم العينة المطلوب للوصول إلى المعايير الكنسية إلى النصف.قوةبينما حصل المقال على الكثير من الاهتمام عند نشره، لم تكن هذه هي المرة الأولى التي يتم فيها إثبات فوائد إعادة استخدام البيانات التاريخية في تحليل تجارب الحيوانات.في السابق، أشار تقرير إلى أن استخدام الأساليب البايزية يمكن أن يؤدي إلى استخدام أكثر فعالية للحيوانات، إما من خلال تقليل عدد الحيوانات اللازمة لإجراء أبحاث ذات قوة إحصائية عالية أو تحقيق قوة إحصائية أعلى بنفس عدد الحيوانات.ومع ذلك، فإن هذا النهج يعتمد بشكل حاسم على وجود بيانات مناسبة من دراسات سابقة مماثلة (انظر أيضًا المناقشة حول ‘صراع البيانات السابقة’ في المرجع 3). في حال عدم توفر بيانات تاريخية (مناسبة)، يبدو أن هذه الفائدة ليست سوى نظرية، مما يستدعي استراتيجيات بديلة لتحقيق تقليل مماثل في أعداد الحيوانات في الممارسة التجريبية.
تصميم التجربة الصغيرة كأداة لتقليل أعداد الحيوانات
في ضوء ما تم مناقشته على نطاق واسع حول ‘أزمة القابلية للتكرار’ (على سبيل المثال، انظر المرجع 12)، اقترحنا مؤخرًا استخدام ما يُعرف بتصاميم التجارب الصغيرة لإدخال التباين بشكل منهجي ومتعمد في التجارب الحيوانية. (للمفهوم العام لـ ‘التغير المنهجي’ أو ‘التنوع المنهجي’، انظر أيضًا المراجع 14-16؛ الصندوق 1). بينما تم تطوير هذا التصميم في الأصل لمواجهة أنظمة التوحيد الصارمة وزيادة صلاحية التجربة الحيوانية الخارجية وبالتالي قابليتها للتكرار (قارن المراجع 15،16؛ ‘الصلاحية الخارجية’، الصندوق 1)، فإنه يتناسب تمامًا مع الفكرة المقدمة أعلاه حول تحديث بايزي دون الحاجة إلى تضمين البيانات التاريخية. في تصميم تجربة مصغرة، يتم إجراء عدد من التجارب المصغرة المصممة بشكل متساوٍ مع مجموعة جديدة ومستقلة من الحيوانات بشكل متتابع على مدى الزمن.، مما يسمح تلقائيًا بتقسيم التجربة إلى عدة أجزاء ويسمح بشكل طبيعي بإجراء تحليلات مؤقتة بينهما (‘التحليل المؤقت’، المربع 1). علاوة على ذلك، نظرًا لأن البيانات تُجمع بشكل مستمر على مدار الوقت، يمكن تحليل التجربة بعد كل تجربة صغيرة، مع دمج البيانات السابقة وبالتالي تراكم المعلومات خطوة بخطوة. ومع ذلك، من المهم تجنب إدخال أي تحيز من قبل المجرب من خلال هذه الخطوة في اكتساب المعرفة، يجب أن تُجرى التحليلات المؤقتة بشكل مثالي من قبل شخص مختلف عن المجرب. علاوة على ذلك، لمزيد من
الشكل 1 | مقارنة مبسطة بين ‘النهج التقليدي’ و ‘النهج البايزي’ الذي يجمع بين تصميم تجربة صغيرة وتحديث بايزي. بينما يتم تقدير أحجام العينات مسبقًا في النهج التقليدي باستخدام حسابات القوة التكرارية، يمكن تعديل أحجام العينات خلال سير التجربة من خلال إجراء تحليلات مؤقتة في النهج البايزي.
يرجى ملاحظة أنه في النهج الأخير، يجب أن تُجرى التحليلات المؤقتة بشكل مثالي من قبل شخص مختلف عن المجرب لتجنب إدخال أي تحيز من المجرب بسبب اكتساب المعرفة خلال فترة إجراء التجربة. لتقليل مخاطر السلوك العلمي غير الأخلاقي وتحسين قوة هذا النهج المدمج، قد يتم تحديد وتصميم تجربة مصغرة نموذجية بالإضافة إلى معايير توقف محددة مسبقًا وتوثيقها في بروتوكولات مسجلة مسبقًا.
استنادًا إلى هذه الفكرة، يمكن نظريًا إيقاف الدراسة عند ‘نقطة الوقت المثلى لاكتساب المعلومات’، مما يساعد على تحديد حجم العينة الأمثل على مدار التجربة الجارية (الشكل 1؛ قارن مع تصميم إعادة تقدير حجم العينة في المرجع 17). من حيث جهود التخفيض، سيسمح هذا النهج بتعديل أو حتى تقليل أعداد الحيوانات من خلال منع استخدام عدد كبير جدًا من الحيوانات داخل تجربة واحدة (بسبب وجود تباين محتمل بين القوة المتوقعة والفعلي) أو من خلال تحسين اكتساب المعرفة لكل تجربة؛ سيتجنب ذلك استخدام الحيوانات في دراسات ذات قوة منخفضة وبالتالي تجارب غير صالحة وغير قابلة للتكرار. علاوة على ذلك، نظرًا لأن هذا النهج لا يتطلب تحديد حجم العينة مسبقًا، فقد يقنع بشكل خاص أولئك الباحثين الذين يميلون تقليديًا إلى اتخاذ قرارات حجم العينة بناءً على العادة، أو على اعتبارات لوجستية أو اقتصادية.
بشكل عام، تكمن قوة هذا النهج في الجمع بين تصميم تجريبي محدد، وهو تصميم التجربة الصغيرة، مع التحديث البايزي. بينما يوفر الأول طريقة منهجية لنشر تجربة حيوانية عبر الزمن، يمثل الثاني طريقة أكثر مرونة مقارنة بالطرق التكرارية لجمع البيانات وتعديل بعض جوانب التصميم التجريبي (أي، تعديلات مرنة على حجم العينة والتحليلات المؤقتة، انظر أدناه) دون تقويض صحة وسلامة التجربة بأكملها. لأسباب مشابهة، تم الترويج لاستخدام الطرق البايزية بالفعل في سياق التجارب السريرية البشرية.في البحث السريري، تم الإشارة إلى أن الإحصاءات البايزية تُشكل طريقة رياضية لدمج المعلومات السابقة مع المعلومات الحالية في مرحلة التصميم، وأثناء إجراء التجربة، وفي مرحلة التحليل، مما يسمح للباحثين بتنفيذ ما يُعرف بتصاميم التجارب التكيفية (على سبيل المثال، انظر المراجع 17، 18). علاوة على ذلك، على عكس الأساليب التقليدية القائمة على التكرار، التي تعتبر أن الفحوصات المؤقتة المتعددة تحمل خطر تضخيم معدل الإيجابيات الكاذبة الإجمالي (‘معدل الإيجابيات الكاذبة’، المربع 1)، تم مناقشة الطريقة البايزية. كونها أقل تأثراً بالتحليلات المؤقتةبدلاً من اتباع نهج تكراري صارم إلى حد ما، سيسمح النهج البايزي بتحليل التجربة وإيقافها عندما تكون الإجابة على سؤال بحث محدد معروفة بشكل كافٍ (قارن مع المرجع 18).
باختصار
عند النظر إلى الأمر بشكل شامل، نجادل هنا بأن استخدام تصميم التجارب الصغيرة لا يمكن أن ينتج فقط نتائج أفضل قابلة للتعميم وإعادة الإنتاج من خلال تضمين التباين بشكل منهجي في تجربة واحدة، ولكن بالاقتران مع التحديث بايزي، يمكن أن يقدم أيضًا الميزة الرئيسية التالية: من خلال السماح بدمج المعرفة السابقة في التحليل، يمكن إيقاف الدراسة بشكل مرن عند نقطة مثالية بين تجربتين صغيرتين، مما يسمح للباحثين بتعديل أو حتى تقليل عدد الحيوانات. على الرغم من أن مثل هذا النهج يتطلب إعادة التفكير في الروتين الحالي ويقف في تناقض مع ما يتم القيام به على نطاق واسع في ممارسة الحيوانات المخبرية، وهو استخدام حسابات القوة المسبقة (في أفضل الأحوال) واختبار دفعة كبيرة من الحيوانات في نقطة زمنية محددة، إلا أنه لا يتطلب تنفيذ تغييرات لوجستية مكلفة أو معقدة في الروتين اليومي. من خلال توزيع التجربة عبر الزمن واتباع مسارات إحصائية جديدة، يمكن تنفيذ هذا النهج داخل كل مختبر يسعى لمقارنة، على سبيل المثال، آثار علاجين أو أكثر أو أنماط وراثية على مجموعة متنوعة من مقاييس النتائج المختلفة (الشكل 1). من الجانب السلبي، قد يؤدي ذلك في أسوأ الأحوال إلى إطالة أوقات التجارب ويتطلب تدريب الباحثين على تعلم وتطبيق طرق الإحصاء بايزي. بشكل عام، يمكن أن تساهم هذه النقلة المعقولة في منهجية البحث ليس فقط في تحسين القابلية لإعادة الإنتاج في أبحاث الحيوانات، ولكن أيضًا تمهد الطريق لاستراتيجيات تقليل أكثر فعالية بمعنى مفهوم 3R.
س. هيلين ريشتر
قسم البيولوجيا السلوكية، جامعة مونستر، مونستر، ألمانيا. البريد الإلكتروني:richterh@uni-muenster.de نُشر على الإنترنت: 3 يناير 2024
References
Sneddon, L. U., Halsey, L. G. & Bury, N. R. J. Exp. Biol. 220, 3007-3016 (2017).
Button, K. S. et al. Nat. Rev. Neurosci. 14, 365-376 (2013).
Bonapersona, V. et al. Nat. Neurosci. 24, 470-477 (2021).
Amrhein, V., Greenland, S. & McShane, B. Nature 567, 305-307 (2019).
Wasserstein, R. L., Schirm, A. L. & Lazar, N. A. Am. Stat. 73, 1-19 (2019).
Konijn, E. A., Van de Schoot, R., Winter, S. D. & Ferguson, C. J. Commun. Methods Meas. 9, 280-302 (2015).
Goodman, S. N. Am. Stat. 73, 26-30 (2019).
Eddy, S. R. Nat. Biotechnol. 22, 1177-1178 (2004).
Puga, J. L., Krzywinski, M. & Altman, N. Nat. Methods 12, 377-378 (2015).
Kramer, M. & Font, E. Biol. Rev. Camb. Philos. Soc. 92, 431-445 (2017).
Walley, R. et al. Pharm. Stat. 15, 277-285 (2016).
Baker, M. Nature 533, 452-454 (2016).
Von Kortzfleisch, V. T. et al. Sci. Rep. 10, 16579 (2020).
Richter, S. H., Garner, J. P. & Würbel, H. Nat. Methods 6, 257-261 (2009).
Richter, S. H. Lab Anim. 46, 343-349 (2017).
Voelkl, B. et al. Nat. Rev. Neurosci. 21, 384-393 (2020).
Chow, S.-C. & Chang, M. Orphanet J. Rare Dis. 3, 11 (2008).
Berry, D. A. Nat. Rev. Drug Discov. 5, 27-36 (2006).
Wong, A. Y. L., Warren, S. & Kawchuk, G. N. Phys. Ther. Rev. 15, 372-381 (2010).
شكر وتقدير
شكر خاص لـ V. von Kortzfleisch على ملاحظاتها القيمة حول النسخ السابقة من المخطوطة ونصائحها المفيدة بشأن التفاصيل الإحصائية.
علاوة على ذلك، أشكر ن. ساكسر، س. كايسر، د. هوفمان و ج. ووتركامب على المناقشات المثمرة السابقة حول هذا الموضوع.
تمويل
تم تمويل الوصول المفتوح وتنظيمه بواسطة مشروع DEAL.
المصالح المتنافسة
يعلن المؤلف عدم وجود مصالح متنافسة.
معلومات إضافية
تُعرب مجلة الحيوانات المخبرية عن شكرها لكايتلين هير وكاسيو مورايس لوس على مساهمتهما في مراجعة هذا العمل.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسب 4.0 الدولية، التي تسمح بالاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج بأي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح ما إذا تم إجراء تغييرات. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمواد. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارةhttp://creativecommons.org/licenses/by/4.0/.
Challenging current scientific practice: how a shift in research methodology could reduce animal use
S. Helene Richter
The 3R principles provide an ethical framework for animal research throughout the world. However, despite the increasing awareness of these principles, there is still a lot of room for improving their implementation, especially when it comes to reduction. By combining Bayesian statistics with a shift in experimental design, here we present an entirely new idea to reduce animal numbers within experiments.
Replace, reduce, refine: adhering to the principles is nowadays key to good scientific practice in animal research all over the world. Briefly, the framework is based on the idea that if animals were to be used in scientific experiments, every effort should be made to ‘replace’ them with non-sentient alternatives, to ‘reduce’ the number of animals needed and to ‘refine’ experiments in such a way that they cause the minimum pain and distress to the experimental subjects.
Reduction as a key principle in animal research
Despite the increasing awareness of these principles, however, there is still a lot of room for improving their implementation. This seems particularly important for the principle of reduction, because much progress has been made in both developing alternatives to animal testing (replacement) and improving animal housing and breeding conditions (refinement) over the past decade. To achieve similar goals in terms of reduction, animal researchers have repeatedly emphasized the need for a rethinking of current methodologies, mainly criticizing aspects of the planning, conduct and analysis of animal experiments (for example, see ref. 1). In particular, the question of how to determine the optimum sample size has been identified as being key to developing effective reduction strategies (for example, see ref. 2).
The traditional way of determining sample size
Traditionally, sample size estimations follow a so-called frequentist approach, allowing to prospectively determine the smallest sample size that is sufficient to achieve a desired power (usually ) with an estimated effect size and a specified significance level (usually ; see Box 1 for definitions of key terms). This way, scientists are explicitly encouraged to carefully determine their sample sizes before the start of the experiment, preventing the use of the same ‘standard’ sample size of animals per group, simply because of logistical, economic or political considerations. While such an approach is highly advisable to ensure an overall better planning of animal experiments, it comes with certain challenges in
experimental practice. More specifically, such a priori sample size estimations force scientists to make assumptions about the expected effect size under investigation, and therefore critically rely on historical knowledge or data. This, in turn, bears the risk of observing a potential discrepancy between the prospectively assumed and the actual power. Theoretically, this discrepancy can lead to either an over- or an underestimation of the actual power, resulting in either too small or too large sample sizes, respectively (that is, using less or more animals than needed to detect a potential treatment effect).
Concerning the potential overestimation of actual power, there is indeed increasing evidence that the statistical power of animal experiments is much lower than commonly assumed a priori . The consequences are twofold: first, many studies are dramatically underpowered in animal research, involving too few animals per group to correctly identify true treatment effects. Applying rather small sample sizes to reduce animal use might therefore have the opposite effect, as this approach undermines the scientific goal of producing sound and valid conclusions and, therefore, wastes rather than saves animals. Second, if observed effect sizes are indeed much lower than the assumed ones, this calls for a more realistic estimate of sample sizes in experimental practice, probably resulting in a drastic increase in prospectively estimated animal numbers within single experiments. However, in light of current efforts to reduce the overall animal use for research, the increase of numbers per single experiment might face resistance at least from the regulatory authorities.
Likewise, concerning the underestimation of actual power, the use of too large sample sizes also raises ethical concerns, because it is directly linked to an unnecessary waste of animals. This is particularly disquieting because a priori power calculations exclude the possibility to change animal numbers as the actual information comes in. Consequently, a priori power calculations explicitly preclude the possibility to save animals in case information changes and the discrepancy in terms of power becomes evident over the course of a running experiment. Thus, to implement a successful reduction strategy, a more flexible way of determining sample sizes that allows for reducing the number of animals within each experiment as much as possible, while at the same time guaranteeing scientific validity and reproducibility of research findings, would be desirable.
The use of historical data for power calculations
Lately, the increasing awareness of problems surrounding the concept of statistical significance (for example, see refs. 4,5) promoted the implementation of Bayesian statistical methods in experimental (animal) research (for example, see refs. 6,7). In particular, questionable research practices, such as ‘p-hacking’ or ‘HARKing’ (Box 1), which have their roots in frequentist inference, further triggered a discussion about the potential (mis)use of values and significance thresholds. In contrast to traditional frequentist approaches, Bayesian statistics do not rely on predefined significance levels and, even more importantly, they allow experimenters
Box 1 | Glossary of key terms
Bayesian updating
The state of knowledge about quantities of interest before, or prior to a study is updated by incoming evidence to yield the state of knowledge after, or posterior to the study.
Effect size
A quantitative measure of the magnitude of the experimental effect.
External validity
The extent to which the results of an experiment provide a correct basis for generalizations to other populations and/or other environmental conditions.
False positive rate
The proportion of positive cases that were incorrectly identified or classified as positive in a test.
HARKing
Hypothesizing after the results are known.
Interim analysis
Analysis of data that is conducted before data collection has been completed.
Internal validity
Refers to whether the effects observed in a study are due to manipulation of the independent variables and not some other, unknown factors.
P-hacking
Any measure that a researcher applies to render a previously non-significant value significant.
Power calculation
A statistical procedure to calculate the minimum sample size required to detect an effect of a given size.
value
Used in hypothesis testing to help decide whether to reject the null hypothesis; the smaller the value, the more likely it is to reject the null hypothesis.
Reproducibility
The ability of a result to be replicated by an independent experiment in the same or different laboratory.
Sample size
The number of experimental units included in a study to answer the research question (often labelled with ‘ ‘).
Significance level
The probability of rejecting the null hypothesis when it is actually true (often labelled with ‘ ‘).
Standardization
The homogenization of the properties of any given animal (or animal population) and its environment, together with the subsequent task of keeping the properties constant or regulating them.
Statistical power
The probability of detecting an effect when there is actually one.
Systematic variation
Systematic variation of the properties of any given animal (or animal population) and its environment within a single experiment (also referred to as ‘systematic heterogenization’ in the literature).
to update prior probability estimates using previously collected data (for example, see refs. 8,9; ‘Bayesian updating’, Box 1).
In line with this reasoning, a simulation study in 2021 delineated how to best apply Bayesian priors in the context of animal research: in this study, Bayesian updating was used to include knowledge from historical experiments and thereby to limit the number of animals used in a single experiment (‘Bayesian updating’, Box 1). This way, the authors could impressively show that including historical control data in a Bayesian updating approach could halve the minimum sample size required to reach the canonical power . While the article received much attention upon publication, this was not the first time that the benefits of recycling historical data in the analysis of animal experiments had been demonstrated . Previously, a report highlighted that the use of Bayesian methods can result in a more effective use of animals, either limiting the number of animals necessary to perform well-powered research or reaching higher statistical power with the same number of animals . On the downside, however, such an approach critically depends on the presence of suitable data from previously performed, similar studies (see also discussion about the ‘prior-data conflict’ in ref. 3). In case no (suitable) historical data are available, this benefit seems to be mere theory, calling for alternative strategies to achieve a comparable reduction in animal numbers in experimental practice.
The mini-experiment design as a tool to reduce animal numbers
In light of the widely discussed ‘reproducibility crisis’ (for example, see ref. 12), we recently proposed the use of so-called mini-experiment designs to introduce variation systematically and deliberately into animal experiments (for the general concept of ‘systematic variation’ or ‘systematic heterogenization’, see also refs. 14-16; Box 1). While this design was originally developed to counteract strict standardization regimes and increase an animal experiment’s external validity and hence its reproducibility (compare refs. 15,16; ‘external validity’, Box 1), it perfectly matches the above presented idea of Bayesian updating without the need for including historical data. In a mini-experiment design, a number of equivalently designed mini experiments with a new and independent set of animals are carried out consecutively over time , automatically splitting an experiment into several parts and naturally allowing for interim analyses in between (‘interim analysis’, Box 1). Moreover, as the data are collected continuously over time, the experiment can be analysed after each mini experiment, incorporating prior data and thereby accumulating information step by step. Importantly, however, to avoid introducing any experimenter bias through this stepwise knowledge gain, interim analyses should ideally be conducted by a person different to the experimenter. Moreover, to further
Fig. 1 | Simplified comparison of a ‘traditional approach’ and a ‘Bayesian approach’ that combines a mini-experiment design with Bayesian updating. Whereas in the traditional approach sample sizes are estimated a priori using frequentist power calculations, sample sizes can be adjusted over the course of a running experiment by conducting interim analyses in the Bayesian approach.
Please note that in the latter approach, the interim analyses should ideally be conducted by a person different to the experimenter to avoid introducing any experimenter bias due to the knowledge gain over the course of the running experiment.
reduce the risk of scientific misconduct and improve the robustness of such a combined approach, the design of an exemplary mini experiment as well as specific stopping criteria might be predefined and formalized in preregistered protocols.
Following this idea, a study could then theoretically be stopped at the ‘time point of optimal information gain’, helping to identify the optimum sample size over the course of the running experiment (Fig. 1; compare with sample size re-estimation design in ref. 17). In terms of reduction efforts, such an approach would thus allow to adjust or even reduce animal numbers by either preventing the use of too many animals within a single experiment (due to a potential discrepancy between the prospective and the actual power) or by optimizing the knowledge gain per experiment; this would avoid the use of animals for underpowered studies and hence non-valid and non-reproducible experiments. Moreover, as this approach does not necessitate an a priori determination of sample size, it might particularly convince those researchers who traditionally tend to base their sample size decisions on habit, or on logistical or economic considerations.
Overall, the strength of this approach lies in the combination of a specific experimental design, the mini-experiment design, with Bayesian updating. Whereas the former provides a systematic way for spreading an animal experiment across time, the latter represents a more flexible way compared with frequentist methods to accumulate data and modify certain aspects of the experimental design (that is, flexible sample size adjustments and interim analyses, see below) without undermining the validity and integrity of the whole experiment. For similar reasons, the use of Bayesian methods has already been promoted in the context of human clinical trials . In clinical research, it has been argued that Bayesian statistics formalizes a mathematical method for combining prior information with current information at the design stage, during the conduct of the trial and at the analysis stage, thereby allowing researchers to implement so-called adaptive trial designs (for example, see refs. 17,18). Furthermore, in contrast to traditional frequentist approaches, according to which multiple interim inspections bear the risk of inflating the overall false-positive rate (‘False positive rate’, Box 1), the Bayesian method has been discussed
as being less affected by interim analyses . Better than following a rather inflexible frequentist approach, the Bayesian approach would thus allow for analysing and stopping the experiment when the answer to a specific research question is known sufficiently well (compare with ref. 18).
In a nutshell
Taken together, we here argue that the use of a mini-experiment design not only could produce better generalizable and reproducible results by systematically including variation in a single experiment, but combined with Bayesian updating, could also offer the following key advantage: by allowing the integration of prior knowledge in the analysis, a study could be stopped flexibly at some optimal point between two mini experiments, allowing experimenters to adjust or even reduce animal numbers. Although such an approach requires a rethinking of current routines and stands in contrast to what is widely done in laboratory animal practice, namely the use of a priori power calculations (in the best case) and the testing of one big batch of animals at one specific point in time, it does not necessitate the implementation of logistically expensive or complicated changes of daily routines. By spreading the experiment across time and taking new statistical paths, this approach can be implemented within each single laboratory that aims to compare, for example, the effects of two or more treatments or genotypes on a variety of different outcome measures (Fig. 1). At the downside, it might in the worst case lengthen experimental times and require the training of researchers to learn and apply Bayesian statistical methods. Overall, a reasonably feasible shift in research methodology could thus not only contribute to better reproducibility in animal research, but also pave the way for more effective reduction strategies in the best meaning of the 3R concept.
S. Helene Richter
Department of Behavioural Biology, University of Münster, Münster, Germany.
-e-mail: richterh@uni-muenster.de
Published online: 3 January 2024
References
Sneddon, L. U., Halsey, L. G. & Bury, N. R. J. Exp. Biol. 220, 3007-3016 (2017).
Button, K. S. et al. Nat. Rev. Neurosci. 14, 365-376 (2013).
Bonapersona, V. et al. Nat. Neurosci. 24, 470-477 (2021).
Amrhein, V., Greenland, S. & McShane, B. Nature 567, 305-307 (2019).
Wasserstein, R. L., Schirm, A. L. & Lazar, N. A. Am. Stat. 73, 1-19 (2019).
Konijn, E. A., Van de Schoot, R., Winter, S. D. & Ferguson, C. J. Commun. Methods Meas. 9, 280-302 (2015).
Goodman, S. N. Am. Stat. 73, 26-30 (2019).
Eddy, S. R. Nat. Biotechnol. 22, 1177-1178 (2004).
Puga, J. L., Krzywinski, M. & Altman, N. Nat. Methods 12, 377-378 (2015).
Kramer, M. & Font, E. Biol. Rev. Camb. Philos. Soc. 92, 431-445 (2017).
Walley, R. et al. Pharm. Stat. 15, 277-285 (2016).
Baker, M. Nature 533, 452-454 (2016).
Von Kortzfleisch, V. T. et al. Sci. Rep. 10, 16579 (2020).
Richter, S. H., Garner, J. P. & Würbel, H. Nat. Methods 6, 257-261 (2009).
Richter, S. H. Lab Anim. 46, 343-349 (2017).
Voelkl, B. et al. Nat. Rev. Neurosci. 21, 384-393 (2020).
Chow, S.-C. & Chang, M. Orphanet J. Rare Dis. 3, 11 (2008).
Berry, D. A. Nat. Rev. Drug Discov. 5, 27-36 (2006).
Wong, A. Y. L., Warren, S. & Kawchuk, G. N. Phys. Ther. Rev. 15, 372-381 (2010).
Acknowledgements
A special thank you to V. von Kortzfleisch for her valuable feedback on previous manuscript versions and her helpful advice regarding statistical details.
Furthermore, I thank N. Sachser, S. Kaiser, D. Hoffmann and C. Waterkamp for fruitful earlier discussions on this topic.
Funding
Open Access funding enabled and organized by Projekt DEAL.
Competing interests
The author declares no competing interests.
Additional information
Peer review information Lab Animal thanks Kaitlyn Hair and Cássio Morais Loss for their contribution to the peer review of this work.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons license, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons license, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons license and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this license, visit http://creativecommons.org/licenses/by/4.0/.