تصحيحات الاختبار المتعدد غير المتسقة: مغالطة استخدام معدلات الخطأ المستندة إلى العائلة لاستنتاجات حول الفرضيات الفردية Inconsistent multiple testing corrections: The fallacy of using family-based error rates to make inferences about individual hypotheses

المجلة: Methods in Psychology، المجلد: 10
DOI: https://doi.org/10.1016/j.metip.2024.100140
تاريخ النشر: 2024-03-28

تصحيحات الاختبار المتعدد غير المتسقة: مغالطة استخدام معدلات الخطأ المستندة إلى العائلة لاستنتاجات حول الفرضيات الفردية

مارك روبينجامعة دورهام، المملكة المتحدة

معلومات المقال

الكلمات المفتاحية:

معدل الخطأ العائلي
تعدد
الاختبار المتعدد
مقارنات متعددة
معدل خطأ لكل عائلة
معدل الخطأ من النوع الأول

الملخص

خلال الاختبارات المتعددة، غالبًا ما يقوم الباحثون بتعديل مستوى ألفا الخاص بهم للتحكم في معدل الخطأ العائلي من أجل استنتاج إحصائي حول فرضية بديلة مشتركة (على سبيل المثال، أو ومع ذلك، في بعض الحالات، لا يقومون بهذا الاستنتاج. بدلاً من ذلك، يقومون بعمل استنتاجات منفصلة حول كل من الفرضيات الفردية التي تشكل الفرضية المشتركة (على سبيل المثال، و على سبيل المثال، قد يستخدم الباحث تصحيح بونفيروني لضبط مستوى ألفا الخاص به من المستوى التقليدي 0.050 إلى 0.025 عند الاختبار و ابحث عن نتيجة مهمة لـ وليس من أجل ، وبالتالي يطالبون بالدعم لـ وليس من أجل . ومع ذلك، فإن هذه الاستنتاجات الفردية المنفصلة لا تتطلب تعديل ألفا. فقط الاستنتاج الإحصائي حول فرضية البديل الموحد أو يتطلب “alpha” تعديلًا لأنه يعتمد على “نتيجة واحدة على الأقل” مهمة بين الاختبارين، وبالتالي فإنه يشير إلى معدل الخطأ العائلي. ومن ثم، يحدث تصحيح غير متسق عندما يقوم الباحث بتصحيح مستوى ألفا الخاص به أثناء الاختبارات المتعددة ولكنه لا يقوم بإجراء استنتاج حول فرضية بديلة موحدة. في المقالة الحالية، أناقش مشكلة هذا التصحيح غير المتسق، بما في ذلك تقليله للقوة الإحصائية لاختبارات الفرضيات الفردية وأسبابها المحتملة فيما يتعلق بالارتباكات في معدل الخطأ وطقوس تعديل ألفا. كما أقدم ثلاث أمثلة على التصحيحات غير المتسقة من دراسات نفسية حديثة. أخلص إلى أن التصحيحات غير المتسقة تمثل عرضًا للإحصائية، وأدعو إلى نهج أكثر دقة قائم على الاستنتاج لتصحيحات الاختبارات المتعددة.

لقد حظي موضوع الاختبارات المتعددة باهتمام إضافي في أعقاب أزمة التكرار. القلق هو أن الاختبارات المتعددة غير المصححة هي سبب رئيسي لنتائج إيجابية زائفة (أي، أخطاء من النوع الأول) ومعدلات تكرار منخفضة بشكل غير متوقع. وبالتالي، هناك تركيز متجدد على الباحثين ‘للقيام بالشيء الصحيح’ وتصحيح عتبات الدلالة الخاصة بهم (مستويات ألفا) من أجل أخذ معدلات أخطاء النوع الأول المتضخمة في الاعتبار خلال الاختبارات المتعددة.
في هذه المقالة، أحذر من أن الدفع غير المؤهل لتصحيحات الاختبار المتعدد قد يكون له عواقب سلبية. على وجه الخصوص، أجادل بأنه قد يشجع ما أسميه تصحيحات الاختبار المتعدد غير المتسقة: التعديلات على مستويات ألفا التي تتعارض مع الاستنتاجات الإحصائية المحددة التي يتم إجراؤها. لتوضيح هذه المشكلة، أوجه الانتباه إلى الحالات التي يقوم فيها الباحثون بتعديل مستوى ألفا الخاص بهم للسيطرة على معدلات الخطأ من النوع الأول المستندة إلى العائلة (مثل معدلات الخطأ العائلية) ولكنهم بعد ذلك لا يقومون بأي استنتاجات حول الفرضيات المستندة إلى العائلة المرتبطة. بدلاً من ذلك، يقومون فقط بإجراء استنتاجات حول الفرضيات الفردية، التي لا تتطلب تعديل ألفا. أجادل بأن التصحيحات غير المتسقة تمثل مشكلة ليس فقط من الناحية المنطقية، ولكن أيضًا لأنها تؤدي إلى فقدان غير ضروري للقوة الإحصائية.
للتوضيح، أنا لست معارضًا لتعديل ألفا للاختبارات المتعددة في الظروف المناسبة. لذا، هذه ليست “مقالة ضد التعديل” (فراني، 2019، ص. 3). إنها مقالة تدعم الاتساق! النقطة الرئيسية التي أود التأكيد عليها هي أنه يجب على الباحثين أن يكونوا متسقين منطقيًا في استخدامهم لتصحيحات الاختبارات المتعددة. إذا استخدم الباحثون تصحيحات للاختبارات المتعددة، فيجب عليهم إجراء استنتاجات إحصائية متCorresponding حول الفرضيات المشتركة المستندة إلى العائلة. لا ينبغي عليهم تصحيح مستوى ألفا ثم المضي قدمًا في إجراء استنتاجات إحصائية حول الفرضيات الفردية فقط، لأنه كما سأوضح لاحقًا، فإن مثل هذه الاستنتاجات لا تتطلب تعديل ألفا.
أبدأ بتقديم مشكلة الاختبار المتعدد وحل تعديل ألفا. أتناول معدلات الخطأ الشائعة المعتمدة على العائلات (معدل الخطأ العائلي ومعدل الخطأ لكل عائلة)، وأشرح كيف تتحكم تعديلات ألفا المرتبطة بهذه المعدلات. ثم أصف وأوضح تصحيحات الاختبار المتعدد غير المتسقة، حيث يقوم الباحث بتعديل مستوى ألفا الخاص به للتحكم في معدل الخطأ لاستنتاج إحصائي حول فرضية مشتركة قائمة على العائلات ولكنه بعد ذلك يقوم فقط بإجراء استنتاجات إحصائية حول الفرضيات الفردية. أتناول سببين للتصحيحات غير المتسقة: (أ) ارتباكات معدل الخطأ و (ب)
الامتثال لطقوس تعديل ألفا. أُبرز الأدلة الحديثة من غارسيا-بيريز (2023) التي تُظهر أن التصحيحات غير المتسقة من المحتمل أن تكون شائعة. كما أشرح كيف تؤدي التصحيحات غير المتسقة إلى فقدان القوة الإحصائية. أخيرًا، أُوضح حجتي بثلاثة أمثلة من دراسات نفسية حديثة. أستنتج أن التصحيحات غير المتسقة تمثل عرضًا لمشكلة أوسع تتعلق بالإحصائيات، وأدعو إلى نهج أكثر دقة قائم على الاستدلال لتصحيحات الاختبار المتعدد.

1. مشكلة الاختبار المتعدد

تحدث مشكلة الاختبار المتعدد عندما يستخدم الباحث أكثر من اختبار دلالة واحدة لإجراء استنتاج إحصائي. في هذه الحالة، قد تتجاوز نسبة خطأ النوع الأول لذلك الاستنتاج المستوى الاسمي التقليدي ألفا 0.050. على سبيل المثال، اعتبر باحثًا يستخدم ثلاثة اختبارات دلالة لإجراء استنتاج إحصائي حول فرضية العدم المشتركة الواحدة. هنا، يشير كل من الاختبارات الثلاثة إلى فرضية عدمية منفصلة. ، و . تتكون هذه الفرضيات الثلاثة من فرضية مشتركة. يمكن وصف مستوى ألفا لتحديد الدلالة بالنسبة لكل فرضية مكونة بأنه مستوى ألفا المكون أو ، ويمكن وصف مستوى ألفا للقرار النهائي بشأن رفض أو عدم رفض الفرضية الصفرية المشتركة بأنه مستوى ألفا المشترك أو (روبين، 2021ب).
إذا كان الباحث مستعدًا لقبول نتيجة ذات دلالة على الأقل في واحد من اختباريه الثلاثة كأسباب كافية لرفض الفرضية الصفرية المشتركة، فإن الفرضية الصفرية المشتركة تمثل تقاطع كل من الفرضيات الصفرية الثلاثة المكونة لها: و و .” الفرضيات مرتبطة ببعضها البعض بواسطة العامل المنطقي “و” لأن النتيجة المهمة المتعلقة بأي واحدة منها (أي، سيكون كافياً لرفض فرضية العدم الخاصة بالتقاطع بالكامل بشكل مؤقت وإجراء استنتاج حول فرضية البديل الخاصة بالاتحاد المقابل: “ أو أو .” ومن ثم، يُطلق على هذا الاختبار رسميًا اسم اختبار الاتحاد والتقاطع (على سبيل المثال، هوشبرغ وتامران، 1987، ص. 28؛ كيم وآخرون، 2004؛ باركر ووير، 2020، ص. 563؛ روي، 1953).
لتقديم مثال أكثر وضوحًا، تخيل أن الفرضيات البديلة الثلاثة تشير إلى الفروق بين الجنسين في المواقف تجاه علم الأحياء. ) ، الكيمياء ( )، والفيزياء ( وأن الباحث مهتم بإجراء استنتاج إحصائي حول الفرق بين الجنسين في المواقف تجاه هذه المواد العلمية. في هذه الحالة، فإن نتيجة ذات دلالة تتعلق بأي من الفرضيات الثلاثة المكونة، في أي اتجاه (أي، الرجال نساء أو نساء سيكون كافياً لرفض فرضية العدم الكاملة للتقاطع التي تفيد بعدم وجود فرق بين الجنسين في المواقف تجاه علم الأحياء، الكيمياء، والفيزياء، وإجراء استنتاج حول فرضية البديل الموحد التي تفيد بوجود فرق بين الجنسين في علم الأحياء أو الكيمياء أو الفيزياء.
لاحظ أنه، من الناحية المنطقية، فإن نتائج اختبار الاتحاد-التقاطع تبرر فقط استنتاجًا إحصائيًا حول الفرضية المشتركة المرتبطة. إنها لا تبرر الاستنتاجات الإحصائية حول كل من الفرضيات الفردية المكونة (غارسيا-بيريز، 2023، ص. 2؛ بيرنيجر، 1998، ص. 1236). على سبيل المثال، إذا حصل الباحث على نتائج اختبار الاتحاد-التقاطع لعلم الأحياء الكيمياء ؛ والفيزياء , ثم يمكنهم فقط إجراء الاستنتاج الإحصائي بأن هناك فرقًا كبيرًا بين الجنسين في المواقف تجاه علم الأحياء أو الكيمياء أو الفيزياء (أي، فرضية البديل الموحد). إن حقيقة أن فرقًا كبيرًا بين الجنسين يُلاحظ في علم الأحياء وليس في الكيمياء أو الفيزياء غير ذات صلة في سياق اختبار الاتحاد-التقاطع لأن الاختبار يعامل الفرضيات الثلاث كعناصر قابلة للتبادل نظريًا من نفس الفرضية المشتركة بدلاً من كونها فرضيات فردية منفصلة. المبدأ هو نفسه كما هو الحال في تحليل التباين أحادي الاتجاه (غارسيا-بيريز، 2023): نتيجة كبيرة تخولنا أن نؤكد أن هناك فرقًا كبيرًا بين زوج واحد على الأقل من المتوسطات، لكنها لا تسمح لنا بتحديد أي زوج. بالطبع، يمكن للباحثين أن يستمروا في إجراء استنتاجات إحصائية حول كل من الفرضيات الثلاث بشكل منفصل. ومع ذلك،
هذه الاستنتاجات الفردية ليست مبنية على اختبار الاتحاد-التقاطع. إنها مبنية على اختبارات فردية لفرضيات العدم الفردية، وكما هو الحال، فهي لا تتطلب تعديل ألفا (غارسيا-بيريز، 2023؛ روبن، 2021ب).
قد تكون هذه النقطة الأخيرة محبطة بعض الشيء لبعض القراء. بالتأكيد، إذا أجريت ثلاثة اختبارات فردية، فإن لديك احتمالًا أكبر لارتكاب خطأ من النوع الأول على الأقل بين مجموعة نتائجك. نعم، لديك! ومع ذلك، (أ) تنطبق هذه النسبة المرتفعة من الأخطاء العائلية على مجموعة الاختبارات، وليس على أي اختبار فردي ضمن العائلة؛ (ب) لا يزال لديك نفس احتمال ارتكاب خطأ من النوع الأول بالنسبة لكل واحد من اختباراتك؛ و (ج) هي هذه النسبة الفردية الأخيرة من الأخطاء التي تدعم الاستنتاجات الإحصائية حول كل فرضية فردية.
لتوضيح ذلك، تخيل أن باحثًا يجري ثلاثة اختبارات فردية للاختلافات بين الجنسين في المواقف تجاه علم الأحياء والكيمياء والفيزياء باستخدام بمقدار 0.050 ثم يستنتج أن هناك فرقًا بين الجنسين فيما يتعلق بعلم الأحياء، , ولكن ليس فيما يتعلق بالكيمياء، أو الفيزياء، . في هذه الحالة، يتفق الخبراء على أن معدل خطأ النوع الأول لكل من هذه الاختبارات الثلاثة ليس مرتفعًا فوق بمقدار 0.050 لأن اختبارًا واحدًا فقط يُستخدم لإجراء استنتاج إحصائي (قرار) حول كل فرضية (أرمسترونغ، 2014، ص. 505؛ كوك وفيرويل، 1996، ص. 96-97؛ فيشر، 1971، ص. 206؛ غارسيا-بيريز، 2023، ص. 15؛ غرينلاند، 2021، ص. 5؛ هيوز، 2003، ص. 450؛ هيتشكوك وسوبر، 2004، ص. 24-25؛ هيرلبيرت ولومباردي، 2012، ص. 30؛ ماتسوناغا، 2007، ص. 255؛ مولو وآخرون، 2022، ص. 2؛ باركر ووير، 2020، ص. 564؛ باركر ووير، 2022، ص. 2؛ روثمان، 1990، ص. 45؛ روبن، 2017، ص. 271-272؛ روبن، 2020أ، ص. 380؛ روبن، 2021أ، 2021ب، ص. 10978-10983؛ روبن، 2024؛ سافيتز وأولشان، 1995، ص. 906؛ سين، 2007، ص. 150-151؛ سينكلير وآخرون، 2013، ص. 19؛ توكي، 1953، ص. 82؛ توركهايمر وآخرون، 2004، ص. 727؛ فيزي، 2006، ص. 809؛ ويلسون، 1962، ص. 299). باختصار، إذا استخدم الباحث اختبارًا واحدًا لإجراء استنتاج إحصائي حول فرضية عدم واحدة، فإن مستوى ألفا لذلك الاستنتاج لا يصبح مرتفعًا ولا يتطلب تصحيح اختبار متعدد. من المهم أن ينطبق هذا المبدأ حتى إذا قام الباحث بإجراء ملايين من هذه الاستنتاجات الفردية جنبًا إلى جنب ضمن نفس الدراسة و/أو باستخدام نفس مجموعة البيانات.
على النقيض من ذلك، في حالة اختبار الاتحاد-التقاطع، سيكون احتمال ارتكاب خطأ من النوع الأول حول فرضية عدم التقاطع دائمًا أكبر من مستوى ألفا الاسمي لكل اختبار ( ) لأن الباحث لديه فرص متعددة لرفض فرضية عدم التقاطع بشكل غير صحيح. على سبيل المثال، إذا كانت فرضية عدم التقاطع تتكون من ثلاث فرضيات عدم مكونة، فإن الباحث سيكون لديه ثلاث فرص لارتكاب خطأ من النوع الأول حول فرضية عدم التقاطع بناءً على الاختبارات الثلاثة التي يجريها باستخدام . ومن ثم، فإن تصحيح الاختبار المتعدد ضروري في هذه الحالة من أجل التحكم في معدل الخطأ العائلي عند المستوى الاسمي لـ .
باختصار، يزيد الاختبار المتعدد من احتمال أن يكون على الأقل واحد من نتائجك الكبيرة إيجابيًا زائفًا، لكنه لا يزيد من احتمال أن يكون كل واحد من نتائجك الكبيرة إيجابيًا زائفًا، لذا إذا قمت بإجراء استنتاج حول فرضية عدم مشتركة يمكن رفضها بعد الحصول على نتيجة كبيرة واحدة على الأقل، فإن تعديل ألفا يكون ضروريًا، وإذا لم تفعل، فإنه ليس كذلك! ومن ثم، فإن تصحيح الاختبار المتعدد ضروري عند إجراء اختبارات متعددة لفرضية عدم التقاطع، ولكن ليس عند إجراء اختبارات فردية لفرضيات عدم فردية متعددة.

2. حل تعديل ألفا

أثناء اختبار الاتحاد-التقاطع، يتضمن حل تعديل ألفا خفض حتى يكون معدل الخطأ العائلي المرتبط أقل من أو يساوي . هناك عدة طرق مختلفة لحساب الدرجة التي يجب أن يتم خفض ، وتعتمد على نوع معدل الخطأ العائلي الذي يتم التحكم فيه. لأغراض توضيحية، أعتبر نهجين بسيطين يشيران إلى معدل الخطأ العائلي ومعدل الخطأ لكل عائلة.

2.1. معدل الخطأ العائلي

معدل الخطأ العائلي هو احتمال أن يكون على الأقل واحد من نتائج الاختبار المكونة خطأ من النوع الأول (أي، إيجابي زائف). احتمال أن ينتج اختبار مكون واحد نتيجة سلبية حقيقية (أي، نتيجة غير ذات دلالة عندما تكون فرضية العدم المكونة صحيحة) هو 1 . احتمال أن تنتج عائلة (مجموعة) من اختبارات مكونة جميعها نتائج سلبية حقيقية يساوي حاصل ضرب الاحتمالات التي ينتج كل منها نتيجة سلبية حقيقية، بافتراض أن نتائج الاختبارات مستقلة عن بعضها البعض: . ومن ثم، فإن معدل الخطأ العائلي الذي يكون فيه على الأقل واحد من الاختبارات ينتج نتيجة إيجابية زائفة هو .
لذا، إذا تم اختبار ثلاث فرضيات مكونة، كل منها بمعدل بمقدار 0.050، فإن معدل خطأ النوع الأول العائلي سيكون 1 – ، والذي يساوي 0.143. في هذه الحالة، سيكون معدل الخطأ العائلي أكبر من مستوى التقليدي الاسمي بمقدار 0.050. وبالتالي، للتحكم في معدل الخطأ العائلي عند مستوى ، يمكن استخدام تصحيح دن-شيداك لتقليل من 0.050 إلى ، والذي يساوي 0.0167. في هذه الحالة، سيكون معدل الخطأ العائلي مساوياً لـ ، والذي يساوي مستوى بمقدار 0.050.

2.2. معدل الخطأ لكل عائلة

يمثل معدل الخطأ لكل عائلة معدل خطأ آخر قائم على العائلة. إنه عدد الأخطاء من النوع الأول المكونة التي يُتوقع حدوثها ضمن عائلة من الاختبارات، ويتم حسابه كمجموع قيم لكل من الفرضيات المكونة التي تم اختبارها (فراني، 2015). لذا، إذا كانت قيم هي نفسها لجميع الفرضيات المكونة، فإن معدل الخطأ لكل عائلة يساوي .
بالنسبة للقيم الصغيرة لـ ، يكون معدل الخطأ لكل عائلة تقريبًا هو نفسه معدل الخطأ العائلي. ومع ذلك، مع زيادة ، يصبح معدل الخطأ لكل عائلة أكبر من معدل الخطأ العائلي، وعلى عكس معدل الخطأ العائلي، يمكن أن يصبح أكبر من 1.00. على سبيل المثال، إذا تم إجراء 100 اختبار مكون، وكان لكل منها معدل بمقدار 0.050، فإن معدل الخطأ العائلي سيكون 0.99 ولكن معدل الخطأ لكل عائلة سيكون 5.00. بعبارة أخرى، سيكون هناك تقريبًا واحد أو أكثر من النتائج الإيجابية الزائفة ضمن العائلة، وعلينا أن نتوقع أن يكون هناك خمسة نتائج إيجابية زائفة في المجموع.
يمكن استخدام تصحيح بونفيروني للتحكم في معدل الخطأ لكل عائلة باستخدام الصيغة . لذا، إذا كان ، فإن تصحيح بونفيروني سيقلل إلى 0.0169 من أجل التحكم في معدل الخطأ لكل عائلة عند مستوى بمقدار 0.050 (أي، ). لاحظ أنه، لأن معدل الخطأ العائلي هو نفسه أو أصغر من معدل الخطأ لكل عائلة، يمكن أيضًا استخدام تصحيح بونفيروني لتوفير التحكم المحافظ على معدل الخطأ العائلي.

3. تصحيحات غير متسقة

تحدث تصحيح متعدد للاختبارات غير متسق عندما يقوم الباحث بتصحيح مستوى ألفا الخاص به لاختبار الاتحاد-التقاطع لفرضية مشتركة ولكنه بعد ذلك يقوم فقط بإجراء استنتاجات إحصائية حول الفرضيات الفردية. على سبيل المثال، قد يقوم بتصحيح من أجل التحكم في معدل الخطأ القائم على العائلة عند المستوى التقليدي الاسمي من 0.050 ولكن بعد ذلك يتم إجراء استنتاجات إحصائية فقط حول الفرضيات الفردية، والتي يمكن إجراؤها باستخدام مستوى تقليدي غير معدل من 0.050. في هذه الحالة، فإن تعديل ألفا لديهم غير متسق مع استنتاجاتهم الإحصائية حول الفرضيات الفردية، والتي هي الاستنتاجات الوحيدة التي يتم إجراؤها.
لماذا يقوم الباحثون بتعديل مستوى ألفا الخاص بهم للتحكم في معدلات الخطأ المستندة إلى العائلة للفرضيات المشتركة المستندة إلى العائلة ثم يفشلون في إجراء استنتاجات إحصائية حول تلك الفرضيات؟ أعتقد أن هناك سببين لهذه التصحيحات غير المتسقة: ارتباكات معدل الخطأ وطقوس تعديل ألفا.

3.1. ارتباكات معدل الخطأ

يمكن أن تؤدي أربع ارتباكات لمعدل الخطأ إلى تصحيحات غير متسقة للاختبارات المتعددة. يحدث الارتباك الأول عندما يفترض الباحثون بشكل غير صحيح أن حالات متعددة من الاختبار الفردي تضخم بطريقة ما معدلات الخطأ من النوع الأول لكل استنتاج فردي. كما تم شرحه سابقًا، فإنها لا تفعل ذلك! أثناء الاختبار الفردي، تشير إلى احتمال أن يرفض اختبار واحد بشكل غير صحيح فرضية واحدة. لا يوجد اختبار اتحاد-تقاطع في هذه الحالة، ولا توجد فرص متعددة لارتكاب كل خطأ من النوع الأول، وبالتالي لا يوجد تضخم لمعدل الخطأ لكل استنتاج إحصائي. كما تم مناقشته في الارتباك الثالث أدناه، من الصحيح أن الاختبارات المتعددة تزيد من احتمال ارتكاب خطأ من النوع الأول على الأقل في مجموعة من الاختبارات الفردية، ولكن من الصحيح أيضًا أن الاختبارات المتعددة لا تزيد من احتمال ارتكاب خطأ من النوع الأول بالنسبة لكل اختبار، وأثناء الاختبار الفردي، فإن معدل الخطأ من النوع الأول الفردي هو فقط ما يتعلق باستنتاجات الباحثين الإحصائية.
يحدث الارتباك الثاني عندما يفترض الباحثون بشكل غير صحيح أن حالات متعددة من الاختبار الفردي تضخم معدلات الخطأ من النوع الأول المستندة إلى العائلة لكل استنتاج فردي. مرة أخرى، إنها لا تفعل ذلك! أثناء الاختبار الفردي، لكل استنتاج وبالتالي فإن معدلات الخطأ العائلية والمعدلات لكل عائلة لكل استنتاج لها نفس القيمة مثل معدل الخطأ الفردي (أي، ).
يحدث الارتباك الثالث عندما يفترض الباحثون أن حالات متعددة من الاختبار الفردي تضخم معدلات الخطأ المستندة إلى العائلة لعائلات من استنتاجات إحصائية منفصلة. إنها تفعل ذلك! ومع ذلك، فإن هذه المعدلات المستندة إلى العائلة غير ذات صلة بكل استنتاج إحصائي! لتوضيح ذلك، اعتبر باحثًا يحسب معدل الخطأ العائلي لـ 20 استنتاجًا إحصائيًا فرديًا منفصلًا يستخدم كل منها مستوى ألفا من 0.050. في هذه الحالة، يفترض الباحث أن بدلاً من لأنهم يحسبون عدد الاستنتاجات الإحصائية التي تم إجراؤها (20) بدلاً من عدد الاختبارات التي تم استخدامها لإجراء كل استنتاج (1). معدل الخطأ العائلي الناتج (0.642) لا يشير إلى الرفض غير الصحيح لأي فرضية صفرية محددة (فردية أو مشتركة) وبالتالي، حسب التعريف، لا يمثل معدل خطأ من النوع الأول. ومع ذلك، قد يرتكب الباحث خطأ استخدام هذا المعدل الخالي من الفرضيات للحكم على صرامة كل من استنتاجاتهم الإحصائية. هذه الطريقة معيبة لأن احتمال أن يمثل واحد على الأقل من 20 استنتاجًا إحصائيًا خطأ من النوع الأول (0.642) غير ذي صلة باحتمال رفض كل فرضية صفرية فردية بشكل غير صحيح (0.050). في الواقع، يمكن أن يكون احتمال أن يمثل استنتاج واحد على الأقل خطأ من النوع الأول مرتفعًا بشكل فلكي في مجموعات كبيرة من الاستنتاجات (مثل، في دراسات الارتباط على مستوى الجينوم) دون أن يؤثر ذلك على احتمال رفض كل فرضية صفرية بشكل غير صحيح، والتي تظل ثابتة عند مستوى تقليدي غير معدل من 0.050.
أخيرًا، يحدث الارتباك الرابع عندما يفترض الباحثون أن معدلات الخطأ من النوع الأول الفردية والمستندة إلى العائلة تنطبق على الاستنتاجات الجوهرية بدلاً من مجرد الاستنتاجات الإحصائية (ميهل، 1997). إنها لا تفعل ذلك! في الإطار التكراري، يفترض الاستنتاج الإحصائي أن خطأ العينة العشوائية هو المصدر الوحيد للخطأ، ومعدل خطأ من النوع الأول يشير إلى التكرار الذي سيؤدي فيه هذا الخطأ العيني إلى الرفض غير الصحيح لفرضية صفرية إحصائية خلال فترة طويلة من العينة العشوائية من السكان الصفريين. بالمقابل، يفترض الاستنتاج الجوهري أن الأخطاء النظرية والمنهجية والتحليلية الإضافية قد تؤدي إلى الرفض غير الصحيح لفرضية صفرية جوهرية. معدلات الخطأ من النوع الأول لا تأخذ في الاعتبار هذه الأشكال غير الإحصائية من الخطأ. ومع ذلك، قد يخلط الباحثون بين الفرضيات الجوهرية والفرضيات الإحصائية ويطبقون بشكل خاطئ معدلات الخطأ من النوع الأول وتصحيحات الاختبار المتعددة المرتبطة بها على قراراتهم بشأن الفرضيات الجوهرية (ميهل، 1997).
يمكن أن تتفاقم هذه الأربع ارتباكات لمعدل الخطأ بسبب الصياغة الغامضة التي تُستخدم أحيانًا في تفسيرات مشكلة الاختبار المتعدد (انظر أيضًا غارسيا-بيريز، 2023، الصفحات 2-4). على سبيل المثال، من الصحيح أن “الاختبار المتعدد يضخم معدل الخطأ من النوع الأول”، ولكن من المهم توضيح أي نوع من “الاختبار المتعدد”، وأي نوع من “معدل الخطأ من النوع الأول”، وأي نوع من الفرضية. ومن ثم، من الأكثر دقة أن نقول إن اختبار الاتحاد-التقاطع يضخم معدل الخطأ العائلي لـ
الاستنتاجات الإحصائية حول فرضيات الصفر التقاطعية. الاختبارات الفردية المتعددة لا تضخم معدلات الخطأ من النوع الأول الفردية للاستنتاجات حول الفرضيات الصفرية الفردية. ومع ذلك، فإن القول الغامض بأن “الاختبار المتعدد يضخم معدل الخطأ من النوع الأول” قد يؤدي ببعض الباحثين إلى الافتراض بشكل غير صحيح أن (أ) الاختبار المتعدد يضخم معدلات الخطأ من النوع الأول الفردية و(ب) معدلات الخطأ المستندة إلى العائلة تشير إلى مدى هذا التضخم.
نظرًا لطبيعتها الدقيقة والمغرية، من الجدير النظر في ارتباكات معدل الخطأ فيما يتعلق بكل من معدل الخطأ العائلي ومعدل الخطأ لكل عائلة. بدءًا من معدل الخطأ العائلي، قد يؤدي الارتباك الثالث إلى حساب الباحث لمعدل خطأ عائلي خالٍ من الفرضيات لمجموعة من الاستنتاجات الإحصائية الفردية حول الفرضيات الفردية بهدف التحكم في معدل الخطأ الفردي من النوع الأول (غير المضخم). ومن ثم، قد يستنتج الباحث الذي يقوم بـ 20 استنتاجًا إحصائيًا حول 20 فرضية فردية باستخدام مستوى ألفا من 0.050 أنه تم تضخيم معدل خطأ من النوع الأول لكل استنتاج لأن معدل الخطأ العائلي لهذه المجموعة من الاستنتاجات هو 0.642. في الواقع، يظل معدل الخطأ من النوع الأول لكل استنتاج عند مستوى من 0.050. الاستنتاج الخاطئ للباحث ناتج عن تطبيق غير مناسب لمعدل الخطأ العائلي على مجموعة من الاختبارات الفردية للفرضيات الفردية.
وبالمثل، يضخم الاختبار المتعدد معدل الخطأ لكل عائلة وليس معدل الخطأ من النوع الأول الفردي. مرة أخرى، قد يؤدي الفشل في تقدير هذه النقطة إلى تطبيق خاطئ لمعدل الخطأ لكل عائلة على الاستنتاجات الإحصائية حول الفرضيات الفردية. على سبيل المثال، قد يقوم باحث بإجراء 20 اختبار دلالة باستخدام مستوى ألفا 0.050 ويحصل على نتيجة واحدة فقط ذات دلالة. نظرًا لأن هذا العدد من النتائج ذات الدلالة يتطابق مع معدل الخطأ لكل عائلة، قد يُغري الباحث بعد ذلك للاعتقاد بأن نتيجته ذات الدلالة من المرجح أن تكون خطأ من النوع الأول. مرة أخرى، ومع ذلك، فإن هذا المنطق معيب لأنه يخلط بين أخطاء النوع الأول حول الفرضيات الصفرية الفردية مع أخطاء النوع الأول حول الفرضيات الصفرية المشتركة. معدل الخطأ لكل عائلة هو معدل خطأ مستند إلى العائلة، وكما هو الحال، فإنه مناسب فقط عند إجراء استنتاجات حول الفرضيات المشتركة المستندة إلى العائلة. من غير المناسب تطبيقه على الاستنتاجات حول الفرضيات الفردية.
باختصار، لا تخبرنا معدلات الخطأ المستندة إلى العائلة بشيء عن احتمال ارتكاب خطأ من النوع الأول بالنسبة لفرضية صفرية فردية. الاعتقاد بأنها تفعل ذلك هو الاستسلام لنوع من المغالطة البيئية حيث يتم تطبيق معدل الخطأ من النوع الأول لقرار حول عائلة من الفرضيات بشكل خاطئ على القرارات بشأن الفرضيات الفردية داخل تلك العائلة. تخبرنا معدلات الخطأ المستندة إلى العائلة فقط باحتمال ارتكاب خطأ من النوع الأول بالنسبة لفرضيات الصفر التقاطعية المستندة إلى العائلة.

3.2. طقوس تعديل ألفا

من الممكن حل لبس معدلات الخطأ من خلال التفكير المنطقي. ومع ذلك، لا يختار الباحثون الأساليب الإحصائية بناءً على التفكير المنطقي بحد ذاته. كما أن الموضات والتقاليد الاجتماعية والثقافية لها تأثير أيضًا، وهنا قد يأتي دور طقوس تعديل ألفا.
في مقاله ‘إحصائيات بلا معنى’، أشار جيجيرنزر (2004) إلى أن ‘الطقوس الفارغة’ لاختبار الفرضية الصفرية ‘تحتوي على جوانب معقدة … مثل تعديل ألفا’ (ص. 588). لم يتطرق إلى هذه المسألة بشكل أعمق. ومع ذلك، في رأيي، تتضمن طقوس تعديل ألفا التعديل التلقائي لمستويات ألفا كلما حدث اختبار متعدد، بغض النظر عما إذا كانت الاستنتاجات الإحصائية تُجرى حول فرضيات صفرية فردية أو فرضيات صفرية تقاطعية. هذه الطقوس الاجتماعية مدعومة من قبل الزملاء، ومراجعي الأقران، والمحررين، والمجلات، وما إلى ذلك، حيث يعتبر بعضهم عدم الامتثال لهذه الطقوس واحدة من ‘الخطايا السبع المميتة’ في الممارسة الإحصائية (كوزون وآخرون، 1996؛ ميلس، 2003؛ بوب وآخرون، 2012).
مرة أخرى، للتوضيح، فإن تعديل ألفا مناسب عند إجراء استنتاج إحصائي حول فرضية العدم التقاطعية بناءً على اختبار الاتحاد-التقاطع. ومع ذلك، فإن تعديل ألفا غير مناسب عند إجراء استنتاجات إحصائية حول عدة أفراد.
فرضيات على أساس اختبارات فردية متعددة. ومن ثم، فإن المشكلة في طقوس تعديل ألفا هي أنها تفتقر إلى الدقة والحساسية لنوع الاستنتاجات التي يتم إجراؤها. على وجه الخصوص، لا تسمح بإمكانية أن يقوم الباحثون بإجراء استنتاجات إحصائية فردية متعددة حول فرضيات فردية متعددة بناءً على اختبارات فردية متعددة. سيؤدي الباحثون الذين يتبعون طقوس تعديل ألفا في هذه الحالة إلى إجراء تصحيحات غير متسقة للاختبارات المتعددة لأن تعديل ألفا غير مناسب للاستنتاجات الإحصائية المحددة التي يقومون بها.
باختصار، تتطلب الاستنتاجات الإحصائية حول فرضيات العدم التقاطعية تعديل ألفا، لكن الاستنتاجات الإحصائية حول فرضيات العدم الفردية لا تتطلب ذلك، حتى لو تم إجراء عدة استنتاجات من هذا النوع ضمن نفس الدراسة و/أو على نفس مجموعة البيانات. على عكس طقوس تعديل ألفا، هناك بعض الحالات من الاختبار المتعدد التي لا تتطلب تعديل ألفا، وقد يؤدي الالتزام غير المدروس بهذه الطقوس إلى تصحيحات غير متسقة للاختبار المتعدد.

4. التصحيحات غير المتسقة شائعة

ما مدى شيوع تصحيحات الاختبار المتعدد غير المتسقة؟ في مراجعته الأخيرة، قام غارسيا-بيريز (2023) بفحص 109 مقالات بحثية استخدمت تصحيحات الاختبار المتعدد والتي نُشرت في مجلات أساليب البحث السلوكي وعلم النفس بين عامي 2021 ويونيو 2022. وقد وجد أن
كانت ميزة ثابتة في جميع الأوراق هي أن كل اختبار فردي من الاختبارات التي تم إجراءها “تم تفسير القيمة المبلغ عنها (سواء مع التصحيحات أو بدونها) بشكل فردي، أي أنه تم استنتاج لكل اختبار ولم يتم اعتبار الاختبارات أبداً كمعالجة جماعية لفرضية العدم المشتركة” (ص. 4).
لذا، استخدم الباحثون تصحيحات الاختبار المتعدد عندما قاموا بإجراء استنتاجات إحصائية حول فرضيات العدم الفردية وليس حول فرضيات العدم التقاطعية التي ستنطبق عليها تصحيحاتهم. يمكننا أن نستنتج أنه، على الأقل في عينة المقالات الخاصة بغارسيا-بيريز (2023)، فإن تصحيحات الاختبار المتعدد غير المتسقة شائعة جدًا.

5. التصحيحات غير المتسقة تقلل من القوة الإحصائية

التصحيحات غير المتسقة تؤدي أيضًا إلى فقدان غير مبرر للقوة الإحصائية. إذا قام الباحث بتعديل مستوى ألفا الخاص به إلى ما دون مستواه الاسمي للتعويض عن الاختبارات المتعددة ولكنه يقوم فقط بإجراء استنتاجات إحصائية حول الفرضيات الفردية وليس حول فرضية مشتركة، فإنه سيقلل من قوة اختباره الفردي دون سبب وجيه. ونتيجة لذلك، ستكون نسبة الخطأ من النوع الأول لديه منخفضة بشكل غير ضروري، وستكون نسبة الخطأ من النوع الثاني لديه مرتفعة بشكل غير ضروري (غارسيا-بيريز، 2023، ص. 11).
على سبيل المثال، تخيل أن باحثًا أراد أن يستنتج استنتاجين إحصائيين حول فرضيتين فرديتين. منطقيًا، يمكنهم استخدام طريقة تقليدية غير معدلة. 0.050 في كل حالة. ومع ذلك، تخيل أكثر أن الباحث اتبع طقوس تعديل ألفا واستخدم تصحيح بونفيروني لتقليل مستوى من 0.050 إلى 0.025 (أي، ). إذا حصلوا على قيم 0.010 و 0.040، فإنهم يمكنهم فقط رفض فرضية العدم الأولى. لن يكونوا قادرين على رفض فرضية العدم الثانية لأنهم قيمة 0.040 ستكون أعلى من مستوى ألفا المعدل لديهم البالغ 0.025. بالطبع، إذا لم يقوموا بهذا التعديل على ألفا، لكان بإمكانهم رفض فرضيتهم الثانية عند مستوى ألفا التقليدي البالغ 0.050. ومن ثم، فإن تصحيح الباحث غير المتسق تسبب في فقدان القوة الإحصائية، ويفترض أن الفرضيات الصفرية الخاطئة، فإن هذا الفقدان في القوة يفسر نتيجتهم غير الدالة.
من المهم توضيح هنا أن الباحثين يمكنهم تحديد أن تكون أقل من المستوى التقليدي 0.050 إذا كانوا يرغبون في تقديم اختبارات أكثر صرامة لفرضياتهم الفردية (باركر ووير، 2020، ص. 564؛ روبن، 2021ب، ص. 10984). ومع ذلك، تمثل هذه الطريقة تحديد ألفا صارم بدلاً من تعديل لمستوى ألفا المحدد مسبقًا. بمجرد تم تحديده عند مستوى معين (على سبيل المثال، ، إلخ)، يجب ألا يتم تعديله ليأخذ في الاعتبار التعددية
اختبار.

6. ثلاثة أمثلة على تصحيحات غير متسقة

لفهم أفضل لتداعيات التصحيحات غير المتسقة، من المفيد النظر في ثلاثة أمثلة من دراسات بحثية حديثة. للحصول على هذه الأمثلة، بحثت في Google Scholar في نهاية ديسمبر 2023 عن مقالات حديثة (2021-2023) في مجلات تحتوي على كلمة “علم النفس” في العنوان وتضمّن المصطلحات “0.025” و”0.05 / 2″ أو “. .” استخدمت الفترة من 2021 إلى 2023 لإظهار الطبيعة المعاصرة للتصحيحات غير المتسقة على مدار السنوات الثلاث الماضية. استخدمت مصطلح “علم النفس” في عنوان المجلة لمحاولة تقييد المقالات بمجلات علم النفس، على الرغم من أنه لا يوجد سبب للاعتقاد بأن نفس المشكلة لا تحدث في تخصصات أخرى. أخيرًا، استخدمت المصطلحين “0.025” و لأنها من المحتمل أن تُستخدم عند مناقشة تصحيح بونفيروني البسيط نسبيًا لمستوى ألفا التقليدي 0.050 عندما في هذه الحالة، يمكن إجراء استنتاجات إحصائية حول الفرضيتين الفرديتين باستخدام 0.050 ، ويمكن إجراء استنتاج إحصائي حول الفرضية المشتركة باستخدام 0.025، الذي يحافظ على المرتبط عند 0.050. وبالتالي، إذا استخدم الباحثون هذا التصحيح بونفيروني بطريقة منطقية متسقة، فيجب عليهم إجراء استنتاج إحصائي حول فرضية بديلة مشتركة تشمل الفرضيتين المكونتين اللتين يختبرونهما (على سبيل المثال، أو ومع ذلك، إذا استخدموا ذلك بطريقة غير منطقية، فلن يقوموا باستنتاج إحصائي حول الفرضية المشتركة، وبدلاً من ذلك سيقومون بعمل استنتاجين إحصائيين منفصلين حول فرضيتين فرديتين منفصلتين (على سبيل المثال، و ).
أعادت عملية بحثي 62 نتيجة. عند فحص هذه النتائج، اخترت الحالات التي كانت فيها (أ) التحليل الإحصائي بسيطًا نسبيًا، (ب) كانت إحدى نتيجتي الاختبار ذات دلالة عند مستوى 0.025 (أي، )، و (ج) كانت نتيجة الاختبار الأخرى ذات دلالة عند مستوى 0.050 ولكنها غير دالة عند مستوى 0.025 (أي، ). هذا المعيار الثالث أتاح لي توضيح النتائج غير المهمة التي قد تُعزى إلى فقدان القوة الإحصائية الناتج عن تصحيحات غير متسقة على افتراض أن الفرضيات الصفرية المرتبطة بها خاطئة.
باستخدام هذه المعايير، اخترت ثلاثة أمثلة: بريم وآخرون (2021، الدراسة 1)، كليمنس وغرولي (2023)، ويانسون وآخرون (2023، التجربة 2). لقد اخترت هذه الدراسات لأنها قدمت توضيحات واضحة نسبيًا لتصحيحات الاختبار المتعدد غير المتسقة. ومع ذلك، فإن اختيارها لا يعني أنها أقل صرامة أو مصداقية من الدراسات الأخرى. في الواقع، نظرًا لأن الباحثين قيدوا استنتاجاتهم الإحصائية بالفرضيات الفردية، يمكن اعتبار الدراسات المختارة أنها تقدم اختبارات أكثر صرامة من الدراسات الأخرى لأن مستويات ألفا الخاصة بها أقل من المستوى التقليدي 0.050. نقطتي هنا هي فقط لتسليط الضوء على (أ) التناقض المنطقي في خفض مستوى ألفا للتحكم في معدل الخطأ العائلي ثم تقديم ادعاءات فقط حول الفرضيات الفردية وليس حول الفرضيات المشتركة المستندة إلى العائلة و (ب) الآثار المحتملة الناجمة عن فقدان القوة الإحصائية المرتبطة.

6.1. المثال 1: بريم وآخرون (2021، الدراسة 1)

أجرى بريم وآخرون (2021، الدراسة 1) دراسة لتطوير والتحقق من صحة مقياس لقياس المطالب المعرفية للتخطيط، الهيكلة، وتنسيق ترتيبات العمل المرنة. أوضح الباحثون أنه، “عند اختبار الفرضيات 2 إلى 5، كانت تصحيح بونفيروني كان لأن الفرضيات 2 إلى 5 تضمنت كل منها 2 ارتباطات” (ص. 7). على سبيل المثال، كانت الفرضية 4 هي أن “المقياس الفرعي لتخطيط أماكن العمل سيكون مرتبطًا إيجابيًا بتوفر إمكانيات العمل عن بُعد من المنزل وتوفر إمكانيات العمل عن بُعد من مواقع أخرى خارج مقر صاحب العمل” (ص. 4).
وجد الباحثون أن،
“تماشيًا مع الفرضيات 2 إلى 5، أظهرت هيكلة مهام العمل ارتباطات إيجابية كبيرة مع استقلالية اتخاذ القرار واستقلالية طرق العمل؛ أظهر تخطيط أوقات العمل ارتباطات إيجابية كبيرة مع استقلالية جدولة العمل وتوفر الوقت المرن؛ أظهر تخطيط أماكن العمل ارتباطات إيجابية كبيرة مع توفر العمل من المنزل وتوفر العمل عن بُعد من مواقع أخرى؛ وأظهر التنسيق مع الآخرين ارتباطات إيجابية كبيرة مع الاعتماد المتبادل المبادر والاعتماد المتبادل المستلم (قارن). ظلت جميع هذه الارتباطات ذات دلالة بعد تصحيح بونفيروني، باستثناء الارتباط بين تخطيط أماكن العمل وتوفر العمل من المنزل. وبالتالي، كانت الفرضيات 2 و3 و5 مدعومة بالكامل، وكانت الفرضية 4 مدعومة جزئيًا” (بريم وآخرون، 2021، ص. 7).
لذا، اختبر الباحثون أربع فرضيات، كل منها تشير إلى ارتباطين، وقاموا بتعديل إلى 0.025 (أي، ) في كل حالة. بعد هذا التصحيح بونفيروني، وجدوا دعمًا لثلاث من الفرضيات الأربع ودعمًا جزئيًا للفرضية 4، لأن واحدة فقط من الارتباطين كانت ذات دلالة عند مستوى 0.025 في هذه الحالة.
الاستنتاج بأن الفرضية 4 كانت “مدعومة جزئيًا” هو نتيجة تصحيح غير متسق. استخدام تصحيح بونفيروني يعني أن الفرضية 4 هي فرضية بديلة اتحادية يمكن دعمها بالكامل بعد الحصول على نتيجة واحدة ذات دلالة على الأقل باستخدام المعدل 0.025. استوفى الباحثون هذا المعيار، حيث وجدوا أن تخطيط أماكن العمل كان مرتبطًا إيجابيًا بشكل كبير مع توفر إمكانيات العمل عن بُعد من مواقع أخرى. لذا، منطقيًا، كان بإمكان الباحثين أن يستنتجوا أن هناك دعمًا كاملًا للفرضية 4. بدلاً من ذلك، استنتجوا أن الفرضية 4 كانت “مدعومة جزئيًا.” هذا الاستنتاج يشير إلى أنهم اعتبروا الفرضية 4 مكونة من فرضيتين فرديتين، وكانوا سيستنتجون أن هناك “دعم كامل” للفرضية 4 إذا كانت كلتا الفرضيتين الفرديتين مدعومتين، و”دعم جزئي” إذا كانت فرضية واحدة فقط مدعومة، و”لا دعم” إذا لم تكن أي من الفرضيتين مدعومتين. ومع ذلك، في هذه الحالة، لا يتطلب أي تعديل ألفا لأن استنتاجات إحصائية منفصلة تُجرى حول كل فرضية فردية، ثم يتم تقديم ملخص غير إحصائي لهذين الاستنتاجين فيما يتعلق بـ “الفرضية 4” (أي، “دعم كامل”، “دعم جزئي”، أو “لا دعم”). لذا، كان ينبغي على الباحثين أن يبلغوا عن نتيجتين ذات دلالة عند مستوى 0.050 ثم يزعموا دعمًا كاملًا للفرضية 4. بدلاً من ذلك، أبلغوا فقط عن نتيجة واحدة ذات دلالة عند مستوى 0.025 وزعموا دعمًا جزئيًا للفرضية 4. بافتراض أن الفرضيات الصفرية كانت خاطئة، قد يُعزى هذا الادعاء الجوهري للدعم الجزئي إلى نقص في القوة الإحصائية الناجم عن التصحيح غير المتسق.
يجب أن ألاحظ أن المراسلات مع المؤلف الأول لهذه الدراسة كشفت أن القرار باستخدام تصحيح بونفيروني تم اتخاذه استجابة لطلب من مراجع زميل (ر. بريم، اتصال شخصي، 3 يناير 2024). لذا، على الأقل في هذه الحالة، شجع مراجع زميل الباحثين على اتباع طقوس تعديل ألفا.

6.2. المثال 2: كليمنس وغرولي (2023)

حقق كليمنس وغرولي (2023) في كيفية استجابة الناس عندما تخيلوا أنهم يتم استجوابهم من قبل الشرطة تحت الشك أو عدم الشك في أنهم ارتكبوا فعلًا غير قانوني في مسرح الجريمة، ولكن فعلًا غير مرتبط بالجريمة التي يتم التحقيق فيها. طُلب من المشاركين تخيل أنهم قاموا إما بفعل قانوني أو فعل غير قانوني في مكتبة حدثت فيها سرقة. في الحالة القانونية، نظر المشاركون إلى كتاب، وفي الحالة غير القانونية، قاموا بعملية شراء غير قانونية لهاتف محمول. افترض الباحثون “أن المشاركين في الفعل غير القانوني (مقابل المشاركين في الفعل القانوني) سيبلغون … عن استراتيجيات مراوغة بشكل أكثر تكرارًا (الفرضية 1ب).” اعتبر الباحثون استراتيجيتين مراوغتين: (أ) الخداع و (ب) مشاركة المعلومات على مضض.
أبلغوا أن،
“نظرًا لتحديد فئتين مراوغتين من الاستراتيجيات، طبقنا مستوى دلالة مصحح بونفيروني ( ) 0.025 للفرضية 1 ب. تظهر النتائج أن المشاركين في الفعل غير القانوني (مقابل القانوني) أبلغوا عن الاستراتيجية المراوغة بأنها خادعة ( 28.038، ) بشكل أكثر تكرارًا، بينما لم يتم العثور على نتيجة ذات دلالة للاستراتيجية المراوغة لمشاركة المعلومات على مضض . هذه النتائج تتماشى جزئيًا فقط مع الفرضية 1ب” (كليمنس وغرولي، 2023، ص. 386-387).
مرة أخرى، استنتاج الباحثين بأن نتائجهم “تتوافق جزئيًا فقط” مع فرضيتهم غير متسق مع نهجهم التحليلي. استخدام تصحيح بونفيروني يعني أن واحدة فقط من الاختبارين تحتاج إلى تقديم نتيجة ذات دلالة من أجل رفض فرضية العدم المشتركة التي تفيد بأن المشاركين في الفعل غير القانوني لن يبلغوا عن أي من الاستراتيجيات المراوغة بشكل أكثر تكرارًا من المشاركين في الفعل القانوني. تماشيًا مع هذا المعيار، وجد الباحثون نتيجة واحدة ذات دلالة باستخدام مستوى المعدل من . ومع ذلك، بدلاً من المطالبة بدعم كامل للفرضية البديلة الاتحادية، زعموا فقط دعمًا جزئيًا. مرة أخرى، يشير هذا الاستنتاج إلى أن الاختبارين تم اعتباره كاختبار واحد لفرضيتين فرديتين. في هذه الحالة، ومع ذلك، يمكن رفض كلا فرضيتي العدم بشكل مؤقت باستخدام مستوى عند المستوى غير المعدل من ، ويمكن الوصول إلى استنتاج جوهري “دعم كامل”.

6.3. المثال 3: يانسون وآخرون (2023، التجربة 2)

أخيرًا، حقق يانسون وآخرون (2023، التجربة 2) في فعالية استراتيجيات الدراسة المختلفة، مع التركيز على الفروق بين الدراسة المحجوزة (دراسة موضوع واحد في كل مرة؛ على سبيل المثال، AAA BBB CCC) والدراسة المتداخلة (خلط مواضيع مختلفة عبر الزمن؛ على سبيل المثال، ACB BAC CBA). استخدم هؤلاء الباحثون تصحيح بونفيروني لضبط مستوى ألفا الخاص بهم إلى 0.025 خلال اختبار عينات مستقلة -اختبار حيث كانت استراتيجية الدراسة (محجوزة مقابل متداخلة) هي المتغير المستقل و (أ) الأحكام المستقبلية للتعلم و (ب) نتائج التعلم الفعلية كانت المتغيرين التابعين. كما أوضحوا،
لاختبار الفروق المهمة، استخدمنا مستقل -اختبارات بمستوى دلالة مصحح باستخدام بونفيروني (أي، 0.05/2). كما هو متوقع ومتناسب مرة أخرى مع التجربة 1، الطلاب الذين استخدموا الدراسة المحجوزة قدموا تقديرات أعلى للتعلم المتوقع ( ) من الطلاب الذين استخدموا الدراسة المتداخلة كوهن رقمياً، كانت نتائج التعلم الفعلية أعلى لحالة الدراسة المتداخلة. ) من حالة الدراسة المحجوبة ( ومع ذلك، على عكس توقعاتنا، لم يكن هذا الاختلاف ذا دلالة إحصائية، كوهن ” (جانسن وآخرون، 2023، ص. 24).
لذا، استخدام 0.025 ، وجد الباحثون تأثيرًا كبيرًا لاستراتيجية الدراسة (المحجوزة مقابل المتداخلة) على التقديرات المستقبلية للتعلم ( ) ولكن ليس على نتائج التعلم الفعلية ( ). بناءً على منطق تصحيح بونفيروني، كان بإمكانهم بعد ذلك رفض فرضية العدم المرتبطة بالتقاطع وادعاء الدعم الكامل لفرضية البديل المتعلقة بالاتحاد التي تفيد بأن استراتيجية الدراسة أثرت إما على الأحكام المستقبلية للتعلم أو نتائج التعلم الفعلية. بدلاً من ذلك، قاموا بإجراء استنتاجات إحصائية وموضوعية حول كل متغير ناتج بشكل منفصل. على سبيل المثال، استنتجوا أن
كلا التجربتين أعادتا تكرار النتائج من الأبحاث السابقة التي، بشكل عام، على مستوى المجموعة، أفاد الطلاب بأنهم استثمروا جهدًا أكبر وقدموا تقييمات أقل للتعلم خلال الدراسة المتداخلة مقارنة بالدراسة المحجوزة (كيرك-جونسن وآخرون، 2019؛ أونان وآخرون،
2022). ومع ذلك، نحن فقط قمنا بتكرار النتيجة التي تفيد بأن الطلاب تعلموا بشكل ملحوظ أكثر من الدراسة المتداخلة مقارنة بالدراسة المحجوزة (كما يتضح من أدائهم في الاختبار) في التجربة 1. في التجربة 2، لم يكن الفرق في نتيجة التعلم، على الرغم من كونه عددياً في الاتجاه المفترض، ذا دلالة إحصائية …” (جانسن وآخرون، 2023، ص. 28).
إذا كان المؤلفون يرغبون في التحكم في معدل الخطأ من النوع الأول لكل قرار يتعلق بكل فرضية فردية عند 0.050، فيمكنهم استخدام طريقة غير معدلة. 0.050 بدلاً من تعديل 0.025. في هذه الحالة، كانوا سيقررون أن كلا نتيجتي الاختبار كانت ذات دلالة. ) بدلاً من نتيجة واحدة فقط ( ). أن 0.025 سيكون مطلوبًا فقط إذا أراد المؤلفون اتخاذ قرار بشأن فرضية العدم للتقاطع باستخدام 0.050. ومع ذلك، لم يأخذوا في الاعتبار هذه الفرضية الصفرية للتقاطع. ومن ثم، مرة أخرى، توضح هذه الحالة تصحيح اختبار متعدد غير متسق ونتيجة غير دالة، والتي، بافتراض فرضية صفرية خاطئة، قد تُعزى إلى فقدان القوة الإحصائية.

6.4. ملخص

باختصار، في جميع الأمثلة الثلاثة، قام الباحثون بتطبيق تصحيح بونفيروني للتعديل من 0.050 إلى 0.025 من أجل التحكم عند 0.050. في الدراسات الثلاث، وجد الباحثون نتيجة ذات دلالة حيث و نتيجة غير ذات دلالة حيث . ستسمح هذه النمط من النتائج للباحثين إما (أ) برفض فرضية العدم التقاطعية على أساس أن اختبارًا واحدًا على الأقل كان ذا دلالة باستخدام تعديل 0.025 أو (ب) رفض كلا الفرضيتين الصفريتين الفرديتين على أساس أن كلا الاختبارين كانا دالين باستخدام طريقة غير معدلة 0.050. بدلاً من ذلك، في الحالات الثلاث، اتبع الباحثون نهجًا هجينًا مضللًا حيث استخدموا 0.025 لرفض واحدة من الفرضيتين الصفريتين الفرديتين و (ب) الفشل في رفض الأخرى. هذه الطريقة الهجينة غير متسقة منطقياً مع استخدام تصحيح الاختبار المتعدد. علاوة على ذلك، إذا افترضنا أن الفرضيات الصفرية كانت خاطئة، يمكن أن تُعزى النتائج غير الدالة للباحث إلى فقدان القوة الإحصائية الناتج عن تصحيحاتهم غير المتسقة: إذا كانوا قد استخدموا 0.050، ثم كانوا سيقررون أن كلا من اختباريهم قد أسفرا عن نتائج ذات دلالة. كما أن نتائجهم غير الدالة كان لها تداعيات على استنتاجاتهم الجوهرية. في حالتين من الحالات الثلاث، وصف الباحثون نتائجهم بأنها تقدم دعماً جزئياً فقط لفرضياتهم (كليمنس وغروليغ، 2023؛ بريم وآخرون، 2021، الدراسة 1). في الواقع، أيًا كانت الطريقة التي يتم بها تفسير النتائج، فقد قدمت دعماً كاملاً للفرضيات: النتيجة الدالة الوحيدة عند كان المستوى كافياً لرفض فرضية العدم الخاصة بالتقاطع بالكامل، والنتيجتين الهامتين عند 0.050 كانت مستويات الرفض كافية لرفض كل من فرضيتي العدم الفرديتين.
لقد قيدت أمثلتي الثلاثة بالدراسات المنشورة في مجلات علم النفس التي استخدمت تصحيح بونفيروني والذي يتضمن اختبارين بسيطين حيث أسفر أحد الاختبارات عن نتيجة ذات دلالة عند مستوى ألفا المصحح بينما أسفر الآخر عن نتيجة غير دالة. ومع ذلك، قد تُلاحظ تصحيحات غير متسقة أيضًا بين الدراسات غير النفسية التي تستخدم أساليب تصحيح ألفا قائمة على العائلات الأخرى ومجموعات أكبر من الاختبارات.

7. الابتعاد عن الإحصائيات

في رأيي، تشير الإحصائية إلى التعميم المفرط للمبادئ الإحصائية المجردة على حساب الفروق الدقيقة والتحذيرات الخاصة بالسياق (على سبيل المثال، بورينغ، 1919؛ براور، 1949). قد تساعد الإحصائية في تفسير الطقوس الإحصائية غير المدروسة التي لاحظها بعض المعلقين (ديفيدسون، 2018؛ جيجيرنزر، 2004، 2018؛ برو ول وموري، 2021). في مجال اختبار الدلالة، قد تؤدي هذه الطقوس إلى دفع الباحثين إلى (أ) تسجيل التحليلات مسبقًا وتقليل أهمية التحليلات الاستكشافية.
كـ “مؤقت”، حتى عندما تحتفظ اختبارات الدلالة بصلاحيتها في الحالات الاستكشافية غير المسجلة مسبقًا (Devezer et al., 2021; Rubin, 2017, 2020a)؛ (ب) استخدام مستوى ألفا التقليدي عندما يكون مستوى ألفا غير التقليدي البديل أكثر ملاءمة (Lakens et al., 2018)؛ (ج) استخدام اختبار ثنائي الجانب عندما يكون اختبار أحادي الجانب أكثر توافقًا مع الاستدلال الإحصائي الخاص بالشخص (Georgiev, 2018; Rubin, 2022)؛ (د) إجراء تحليل قوة مسبق عندما لا يكون هناك أساس واضح لتقدير حجم التأثير ويكون تحليل قوة الحساسية أكثر ملاءمة (Lakens, 2022; Perugini et al., 2018)؛ و(هـ) اتباع تفسير نيمان-بيرسون عندما يكون تفسير فيشر أكثر ملاءمة (Hurlbert and Lombardi, 2009; Rubin, 2020b).
ربما fueled by المخاوف بشأن الصرامة الإحصائية بعد أزمة النسخ، قد يساعد الإحصائيات أيضًا في تفسير تجديد نشر طقوس تعديل ألفا. ثم تتبع تصحيحات الاختبار المتعدد غير المتسقة كاستجابة مفرطة التعميم لمشكلة محدودة إلى حد ما.
للابتعاد عن الإحصائيات، نحتاج إلى اعتماد نهج أكثر دقة وحساسية للسياق يولي اهتمامًا أكبر للاستنتاجات الإحصائية المحددة التي يقوم بها الباحثون فعليًا. في حالة تصحيحات الاختبار المتعدد، يتضمن هذا النهج الأكثر دقة التخلي عن طقوس تعديل ألفا واعتماد منظور قائم على الاستنتاج يدعو إلى تعديل ألفا في حالة الاستنتاجات حول فرضيات العدم التقاطعية ولكن ليس في حالة الاستنتاجات حول فرضيات العدم الفردية.

بيان مساهمة مؤلفي CRediT

مارك روبين: الكتابة – مراجعة وتحرير، الكتابة – المسودة الأصلية، التصور.

إعلان عن تضارب المصالح

يعلن المؤلفون أنهم ليس لديهم أي مصالح مالية متنافسة معروفة أو علاقات شخصية قد تبدو أنها تؤثر على العمل المبلغ عنه في هذه الورقة.

توفر البيانات

لم يتم استخدام أي بيانات في البحث الموصوف في المقال.

References

Armstrong, R.A., 2014. When to use the Bonferroni correction. Ophthalmic Physiol. Opt. 34, 502-508. https://doi.org/10.1111/opo.12131.
Boring, E.G., 1919. Mathematical vs. scientific significance. Psychol. Bull. 16 (10), 335-338. https://doi.org/10.1037/h0074554.
Brower, D., 1949. The problem of quantification in psychological science. Psychol. Rev. 56 (6), 325-333. https://doi.org/10.1037/h0061802.
Clemens, F., Grolig, T., 2023. What will you do when they think it was you? Counterinterrogation strategies of innocent interviewees under suspicion vs. no suspicion. J. Police Crim. Psychol. 38 (2), 381-394. https://doi.org/10.1007/s11896-022-09525-7.
Cook, R.J., Farewell, V.T., 1996. Multiplicity considerations in the design and analysis of clinical trials. J. Roy. Stat. Soc. 159, 93-110. https://doi.org/10.2307/2983471.
Davidson, I.J., 2018. The ouroboros of psychological methodology: the case of effect sizes (mechanical objectivity vs. expertise). Rev. Gen. Psychol. 22 (4), 469-476. https://doi.org/10.1037/gpr0000154.
Devezer, B., Navarro, D.J., Vandekerckhove, J., Buzbas, E.O., 2021. The case for formal methodology in scientific reform. R. Soc. Open Sci. 8 (3) https://doi.org/10.1098/ rsos.200805. Article 200805.
Fisher, R.A., 1971. The Design of Experiments. Hafner Press, 9th ed.
Frane, A.V., 2015. Are per-family type I error rates relevant in social and behavioral science? J. Mod. Appl. Stat. Methods 14 (1), 5. https://doi.org/10.22237/jmasm/ 1430453040.
Frane, A.V., 2019. Misguided opposition to multiplicity adjustment remains a problem. J. Mod. Appl. Stat. Methods 18 (2), eP2836. https://doi.org/10.22237/jmasm/ 1556669400.
García-Pérez, M.A., 2023. Use and misuse of corrections for multiple testing. Methods in Psychology 8, 100120. https://doi.org/10.1016/j.metip.2023.100120.
Georgiev, G.Z., 2018. Directional Claims Require Directional (Statistical) Hypotheses. One-sided.org. August 6. https://www.onesided.org/articles/directional-claims-re quire-directional-hypotheses.php.
Gigerenzer, G., 2004. Mindless statistics. J. Soc. Econ. 33 (5), 587-606. https://doi.org/ 10.1016/j.socec.2004.09.033.
Gigerenzer, G., 2018. Statistical rituals: the replication delusion and how we got there. Advances in Methods and Practices in Psychological Science 1 (2), 198-218. https:// doi.org/10.1177/2515245918771329.
Greenland, S., 2021. Analysis goals, error-cost sensitivity, and analysis hacking: Essential considerations in hypothesis testing and multiple comparisons. Paediatr. Perinat. Epidemiol. 35, 8-23. https://doi.org/10.1111/ppe.12711.
Hewes, D.E., 2003. Methods as tools. Hum. Commun. Res. 29, 448-454. https://doi.org/ 10.1111/j.1468-2958.2003.tb00847.x.
Hitchcock, C., Sober, E., 2004. Prediction versus accommodation and the risk of overfitting. Br. J. Philos. Sci. 55 (1), 1-34. https://doi.org/10.1093/bjps/55.1.1.
Hochberg, Y., Tamrane, A.C., 1987. Multiple Comparison Procedures. Wiley. https://www.nature.com/srep/author-instructions/submission-guidelines.
Hurlbert, S.H., Lombardi, C.M., 2009. Final collapse of the Neyman-Pearson decision theoretic framework and rise of the neoFisherian. Ann. Zool. Fenn. 46 (5), 311-349. https://doi.org/10.5735/086.046.0501.
Hurlbert, S.H., Lombardi, C.M., 2012. Lopsided reasoning on lopsided tests and multiple comparisons. Aust. N. Z. J. Stat. 54 (1), 23-42. https://doi.org/10.1111/j.1467842X.2012.00652.x.
Janssen, E.M., van Gog, T., van de Groep, L., de Lange, A.J., Knopper, R.L., Onan, E., et al., 2023. The role of mental effort in students’ perceptions of the effectiveness of interleaved and blocked study strategies and their willingness to use them. Educ. Psychol. Rev. 35 (3), 85 https://doi.org/10.1007/s10648-023-09797-3.
Kim, K., Zakharkin, S.O., Loraine, A., Allison, D.B., 2004. Picking the most likely candidates for further development: Novel intersection-union tests for addressing multi-component hypotheses in comparative genomics. In: Proceedings of the American Statistical Association, ASA Section on ENAR Spring Meeting, pp. 1396-1402. http://www.uab.edu/cngi/pdf/2004/JSM 2004 -IUTs% 20Kim%20et%20al.pdf.
Kuzon, W., Urbanchek, M., McCabe, S., 1996. The seven deadly sins of statistical analysis. Ann. Plast. Surg. 37, 265-272.
Lakens, D., Adolfi, F.G., Albers, C.J., Anvari, F., Apps, M.A., Argamon, S.E., et al., 2018. Justify your alpha. Nat. Human Behav. 2 (3), 168-171. https://doi.org/10.1038/ s41562-018-0311-x.
Lakens, D., 2022. Sample size justification. Collabra: Psychology 8 (1), 33267. https:// doi.org/10.1525/collabra. 33267.
Matsunaga, M., 2007. Familywise error in multiple comparisons: disentangling a knot through a critique of O’Keefe’s arguments against alpha adjustment. Commun. Methods Meas. 1, 243-265. https://doi.org/10.1080/19312450701641409.
Meehl, P.E., 1997. The problem is epistemology, not statistics: replace significance tests by confidence intervals and quantify accuracy of risky numerical predictions. In: Harlow, L.L., Mulaik, S.A., Steiger, J.H. (Eds.), What if There Were No Significance Tests? Erlbaum, pp. 393-425.
Millis, S.R., 2003. Statistical practices: the seven deadly sins. Child Neuropsychol. 9 (3), 221-233. https://doi.org/10.1076/chin.9.3.221.16455.
Molloy, S.F., White, I.R., Nunn, A.J., Hayes, R., Wang, D., Harrison, T.S., 2022. Multiplicity adjustments in parallel-group multi-arm trials sharing a control group: clear guidance is needed. Contemp. Clin. Trials 113, 106656. https://doi.org/ 10.1016/j.cct.2021.106656.
Parker, R.A., Weir, C.J., 2020. Non-adjustment for multiple testing in multi-arm trials of distinct treatments: rationale and justification. Clin. Trials 17 (5), 562-566. https:// doi.org/10.1177/1740774520941419.
Parker, R.A., Weir, C.J., 2022. Multiple secondary outcome analyses: precise interpretation is important. Trials 23 (1), 27. https://doi.org/10.1186/s13063-021-05975-2.
Perneger, T.V., 1998. What’s wrong with Bonferroni adjustments. BMJ 316, 1236. https://doi.org/10.1136/bmj.316.7139.1236.
Perugini, M., Gallucci, M., Costantini, G., 2018. A practical primer to power analysis for simple experimental designs. Rev. Int. Psychol. Soc. 31 (1), 1-23. https://doi.org/ 10.5334/IRSP. 181.
Popp, D., Williams, J.B., Sorantin, P., Detke, M., 2012. P2-304: guidelines for reporting clinical trial methodology research: the seven deadly sins. Alzheimer’s Dementia 8 (4S_Part_10), P369-P370.
Prem, R., Kubicek, B., Uhlig, L., Baumgartner, V., Korunka, C., 2021. Development and initial validation of a scale to measure cognitive demands of flexible work. Front. Psychol. 12, 679471 https://doi.org/10.3389/fpsyg.2021.679471.
Proulx, T., Morey, R.D., 2021. Beyond statistical ritual: theory in psychological science. Perspect. Psychol. Sci. 16 (4), 671-681. https://doi.org/10.1177/ 17456916211017098.
Rothman, K.J., 1990. No adjustments are needed for multiple comparisons. Epidemiology 1, 43-46. https://www.jstor.org/stable/20065622.
Roy, S.N., 1953. On a heuristic method of test construction and its use in multivariate analysis. Ann. Math. Stat. 24, 220-238. https://doi.org/10.1214/aoms/ 1177729029.
Rubin, M., 2017. Do values lose their meaning in exploratory analyses? It depends how you define the familywise error rate. Rev. Gen. Psychol. 21 (3), 269-275. https:// doi.org/10.1037/gpr0000123.
Rubin, M., 2020a. Does preregistration improve the credibility of research findings? The Quantitative Methods for Psychology 16 (4), 376-390. https://doi.org/10.20982/ tqmp.16.4.p376.
Rubin, M., 2020b. “Repeated sampling from the same population?” A critique of Neyman and Pearson’s responses to Fisher. European Journal for Philosophy of Science 10, 42. https://doi.org/10.1007/s13194-020-00309-6, 1-15.
Rubin, M., 2021a. There’s no need to lower the significance threshold when conducting single tests of multiple individual hypotheses. Academia Letters, 610. https://doi. org/10.20935/AL610.
Rubin, M., 2021b. When to adjust alpha during multiple testing: a consideration of disjunction, conjunction, and individual testing. Synthese 199, 10969-11000. https://doi.org/10.1007/s11229-021-03276-4.
Rubin, M., 2022. That’s not a two-sided test! It’s two one-sided tests. Significance 19 (2), 50-53. https://doi.org/10.1111/1740-9713.01619.
Rubin, M., 2024. Type I error rates are not usually inflated. MetaArXiv. https://doi.org/ 10.31222/osf.io/3kv2b.
Savitz, D.A., Olshan, A.F., 1995. Multiple comparisons and related issues in the interpretation of epidemiologic data. Am. J. Epidemiol. 142, 904-908. https://doi. org/10.1093/oxfordjournals.aje.a117737.
Senn, S., 2007. Statistical Issues in Drug Development, second ed. Wiley.
Sinclair, J., Taylor, P.J., Hobbs, S.J., 2013. Alpha level adjustments for multiple dependent variable analyses and their applicability-a review. Int. J. Sports Sci. Eng. 7, 17-20.
Tukey, J.W., 1953. The Problem of Multiple Comparisons. Princeton University.
Turkheimer, F.E., Aston, J.A., Cunningham, V.J., 2004. On the logic of hypothesis testing in functional imaging. Eur. J. Nucl. Med. Mol. Imag. 31, 725-732. https://doi.org/ 10.1007/s00259-003-1387-7.
Veazie, P.J., 2006. When to combine hypotheses and adjust for multiple tests. Health Serv. Res. 41 (3p1), 804-818.
Wilson, W., 1962. A note on the inconsistency inherent in the necessity to perform multiple comparisons. Psychol. Bull. 59, 296-300. https://doi.org/10.1037/ h0040447.

  1. I am grateful to Vinay Tummarakota for discussions that led to my explanation of Confusion IV. I declare no funding sources. I declare no conflict of interest.
    E-mail address: Mark.Rubin@durham.ac.uk.

Journal: Methods in Psychology, Volume: 10
DOI: https://doi.org/10.1016/j.metip.2024.100140
Publication Date: 2024-03-28

Inconsistent multiple testing corrections: The fallacy of using family-based error rates to make inferences about individual hypotheses

Mark RubinDurham University, UK

ARTICLE INFO

Keywords:

Familywise error rate
Multiplicity
Multiple testing
Multiple comparisons
per family error rate
Type I error rate

Abstract

During multiple testing, researchers often adjust their alpha level to control the familywise error rate for a statistical inference about a joint union alternative hypothesis (e.g., ” or “). However, in some cases, they do not make this inference. Instead, they make separate inferences about each of the individual hypotheses that comprise the joint hypothesis (e.g., and ). For example, a researcher might use a Bonferroni correction to adjust their alpha level from the conventional level of 0.050 to 0.025 when testing and , find a significant result for and not for , and so claim support for and not for . However, these separate individual inferences do not require an alpha adjustment. Only a statistical inference about the union alternative hypothesis ” or ” requires an alpha adjustment because it is based on “at least one” significant result among the two tests, and so it refers to the familywise error rate. Hence, an inconsistent correction occurs when a researcher corrects their alpha level during multiple testing but does not make an inference about a union alternative hypothesis. In the present article, I discuss this inconsistent correction problem, including its reduction in statistical power for tests of individual hypotheses and its potential causes vis-à-vis error rate confusions and the alpha adjustment ritual. I also provide three illustrations of inconsistent corrections from recent psychology studies. I conclude that inconsistent corrections represent a symptom of statisticism, and I call for a more nuanced inference-based approach to multiple testing corrections.

The subject of multiple testing has received additional attention in the wake of the replication crisis. The concern is that uncorrected multiple testing is a major cause of false positive results (i.e., Type I errors) and unexpectedly low replication rates. Consequently, there is a renewed emphasis on researchers “doing the right thing” and correcting their significance thresholds (alpha levels) in order to account for inflated Type I error rates during multiple testing.
In this article, I caution that an unqualified push for multiple testing corrections may have negative consequences. In particular, I argue that it may encourage what I call inconsistent multiple testing corrections: adjustments to alpha levels that are inconsistent with the specific statistical inferences that are being made. To illustrate this problem, I draw attention to cases in which researchers adjust their alpha level to control family-based Type I error rates (e.g., familywise error rates) but then do not make any inferences about associated family-based hypotheses. Instead, they only make inferences about individual hypotheses, which do not require an alpha adjustment. I argue that inconsistent corrections are problematic not only logically, but also because they result in an unnecessary loss of statistical power.
To be clear, I am not opposed to an alpha adjustment for multiple testing under the appropriate circumstances. Hence, this is not an “antiadjustment article” (Frane, 2019, p. 3). It is a pro-consistency article! My key point is that researchers should be logically consistent in their use of multiple testing corrections. If researchers use multiple testing corrections, then they should make corresponding statistical inferences about family-based joint hypotheses. They should not correct their alpha level and then only proceed to make statistical inferences about individual hypotheses because, as I explain later, such inferences do not require an alpha adjustment.
I begin by introducing the multiple testing problem and the alpha adjustment solution. I consider two common family-based error rates (the familywise error rate and the per family error rate), and I explain how associated alpha adjustments control these error rates. I then describe and illustrate inconsistent multiple testing corrections, in which a researcher adjusts their alpha level to control the error rate for a statistical inference about a family-based joint hypothesis but then only makes statistical inferences about individual hypotheses. I consider two reasons for inconsistent corrections: (a) error rate confusions and (b)
conformity to an alpha adjustment ritual. I highlight recent evidence from García-Pérez (2023) showing that inconsistent corrections are likely to be common. I also explain how inconsistent corrections lead to a loss of statistical power. Finally, I illustrate my argument with three examples from recent psychology studies. I conclude that inconsistent corrections represent a symptom of the broader problem of statisticism, and I call for a more nuanced, inference-based approach to multiple testing corrections.

1. The multiple testing problem

The multiple testing problem occurs when a researcher uses more than one significance test to make a statistical inference. In this case, their Type I error rate for that inference may exceed the conventional nominal alpha level of 0.050 . For example, consider a researcher who uses three significance tests to make a statistical inference about a single joint null hypothesis. Here, each of the three tests refers to a separate constituent null hypothesis: , and . These three constituent hypotheses comprise a joint hypothesis. The alpha level for determining significance with respect to each constituent hypothesis can be described as the constituent alpha level or , and the alpha level for the final decision about rejecting or not rejecting the joint null hypothesis can be described as the joint alpha level or (Rubin, 2021b).
If the researcher is prepared to accept a significant result on at least one of their three tests as sufficient grounds to reject the joint null hypothesis, then the joint null hypothesis is represented as the intersection of each of the three constituent null hypotheses: ” and and .” The hypotheses are related to one another by the logical operator “and” because a significant result in relation to any one of them (i.e., would be sufficient to provisionally reject the entire intersection null hypothesis and make an inference about the corresponding union alternative hypothesis: ” or or .” Hence, formally, this test is called a union-intersection test (e.g., Hochberg and Tamrane, 1987, p. 28; Kim et al., 2004; Parker and Weir, 2020, p. 563; Roy, 1953).
To provide a more concrete example, imagine that the three constituent alternative hypotheses refer to gender differences in attitudes towards biology ( ), chemistry ( ), and physics ( ) and that the researcher is interested in making a statistical inference about a gender difference in attitudes towards these science subjects. In this case, a significant result in relation to any one of the three constituent hypotheses, in either direction (i.e., men women or women men), would be sufficient to reject the entire intersection null hypothesis that there is no gender difference in attitudes towards biology, chemistry, and physics and make an inference about the union alternative hypothesis that there is a gender difference in either biology, chemistry, or physics.
Note that, logically, the results of a union-intersection test only warrant a statistical inference about the associated joint hypothesis. They do not warrant statistical inferences about each of the individual constituent hypotheses (García-Pérez, 2023, p. 2; Perneger, 1998, p. 1236). For example, if the researcher obtained union-intersection test results for biology ; chemistry ; and physics , then they could only make the statistical inference that there is a significant gender difference in attitudes towards either biology, chemistry, or physics (i.e., the union alternative hypothesis). The fact that a significant gender difference is observed for biology and not for either chemistry or physics is irrelevant in the context of a union-intersection test because the test treats the three hypotheses as theoretically interchangeable constituents of the same joint hypothesis rather than as separate individual hypotheses. The principle is the same as that for a one-way ANOVA (García-Pérez, 2023): A significant result entitles us to claim that there is a significant difference between at least one pair of means, but it does not allow us to specify which pair. Of course, researchers can go on to make statistical inferences about each of the three hypotheses separately. However,
these individual inferences are not based on the union-intersection test. They are based on individual tests of individual null hypotheses and, as such, they do not require an alpha adjustment (García-Pérez, 2023; Rubin, 2021b).
This last point may be a little confronting to some readers. Surely, if you conduct three individual tests, then you have a greater probability of making at least one Type I error among your set of results. Yes, you do! However, (a) this inflated familywise error rate applies to the family of tests, not to any individual test within the family; (b) you continue to have the same probability of making a Type I error in relation to each one of your tests; and (c) it is this latter individual error rate that underwrites statistical inferences about each individual hypothesis.
To illustrate, imagine that a researcher conducts three individual tests of gender differences in attitudes towards biology, chemistry, and physics using an of 0.050 and then concludes that there is a gender difference in relation to biology, , but not in relation to either chemistry, , or physics, . In this case, experts agree that the Type I error rate for each of these three tests is not inflated above the of 0.050 because only one test is used to make a statistical inference (decision) about each hypothesis (Armstrong, 2014, p. 505; Cook and Farewell, 1996, pp. 96-97; Fisher, 1971, p. 206; García-Pérez, 2023, p. 15; Greenland, 2021, p. 5; Hewes, 2003, p. 450; Hitchcock and Sober, 2004, pp. 24-25; Hurlbert and Lombardi, 2012, p. 30; Matsunaga, 2007, p. 255; Molloy et al., 2022, p. 2; Parker and Weir, 2020, p. 564; Parker and Weir, 2022, p. 2; Rothman, 1990, p. 45; Rubin, 2017, pp. 271-272; Rubin, 2020a, p. 380; Rubin, 2021a, 2021b, pp. 10978-10983; Rubin, 2024; Savitz and Olshan, 1995, p. 906; Senn, 2007, pp. 150-151; Sinclair et al., 2013, p. 19; Tukey, 1953, p. 82; Turkheimer et al., 2004, p. 727; Veazie, 2006, p. 809; Wilson, 1962, p. 299). In short, if a researcher uses a single test to make a statistical inference about a single null hypothesis, then their alpha level for that inference does not become inflated and no multiple testing correction is necessary. Importantly, this principle applies even if the researcher makes millions of such individual inferences side-by-side within the same study and/or using the same dataset.
In contrast, in the case of union-intersection testing, the probability of making a Type I error about the intersection null hypothesis will always be greater than the nominal alpha level for each test ( ) because the researcher has multiple opportunities to incorrectly reject the intersection null hypothesis. For example, if the intersection null hypothesis consists of three constituent null hypotheses, then the researcher will have three opportunities to make a Type I error about the intersection null hypothesis based on the three tests that they conduct using . Hence, a multiple testing correction is necessary in this case in order to control the familywise error rate at the nominal level of .
In summary, multiple testing increases the probability that at least one of your significant results is a false positive, but it doesn’t increase the probability that each one of your significant results is a false positive, and so if you make an inference about a joint null hypothesis that can be rejected following at least one significant result, then an alpha adjustment is necessary, and if you don’t, then it isn’t! Hence, a multiple testing correction is necessary when undertaking multiple tests of an intersection null hypothesis, but not when undertaking single tests of multiple individual null hypotheses.

2. The alpha adjustment solution

During union-intersection testing, the alpha adjustment solution involves lowering until the associated family-based error rate is less than or equal to . There are several different ways of computing the degree to which should be lowered, and they depend on the type of family-based error rate that is being controlled. For illustrative purposes, I consider two simple approaches that refer to the familywise error rate and the per family error rate.

2.1. The familywise error rate

The familywise error rate is the probability that at least one of the constituent test results is a Type I error (i.e., a false positive). The probability that a single constituent test yields a true negative (i.e., a nonsignificant result when the constituent null hypothesis is true) is 1 . The probability that a family (collection) of constituent tests all yield true negatives is equal to the product of the probabilities that each yields a true negative, assuming that test results are independent of one another: . Hence, the familywise error rate that at least one of tests yields a false positive result is .
Hence, if three constituent hypotheses are tested, each with an of 0.050 , then the familywise Type I error rate will be 1 – , which equals 0.143 . In this case, the familywise error rate will be greater than a nominal conventional level of 0.050 . Consequently, to control the familywise error rate at the level of , the Dunn-Šidák correction may be used to reduce from 0.050 to , which equals 0.0167 . In this case, the familywise error rate will be equal to , which equals the level of 0.050 .

2.2. The per family error rate

The per family error rate represents another family-based error rate. It is the number of constituent Type I errors that are expected to occur within a family of tests, and it is calculated as the sum of the values for each of the constituent hypotheses that are tested (Frane, 2015). Hence, if the values are the same for all constituent hypotheses, then the per family error rate is equal to .
For small values of , the per family error rate is almost the same as the familywise error rate. However, as increases, the per family error rate becomes larger than the familywise error rate and, unlike the familywise error rate, it can become larger than 1.00 . For example, if 100 constituent tests are conducted, and each has an of 0.050 , then the familywise error rate will be 0.99 but the per family error rate will be 5.00. In other words, there will almost certainly be one or more false positive results within the family, and we should expect there to be five false positive results in total.
The Bonferroni correction may be used to control the per family error rate using the formula . Hence, if , then the Bonferroni correction would reduce to 0.0169 in order to control the per family error rate at the level of 0.050 (i.e., ). Note that, because the familywise error rate is the same as or smaller than the per family error rate, the Bonferroni correction may also be used to provide conservative control over the familywise error rate.

3. Inconsistent corrections

An inconsistent multiple testing correction occurs when a researcher corrects their alpha level for a union-intersection test of a joint hypothesis but then only makes statistical inferences about individual hypotheses. For example, they might correct in order to control a family-based error rate at the nominal conventional of 0.050 but then only make statistical inferences about individual hypotheses, which can be made using an unadjusted conventional of 0.050 . In this case, their alpha adjustment is inconsistent with their statistical inferences about individual hypotheses, which are the only inferences that are made.
Why do researchers adjust their alpha level to control family-based error rates for family-based joint hypotheses and then fail to make statistical inferences about those hypotheses? I think there are two reasons for these inconsistent corrections: error rate confusions and the alpha adjustment ritual.

3.1. Error rate confusions

Four error rate confusions may lead to inconsistent multiple testing corrections. Confusion I occurs when researchers incorrectly assume that multiple instances of individual testing somehow inflate individual Type I error rates for each individual inference. As previously explained, they don’t! During individual testing, refers to the probability that a single test will incorrectly reject a single hypothesis. There is no union-intersection testing in this situation, no multiple opportunities to make each Type I error, and so no error rate inflation for each statistical inference. As discussed in Confusion III below, it is true that multiple testing increases the probability of making at least one Type I error in a collection of individual tests, but it is also true that multiple testing does not increase the probability of making a Type I error with respect to each test and, during individual testing, it is only this individual Type I error rate that is relevant to researchers’ statistical inferences.
Confusion II occurs when researchers incorrectly assume that multiple instances of individual testing inflate family-based Type I error rates for each individual inference. Again, they don’t! During individual testing, for each inference and so the familywise and per family error rates for each inference have the same value as the individual error rate (i.e., ).
Confusion III occurs when researchers assume that multiple instances of individual testing inflate family-based error rates for families of separate statistical inferences. They do! However, these family-based error rates are irrelevant to each statistical inference! To illustrate, consider a researcher who computes the familywise error rate for 20 separate individual statistical inferences that each use an of 0.050 . In this case, the researcher assumes that instead of because they count the number of statistical inferences that are made (20) rather than the number of tests that are used to make each inference (1). The resulting familywise error rate (0.642) does not refer to the incorrect rejection of any specific null hypothesis (individual or joint) and so, by definition, it does not represent a Type I error rate. Nonetheless, the researcher may make the mistake of using this hypothesis-free familywise error rate to judge the stringency of each of their statistical inferences. This approach is flawed because the probability that at least one of 20 statistical inferences represents a Type I error (0.642) is irrelevant to the probability of incorrectly rejecting each individual null hypothesis (0.050). Indeed, the probability that at least one inference represents a Type I error can be astronomically high in large groups of inferences (e. g., in genome-wide association studies) without it affecting the probability of incorrectly rejecting each null hypothesis, which remains steadfast at a conventional unadjusted of 0.050 .
Finally, Confusion IV occurs when researchers assume that individual and family-based Type I error rates apply to substantive inferences rather than just statistical inferences (Meehl, 1997). They don’t! In the frequentist framework, a statistical inference assumes that random sampling error is the only source of error, and a Type I error rate indicates the frequency with which this sampling error would lead to the incorrect rejection of a statistical null hypothesis during a long run of random sampling from the null population. In contrast, a substantive inference assumes that additional theoretical, methodological, and analytical errors may lead to the incorrect rejection of a substantive null hypothesis. Type I error rates do not account for these nonstatistical forms of error. Nonetheless, researchers may confuse substantive hypotheses with statistical hypotheses and erroneously apply Type I error rates and associated multiple testing corrections to their decisions about substantive hypotheses (Meehl, 1997).
These four error rate confusions may be exacerbated by the ambiguous phrasing that is sometimes used in explanations of the multiple testing problem (see also García-Pérez, 2023, pp. 2-4). For example, it is true that “multiple testing inflates the Type I error rate,” but it is important to clarify what kind of “multiple testing,” what kind of “Type I error rate,” and what kind of hypothesis. Hence, it is more accurate to say that union-intersection testing inflates the familywise error rate for
statistical inferences about intersection null hypotheses. Multiple individual tests do not inflate individual Type I error rates for inferences about individual null hypotheses. Nonetheless, the vague dictum that “multiple testing inflates the Type I error rate” may lead some researchers to incorrectly assume that (a) multiple testing inflates individual Type I error rates and (b) family-based error rates indicate the extent of this inflation.
Given their subtle and seductive nature, it is worth considering error rate confusions in relation to both the familywise error rate and the per family error rate. Taking the familywise error rate first, Confusion III may lead researchers to calculate a hypothesis-free familywise error rate for a collection of individual statistical inferences about individual hypotheses with a view to controlling the (uninflated) individual Type I error rate. Hence, a researcher who makes 20 statistical inferences about 20 individual hypotheses using an of 0.050 may erroneously conclude that their Type I error rate for each inference is inflated because their familywise error rate for this collection of inferences is 0.642 . In fact, their Type I error rate for each inference remains at the level of 0.050 . The researcher’s erroneous conclusion is due to an inappropriate application of the familywise error rate to a collection of single tests of individual hypotheses.
Similarly, multiple testing inflates the per family error rate and not the individual Type I error rate. Again, failure to appreciate this point may lead to a misapplication of the per family error rate to statistical inferences about individual hypotheses. For example, a researcher might conduct 20 significance tests using an alpha level of 0.050 and obtain only one significant result. Given that this number of significant results matches the per family error rate, the researcher might then be tempted to assume that their significant result is more likely to be a Type I error. Again, however, this reasoning is flawed because it confuses Type I errors about individual null hypotheses with Type I errors about joint null hypotheses. The per family error rate is a family-based error rate and, as such, it is only appropriate when making inferences about family-based joint hypotheses. It is inappropriate to apply it to inferences about individual hypotheses.
In summary, family-based error rates tell us nothing about the probability of making a Type I error with respect to an individual null hypothesis. To believe that they do is to succumb to a type of ecological fallacy in which the Type I error rate for a decision about a family of hypotheses is misapplied to decisions about the individual hypotheses within that family. Family-based error rates only tell us the probability of making a Type I error with respect to family-based intersection null hypotheses.

3.2. The alpha adjustment ritual

It is possible to resolve error rate confusions through logical reasoning. However, researchers do not select statistical approaches on the basis of logical reasoning per se. Sociocultural fashions and conventions are also influential, and it is here that an alpha adjustment ritual may come into play.
In his article Mindless Statistics, Gigerenzer (2004) noted that the “null ritual” of null hypothesis significance testing “has sophisticated aspects … such as alpha adjustment” (p. 588). He did not go into this issue any further. However, in my view, the alpha adjustment ritual involves the automatic adjustment of alpha levels whenever multiple testing occurs, regardless of whether statistical inferences are made about individual null hypotheses or intersection null hypotheses. This social ritual is supported by colleagues, peer reviewers, editors, journals, and so on, some of whom consider failure to conform to the ritual as one of the “seven deadly sins” of statistical practice (Kuzon et al., 1996; Millis, 2003; Popp et al., 2012).
Again, to be clear, an alpha adjustment is appropriate when making a statistical inference about an intersection null hypothesis on the basis of a union-intersection test. However, an alpha adjustment is not appropriate when making statistical inferences about multiple individual
hypotheses on the basis of multiple individual tests. Hence, the problem with the alpha adjustment ritual is that it lacks nuance and sensitivity to the type of inferences that are made. In particular, it does not allow for the possibility that researchers make multiple individual statistical inferences about multiple individual hypotheses based on multiple individual tests. Researchers who follow the alpha adjustment ritual in this situation will end up making inconsistent multiple testing corrections because an alpha adjustment is in appropriate for the specific statistical inferences that they make.
In summary, statistical inferences about intersection null hypotheses require an alpha adjustment, but statistical inferences about individual null hypotheses do not, even if multiple such inferences are made within the same study and/or on the same data set. Contrary to the alpha adjustment ritual then, there are some cases of multiple testing that do not require an alpha adjustment, and unthinking adherence to the ritual may result in inconsistent multiple testing corrections.

4. Inconsistent corrections are common

How common are inconsistent multiple testing corrections? In his recent review, García-Pérez (2023) checked 109 research articles that had used multiple testing corrections and that were published in the journals Behavior Research Methods and Psychological Science between 2021 and June 2022. He found that
“an invariable feature of all papers was that each and all of the individual tests for which a value was reported (whether with or without corrections) was interpreted individually, that is, there was an inference per test and the tests were never regarded as collectively addressing a joint intersection null hypothesis” (p. 4).
Hence, researchers used multiple testing corrections when they made statistical inferences about individual null hypotheses and not about the intersection null hypotheses to which their corrections would apply. We can conclude that, at least in García-Pérez’s (2023) sample of articles, inconsistent multiple testing corrections are very common.

5. Inconsistent corrections reduce statistical power

Inconsistent corrections also lead to an unjustifiable loss of statistical power. If a researcher adjusts their alpha level below its nominal level to account for multiple testing but only makes statistical inferences about individual hypotheses and not about a joint hypothesis, then they will have lowered the power of their individual tests for no good reason. Consequently, their Type I error rate will be unnecessarily low, and their Type II error rate will be unnecessarily high (García-Pérez, 2023, p. 11).
For example, imagine that a researcher wanted to make two statistical inferences about two individual hypotheses. Logically, they could use an unadjusted conventional of 0.050 in each case. However, further imagine that the researcher followed the alpha adjustment ritual and used a Bonferroni correction to reduce their level from 0.050 to 0.025 (i.e., ). If they obtained values of 0.010 and 0.040 , then they could only reject the first null hypothesis. They would not be able to reject the second null hypothesis because their value of 0.040 would be higher than their adjusted alpha level of 0.025 . Of course, if they had not made this alpha adjustment, then they could have rejected their second hypothesis at the conventional alpha level of 0.050. Hence, the researcher’s inconsistent correction caused a loss of statistical power and, assuming false null hypotheses, this loss of power would explain their nonsignificant result.
It is important to clarify here that researchers can set to be lower than the conventional level of 0.050 if they wish to provide more stringent tests of their individual hypotheses (Parker and Weir, 2020, p. 564; Rubin, 2021b, p. 10984). However, this approach represents stringent alpha specification rather than an adjustment to a previously specified alpha level. Once has been set at a specified level (e. g., , etc.), it should not be adjusted to account for multiple
testing.

6. Three examples of inconsistent corrections

To better appreciate the implications of inconsistent corrections, it is helpful to consider three examples from recent research studies. To obtain these examples, I searched Google Scholar at the end of December 2023 for recent articles (2021-2023) in journals that had the word “psychology” in the title and that included the terms ” 0.025 ” and ” 0.05 / 2 ” or ” .” I used the period 2021 to 2023 to demonstrate the contemporary nature of inconsistent corrections over the past three years. I used the term “psychology” in the journal title to try to restrict articles to psychology journals, although there is no reason to believe that the same issue does not occur in other disciplines. Finally, I used the terms ” 0.025 ” and ” ” because they are likely to be used when discussing a relatively simple Bonferroni correction to a conventional alpha level of 0.050 when . In this case, statistical inferences about the two individual hypotheses can be made using an of 0.050 , and a statistical inference about the joint hypothesis can be made using an of 0.025 , which maintains the associated at 0.050 . Hence, if researchers use this Bonferroni correction in a logically consistent manner, then they should make a statistical inference about a joint alternative hypothesis that encompasses the two constituent hypotheses that they test (e.g., ” or “). However, if they use it in a logically inconsistent manner, then they will not make a statistical inference about the joint hypothesis, and they will instead make two separate statistical inferences about two separate individual hypotheses (e.g., and ).
My search returned 62 results. In screening these results, I selected cases in which (a) the statistical analysis was relatively simple, (b) one of the two test results was significant at the 0.025 level (i.e., ), and (c) the other test result was significant at the 0.050 level but nonsignificant at the 0.025 level (i.e., ). This third criterion allowed me to illustrate nonsignificant results that may be attributed to a loss of statistical power caused by inconsistent corrections on the assumption that the associated null hypotheses are false.
Using these criteria, I chose three examples: Prem et al. (2021, Study 1), Clemens and Grolig (2023), and Janssen et al. (2023, Experiment 2). I selected these studies because they provided relatively clear illustrations of inconsistent multiple testing corrections. Nonetheless, their selection does not imply that they are any less rigorous or credible than other studies. Indeed, given that the researchers restricted their statistical inferences to individual hypotheses, the selected studies can be viewed as providing more stringent tests than other studies because their alpha levels are lower than the conventional level of 0.050 . My point here is only to highlight (a) the logical inconsistency in lowering the alpha level to control the familywise error rate and then only making claims about individual hypotheses and not about joint, family-based, hypotheses and (b) the potential implications arising from an associated loss in statistical power.

6.1. Example 1: Prem et al. (2021, Study 1)

Prem et al. (2021, Study 1) conducted a study to develop and validate a scale to measure the cognitive demands of planning, structuring, and coordinating flexible working arrangements. The researchers explained that, “when testing Hypotheses 2 through 5, the Bonferroni-corrected was because Hypotheses 2 through 5 each included 2 correlations” (p. 7). For example, Hypothesis 4 was that “the subscale for the planning of working places would be positively related to the availability of telework possibilities to work from home and the availability of telework possibilities to [work] from other locations outside the employer’s premises” (p. 4).
The researchers found that,
“in line with Hypotheses 2 through 5, structuring of work tasks showed significant positive associations with decision-making autonomy and work methods autonomy; planning of working times showed significant positive associations with work scheduling autonomy and the availability of flextime; planning of working places showed significant positive associations with the availability of working from home and the availability of telework from other locations; and coordinating with others showed significant positive associations with initiated interdependence and received interdependence (compare). All of these correlations remained significant after Bonferroni correction, with the exception of the correlation between planning of working places and the availability of working from home. Thus, Hypotheses 2, 3, and 5 were fully supported, and Hypothesis 4 was partly supported” (Prem et al., 2021, p. 7).
Hence, the researchers tested four hypotheses, each referring to two correlations, and they adjusted to 0.025 (i.e., ) in each case. Following this Bonferroni correction, they found support for three of the four hypotheses and partial support for Hypothesis 4, because only one of the two correlations was significant at the 0.025 level in this case.
The conclusion that Hypothesis 4 was only “partially supported” is the result of an inconsistent correction. The use of the Bonferroni correction implies that Hypothesis 4 is a union alternative hypothesis that can be fully supported following at least one significant result using an adjusted of 0.025 . The researchers met this criterion, finding that planning of working places was significantly positively correlated with the availability of telework possibilities from other locations. Hence, logically, the researchers could have concluded that there was full support for Hypothesis 4. Instead, they concluded that Hypothesis 4 was only “partially supported.” This conclusion suggests that they construed Hypothesis 4 as being composed of two individual hypotheses, and they would conclude that there was “full support” for Hypothesis 4 if both individual hypotheses were supported, “partial support” if only one hypothesis was supported, and “no support” if neither hypothesis was supported. However, in this case, no alpha adjustment is required because separate statistical inferences are made about each individual hypothesis, and a nonstatistical summary of these two inferences is then provided in relation to “Hypothesis 4” (i.e., “full support,” “partial support,” or “no support”). Hence, the researchers should have reported two significant results at the 0.050 level and then claimed full support for Hypothesis 4. Instead, they only reported one significant result at the 0.025 level and claimed partial support for Hypothesis 4. Assuming the null hypotheses were false, this substantive claim of partial support may be attributed to a lack of statistical power caused by the inconsistent correction.
I should note that correspondence with the first author of this study revealed that the decision to use a Bonferroni correction was made in response to a request from a peer reviewer (R. Prem, personal communication, January 03, 2024). Hence, at least in this case, a peer reviewer encouraged the researchers to follow the alpha adjustment ritual.

6.2. Example 2: Clemens and Grolig (2023)

Clemens and Grolig (2023) investigated how people would respond when they imagined that they were being interviewed by the police under either suspicion or no suspicion that they had committed an illegal act at a crime scene, but an act that was unrelated to the crime being investigated. Participants were asked to imagine that they had performed either a lawful act or an unlawful act at a bookstore in which a theft had taken place. In the lawful condition, participants looked at a book, and in an unlawful condition, they made an illegal purchase of a mobile phone. The researchers hypothesised “that unlawful act participants (vs. lawful act participants) would report … evasive strategies more frequently (hypothesis 1b).” The researchers considered two evasive strategies: (a) deception and (b) reluctant information sharing.
They reported that,
“as two evasive categories of strategies were identified, we applied a Bonferroni corrected significance level ( ) of 0.025 for hypothesis 1 b . The results show that unlawful (vs. lawful) act participants reported the evasive strategy to be deceptive ( 28.038, ) significantly more often, whereas no significant result was found for the evasive strategy of reluctant information sharing . These results are only partially in line with hypothesis 1b” (Clemens and Grolig, 2023, pp. 386-387).
Again, the researchers’ conclusion that their results are “only partially in line” with their hypothesis is inconsistent with their analytical approach. The use of a Bonferroni correction implies that only one of the two tests needs to yield a significant result in order to reject the intersection null hypothesis that unlawful act participants would report neither of the evasive strategies more frequently than lawful act participants. Consistent with this criterion, the researchers found one significant result using an adjusted level of . However, instead of claiming full support for the union alternative hypothesis, they only claimed partial support. Again, this conclusion implies that the two tests were construed as single tests of two individual null hypotheses. In this case, however, both null hypotheses could be provisionally rejected using a conventional at the unadjusted level of , and a substantive conclusion of “full support” could be reached.

6.3. Example 3: Janssen et al. (2023, Experiment 2)

Finally, Janssen et al. (2023, Experiment 2) investigated the effectiveness of different study strategies, focusing on the differences between blocked study (studying one topic at a time; e.g., AAA BBB CCC) and interleaved study (mixing up different topics across time; e.g., ACB BAC CBA). These researchers used a Bonferroni correction to adjust their alpha level to 0.025 during an independent samples -test in which study strategy (blocked vs. interleaved) was the independent variable and (a) prospective judgments of learning and (b) actual learning outcomes were the two dependent variables. As they explained,
“to test for significant differences, we used independent -tests with a Bonferroni corrected significance level of (i.e., 0.05/2). As expected and again consistent with Experiment 1, students who had used blocked studying made higher prospective judgments of learning ( ) than students who had used interleaved studying , Cohen’s . Numerically, the actual learning outcomes were higher for the interleaved study condition ( ) than for the blocked study condition ( ). However, in contrast to our expectations, this difference was not statistically significant, , Cohen’s ” (Janssen et al., 2023, p. 24).
Hence, using an of 0.025 , the researchers found a significant effect of study strategy (blocked vs. interleaved) on prospective judgments of learning ( ) but not on actual learning outcomes ( ). Following the logic of the Bonferroni correction, they could have then rejected the associated intersection null hypothesis and claimed full support for the union alternative hypothesis that study strategy affected either prospective judgments of learning or actual learning outcomes. Instead, they proceeded to make statistical and substantive inferences about each outcome variable separately. For example, they concluded that
“both experiments replicated findings from prior research that, overall, at the group level, students reported higher effort investment and made lower judgments of learning during interleaved studying than during blocked studying (Kirk-Johnson et al., 2019; Onan et al.,
2022). Yet, we only replicated the finding that students actually learned significantly more from interleaved studying than from blocked studying (as evidenced by their test performance) in Experiment 1. In Experiment 2, the difference in learning outcome, although numerically in the hypothesized direction, was not statistically significant …” (Janssen et al., 2023, p. 28).
If the authors wanted to control their Type I error rate for each decision about each individual hypothesis at 0.050 , then they could have used an unadjusted of 0.050 , rather than an adjusted of 0.025 . In this case, they would have decided that both of their test results were significant ( ) rather than only their first result ( ). An of 0.025 would only be required if the authors wanted to make a decision about the intersection null hypothesis using an of 0.050 . However, they did not consider this intersection null hypothesis. Hence, once again, this example illustrates an inconsistent multiple testing correction and a nonsignificant result that, assuming a false null hypothesis, may be attributed to a loss of statistical power.

6.4. Summary

In summary, in all three examples, the researchers applied a Bonferroni correction to adjust from 0.050 to 0.025 in order to control at 0.050 . In all three studies, the researchers found a significant result in which and a nonsignificant result in which . This pattern of results would allow the researchers to either (a) reject the intersection null hypothesis on the grounds that at least one test was significant using an adjusted of 0.025 or (b) reject both individual null hypotheses on the grounds that both tests were significant using an unadjusted of 0.050 . Instead, in all three cases, the researchers followed a fallacious hybrid approach in which they used an of 0.025 to (a) reject one of the two individual null hypotheses and (b) fail to reject the other one. This hybrid approach is logically inconsistent with the use of a multiple testing correction. Furthermore, assuming that the null hypotheses were false, the researcher’s nonsignificant results can be attributed to a loss of statistical power caused by their inconsistent corrections: If they had used an unadjusted of 0.050 , then they would have decided that both of their tests yielded significant results. Their nonsignificant results also had implications for their substantive conclusions. In two of the three cases, the researchers described their results as providing only partial support for their hypotheses (Clemens and Grolig, 2023; Prem et al., 2021, Study 1). In fact, whichever way the results are interpreted, they provided full support for the hypotheses: The single significant result at the level was sufficient to reject the entire intersection null hypothesis, and the two significant results at the 0.050 level were sufficient to reject each of the two individual null hypotheses.
I restricted my three examples to studies published in psychology journals that used a Bonferroni correction involving two simple tests in which one test yielded a significant result at the corrected alpha level and the other yielded a nonsignificant result. Nonetheless, inconsistent corrections may also be observed among nonpsychology studies that use other family-based alpha correction approaches and larger families of tests.

7. Moving away from statisticism

In my view, statisticism refers to an overgeneralization of abstract statistical principles at the expense of context-specific nuance and caveats (e.g., Boring, 1919; Brower, 1949). Statisticism may help to explain the unthinking statistical ritualism that has been noted by some commentators (Davidson, 2018; Gigerenzer, 2004, 2018; Proulx and Morey, 2021). In the area of significance testing, this ritualism may lead researchers to (a) preregister analyses and demote exploratory analyses
as “tentative,” even when significance tests retain their validity in non-preregistered, exploratory situations (Devezer et al., 2021; Rubin, 2017, 2020a); (b) use a conventional alpha level when an alternative unconventional alpha level is more appropriate (Lakens et al., 2018); (c) use a two-sided test when a one-sided test is more consistent with one’s statistical inference (Georgiev, 2018; Rubin, 2022); (d) conduct an a priori power analysis when there is no clear basis for an effect size estimate and a sensitivity power analysis is more appropriate (Lakens, 2022; Perugini et al., 2018); and (e) follow a Neyman-Pearson interpretation when a Fisherian interpretation is more appropriate (Hurlbert and Lombardi, 2009; Rubin, 2020b).
Perhaps fuelled by concerns about statistical rigour following the replication crisis, statisticism may also help to explain a renewed promulgation of the alpha adjustment ritual. Inconsistent multiple testing corrections then follow as an overgeneralized response to a fairly limited problem.
To move away from statisticism, we need to adopt a more nuanced, context-sensitive approach that pays closer attention to the specific statistical inferences that researchers actually make. In the case of multiple testing corrections, this more nuanced approach includes the abandonment of the alpha adjustment ritual and the adoption of an inference-based perspective that advocates an alpha adjustment in the case of inferences about intersection null hypotheses but not in the case of inferences about individual null hypotheses.

CRediT authorship contribution statement

Mark Rubin: Writing – review & editing, Writing – original draft, Conceptualization.

Declaration of competing interest

The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.

Data availability

No data was used for the research described in the article.

References

Armstrong, R.A., 2014. When to use the Bonferroni correction. Ophthalmic Physiol. Opt. 34, 502-508. https://doi.org/10.1111/opo.12131.
Boring, E.G., 1919. Mathematical vs. scientific significance. Psychol. Bull. 16 (10), 335-338. https://doi.org/10.1037/h0074554.
Brower, D., 1949. The problem of quantification in psychological science. Psychol. Rev. 56 (6), 325-333. https://doi.org/10.1037/h0061802.
Clemens, F., Grolig, T., 2023. What will you do when they think it was you? Counterinterrogation strategies of innocent interviewees under suspicion vs. no suspicion. J. Police Crim. Psychol. 38 (2), 381-394. https://doi.org/10.1007/s11896-022-09525-7.
Cook, R.J., Farewell, V.T., 1996. Multiplicity considerations in the design and analysis of clinical trials. J. Roy. Stat. Soc. 159, 93-110. https://doi.org/10.2307/2983471.
Davidson, I.J., 2018. The ouroboros of psychological methodology: the case of effect sizes (mechanical objectivity vs. expertise). Rev. Gen. Psychol. 22 (4), 469-476. https://doi.org/10.1037/gpr0000154.
Devezer, B., Navarro, D.J., Vandekerckhove, J., Buzbas, E.O., 2021. The case for formal methodology in scientific reform. R. Soc. Open Sci. 8 (3) https://doi.org/10.1098/ rsos.200805. Article 200805.
Fisher, R.A., 1971. The Design of Experiments. Hafner Press, 9th ed.
Frane, A.V., 2015. Are per-family type I error rates relevant in social and behavioral science? J. Mod. Appl. Stat. Methods 14 (1), 5. https://doi.org/10.22237/jmasm/ 1430453040.
Frane, A.V., 2019. Misguided opposition to multiplicity adjustment remains a problem. J. Mod. Appl. Stat. Methods 18 (2), eP2836. https://doi.org/10.22237/jmasm/ 1556669400.
García-Pérez, M.A., 2023. Use and misuse of corrections for multiple testing. Methods in Psychology 8, 100120. https://doi.org/10.1016/j.metip.2023.100120.
Georgiev, G.Z., 2018. Directional Claims Require Directional (Statistical) Hypotheses. One-sided.org. August 6. https://www.onesided.org/articles/directional-claims-re quire-directional-hypotheses.php.
Gigerenzer, G., 2004. Mindless statistics. J. Soc. Econ. 33 (5), 587-606. https://doi.org/ 10.1016/j.socec.2004.09.033.
Gigerenzer, G., 2018. Statistical rituals: the replication delusion and how we got there. Advances in Methods and Practices in Psychological Science 1 (2), 198-218. https:// doi.org/10.1177/2515245918771329.
Greenland, S., 2021. Analysis goals, error-cost sensitivity, and analysis hacking: Essential considerations in hypothesis testing and multiple comparisons. Paediatr. Perinat. Epidemiol. 35, 8-23. https://doi.org/10.1111/ppe.12711.
Hewes, D.E., 2003. Methods as tools. Hum. Commun. Res. 29, 448-454. https://doi.org/ 10.1111/j.1468-2958.2003.tb00847.x.
Hitchcock, C., Sober, E., 2004. Prediction versus accommodation and the risk of overfitting. Br. J. Philos. Sci. 55 (1), 1-34. https://doi.org/10.1093/bjps/55.1.1.
Hochberg, Y., Tamrane, A.C., 1987. Multiple Comparison Procedures. Wiley. https://www.nature.com/srep/author-instructions/submission-guidelines.
Hurlbert, S.H., Lombardi, C.M., 2009. Final collapse of the Neyman-Pearson decision theoretic framework and rise of the neoFisherian. Ann. Zool. Fenn. 46 (5), 311-349. https://doi.org/10.5735/086.046.0501.
Hurlbert, S.H., Lombardi, C.M., 2012. Lopsided reasoning on lopsided tests and multiple comparisons. Aust. N. Z. J. Stat. 54 (1), 23-42. https://doi.org/10.1111/j.1467842X.2012.00652.x.
Janssen, E.M., van Gog, T., van de Groep, L., de Lange, A.J., Knopper, R.L., Onan, E., et al., 2023. The role of mental effort in students’ perceptions of the effectiveness of interleaved and blocked study strategies and their willingness to use them. Educ. Psychol. Rev. 35 (3), 85 https://doi.org/10.1007/s10648-023-09797-3.
Kim, K., Zakharkin, S.O., Loraine, A., Allison, D.B., 2004. Picking the most likely candidates for further development: Novel intersection-union tests for addressing multi-component hypotheses in comparative genomics. In: Proceedings of the American Statistical Association, ASA Section on ENAR Spring Meeting, pp. 1396-1402. http://www.uab.edu/cngi/pdf/2004/JSM 2004 -IUTs% 20Kim%20et%20al.pdf.
Kuzon, W., Urbanchek, M., McCabe, S., 1996. The seven deadly sins of statistical analysis. Ann. Plast. Surg. 37, 265-272.
Lakens, D., Adolfi, F.G., Albers, C.J., Anvari, F., Apps, M.A., Argamon, S.E., et al., 2018. Justify your alpha. Nat. Human Behav. 2 (3), 168-171. https://doi.org/10.1038/ s41562-018-0311-x.
Lakens, D., 2022. Sample size justification. Collabra: Psychology 8 (1), 33267. https:// doi.org/10.1525/collabra. 33267.
Matsunaga, M., 2007. Familywise error in multiple comparisons: disentangling a knot through a critique of O’Keefe’s arguments against alpha adjustment. Commun. Methods Meas. 1, 243-265. https://doi.org/10.1080/19312450701641409.
Meehl, P.E., 1997. The problem is epistemology, not statistics: replace significance tests by confidence intervals and quantify accuracy of risky numerical predictions. In: Harlow, L.L., Mulaik, S.A., Steiger, J.H. (Eds.), What if There Were No Significance Tests? Erlbaum, pp. 393-425.
Millis, S.R., 2003. Statistical practices: the seven deadly sins. Child Neuropsychol. 9 (3), 221-233. https://doi.org/10.1076/chin.9.3.221.16455.
Molloy, S.F., White, I.R., Nunn, A.J., Hayes, R., Wang, D., Harrison, T.S., 2022. Multiplicity adjustments in parallel-group multi-arm trials sharing a control group: clear guidance is needed. Contemp. Clin. Trials 113, 106656. https://doi.org/ 10.1016/j.cct.2021.106656.
Parker, R.A., Weir, C.J., 2020. Non-adjustment for multiple testing in multi-arm trials of distinct treatments: rationale and justification. Clin. Trials 17 (5), 562-566. https:// doi.org/10.1177/1740774520941419.
Parker, R.A., Weir, C.J., 2022. Multiple secondary outcome analyses: precise interpretation is important. Trials 23 (1), 27. https://doi.org/10.1186/s13063-021-05975-2.
Perneger, T.V., 1998. What’s wrong with Bonferroni adjustments. BMJ 316, 1236. https://doi.org/10.1136/bmj.316.7139.1236.
Perugini, M., Gallucci, M., Costantini, G., 2018. A practical primer to power analysis for simple experimental designs. Rev. Int. Psychol. Soc. 31 (1), 1-23. https://doi.org/ 10.5334/IRSP. 181.
Popp, D., Williams, J.B., Sorantin, P., Detke, M., 2012. P2-304: guidelines for reporting clinical trial methodology research: the seven deadly sins. Alzheimer’s Dementia 8 (4S_Part_10), P369-P370.
Prem, R., Kubicek, B., Uhlig, L., Baumgartner, V., Korunka, C., 2021. Development and initial validation of a scale to measure cognitive demands of flexible work. Front. Psychol. 12, 679471 https://doi.org/10.3389/fpsyg.2021.679471.
Proulx, T., Morey, R.D., 2021. Beyond statistical ritual: theory in psychological science. Perspect. Psychol. Sci. 16 (4), 671-681. https://doi.org/10.1177/ 17456916211017098.
Rothman, K.J., 1990. No adjustments are needed for multiple comparisons. Epidemiology 1, 43-46. https://www.jstor.org/stable/20065622.
Roy, S.N., 1953. On a heuristic method of test construction and its use in multivariate analysis. Ann. Math. Stat. 24, 220-238. https://doi.org/10.1214/aoms/ 1177729029.
Rubin, M., 2017. Do values lose their meaning in exploratory analyses? It depends how you define the familywise error rate. Rev. Gen. Psychol. 21 (3), 269-275. https:// doi.org/10.1037/gpr0000123.
Rubin, M., 2020a. Does preregistration improve the credibility of research findings? The Quantitative Methods for Psychology 16 (4), 376-390. https://doi.org/10.20982/ tqmp.16.4.p376.
Rubin, M., 2020b. “Repeated sampling from the same population?” A critique of Neyman and Pearson’s responses to Fisher. European Journal for Philosophy of Science 10, 42. https://doi.org/10.1007/s13194-020-00309-6, 1-15.
Rubin, M., 2021a. There’s no need to lower the significance threshold when conducting single tests of multiple individual hypotheses. Academia Letters, 610. https://doi. org/10.20935/AL610.
Rubin, M., 2021b. When to adjust alpha during multiple testing: a consideration of disjunction, conjunction, and individual testing. Synthese 199, 10969-11000. https://doi.org/10.1007/s11229-021-03276-4.
Rubin, M., 2022. That’s not a two-sided test! It’s two one-sided tests. Significance 19 (2), 50-53. https://doi.org/10.1111/1740-9713.01619.
Rubin, M., 2024. Type I error rates are not usually inflated. MetaArXiv. https://doi.org/ 10.31222/osf.io/3kv2b.
Savitz, D.A., Olshan, A.F., 1995. Multiple comparisons and related issues in the interpretation of epidemiologic data. Am. J. Epidemiol. 142, 904-908. https://doi. org/10.1093/oxfordjournals.aje.a117737.
Senn, S., 2007. Statistical Issues in Drug Development, second ed. Wiley.
Sinclair, J., Taylor, P.J., Hobbs, S.J., 2013. Alpha level adjustments for multiple dependent variable analyses and their applicability-a review. Int. J. Sports Sci. Eng. 7, 17-20.
Tukey, J.W., 1953. The Problem of Multiple Comparisons. Princeton University.
Turkheimer, F.E., Aston, J.A., Cunningham, V.J., 2004. On the logic of hypothesis testing in functional imaging. Eur. J. Nucl. Med. Mol. Imag. 31, 725-732. https://doi.org/ 10.1007/s00259-003-1387-7.
Veazie, P.J., 2006. When to combine hypotheses and adjust for multiple tests. Health Serv. Res. 41 (3p1), 804-818.
Wilson, W., 1962. A note on the inconsistency inherent in the necessity to perform multiple comparisons. Psychol. Bull. 59, 296-300. https://doi.org/10.1037/ h0040447.

  1. I am grateful to Vinay Tummarakota for discussions that led to my explanation of Confusion IV. I declare no funding sources. I declare no conflict of interest.
    E-mail address: Mark.Rubin@durham.ac.uk.