آنطور که روش نوآورانهی والن جانسون (Valen Johnson) از دانشگاه تگزاس A&M نشان میدهد، شاید آفت تکرارناپذیری در علم ناشی از استفاده دانشمندان از آزمونهای آماری ضعیف باشد.
جانسون قدرت دو نوع آزمون را مقایسه کرد: آزمون فراوانیگرا (Frequentist) که مشخص میکند رخداد شانسی یک یافته تا چه حد غیرمحتمل است و آزمون بیزی (Bayesian) که با در نظر گرفتن دادههای گردآوریشده در مطالعه، این احتمال را اندازه میگیرد که یک فرض خاص درست باشد. قدرت نتایج این دو آزمون قبلا مقایسه نشده بود زیرا این دو روش سوالاتی تقریبا متفاوت دارند.
بنابراین جانسون روشی را ایجاد کرد که نتایج آزمونها (در مورد روش فراوانگرایی، مقدار P و در روش بیزی، ضریب بیز) را مستقیما قابل مقایسه کرد. برخلاف آزمونهای فراوانگرا که از محاسبات هدفدار برای ردّ یک فرضیه باطل استفاده میکنند، آزمونهای بیزی از آزمونگر میخواهند تا فرضیه جایگزینی را تعریف و آن را بیازمایند. اما جانسون آزمون بیزی قدرتمند و همگنی را توسعه داده است که فرضیه جایگزین را به شکلی استاندارد تعریف میکند تا «احتمال این که ضریب بیز به نفع فرضیه جایگزین از آستانه خاصی فراتر رود» بیشینه شود. این حدّ آستانه را میتوان به نحوی انتخاب کرد که آزمونهای بیزی و فراوانگرا هر دو فرضیه باطل را با نتایج یکسان، رد کنند.
سپس جانسون از این آزمون استفاده کرد تا مقادیر P را با ضرایب بیز مقایسه کند. او دریافت کرد که مقدار P کمتر-مساوی ۰.۰۵ (که معمولا در حوزههایی همچون علوم اجتماعی به دلیل عدم توان تکرارپذیری، مدرکی است بر پشتیانی از یک فرض) متناظر با ضریب بیزی بین ۳ و ۵ است که مدرکی ضعیف برای پشتیبانی از یک یافته است.
مثبتهای غلط
جانسون حساب میکند که در واقع ٪۲۵-۱۷ چنین یافتههایی غلط هستند [۱]. او از دانشمندانی حمایت میکند که از مقادیر P قویتری همچون ۰.۰۰۵ و کمتر برای پشتیبانی یافتهها استفاده میکنند و فکر میکند که استفاده از مقدار استاندارد ۰.۰۵ میتواند مسئول عمده در تکرارناپذیری در علم باشد – حتی بیشتر از مواردی همچون تبعیض و سوءرفتار علمی. جانسون میگوید: «مطالعات بسیار اندکی هستند که مقادیر p ۰.۰۰۵ یا کمتر دارند ولی تکرارناپذیرند.»
بعضی از ریاضیدانان گفتند که اگرچه درخواست زیادی از محققان برای استفاده از آزمونهای شدیدتر شده است [۲]، این مقاله جدید سهم مهمی در درک این مهم دارد که استاندارد ۰.۰۵ سهلانگارانه است.
ریاضیروانشناسی، اریک-جان واگنمیکرز (Eric-Jan Wagenmakers) از دانشگاه آمستردام میگوید: «[این مقاله] یکبار دیگر نشان میدهد که استانداردهای رایج در علوم تجربی، به نحو خطرناکی مداراگر هستند. قبلا در مورد سوءاستفاده از روندهای آماری استاندارد (p-hacking) برای کسب نتایج مطلوب نیز مباحثی مطرح شده بود. مقاله جانسون نشان میدهد که در مورد مقدار P مباحث نادرستی وجود دارد.»
دیگر دانشمندان اشاره دارند که تغییر طرزفکر دانشمندانی که به آستانه ۰.۵ وفادارند، دشوار است. برای مثال یکی از تبعات این کار اجبار به استفاده از آستانههای شدیدتر و در نتیجه صرف زمان و پول بیشتر است.
« طی چندین دهه، خانوادهای از روشهای بیزی توسعه یافتهاند اما به نحوی هنوز هم در حال استفاده از رهیافتهای فراوانگرایی هستیم.» جان اونیدیس (John Ioannidis) پزشکی در دانشگاه استنفورد که دلایل تکرارناپذیری را مطالعه میکند، ضمن بیان این نکته میافزاید: «امید دارم که این مقاله شانس بیشتری برای تغییر دنیا داشته باشد.»
منبع: Weak statistical standards implicated in scientific irreproducibility
مراجع:
[۱] Revised standards for statistical evidence
[۲] The False-positive to False-negative Ratio in Epidemiologic Studies