شرح خبر

آن‌طور که روش نوآورانه‌ی والن جانسون (Valen Johnson) از دانشگاه تگزاس A&M نشان می‌دهد، شاید آفت تکرارناپذیری در علم ناشی از استفاده دانشمندان از آزمون‌های آماری ضعیف باشد.

جانسون قدرت دو نوع آزمون را مقایسه کرد: آزمون فراوانی‌گرا (Frequentist) که مشخص می‌کند رخداد شانسی یک یافته تا چه حد غیرمحتمل است و آزمون بیزی (Bayesian) که با در نظر گرفتن داده‌های گردآوری‌شده در مطالعه، این احتمال را اندازه می‌گیرد که یک فرض خاص درست باشد. قدرت نتایج این دو آزمون قبلا مقایسه نشده بود زیرا این دو روش سوالاتی تقریبا متفاوت دارند.

بنابراین جانسون روشی را ایجاد کرد که نتایج آزمون‌ها (در مورد روش فراوان‌گرایی، مقدار P و در روش بیزی، ضریب بیز) را مستقیما قابل مقایسه کرد. برخلاف آزمون‌های فراوان‌گرا که از محاسبات هدفدار برای ردّ یک فرضیه باطل استفاده می‌کنند، آزمون‌های بیزی از آزمون‌گر می‌خواهند تا فرضیه جایگزینی را تعریف و آن را بیازمایند. اما جانسون آزمون بیزی قدرتمند و همگنی را توسعه داده است که فرضیه جایگزین را به شکلی استاندارد تعریف می‌کند تا «احتمال این که ضریب بیز به نفع فرضیه جایگزین از آستانه خاصی فراتر رود» بیشینه شود. این حدّ آستانه را می‌توان به نحوی انتخاب کرد که آزمون‌های بیزی و فراوان‌گرا هر دو فرضیه باطل را با نتایج یکسان، رد کنند.

سپس جانسون از این آزمون استفاده کرد تا مقادیر P را با ضرایب بیز مقایسه کند. او دریافت کرد که مقدار P کمتر-مساوی ۰.۰۵  (که معمولا در حوزه‌هایی همچون علوم اجتماعی به دلیل عدم توان تکرارپذیری، مدرکی است بر پشتیانی از یک فرض) متناظر با ضریب بیزی بین ۳ و ۵ است که مدرکی ضعیف برای پشتیبانی از یک یافته است.

مثبت‌های غلط

جانسون حساب می‌کند که در واقع ٪۲۵-۱۷ چنین یافته‌هایی غلط هستند [۱]. او از دانشمندانی حمایت می‌کند که از مقادیر P قوی‌تری همچون ۰.۰۰۵ و کمتر برای پشتیبانی یافته‌ها استفاده می‌کنند و فکر می‌کند که استفاده از مقدار استاندارد ۰.۰۵ می‌تواند مسئول عمده در تکرارناپذیری در علم باشد – حتی بیشتر از مواردی همچون تبعیض و سوء‌رفتار علمی. جانسون می‌گوید: «مطالعات بسیار اندکی هستند که مقادیر p ۰.۰۰۵ یا کمتر دارند ولی تکرارناپذیرند.»

بعضی از ریاضیدانان گفتند که اگرچه درخواست زیادی از محققان برای استفاده از آزمون‌های شدیدتر شده است [۲]، این مقاله جدید سهم مهمی در درک این مهم دارد که استاندارد ۰.۰۵ سهل‌انگارانه است.

ریاضی‌روان‌شناسی، اریک-جان واگنمیکرز (Eric-Jan Wagenmakers) از دانشگاه آمستردام می‌گوید: «[این مقاله] یکبار دیگر نشان می‌دهد که استانداردهای رایج در علوم تجربی، به نحو خطرناکی مداراگر هستند. قبلا در مورد سوءاستفاده از روندهای آماری استاندارد (p-hacking) برای کسب نتایج مطلوب نیز مباحثی مطرح شده بود. مقاله جانسون نشان می‌دهد که در مورد مقدار P مباحث نادرستی وجود دارد.»

دیگر دانشمندان اشاره دارند که تغییر طرزفکر دانشمندانی که به آستانه ۰.۵ وفادارند، دشوار است. برای مثال یکی از تبعات این کار اجبار به استفاده از آستانه‌های شدیدتر و در نتیجه صرف زمان و پول بیشتر است.

« طی چندین دهه، خانواده‌ای از روش‌های بیزی توسعه یافته‌اند اما به نحوی هنوز هم در حال استفاده از رهیافت‌های فراوان‌گرایی هستیم.» جان اونیدیس (John Ioannidis) پزشکی در دانشگاه استنفورد که دلایل تکرارناپذیری را مطالعه می‌کند، ضمن بیان این نکته می‌افزاید: «امید دارم که این مقاله شانس بیشتری برای تغییر دنیا داشته باشد.»

منبع: Weak statistical standards implicated in scientific irreproducibility

مراجع:

[۱] Revised standards for statistical evidence

[۲] The False-positive to False-negative Ratio in Epidemiologic Studies



نویسنده خبر: مهدی سجادی
کد خبر :‌ 1292

آمار بازدید: ۲۵۸
همرسانی این خبر را با دوستان‌تان به اشتراک بگذارید:
«استفاده از اخبار انجمن فیزیک ایران و انتشار آنها، به شرط
ارجاع دقیق و مناسب به خبرنامه‌ی انجمن بلا مانع است.»‌


صفحه انجمن فیزیک ایران را دنبال کنید




حامیان انجمن فیزیک ایران   (به حامیان انجمن بپیوندید)
  • پژوهشگاه دانش‌های بنیادی
  • دانشگاه صنعتی شریف
  • دانشکده فیزیک دانشگاه تهران

کلیه حقوق مربوط به محتویات این سایت محفوظ و متعلق به انجمن فیریک ایران می‌باشد.
Server: Iran (45.82.138.40)

www.irandg.com