
Fisher tidak menerima kritik Neyman dan Pearson dengan baik. Sebagai tanggapan, ia menyebut metode mereka “kekanak -kanakan” dan “akademis yang tidak masuk akal.” Secara khusus, Fisher tidak setuju dengan gagasan memutuskan antara dua hipotesis, daripada menghitung “signifikansi” bukti yang tersedia, seperti yang ia usulkan. Sedangkan keputusan sudah final, tes signifikansinya hanya memberikan pendapat sementara, yang kemudian dapat direvisi. Meski begitu, daya tarik Fisher untuk pikiran ilmiah terbuka agak dirusak oleh desakannya bahwa para peneliti harus menggunakan cutoff 5 persen untuk nilai-p “signifikan”, dan klaimnya bahwa ia akan “mengabaikan sepenuhnya semua hasil yang gagal mencapai level ini.”
Acrimony akan memberi jalan ke ambiguitas puluhan tahun, ketika buku teks secara bertahap mengacaukan pengujian hipotesis nol Fisher dengan pendekatan berbasis keputusan Neyman dan Pearson. Debat yang bernuansa tentang bagaimana menafsirkan bukti, dengan diskusi tentang penalaran statistik dan desain eksperimen, sebaliknya menjadi seperangkat aturan tetap untuk diikuti oleh siswa.
Penelitian ilmiah arus utama akan mengandalkan ambang batas p-value yang sederhana dan keputusan sejati atau false tentang hipotesis. Di dunia yang dipelajari peran ini, efek eksperimental ada atau tidak. Obat -obatan berhasil atau tidak. Tidak akan sampai 1980 -an bahwa jurnal medis utama akhirnya mulai membebaskan kebiasaan ini.
Ironisnya, banyak pergeseran dapat ditelusuri kembali ke gagasan yang diciptakan Neyman pada awal 1930 -an. Dengan ekonomi yang berjuang dalam Depresi Hebat, dia memperhatikan bahwa semakin banyak permintaan akan wawasan statistik tentang kehidupan populasi. Sayangnya, ada sumber daya terbatas yang tersedia bagi pemerintah untuk mempelajari masalah ini. Politisi menginginkan hasil dalam beberapa bulan – atau bahkan berminggu -minggu – dan tidak ada cukup waktu atau uang untuk studi yang komprehensif. Akibatnya, ahli statistik harus bergantung pada pengambilan sampel sebagian kecil dari populasi. Ini adalah kesempatan untuk mengembangkan beberapa ide statistik baru. Misalkan kita ingin memperkirakan nilai tertentu, seperti proporsi populasi yang memiliki anak. Jika kami mencicipi 100 orang dewasa secara acak dan tidak satu pun dari mereka adalah orang tua, apa yang disarankan ini tentang negara secara keseluruhan? Kami tidak dapat mengatakan secara pasti bahwa tidak ada yang memiliki anak, karena jika kami mencicipi kelompok yang berbeda dari 100 orang dewasa, kami mungkin menemukan beberapa orang tua. Karena itu kami membutuhkan cara untuk mengukur seberapa percaya diri kami harus tentang perkiraan kami. Di sinilah inovasi Neyman masuk. Dia menunjukkan bahwa kita dapat menghitung “interval kepercayaan” untuk sampel yang memberi tahu kita seberapa sering kita harus mengharapkan nilai populasi yang sebenarnya terletak dalam kisaran tertentu.
Interval kepercayaan dapat menjadi konsep yang licin, mengingat mereka mengharuskan kita untuk menafsirkan data kehidupan nyata yang nyata dengan membayangkan banyak sampel hipotetis lainnya dikumpulkan. Seperti kesalahan tipe I dan tipe II, interval kepercayaan Neyman menjawab pertanyaan penting, hanya dengan cara yang sering membingungkan siswa dan peneliti. Terlepas dari rintangan konseptual ini, ada nilai dalam memiliki pengukuran yang dapat menangkap ketidakpastian dalam sebuah penelitian. Sering menggoda – terutama dalam media dan politik – untuk fokus pada nilai rata -rata tunggal. Nilai tunggal mungkin terasa lebih percaya diri dan tepat, tetapi pada akhirnya itu adalah kesimpulan ilusi. Dalam beberapa analisis epidemiologis yang menghadap publik, rekan-rekan saya dan karena itu saya telah memilih untuk melaporkan hanya interval kepercayaan, untuk menghindari perhatian yang salah tempat jatuh pada nilai-nilai tertentu.
Sejak 1980-an, jurnal medis lebih fokus pada interval kepercayaan daripada klaim yang mandiri atau false mandiri. Namun, kebiasaan bisa sulit dipatahkan. Hubungan antara interval kepercayaan dan nilai-p tidak membantu. Misalkan hipotesis nol kami adalah bahwa pengobatan tidak memiliki efek. Jika interval kepercayaan 95 persen yang diperkirakan untuk efek tidak mengandung nol, maka nilai-p akan kurang dari 5 persen, dan berdasarkan pendekatan Fisher, kami akan menolak hipotesis nol. Akibatnya, makalah medis seringkali kurang tertarik pada interval ketidakpastian itu sendiri, dan sebaliknya lebih tertarik pada nilai -nilai yang dilakukannya – atau tidak – terus -menerus. Kedokteran mungkin berusaha untuk bergerak melampaui Fisher, tetapi pengaruh cutoff 5 persen sewenang -wenang tetap ada.
Kutipan diadaptasi dari Bukti: Ilmu kepastian yang tidak pasti, oleh Adam Kucharski. Diterbitkan oleh Buku Profil pada 20 Maret 2025, di Inggris.