Apakah ini benar-benar cara kerja nilai-p? Bisakah sejuta makalah penelitian per tahun didasarkan pada keacakan murni?

98

Saya sangat baru dalam statistik, dan saya baru belajar untuk memahami dasar-dasarnya, termasuk nilai- . Tetapi ada tanda tanya besar di pikiran saya saat ini, dan saya agak berharap pemahaman saya salah. Inilah proses pemikiran saya: $p$

Tidak semua penelitian di seluruh dunia agak seperti monyet di "teorema monyet tak terbatas"? Anggap ada 23887 universitas di dunia. Jika setiap universitas memiliki 1000 siswa, itu berarti 23 juta siswa setiap tahun.

Katakanlah setiap tahun, setiap siswa melakukan setidaknya satu penelitian, menggunakan pengujian hipotesis dengan . $\alpha=0.05$

Bukankah itu berarti bahwa bahkan jika semua sampel penelitian ditarik dari populasi acak, sekitar 5% dari mereka akan "menolak hipotesis nol sebagai tidak valid". Wow. Berpikir tentang itu. Itu sekitar satu juta makalah penelitian per tahun yang diterbitkan karena hasil "signifikan".

Jika ini cara kerjanya, ini menakutkan. Ini berarti bahwa banyak "kebenaran ilmiah" yang kita anggap remeh didasarkan pada keacakan murni.

Sebagian besar kode R tampaknya mendukung pemahaman saya:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

Begitu juga artikel tentang -fishing yang sukses : Saya Membodohi Jutaan Orang Menjadi Berpikir Cokelat Membantu Menurunkan Berat Badan. Begini caranya . $p$

Apakah ini benar-benar semua yang ada untuk itu? Apakah ini cara "sains" seharusnya bekerja?

hypothesis-testing statistical-significance p-value

— n_mu_sigma
sumber

31

Masalah sebenarnya berpotensi jauh lebih buruk daripada mengalikan jumlah nol sejati dengan tingkat signifikansi, karena tekanan untuk menemukan signifikansi (jika jurnal penting tidak akan mempublikasikan hasil yang tidak signifikan, atau wasit akan menolak makalah yang tidak memiliki hasil yang signifikan, ada tekanan untuk menemukan cara untuk mencapai signifikansi ... dan kami memang melihat ekspedisi 'perburuan signifikan' dalam banyak pertanyaan di sini); ini dapat menyebabkan tingkat signifikansi nyata yang jauh lebih tinggi daripada yang terlihat.

— Glen_b

5

Di sisi lain, banyak hipotesis nol adalah titik nol, dan itu sangat jarang benar.

— Glen_b

37

Tolong jangan mengonfigurasi metode ilmiah dengan nilai-p. Antara lain, sains menuntut reproduksi . Itulah bagaimana makalah tentang, katakanlah, fusi dingin dapat dipublikasikan (pada tahun 1989) tetapi fusi dingin belum ada sebagai teori ilmiah yang dapat dipertahankan selama seperempat abad terakhir. Perhatikan juga, bahwa hanya sedikit ilmuwan yang tertarik untuk bekerja di area di mana hipotesis nol yang relevan sebenarnya benar . Dengan demikian, hipotesis Anda bahwa "semua sampel penelitian ditarik dari [populasi] acak" tidak mencerminkan sesuatu yang realistis.

— whuber

13

Referensi wajib untuk kartun jelly bean xkcd . Jawaban singkat - ini sayangnya terjadi terlalu sering, dan beberapa jurnal sekarang berkeras meminta ahli statistik meninjau setiap publikasi untuk mengurangi jumlah penelitian "signifikan" yang masuk ke dalam domain publik. Banyak jawaban dan komentar yang relevan dalam diskusi sebelumnya

— Floris

8

Mungkin saya tidak mendapatkan keluhan ... "Kami berhasil mengalahkan 95% hipotesis palsu. Sisanya 5% tidak mudah dikalahkan karena fluktuasi acak yang tampak seperti efek yang berarti. Kita harus melihat yang lebih dekat dan mengabaikan 95% lainnya. " Ini terdengar persis seperti perilaku yang tepat untuk sesuatu seperti "sains".

— Eric Towers

70

Ini memang masalah yang wajar, tetapi ini tidak sepenuhnya benar.

Jika 1.000.000 penelitian dilakukan dan semua hipotesis nol adalah benar maka sekitar 50.000 akan memiliki hasil yang signifikan pada p <0,05. Itulah yang dimaksud dengan nilai ap. Namun, nol pada dasarnya tidak pernah sepenuhnya benar. Tetapi bahkan jika kita mengendurkannya menjadi "hampir benar" atau "tentang benar" atau semacamnya, itu berarti bahwa 1.000.000 studi semua harus tentang hal-hal seperti

Hubungan antara nomor jaminan sosial dan IQ
Apakah panjang jari-jari kaki Anda terkait dengan keadaan kelahiran Anda?

dan seterusnya. Omong kosong.

Satu masalah adalah, tentu saja, bahwa kita tidak tahu nol mana yang benar. Masalah lain adalah @Glen_b yang disebutkan dalam komentarnya - masalah laci file.

Inilah mengapa saya sangat menyukai ide-ide Robert Abelson yang ia kemukakan dalam Statistik sebagai Argumen Berprinsip . Yaitu, bukti statistik harus menjadi bagian dari argumen berprinsip mengapa sesuatu terjadi dan harus dinilai berdasarkan kriteria MAGIC:

Magnitude: Seberapa besar pengaruhnya?
Artikulasi: Apakah penuh dengan "seandainya", "ands" dan "buts" (itu buruk)
Umum: Seberapa luas itu berlaku?
Ketertarikan
Kredibilitas: Klaim luar biasa membutuhkan banyak bukti

— Peter Flom
sumber

4

Bisakah seseorang mengatakan "jika studi 1M dilakukan dan bahkan jika semua hipotesis nol benar, maka sekitar 50.000 akan melakukan kesalahan tipe 1 dan salah menolak hipotesis nol? Jika seorang peneliti mendapat p <0,05 mereka hanya tahu bahwa" apakah benar dan peristiwa langka telah terjadi ATAU h1 salah ". Tidak ada cara untuk mengatakan yang mana dengan hanya melihat hasil dari studi yang satu ini, kan?

— n_mu_sigma

5

Anda hanya bisa mendapatkan false positive jika yang positif adalah false. Jika Anda memilih 40 infus yang semuanya berisik, maka Anda memiliki peluang bagus untuk kesalahan tipe I. Tetapi umumnya kami memilih infus karena suatu alasan. Dan nol itu salah. Anda tidak dapat membuat kesalahan tipe I jika nol salah.

— Peter Flom

6

Saya tidak mengerti paragraf kedua Anda, termasuk poin-poinnya, sama sekali. Katakanlah demi argumen semua 1 juta penelitian menguji senyawa obat untuk menyembuhkan kondisi tertentu. Hipotesis nol untuk masing-masing penelitian ini adalah bahwa obat tersebut tidak menyembuhkan kondisi tersebut. Jadi, mengapa itu harus "pada dasarnya tidak pernah sepenuhnya benar"? Juga, mengapa Anda mengatakan semua studi harus tentang hubungan yang tidak masuk akal, seperti ss # dan IQ? Terima kasih atas penjelasan tambahan yang dapat membantu saya memahami maksud Anda.

— Chelonian

11

Untuk membuat contoh @ PeterFlom menjadi konkret: tiga digit pertama dari SSN (dulu) mengkodekan kode pos pemohon. Karena masing-masing negara memiliki demografi yang agak berbeda dan ukuran jari kaki mungkin berkorelasi dengan beberapa faktor demografis (usia, ras, dll), hampir pasti ada hubungan antara jumlah jaminan sosial dan ukuran jari kaki - jika seseorang memiliki cukup data.

— Matt Krause

6

@MattKrause contoh yang bagus. Saya lebih suka penghitungan jari berdasarkan jenis kelamin. Saya yakin jika saya mengambil sensus dari semua pria dan wanita, saya akan menemukan bahwa satu jenis kelamin rata-rata memiliki jari lebih banyak daripada yang lain. Tanpa mengambil sampel yang sangat besar, saya tidak tahu jenis kelamin mana yang memiliki lebih banyak jari. Selanjutnya, saya ragu sebagai produsen sarung tangan saya akan menggunakan data sensus jari dalam desain sarung tangan.

— emory

40

Tidak semua penelitian di seluruh dunia agak seperti monyet "teorema monyet tak terbatas"?

Ingat, para ilmuwan secara kritis TIDAK seperti monyet yang tak terbatas, karena perilaku penelitian mereka - terutama eksperimen - sama sekali tidak acak. Eksperimen (setidaknya seharusnya) manipulasi dan pengukuran yang dikendalikan dengan sangat hati-hati yang didasarkan pada hipotesis yang diinformasikan secara mekanis yang dibangun di atas tubuh besar penelitian sebelumnya. Itu bukan hanya bidikan acak dalam gelap (atau jari monyet pada mesin tik).

Anggap ada 23887 universitas di dunia. Jika setiap universitas memiliki 1000 siswa, itu berarti 23 juta siswa setiap tahun. Katakanlah setiap tahun, setiap siswa melakukan setidaknya satu penelitian,

Perkiraan untuk jumlah temuan penelitian yang diterbitkan harus jauh. Saya tidak tahu apakah ada 23 juta "mahasiswa" (apakah itu termasuk universitas, atau juga perguruan tinggi?) Di dunia, tetapi saya tahu bahwa sebagian besar dari mereka tidak pernah menerbitkan temuan ilmiah apa pun. Maksudku, kebanyakan dari mereka bukan jurusan sains, dan bahkan sebagian besar jurusan sains tidak pernah mempublikasikan temuan.

Perkiraan yang lebih mungkin (beberapa diskusi ) untuk jumlah publikasi ilmiah setiap tahun adalah sekitar 1-2 juta.

Bukankah itu berarti bahwa bahkan jika semua sampel penelitian ditarik dari populasi acak, sekitar 5% dari mereka akan "menolak hipotesis nol sebagai tidak valid". Wow. Pikirkan itu. Itu sekitar satu juta makalah penelitian per tahun yang diterbitkan karena hasil "signifikan".

Perlu diingat, tidak semua penelitian yang diterbitkan memiliki statistik di mana signifikansinya tepat pada nilai p = 0,05. Seringkali orang melihat nilai p seperti p <0,01 atau bahkan p <0,001. Saya tidak tahu apa nilai p "berarti" lebih dari satu juta kertas, tentu saja.

Jika ini cara kerjanya, ini menakutkan. Ini berarti bahwa banyak "kebenaran ilmiah" yang kita anggap remeh didasarkan pada keacakan murni.

Juga perlu diingat, para ilmuwan benar - benar tidak seharusnya mengambil sejumlah kecil hasil di p sekitar 0,05 sebagai "kebenaran ilmiah". Bahkan tidak dekat. Para ilmuwan seharusnya mengintegrasikan banyak penelitian, yang masing-masing memiliki kekuatan statistik yang sesuai, mekanisme yang masuk akal, reproduktifitas, besarnya efek, dll., Dan menggabungkannya ke dalam model tentatif bagaimana beberapa fenomena bekerja.

Tetapi, apakah ini berarti bahwa hampir semua sains itu benar? Tidak mungkin. Para ilmuwan adalah manusia, dan menjadi mangsa bias, metodologi penelitian yang buruk (termasuk pendekatan statistik yang tidak tepat), penipuan, kesalahan manusia sederhana, dan nasib buruk. Mungkin lebih dominan dalam mengapa sebagian yang sehat dari sains yang diterbitkan salah adalah faktor-faktor ini daripada konvensi p <0,05. Bahkan, mari kita langsung saja ke pengejaran, dan buat pernyataan "lebih menakutkan" dari apa yang telah Anda kemukakan:

Mengapa Kebanyakan Temuan Penelitian yang Diterbitkan Adalah Palsu

— Chelonian
sumber

10

Saya akan mengatakan bahwa Ioannidis sedang membuat argumen keras yang mendukung pertanyaan itu. Ilmu pengetahuan tidak dilakukan seperti halnya optimis yang menjawab di sini tampaknya berpikir. Dan banyak penelitian yang dipublikasikan tidak pernah direplikasi. Selain itu, ketika replikasi dicoba, hasilnya cenderung mendukung argumen Ioannidis bahwa banyak sains yang diterbitkan pada dasarnya adalah bollocks.

— matt_black

9

Mungkin menarik bahwa dalam fisika partikel, nilai p-value kami untuk mengklaim penemuan adalah 0,00000057.

— David Z

2

Dan dalam banyak kasus, tidak ada nilai p sama sekali. Matematika dan fisika teoretis adalah kasus umum.

— Davidmh

21

Pemahaman Anda tentang nilai- tampaknya benar. $p$

Kekhawatiran serupa juga cukup sering disuarakan. Apa yang masuk akal untuk dihitung dalam contoh Anda, bukan hanya jumlah studi dari 23 juta yang mencapai positif palsu, tetapi juga proporsi studi yang mendapatkan efek signifikan yang salah. Ini disebut "tingkat penemuan palsu". Itu tidak sama dengan dan tergantung pada berbagai hal lain seperti misalnya proporsi nol di 23 juta studi Anda. Ini tentu saja mustahil untuk diketahui, tetapi orang bisa menebak. Beberapa orang mengatakan bahwa tingkat penemuan palsu setidaknya 30%. $\alpha$

Lihat misalnya diskusi terbaru dari makalah 2014 oleh David Colquhoun: Kebingungan dengan tingkat penemuan yang salah dan beberapa pengujian (pada Colquhoun 2014) . Saya telah berdebat di sana terhadap perkiraan "setidaknya 30%" ini, tetapi saya setuju bahwa dalam beberapa bidang penelitian tingkat penemuan palsu bisa jauh lebih tinggi dari 5%. Ini memang mengkhawatirkan.

Saya tidak berpikir bahwa mengatakan nol hampir tidak pernah benar membantu di sini; Kesalahan Tipe S dan Tipe M (seperti yang diperkenalkan oleh Andrew Gelman) tidak jauh lebih baik daripada kesalahan tipe I / II.

Saya pikir apa yang sebenarnya dimaksud adalah bahwa seseorang tidak boleh mempercayai hasil "signifikan" yang terisolasi.

Ini bahkan berlaku dalam fisika energi tinggi dengan kriteria super-ketat ; kami percaya penemuan boson Higgs sebagian karena sangat cocok dengan prediksi teori. Ini tentu saja jauh JAUH lebih banyak dalam beberapa disiplin ilmu lain dengan kriteria signifikansi konvensional yang jauh lebih rendah ( ) dan kurangnya prediksi teoritis yang sangat spesifik. $\alpha\approx 10^{-7}$ $\alpha=0.05$

Studi yang baik, setidaknya di bidang saya, tidak melaporkan hasil terisolasi . Temuan semacam itu perlu dikonfirmasi oleh analisis lain (setidaknya sebagian independen), dan oleh beberapa percobaan independen lainnya. Jika saya melihat studi terbaik di bidang saya, saya selalu melihat sejumlah eksperimen yang bersama-sama menunjukkan hasil tertentu; nilai "kumulatif" mereka (yang tidak pernah dihitung secara eksplisit) sangat rendah. $p<0.05$ $p$

Dengan kata lain, saya berpikir bahwa jika seorang peneliti mendapatkan beberapa temuan , itu hanya berarti dia harus pergi dan menyelidiki lebih lanjut. Jelas tidak berarti bahwa itu harus dianggap sebagai "kebenaran ilmiah". $p<0.05$

— amuba
sumber

Re "kumulatif nilai p": Dapatkah Anda mengalikan nilai p individual, atau apakah Anda perlu melakukan beberapa kombinatorik mengerikan untuk membuatnya bekerja?

— Kevin

@Kevin: seseorang dapat mengalikan nilai individual , tetapi kita perlu mengadaptasi ambang signifikansi . Pikirkan 10 nilai acak yang terdistribusi secara seragam pada [0,1] (yaitu dihasilkan dengan hipotesis nol); produk mereka kemungkinan besar akan di bawah 0,05, tetapi akan menjadi omong kosong untuk menolak nol. Cari metode Fisher untuk menggabungkan nilai-p; ada banyak utas tentang hal itu di sini di CrossValidated juga.

p

$p$

α

$\alpha$

p

$p$

— amoeba

17

Kekhawatiran Anda persis kekhawatiran yang mendasari banyak diskusi saat ini dalam sains tentang reproduksibilitas. Namun, keadaan sebenarnya sedikit lebih rumit dari yang Anda sarankan.

Pertama, mari kita tentukan beberapa terminologi. Pengujian signifikansi hipotesis nol dapat dipahami sebagai masalah deteksi sinyal - hipotesis nol adalah benar atau salah, dan Anda dapat memilih untuk menolak atau mempertahankannya. Kombinasi dua keputusan dan dua kemungkinan keadaan "benar" menghasilkan tabel berikut ini, yang sebagian besar orang lihat di beberapa titik ketika mereka pertama kali belajar statistik:

masukkan deskripsi gambar di sini

Ilmuwan yang menggunakan pengujian signifikansi hipotesis nol berusaha untuk memaksimalkan jumlah keputusan yang benar (ditunjukkan dengan warna biru) dan meminimalkan jumlah keputusan yang salah (ditunjukkan dalam warna merah). Para ilmuwan yang bekerja juga mencoba untuk mempublikasikan hasil mereka sehingga mereka bisa mendapatkan pekerjaan dan memajukan karier mereka.

Tentu saja, ingatlah bahwa, seperti banyak penjawab lain telah sebutkan, hipotesis nol tidak dipilih secara acak - sebagai gantinya, biasanya dipilih secara khusus karena, berdasarkan teori sebelumnya, ilmuwan percaya itu salah . Sayangnya, sulit untuk mengukur proporsi kali bahwa para ilmuwan benar dalam prediksi mereka, tetapi ingatlah bahwa, ketika para ilmuwan berurusan dengan kolom " is false", mereka harus khawatir tentang negatif palsu daripada positif positif palsu. $H_0$

$H_0$

Bias publikasi

$\alpha$

$p$

Tingkat kebebasan peneliti

$\alpha$ $\alpha$ . Mengingat adanya sejumlah besar praktik penelitian yang dipertanyakan, tingkat positif palsu dapat setinggi 0,60 bahkan jika tingkat nominal ditetapkan pada 0,05 ( Simmons, Nelson, & Simonsohn, 2011 ).

Penting untuk dicatat bahwa penggunaan derajat kebebasan peneliti yang tidak tepat (yang kadang-kadang dikenal sebagai praktik penelitian yang dipertanyakan; Martinson, Anderson, & de Vries, 2005 ) tidak sama dengan membuat data. Dalam beberapa kasus, mengecualikan pencilan adalah hal yang benar untuk dilakukan, baik karena peralatan gagal atau karena alasan lain. Masalah utama adalah bahwa, di hadapan derajat kebebasan peneliti, keputusan yang diambil selama analisis sering bergantung pada bagaimana data berubah ( Gelman & Loken, 2014), bahkan jika para peneliti yang bersangkutan tidak mengetahui fakta ini. Selama peneliti menggunakan derajat kebebasan peneliti (secara sadar atau tidak sadar) untuk meningkatkan probabilitas hasil yang signifikan (mungkin karena hasil yang signifikan lebih "dapat dipublikasi"), keberadaan derajat kebebasan peneliti akan kelebihan populasi literatur penelitian dengan positif palsu di cara yang sama seperti bias publikasi.

Peringatan penting untuk diskusi di atas adalah bahwa makalah ilmiah (setidaknya dalam psikologi, yang merupakan bidang saya) jarang terdiri dari hasil tunggal. Yang lebih umum adalah beberapa penelitian, yang masing-masing melibatkan beberapa tes - penekanannya adalah pada membangun argumen yang lebih besar dan mengesampingkan penjelasan alternatif untuk bukti yang disajikan. Namun, presentasi hasil selektif (atau adanya derajat kebebasan peneliti) dapat menghasilkan bias dalam serangkaian hasil semudah hasil tunggal. Ada bukti bahwa hasil yang disajikan dalam makalah multi-studi sering jauh lebih bersih dan lebih kuat daripada yang diharapkan bahkan jika semua prediksi studi ini semuanya benar ( Francis, 2013 ).

Kesimpulan

Pada dasarnya, saya setuju dengan intuisi Anda bahwa pengujian signifikansi nol hipotesis bisa salah. Namun, saya berpendapat bahwa pelaku sebenarnya yang menghasilkan tingkat positif palsu yang tinggi adalah proses seperti bias publikasi dan adanya derajat kebebasan peneliti. Memang, banyak ilmuwan sangat menyadari masalah ini, dan meningkatkan kemampuan reproduksi ilmiah adalah topik diskusi yang sangat aktif saat ini (misalnya, Nosek & Bar-Anan, 2012 ; Nosek, Spies, & Motyl, 2012 ). Jadi Anda berada di perusahaan yang baik dengan kekhawatiran Anda, tetapi saya juga berpikir ada juga alasan untuk optimisme hati-hati.

Referensi

Stern, JM, & Simes, RJ (1997). Bias publikasi: Bukti keterlambatan publikasi dalam studi kohort proyek penelitian klinis. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640

Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E., ... Williamson, PR (2008). Tinjauan sistematis dari bukti empiris bias publikasi penelitian dan bias pelaporan hasil. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). Masalah laci file dan toleransi untuk hasil nol. Buletin Psikologis, 86 (3), 638-641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). Psikologi positif-palsu: Fleksibilitas yang tidak diungkapkan dalam pengumpulan dan analisis data memungkinkan penyajian yang penting. Ilmu Psikologi, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS, & de Vries, R. (2005). Ilmuwan berperilaku buruk. Alam, 435, 737-738. http://doi.org/10.1038/435737a

Gelman, A., & Loken, E. (2014). Krisis statistik dalam sains. American Scientist, 102, 460-465.

Francis, G. (2013). Replikasi, konsistensi statistik, dan bias publikasi. Jurnal Psikologi Matematika, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003

Nosek, BA, & Bar-Anan, Y. (2012). Utopia ilmiah: I. Membuka komunikasi ilmiah. Penyelidikan Psikologis, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215

Nosek, BA, Spies, JR, & Motyl, M. (2012). Utopia ilmiah: II. Restrukturisasi insentif dan praktik untuk mempromosikan kebenaran daripada publikasi. Perspektif tentang Ilmu Psikologis, 7 (6), 615-631. http://doi.org/10.1177/1745691612459058

— Patrick S. Forscher
sumber

1

+1. Koleksi tautan yang bagus. Berikut ini adalah satu makalah yang sangat relevan untuk bagian "Peneliti derajat kebebasan": Taman jalur percabangan: Mengapa beberapa perbandingan dapat menjadi masalah, bahkan ketika tidak ada "ekspedisi memancing" atau "peretasan" dan hipotesis penelitian adalah diajukan sebelumnya oleh Andrew Gelman dan Eric Loken (2013).

— amoeba

Terima kasih, @amoeba, untuk referensi yang menarik itu. Saya terutama menyukai poin yang dibuat Gelman dan Loken (2013) bahwa memanfaatkan tingkat kebebasan peneliti tidak perlu menjadi proses yang disadari. Saya telah mengedit jawaban saya untuk memasukkan makalah itu.

— Patrick S. Forscher

Saya baru saja menemukan versi publikasi Gelman & Loken (2014) di American Scientist.

— Patrick S. Forscher

10

Pemeriksaan penting pada masalah penting yang diangkat dalam pertanyaan ini adalah bahwa "kebenaran ilmiah" tidak didasarkan pada publikasi individual dan terisolasi. Jika suatu hasil cukup menarik itu akan mendorong ilmuwan lain untuk mengejar implikasi hasil. Pekerjaan itu akan cenderung untuk mengkonfirmasi atau membantah temuan asli. Mungkin ada peluang 1/20 untuk menolak hipotesis nol sejati dalam studi individu, tetapi hanya 1/400 yang melakukannya dua kali berturut-turut.

Jika para ilmuwan benar-benar mengulangi eksperimen sampai mereka menemukan "signifikansi" dan kemudian menerbitkan hasilnya, masalahnya mungkin sebesar yang disarankan OP. Tapi itu bukan cara sains bekerja, setidaknya dalam hampir 50 tahun pengalaman saya dalam penelitian biomedis. Lebih lanjut, publikasi jarang tentang percobaan "signifikan" tunggal tetapi lebih didasarkan pada serangkaian eksperimen yang saling terkait (masing-masing diperlukan untuk menjadi "signifikan" sendiri) yang bersama-sama memberikan dukungan untuk hipotesis substantif yang lebih luas.

Masalah yang jauh lebih besar datang dari para ilmuwan yang terlalu berkomitmen pada hipotesis mereka sendiri. Mereka kemudian dapat menginterpretasikan secara berlebihan implikasi percobaan individu untuk mendukung hipotesis mereka, terlibat dalam penyuntingan data yang meragukan (seperti menghapus pencilan yang sewenang-wenang), atau (seperti yang telah saya lihat dan bantu tangkap) hanya membuat data.

Ilmu pengetahuan, bagaimanapun, adalah proses yang sangat sosial, terlepas dari mitologi tentang ilmuwan gila yang bersembunyi di menara gading. Memberi dan menerima di antara ribuan ilmuwan yang mengejar minat mereka, berdasarkan apa yang telah mereka pelajari dari karya orang lain, adalah perlindungan institusional utama dari kesalahan positif. Temuan-temuan palsu terkadang dapat diabadikan selama bertahun-tahun, tetapi jika suatu masalah cukup penting, proses tersebut pada akhirnya akan mengidentifikasi kesimpulan yang salah.

— EdM
sumber

6

1 / 4000

$1/4000$

40

$40$

2

Dari 23 juta studi, kami masih belum bisa memastikan apakah 5.000 hasil menolak hipotesis nol hanya karena kebisingan, bukan? Ini juga masalah skala. Setelah Anda memiliki jutaan penelitian, kesalahan tipe 1 akan umum terjadi.

— n_mu_sigma

3

Jika hanya ada 5.000 kesimpulan yang salah dari 23.000.000 studi, saya akan menyebutnya tidak biasa !

— whuber

3

Dalam hampir 50 tahun melakukan sains dan mengenal ilmuwan lain, saya tidak bisa memikirkan siapa pun yang mengulangi eksperimen sampai mereka mencapai "signifikansi." Kemungkinan teoretis yang diangkat oleh @whuber, menurut pengalaman saya, bukan masalah praktis yang besar. Masalah praktis yang jauh lebih besar adalah membuat data, baik secara tidak langsung dengan membuang "pencilan" yang tidak sesuai dengan konsep awal, atau hanya dengan membuat "data" untuk memulai. Perilaku-perilaku yang saya lihat sendiri, dan mereka tidak bisa diperbaiki dengan menyesuaikan nilai- p .

— EdM

3

@ EDM "Mungkin ada peluang 1/20 untuk menolak hipotesis nol sejati dalam studi individu, tetapi hanya 1/4000 melakukannya dua kali berturut-turut." Bagaimana Anda mendapatkan nomor kedua?

— Aksakal

5

Hanya untuk menambah diskusi, berikut adalah posting yang menarik dan diskusi selanjutnya tentang bagaimana orang-orang umumnya salah paham nilai-p.

Apa yang harus dipertahankan dalam setiap kasus adalah bahwa nilai-p hanyalah ukuran dari kekuatan bukti dalam menolak hipotesis yang diberikan. Nilai-p jelas bukan ambang keras di bawah di mana sesuatu itu "benar" dan di atasnya hanya karena kebetulan. Sebagaimana dijelaskan dalam pos yang dirujuk di atas:

hasilnya adalah kombinasi dari efek dan peluang nyata, ini bukan salah satu atau

— Antoine
sumber

mungkin ini akan berkontribusi pada pemahaman nilai-p: stats.stackexchange.com/questions/166323/…

4

Seperti juga ditunjukkan dalam jawaban lain, ini hanya akan menimbulkan masalah jika Anda akan secara selektif mempertimbangkan hasil positif di mana hipotesis nol dikesampingkan. Inilah sebabnya mengapa para ilmuwan menulis artikel ulasan di mana mereka mempertimbangkan hasil penelitian yang diterbitkan sebelumnya dan mencoba mengembangkan pemahaman yang lebih baik tentang subjek berdasarkan itu. Namun, masih ada masalah, yang disebabkan oleh apa yang disebut "bias publikasi", yaitu para ilmuwan lebih cenderung menulis artikel tentang hasil positif daripada pada hasil negatif, juga makalah tentang hasil negatif adalah lebih mungkin ditolak untuk publikasi daripada makalah tentang hasil positif.

Terutama di bidang di mana tes statistik sangat penting apakah ini akan menjadi masalah besar, bidang kedokteran adalah contoh yang terkenal. Inilah sebabnya mengapa wajib untuk mendaftarkan uji klinis sebelum dilakukan (misalnya di sini ). Jadi, Anda harus menjelaskan pengaturannya, bagaimana analisis statistik akan dilakukan, dll. Sebelum uji coba berlangsung. Jurnal medis terkemuka akan menolak untuk mempublikasikan makalah jika uji coba yang mereka laporkan tidak terdaftar.

Sayangnya, terlepas dari ukuran ini, sistem tidak berfungsi dengan baik .

— Hitung Iblis
sumber

mungkin ini akan berkontribusi pada pemahaman nilai-p: stats.stackexchange.com/questions/166323/…

3

Ini dekat dengan fakta yang sangat penting tentang metode ilmiah: ini menekankan kepalsuan. Filsafat sains yang paling populer saat ini memiliki konsep kepalsuan Karl Popper sebagai batu penjuru.

Dengan demikian proses ilmiah dasar adalah:

Siapa pun dapat mengklaim teori apa pun yang mereka inginkan, kapan saja. Ilmu pengetahuan akan mengakui teori apa pun yang "dapat dipalsukan". Arti paling harfiah dari kata itu adalah bahwa, jika orang lain tidak menyukai klaim tersebut, orang itu bebas untuk menghabiskan sumber daya untuk membantah klaim tersebut. Jika Anda tidak berpikir kaus kaki argyle menyembuhkan kanker, Anda bebas menggunakan bangsal medis Anda sendiri untuk membantahnya.
Karena bilah untuk masuk ini sangat rendah, maka tradisional bahwa "Sains" sebagai kelompok budaya tidak akan benar-benar menghibur ide sampai Anda telah melakukan "upaya yang baik" untuk memalsukan teori Anda sendiri.
Penerimaan gagasan cenderung berjalan bertahap. Anda bisa memasukkan konsep Anda ke artikel jurnal dengan satu studi dan nilai p yang agak rendah. Apa yang membeli Anda adalah publisitas dan kredibilitas. Jika seseorang tertarik pada ide Anda, seperti jika sains Anda memiliki aplikasi teknik, mereka mungkin ingin menggunakannya. Pada saat itu, mereka lebih cenderung mendanai putaran pemalsuan tambahan.
Proses ini berjalan maju, selalu dengan sikap yang sama: percaya apa yang Anda inginkan, tetapi untuk menyebutnya sains, saya harus dapat membuktikannya nanti.

Bilah rendah untuk masuk inilah yang memungkinkannya menjadi sangat inovatif. Jadi ya, ada sejumlah besar artikel jurnal yang secara teoritis "salah" di luar sana. Namun, kuncinya adalah bahwa setiap artikel yang diterbitkan secara teori dapat dipalsukan, sehingga pada suatu saat, seseorang dapat menghabiskan uang untuk mengujinya.

Ini kuncinya: jurnal tidak hanya berisi hal-hal yang lulus uji-p yang masuk akal, tetapi juga berisi kunci untuk orang lain untuk membongkarnya jika hasilnya ternyata salah.

— Cort Ammon
sumber

1

Ini sangat idealistis. Beberapa orang khawatir bahwa terlalu banyak makalah yang salah dapat membuat rasio signal-to-noise yang terlalu rendah dalam literatur dan secara serius memperlambat atau menyesatkan proses ilmiah.

— amoeba

1

@amoeba Anda membawa poin yang bagus. Saya tentu ingin menangkap kasus yang ideal karena saya sering kehilangan suara. Di luar itu, saya pikir pertanyaan SNR dalam literatur adalah pertanyaan yang valid, tetapi setidaknya itu adalah pertanyaan yang harus seimbang. Sudah ada konsep jurnal yang baik vs jurnal yang buruk, jadi ada beberapa petunjuk bahwa tindakan menyeimbangkan telah berlangsung selama beberapa waktu.

— Cort Ammon

Pemahaman filosofi sains ini tampaknya sudah ketinggalan zaman. Kepalsuan popperian hanya "populer" dalam arti menjadi mitos urban umum tentang bagaimana sains terjadi.

— EnergyNumber

@EnergyNumbers Bisakah Anda memberi tahu saya tentang cara berpikir yang baru? Filosofi SE memiliki pendapat yang sangat berbeda dari Anda. Jika Anda melihat sejarah pertanyaan di sana, falsifiability Popperian adalah yang ciri khas dari ilmu bagi mayoritas orang-orang yang berbicara suara mereka. Saya ingin belajar cara berpikir yang lebih baru dan membawanya ke sana!

— Cort Ammon

Baru? Kuhn membantah Popper beberapa dekade yang lalu. Jika Anda tidak punya satu pun posting Popperian di filsafat.se, maka memperbarui itu tampaknya akan menjadi penyebab yang hilang - tinggalkan saja di tahun 1950-an. Jika Anda ingin memperbarui diri Anda sendiri, maka primer sarjana apa pun dari abad ke-21 tentang filsafat sains harus membantu Anda memulai.

— EnergyNumbers

1

Apakah ini cara "sains" seharusnya bekerja?

Begitulah cara banyak ilmu sosial bekerja. Tidak banyak dengan ilmu fisika. Pikirkan ini: Anda mengetik pertanyaan Anda di komputer. Orang-orang dapat membangun binatang buas yang rumit ini yang disebut komputer menggunakan pengetahuan fisika, kimia, dan bidang ilmu fisika lainnya. Jika situasinya seburuk yang Anda gambarkan, tidak ada satu pun elektronik yang akan berfungsi. Atau pikirkan hal-hal seperti massa elektron, yang dikenal dengan presisi gila. Mereka melewati miliaran gerbang logika di komputer selama lebih dari satu, dan komputer Anda masih bekerja dan bekerja selama bertahun-tahun.

UPDATE: Untuk menanggapi suara turun yang saya terima, saya merasa terinspirasi untuk memberi Anda beberapa contoh.

Yang pertama adalah dari fisika: Bystritsky, VM, et al. " Mengukur faktor S astrofisika dan penampang reaksi p (d, γ) 3 Dia di wilayah energi ultralow menggunakan target zirconium deuteride ." Fisika Partikel dan Nuclei Letters 10.7 (2013): 717-722.

$0.237 \pm 0.061$

Contoh saya berikutnya adalah dari ... psikologi: Paustian-Underdahl, Samantha C., Lisa Slattery Walker, dan David J. Woehr. " Jenis kelamin dan persepsi efektivitas kepemimpinan: Sebuah meta-analisis moderator kontekstual ." Jurnal Psikologi Terapan, 2014, Vol. 99, No. 6, 1129 –1145.

$\chi^2$

Sekarang, lihat beberapa tabel dari kertas dan tebak dari kertas mana mereka berasal:

masukkan deskripsi gambar di sini

Itulah jawaban mengapa dalam satu kasus Anda membutuhkan statistik "keren" dan dalam kasus lain Anda tidak: karena datanya jelek atau tidak. Ketika Anda memiliki data yang baik, Anda tidak perlu banyak statistik di luar kesalahan standar.

UPDATE2: @ PatrickS.Forscher membuat pernyataan menarik dalam komentar:

Juga benar bahwa teori-teori ilmu sosial "lebih lunak" (kurang formal) daripada teori fisika.

Saya harus tidak setuju. Dalam bidang Ekonomi dan Keuangan, teorinya tidak "lunak" sama sekali. Anda dapat secara acak mencari kertas di bidang ini dan mendapatkan sesuatu seperti ini:

masukkan deskripsi gambar di sini

dan seterusnya.

Ini dari Schervish, Mark J., Teddy Seidenfeld, dan Joseph B. Kadane. " Perpanjangan teori utilitas yang diharapkan dan beberapa batasan perbandingan berpasangan ." (2003). Apakah ini terlihat lembut bagi Anda?

Saya mengulangi poin saya di sini bahwa ketika teori Anda tidak bagus dan datanya jelek, Anda dapat menggunakan matematika yang paling sulit dan masih mendapatkan hasil yang jelek.

Dalam makalah ini mereka berbicara tentang utilitas, konsep seperti kebahagiaan dan kepuasan - benar-benar tidak dapat diamati. Seperti apa kegunaan memiliki rumah vs makan burger keju? Agaknya ada fungsi ini, di mana Anda bisa pasang "eat cheeseburger" atau "tinggal di rumah sendiri" dan fungsi tersebut akan mengeluarkan jawabannya di beberapa unit. Separah kedengarannya inilah yang menjadi dasar dibangunnya ecnomics modern, terima kasih kepada von Neuman.

— Aksakal
sumber

1

+1 Tidak yakin mengapa ini dibatalkan dua kali. Anda pada dasarnya menunjukkan bahwa penemuan dalam fisika dapat diuji dengan eksperimen, dan sebagian besar "penemuan" dalam ilmu sosial tidak bisa, yang tidak menghentikan mereka mendapatkan banyak perhatian media.

— Flounderer

6

Sebagian besar eksperimen pada akhirnya melibatkan semacam uji statistik dan masih menyisakan ruang untuk kesalahan dan perilaku bertipe 1 seperti memancing nilai-p. Saya pikir bahwa memilih ilmu-ilmu sosial sedikit melenceng.

— Kenji

4

Untuk sedikit mengubah apa yang dikatakan @GuilhermeKenjiChihaya, standar deviasi dari kesalahan mungkin dapat digunakan untuk melakukan tes statistik dalam eksperimen fisik. Agaknya uji statistik ini akan sampai pada kesimpulan yang sama yang penulis capai setelah melihat grafik dengan bar kesalahannya. Perbedaan utama dengan makalah fisika, kemudian, adalah jumlah kebisingan yang mendasari dalam percobaan, perbedaan yang tidak tergantung pada apakah logika yang mendasari penggunaan nilai-p adalah valid atau tidak valid.

— Patrick S. Forscher

3

Juga, @Flounderer, Anda tampaknya menggunakan istilah "eksperimen" dalam arti yang saya tidak terbiasa, karena ilmuwan sosial melakukan "eksperimen" (yaitu, pengacakan unit ke kondisi) sepanjang waktu. Memang benar bahwa eksperimen ilmu sosial sulit dikendalikan ke tingkat yang sama seperti yang ada dalam eksperimen fisika. Juga benar bahwa teori-teori ilmu sosial "lebih lunak" (kurang formal) daripada teori fisika. Tetapi faktor-faktor ini tidak tergantung pada apakah penelitian yang diberikan adalah "eksperimen".

— Patrick S. Forscher

2

@Aksakal sementara saya tidak setuju dengan -1, saya juga sebagian tidak setuju dengan kritik Anda tentang ilmu sosial. Contoh makalah ekonomi Anda juga bukan contoh yang baik tentang apa yang dilakukan para ilmuwan sosial setiap hari karena teori utilitas adalah konsep ekonomi / matematika / statistik yang ketat (sehingga sudah ada matematika di dalamnya) dan tidak menyerupai misalnya teori psikologi yang diuji secara eksperimental ... Namun saya setuju bahwa sering kali statistik digunakan secara longgar di banyak bidang penelitian, termasuk ilmu sosial.

— Tim