Kegunaan ukuran efek relatif terhadap nilai-p (serta metrik inferensi statistik lainnya) secara rutin diperdebatkan di bidang saya — psikologi — dan perdebatan saat ini “lebih panas”, dari biasanya dengan alasan yang relevan dengan pertanyaan Anda. Dan meskipun saya yakin psikologi tidak harus menjadi bidang ilmiah yang paling canggih secara statistik, psikologi siap membahas, mempelajari — dan terkadang, menunjukkan — keterbatasan berbagai pendekatan untuk inferensi statistik, atau setidaknya bagaimana mereka dibatasi oleh penggunaan manusia. Jawaban yang sudah diposting mencakup wawasan yang baik, tetapi jika Anda tertarik pada daftar yang lebih luas (dan referensi) alasan untuk dan menentang masing-masing, lihat di bawah.
Mengapa nilai p tidak diinginkan?
- Seperti dicatat oleh Darren James (dan simulasi menunjukkan), nilai-p sebagian besar bergantung pada jumlah pengamatan yang Anda miliki (lihat Kirk, 2003)
- Seperti yang dicatat oleh Jon, nilai-p menunjukkan probabilitas bersyarat untuk mengamati data sebagai ekstrem atau lebih ekstrem mengingat hipotesis nol itu benar. Karena sebagian besar peneliti lebih suka memiliki probabilitas hipotesis penelitian, dan / atau hipotesis nol, nilai-p tidak berbicara dengan probabilitas di mana peneliti paling tertarik (yaitu, hipotesis nol atau penelitian, lihat Dienes, 2008)
- Banyak yang menggunakan nilai-p tidak mengerti apa artinya / tidak berarti (Schmidt & Hunter, 1997). Referensi Michael Lew untuk makalah Gelman dan Stern (2006) lebih jauh menggarisbawahi kesalahpahaman peneliti tentang apa yang dapat (atau tidak bisa) ditafsirkan oleh p-values. Dan seperti yangdiperlihatkan olehsebuah kisah yang relatif baru tentang FiveThirtyEight , ini terus menjadi masalahnya.
- nilai-p tidak hebat dalam memprediksi nilai-p berikutnya (Cumming, 2008)
- nilai-p sering salah dilaporkan (lebih sering menggembungkan signifikansi), dan kesalahan pelaporan dikaitkan dengan keengganan untuk berbagi data (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
- nilai-p dapat (dan secara historis, telah) secara aktif didistorsi melalui fleksibilitas analitik, dan karenanya tidak dapat dipercaya (John et al., 2012; Simmons et al., 2011)
- nilai-p secara signifikan tidak proporsional, karena sistem akademik muncul untuk menghargai para ilmuwan untuk signifikansi statistik atas akurasi ilmiah (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)
Mengapa ukuran efek diinginkan?
Perhatikan bahwa saya menafsirkan pertanyaan Anda sebagai merujuk khusus untuk ukuran efek standar, seperti yang Anda katakan mereka memungkinkan peneliti untuk mengubah temuan mereka "menjadi metrik UMUM".
- Seperti yang ditunjukkan oleh Jon dan Darren James, ukuran efek menunjukkan besarnya efek, terlepas dari jumlah pengamatan (American Psychological Association 2010; Cumming, 2014) sebagai lawan untuk membuat keputusan dikotomis apakah ada efek ada atau tidak ada.
- Ukuran efek sangat berharga karena memungkinkan meta-analisis, dan meta-analisis mendorong pengetahuan kumulatif (Borenstein et al., 2009; Chan & Arvey, 2012)
- Ukuran efek membantu memfasilitasi perencanaan ukuran sampel melalui analisis kekuatan apriori , dan karenanya alokasi sumber daya yang efisien dalam penelitian (Cohen, 1992)
Mengapa nilai p diinginkan?
Meskipun lebih jarang dianut, nilai-p memiliki sejumlah keistimewaan. Beberapa dikenal dan berumur panjang, sedangkan yang lain relatif baru.
Nilai-P memberikan indeks yang nyaman dan akrab tentang kekuatan bukti terhadap model statistik hipotesis nol.
Ketika dihitung dengan benar, nilai-p menyediakan cara untuk membuat keputusan dikotomis (yang kadang-kadang diperlukan), dan nilai-p membantu menjaga tingkat kesalahan positif-palsu jangka panjang pada tingkat yang dapat diterima (Dienes, 2008; Sakaluk, 2016) [Ini tidak sepenuhnya benar untuk mengatakan bahwa nilai-P diperlukan untuk keputusan dikotomis. Mereka memang banyak digunakan seperti itu, tetapi Neyman & Pearson menggunakan 'wilayah kritis' dalam ruang statistik uji untuk tujuan itu. Lihat pertanyaan ini dan jawabannya]
- nilai-p dapat digunakan untuk memfasilitasi perencanaan ukuran sampel yang efisien secara berkelanjutan (bukan hanya analisis daya satu kali) (Lakens, 2014)
- nilai-p dapat digunakan untuk memfasilitasi meta-analisis dan mengevaluasi nilai bukti (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Lihat blogpost ini untuk diskusi yang dapat diakses tentang bagaimana distribusi nilai-p dapat digunakan dengan cara ini, serta posting CV ini untuk diskusi terkait.
- nilai-p dapat digunakan secara forensik untuk menentukan apakah praktik penelitian yang dipertanyakan mungkin telah digunakan, dan bagaimana hasil yang dapat ditiru mungkin (Schimmack, 2014; juga lihat aplikasi Schönbrodt, 2015)
Mengapa ukuran efek tidak diinginkan (atau dibesar-besarkan)?
Mungkin posisi kontra-intuitif bagi banyak orang; mengapa pelaporan ukuran efek standar tidak diinginkan, atau paling tidak, berlebihan?
- Dalam beberapa kasus, ukuran efek terstandarisasi tidak sepenuhnya sesuai dengan yang seharusnya (misalnya, Greenland, Schlesselman, & Criqui, 1986). Baguely (2009), khususnya, memiliki deskripsi yang bagus tentang beberapa alasan mengapa ukuran efek mentah / tidak standar mungkin lebih diinginkan.
- Terlepas dari kegunaannya untuk analisis kekuatan apriori, ukuran efek tidak benar-benar digunakan secara andal untuk memfasilitasi perencanaan ukuran sampel yang efisien (Maxwell, 2004)
- Bahkan ketika ukuran efek digunakan dalam perencanaan ukuran sampel, karena mereka meningkat melalui bias publikasi (Rosenthal, 1979) ukuran efek yang dipublikasikan adalah utilitas yang dipertanyakan untuk perencanaan ukuran sampel yang andal (Simonsohn, 2013)
- Perkiraan ukuran efek dapat — dan telah — salah perhitungan sistemik dalam perangkat lunak statistik (Levine & Hullet, 2002)
- Ukuran efek diekstraksi secara keliru (dan mungkin salah dilaporkan) yang merongrong kredibilitas meta-analisis (Gøtzsche et al., 2007)
- Terakhir, mengoreksi bias publikasi dalam ukuran efek tetap tidak efektif (lihat Carter et al., 2017), yang, jika Anda yakin ada bias publikasi, menjadikan meta-analisis kurang berdampak.
Ringkasan
Mengusung poin yang dibuat oleh Michael Lew, nilai p dan ukuran efek hanyalah dua potong bukti statistik; ada orang lain yang layak dipertimbangkan juga. Tetapi seperti nilai-p dan ukuran efek, metrik lain dari nilai bukti telah berbagi dan masalah unik juga. Para peneliti umumnya salah menerapkan dan menafsirkan interval kepercayaan (misalnya, Hoekstra et al., 2014; Morey et al., 2016), misalnya, dan hasil analisis Bayesian dapat terdistorsi oleh para peneliti, sama seperti ketika menggunakan nilai-p (misalnya, Simonsohn , 2014).
Semua metrik bukti telah menang dan semua harus memiliki hadiah.
Referensi
Asosiasi Psikologis Amerika. (2010). Manual publikasi dari American Psychological Association (edisi ke-6). Washington, DC: Asosiasi Psikologis Amerika.
Baguley, T. (2009). Ukuran efek terstandarisasi atau sederhana: Apa yang harus dilaporkan? British Journal of Psychology, 100 (3), 603-617.
Bakker, M., & Wicherts, JM (2011). Pelaporan (salah) hasil statistik dalam jurnal psikologi. Metode penelitian perilaku, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Pengantar meta-analisis. Sussex Barat, Inggris: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 Agustus). Mengoreksi bias dalam psikologi: Perbandingan metode meta-analitik. Diperoleh dari osf.io/preprints/psyarxiv/9h3nu
Chan, ME, & Arvey, RD (2012). Analisis meta dan pengembangan pengetahuan. Perspektif Ilmu Psikologi, 7 (1), 79-92.
Cohen, J. (1992). Primer kekuatan. Buletin Psikologis, 112 (1), 155-159.
Cumming, G. (2008). Replikasi dan interval p: nilai p memperkirakan masa depan hanya samar-samar, tetapi interval kepercayaan jauh lebih baik. Perspektif tentang Ilmu Psikologi, 3, 286- 300.
Dienes, D. (2008). Memahami psikologi sebagai ilmu: Pengantar inferensi ilmiah dan statistik. New York, NY: Palgrave MacMillan.
Fanelli, D. (2010). Hasil "Positif" meningkatkan hierarki sains. PloS satu, 5 (4), e10068.
Gelman, A., & Stern, H. (2006). Perbedaan antara "signifikan" dan "tidak signifikan" itu sendiri tidak signifikan secara statistik. Ahli Statistik Amerika, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007). Kesalahan ekstraksi data dalam meta-analisis yang menggunakan perbedaan rata-rata terstandarisasi. JAMA, 298 (4), 430-437.
Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). Kekeliruan menggunakan koefisien regresi standar dan korelasi sebagai ukuran efek. American Journal of Epidemiology, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Kesalahan interpretasi interval kepercayaan. Buletin & ulasan psikis, 21 (5), 1157-1164.
John, LK, Loewenstein, G., & Prelec, D. (2012). Mengukur prevalensi praktik penelitian yang dipertanyakan dengan insentif untuk pengungkapan kebenaran. PsychologicalSscience, 23 (5), 524-532.
Kirk, RE (2003). Pentingnya efek efek. Dalam SF Davis (Ed.), Buku Pegangan metode penelitian dalam psikologi eksperimental (hal. 83-105). Malden, MA: Blackwell.
Lakens, D. (2014). Melakukan studi berdaya tinggi secara efisien dengan analisis berurutan. European Journal of Social Psychology, 44 (7), 701-710.
Levine, TR, & Hullett, CR (2002). Eta kuadrat, eta parsial kuadrat, dan kesalahan pelaporan ukuran efek dalam penelitian komunikasi. Penelitian Komunikasi Manusia, 28 (4), 612-625.
Maxwell, SE (2004). Kegigihan studi yang kurang kuat dalam penelitian psikologis: penyebab, konsekuensi, dan perbaikan. Metode psikologis, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Pembuat Wagen, EJ (2016). Kesalahan menempatkan kepercayaan dalam interval kepercayaan. Buletin & ulasan psikis, 23 (1), 103-123.
Nosek, BA, Spies, JR, & Motyl, M. (2012). Utopia ilmiah: II. Restrukturisasi insentif dan praktik untuk mempromosikan kebenaran daripada publikasi. Perspektif Ilmu Psikologi, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016). Prevalensi kesalahan pelaporan statistik dalam psikologi (1985-2013). Metode penelitian perilaku, 48 (4), 1205-1226.
Rosenthal, R. (1979). Masalah laci file dan toleransi untuk hasil nol. Buletin Psikologis, 86 (3), 638-641.
Sakaluk, JK (2016). Menjelajahi kecil, mengkonfirmasikan besar: Sistem alternatif untuk statistik baru untuk memajukan penelitian psikologis kumulatif dan dapat ditiru. Jurnal Psikologi Sosial Eksperimental, 66, 47-54.
Schimmack, U. (2014). Mengukur Integritas Penelitian Statistik: Indeks-Replikasi. Diperoleh dari http://www.r-index.org
Schmidt, FL, & Hunter, JE (1997). Delapan keberatan umum tetapi salah untuk penghentian pengujian signifikansi dalam analisis data penelitian. Dalam LL Harlow, SA Mulaik, & JH Steiger (Eds.), Bagaimana jika tidak ada tes signifikansi? (hlm. 37-64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-checker: Satu-untuk-semua analisa nilai-p. Diperoleh dari http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). Psikologi positif palsu: Fleksibilitas yang tidak diungkapkan dalam pengumpulan dan analisis data memungkinkan penyajian yang penting. Ilmu psikologi, 22 (11), 1359-1366.
Simonsohn, U. (2013). Kebodohan replikasi powering berdasarkan ukuran efek yang diamati. Diperoleh dari http://datacolada.org/4
Simonsohn, U. (2014). Peretasan posterior. Diperoleh dari http://datacolada.org/13 .
Simonsohn, U., Nelson, LD, & Simmons, JP (2014). P-curve: Kunci untuk file-laci. Jurnal Psikologi Eksperimental: Umum, 143 (2), 534-547.
Simonsohn, U., Nelson, LD, & Simmons, JP (2014). Kurva P dan ukuran efek: Memperbaiki bias publikasi hanya menggunakan hasil yang signifikan. Perspektif tentang Ilmu Psikologi, 9 (6), 666-681.
Wicherts, JM, Bakker, M., & Molenaar, D. (2011). Kesediaan untuk berbagi data penelitian terkait dengan kekuatan bukti dan kualitas pelaporan hasil statistik. PloS satu, 6 (11), e26828.