Dalam inferensi frequentist , kami ingin menentukan seberapa sering sesuatu akan terjadi jika proses stokastik tertentu berulang kali terwujud. Itu adalah titik awal untuk teori nilai-p, interval kepercayaan, dan sejenisnya. Namun, dalam banyak proyek terapan, proses "diberikan" tidak benar-benar diberikan, dan ahli statistik harus melakukan setidaknya beberapa pekerjaan menentukan dan memodelkannya. Ini bisa menjadi masalah yang sangat ambigu, seperti dalam kasus ini.
Memodelkan Proses Pembuatan Data
Berdasarkan informasi yang diberikan, kandidat terbaik kami tampaknya sebagai berikut:
- Jika 100V meter berbunyi 100V, insinyur mengukur kembali dengan 1000V meter jika itu operasional. Kalau tidak, ia hanya menandai 100V dan melanjutkan.
Tapi bukankah ini sedikit tidak adil bagi insinyur kami? Dengan asumsi dia adalah seorang insinyur dan bukan hanya seorang teknisi, dia mungkin mengerti mengapa dia perlu mengukur kembali ketika meter pertama berbunyi 100V; itu karena meteran jenuh pada batas atas kisarannya, karenanya tidak lagi dapat diandalkan. Jadi mungkin yang akan dilakukan oleh insinyur itu adalah
- Jika 100V meter berbunyi 100, insinyur mengukur kembali dengan 1000V meter jika itu operasional. Kalau tidak, ia hanya menandai 100V, menambahkan tanda plus untuk menunjukkan pengukuran jenuh, dan melanjutkan.
Kedua proses ini konsisten dengan data yang kita miliki, tetapi mereka adalah proses yang berbeda, dan mereka menghasilkan interval kepercayaan yang berbeda. Proses 2 adalah yang kita inginkan sebagai ahli statistik. Jika voltase sering jauh di atas 100V, Proses 1 memiliki mode kegagalan katastropik yang berpotensi di mana pengukuran kadang-kadang sangat diremehkan, karena data disensor tanpa kita sadari. Interval kepercayaan akan melebar sesuai. Kita bisa mengurangi ini dengan meminta insinyur untuk memberi tahu kami ketika meter 1000V-nya tidak berfungsi, tetapi ini benar-benar hanya cara lain untuk memastikan bahwa data kami sesuai dengan Proses 2.
Jika kuda telah meninggalkan gudang dan kami tidak dapat menentukan kapan pengukuran dilakukan dan tidak disensor, kami dapat mencoba menyimpulkan dari data saat-saat ketika 1000V meter tidak berfungsi. Dengan memperkenalkan aturan inferensi ke dalam proses, kami secara efektif membuat Proses 1.5 baru yang berbeda dari 1 dan 2. Aturan inferensi kami kadang-kadang bekerja dan kadang-kadang tidak, sehingga interval kepercayaan dari Proses 1.5 akan berukuran sedang dibandingkan dengan Proses 1 dan 2.
Secara teori, tidak ada yang salah atau mencurigakan tentang suatu statistik tunggal yang memiliki tiga interval kepercayaan berbeda yang terkait dengan tiga proses stokastik yang representatif masuk akal. Dalam praktiknya, beberapa konsumen statistik menginginkan tiga interval kepercayaan yang berbeda. Mereka menginginkan satu, yang didasarkan pada apa yang sebenarnya akan terjadi, seandainya percobaan itu diulang berkali-kali. Jadi biasanya, ahli statistik yang diterapkan mempertimbangkan pengetahuan domain yang diperolehnya selama proyek, membuat tebakan yang dididik, dan menyajikan interval kepercayaan yang terkait dengan proses yang telah ia tebak. Atau dia bekerja dengan pelanggan untuk memformalkan proses, jadi tidak perlu menebak ke depan.
Cara Menanggapi Informasi Baru
Terlepas dari desakan ahli statistik dalam cerita tersebut, kesimpulan yang sering terjadi tidak mengharuskan kita mengulangi pengukuran ketika kita memperoleh informasi baru yang menunjukkan proses stokastik yang dihasilkan tidak sesuai dengan apa yang awalnya kita bayangkan. Namun, jika proses akan diulangi, kita perlu memastikan bahwa semua pengulangan konsisten dengan proses model yang diasumsikan oleh interval kepercayaan. Kita dapat melakukan ini dengan mengubah prosesnya atau dengan mengubah modelnya.
Jika kita mengubah proses, kita mungkin perlu membuang data masa lalu yang dikumpulkan secara tidak konsisten dengan proses itu. Tapi itu bukan masalah di sini, karena semua variasi proses yang kami pertimbangkan hanya berbeda ketika beberapa data di atas 100V, dan itu tidak pernah terjadi dalam kasus ini.
Apa pun yang kita lakukan, model dan kenyataan harus diselaraskan. Hanya dengan demikian tingkat kesalahan frequentist yang dijamin secara teoretis akan menjadi apa yang sebenarnya didapatkan pelanggan setelah kinerja proses yang berulang.
Alternatif Bayesian
Di sisi lain, jika yang benar-benar kita pedulikan adalah kisaran kemungkinan dari mean yang sebenarnya untuk sampel ini , kita harus menyingkirkan frekuensi sering sama sekali dan mencari orang-orang yang menjual jawaban untuk pertanyaan itu - orang Bayesia. Jika kita menempuh rute ini, semua tawar menawar kontra faktual menjadi tidak relevan; semua yang penting adalah prioritas dan kemungkinan. Sebagai imbalan atas penyederhanaan ini, kami kehilangan harapan untuk menjamin tingkat kesalahan di bawah kinerja berulang dari "percobaan".
Mengapa Repotnya?
Cerita ini dibangun agar terlihat seperti ahli statistik yang sering ribut tentang hal-hal konyol tanpa alasan. Jujur, siapa yang peduli dengan kontrafakta konyol ini? Jawabannya, tentu saja, adalah bahwa setiap orang harus peduli. Bidang ilmiah yang sangat penting saat ini menderita krisis replikasi serius , yang menunjukkan frekuensi penemuan palsu jauh lebih tinggi dari yang diharapkan dalam literatur ilmiah. Salah satu pendorong krisis ini, meskipun bukan satu-satunya dengan cara apa pun , adalah maraknya peretasan , yaitu ketika para peneliti bermain dengan banyak variasi model, mengendalikan variabel yang berbeda, hingga mereka mendapatkan signifikansi.
P-hacking telah difitnah secara luas di media ilmiah populer dan blogosphere, tetapi hanya sedikit yang benar-benar mengerti apa yang salah tentang p-hacking dan mengapa. Berlawanan dengan pendapat statistik populer, tidak ada yang salah dengan melihat data Anda sebelum, selama, dan setelah proses pemodelan. Apa yang salah adalah tidak melaporkan analisis eksplorasi dan bagaimana mereka mempengaruhi jalannya penelitian. Hanya dengan melihat proses lengkapnya kita dapat menentukan model stokastik apa yang mewakili proses itu dan analisis frequentist apa yang cocok untuk model itu, jika ada.
Mengklaim bahwa analisis kerap kali tertentu sesuai adalah klaim yang sangat serius. Membuat klaim itu menyiratkan bahwa Anda mengikat diri Anda pada disiplin proses stokastik yang telah Anda pilih, yang mencakup seluruh sistem kontrafaktual tentang apa yang akan Anda lakukan dalam situasi yang berbeda. Anda harus benar-benar menyesuaikan diri dengan sistem itu untuk jaminan yang sering berlaku untuk Anda. Sangat sedikit peneliti, terutama yang di bidang yang menekankan eksplorasi terbuka, sesuai dengan sistem, dan mereka tidak melaporkan penyimpangan mereka dengan cermat; itulah sebabnya kita sekarang memiliki krisis replikasi di tangan kita. (Beberapa peneliti terhormat berpendapat bahwa harapan ini tidak realistis, posisi yang saya simpati, tetapi itu melampaui lingkup tulisan ini.)
Mungkin tampak tidak adil bahwa kami mengkritik makalah yang diterbitkan berdasarkan klaim tentang apa yang akan mereka lakukan seandainya datanya berbeda. Tapi ini adalah sifat (agak paradoks) dari pemikiran yang sering terjadi: jika Anda menerima konsep nilai-p, Anda harus menghormati keabsahan pemodelan apa yang akan dilakukan di bawah data alternatif. (Gelman & Loken, 2013)
Dalam studi yang relatif sederhana dan / atau terstandarisasi, seperti uji klinis, kita dapat menyesuaikan hal-hal seperti perbandingan multipel atau berurutan dan mempertahankan tingkat kesalahan teoretis; dalam studi yang lebih kompleks dan eksploratif, model yang sering digunakan mungkin tidak dapat diterapkan karena peneliti mungkin tidak sepenuhnya sadar akan semua keputusan yang dibuat , apalagi merekam dan menyajikannya secara eksplisit. Dalam kasus seperti itu, peneliti harus (1) jujur dan terbuka tentang apa yang dilakukan; (2) menyajikan nilai-p baik dengan peringatan kuat, atau tidak sama sekali; (3) mempertimbangkan menyajikan garis bukti lain, seperti hipotesis yang masuk akal sebelumnya atau studi replikasi tindak lanjut.