Apakah ada makalah yang sangat dikutip tentang statistik yang sebenarnya menyebarkan praktik statistik yang buruk?


13

Jelas ada banyak cara untuk menyalahgunakan metode statistik. Apakah Anda mengetahui contoh praktik statistik buruk yang pertama kali dipublikasikan sebagai saran eksplisit (misalnya, "Anda harus menggunakan metode ini untuk ..."), dalam jurnal akademis terkemuka yang kemudian dikutip berulang kali?

Contohnya mungkin 10 peristiwa per aturan prediktor yang sering digunakan untuk model regresi logistik atau Cox PH ( LINK ).

Untuk lebih jelasnya, saya tidak bermaksud makalah yang sangat dikutip yang kebetulan menggunakan metode statistik yang buruk - sayangnya, ini adalah hal biasa.


3
Apakah Anda mencari publikasi asli dalam jurnal statistik ? Tidak ada akhir untuk praktik buruk statistik yang disebarkan dalam jurnal non-statistik (dan ketika pengulas menunjukkan bahwa ada sesuatu yang salah, penulis biasanya akan berdebat untuk membiarkannya di "untuk mengikat makalah kami ke dalam penelitian sebelumnya"). Mungkin sulit untuk mengetahui publikasi asli untuk hal-hal seperti mendiskreditkan hasil yang berkelanjutan, karena ide-ide buruk muncul secara mandiri.
Stephan Kolassa

Maksud saya dinyatakan sebagai saran eksplisit, misalnya "lakukan ini ...". Saya telah mengedit pertanyaan untuk diklarifikasi. Terima kasih.
DL Dahly

2
Anda tidak sering melihat perintah "lakukan ini" secara eksplisit dalam jurnal statistik. Anda memang melihatnya di beberapa area aplikasi, terutama ketika ditulis oleh orang-orang yang mengkritik beberapa praktik yang bermasalah (di mana mereka kadang-kadang mengatakan 'jangan lakukan A, lakukan B' - tetapi mungkin memberikan saran yang cukup meragukan sendiri. Apakah itu hal-hal seperti apa yang Anda kejar? Saya tidak membaca jurnal di bidang lain sebanyak itu, tetapi saya telah melihat beberapa makalah seperti itu di masa lalu. (Walaupun saya bisa mengingat di mana tepatnya, saya tidak bisa mengatakan saya tahu apakah ada di antara mereka yang sangat dikutip) ...
ctd

1
ctd ... Meskipun bukan sebuah makalah, saya dapat menunjukkan beberapa saran yang meragukan dalam buku teks yang tampaknya populer di kalangan orang yang belajar melakukan statistik untuk penelitian di bidang penerapannya.
Glen_b -Reinstate Monica

2
Tolong jelaskan apa yang Anda maksud dengan "kepalsuan statistik". Ini bukan konsep standar dalam statistik, yang lebih berkaitan dengan merekomendasikan prosedur yang lebih atau kurang sesuai untuk tugas yang diberikan. Ya, beberapa prosedur diketahui lebih buruk daripada yang lain, tetapi sulit untuk menganggap penggunaannya sebagai "kepalsuan." Dengan "kepalsuan", apakah yang Anda maksudkan adalah semacam interpretasi yang menyesatkan, atau saran untuk menggunakan prosedur yang tidak dapat diterima, atau saran berdasarkan kesalahan matematika, atau ... apa?
Whuber

Jawaban:


4

RA Fisher, "Pengaturan Eksperimen Lapangan". Jurnal Kementerian Pertanian Inggris Raya. 33: 503–513. 1926.

α=0,05

... mudah untuk menarik garis pada tingkat di mana kita dapat mengatakan: "Entah ada sesuatu dalam perawatan, atau kebetulan telah terjadi seperti tidak terjadi lebih dari satu kali dalam dua puluh percobaan."

... Jika satu dari dua puluh peluang tidak kelihatan cukup tinggi, kita dapat, jika kita lebih suka, menarik garis pada satu dari lima puluh (titik 2 persen), atau satu dalam seratus (titik 1 persen). Secara pribadi, penulis lebih suka menetapkan standar signifikansi rendah pada titik 5 persen , dan mengabaikan sepenuhnya semua hasil yang gagal mencapai level ini. Sebuah fakta ilmiah harus dianggap sebagai eksperimen hanya jika eksperimen yang dirancang dengan baik jarang gagal memberikan tingkat signifikansi ini.


3

Dalam ekonometrik, Anda tentu dapat menemukan beberapa contoh metode yang diperbanyak oleh ahli ekonometrik terkenal (dan sangat terampil) yang diterbitkan dalam jurnal yang layak. Saya tidak mengetahui makalah teoretis tetapi Lalonde (1986) cukup terkenal karena menunjukkan bahwa metode yang saat ini digunakan tidak baik: Ia membandingkan metode eksperimen dataset yang sama dengan metode observasi dan menemukan perbedaan besar dalam bidang pengobatan (sebab-akibat) evaluasi . Ada literatur besar yang menyebarkan metode non-eksperimental yang telah digunakan saat itu dan yang sering masih digunakan sampai sekarang.

Selanjutnya, ada (dan saya pikir masih ada) perdebatan tentang apakah pencocokan skor kecenderungan adalah solusi yang mungkin (lihat misalnya di sini ).

Selain itu, ada banyak kontroversi tentang estimasi variabel instrumental . Kesimpulan dari makalah asli yang sangat dikutip telah diperdebatkan. Ini mungkin contoh terdekat dari pertanyaan Anda. Bound dan Jaeger (1996, dan makalah-makalah berikutnya) telah mempertanyakan temuan makalah terkenal dari Angrist dan Krueger (1991; 2700 kutipan menurut Google Cendekia) yang pada dasarnya menetapkan metode variabel instrumen dalam literatur ekonometrik yang diterapkan.

Ada juga perdebatan besar tentang kesesuaian yang disebut perkiraan bentuk tereduksi untuk menetapkan hubungan sebab akibat, lihat misalnya Imbens (2010) .

Topik besar lainnya tentu saja tentang kesalahan standar. Seseorang mungkin dapat menemukan kertas yang terkenal menyebarkan nilai-p. Dalam ekonometrik, kesalahan standar untuk deret waktu yang lebih lama sering salah perhitungan (dalam desain perbedaan-dalam-perbedaan ) karena metode yang ada salah, lihat di sini . Namun saya tidak mengetahui makalah yang sangat dikutip asli yang mengusulkan metode ini dalam konteks itu, tetapi saya yakin Anda akan menemukan beberapa contoh di bidang ini.

Sumber:

Angrist, Joshua D., dan Alan B. Keueger. "Apakah kehadiran di sekolah wajib memengaruhi sekolah dan penghasilan?" The Quarterly Journal of Economics 106, no. 4 (1991): 979-1014.

Bertrand, Marianne, Esther Duflo, dan Sendhil Mullainathan. "Seberapa besar kita harus mempercayai perkiraan perbedaan-dalam-perbedaan?" Jurnal Ekonomi Triwulanan 119, no. 1 (2004): 249-275.

Bound, John, dan David A. Jaeger. Tentang Validitas Musim Kelahiran sebagai Instrumen dalam Persamaan Upah: Komentar pada Angrist & Krueger "Apakah Kehadiran Sekolah Wajib Mempengaruhi Scho. No. w5835. Biro Riset Ekonomi Nasional, 1996.

Dehejia, Rajeev. "Pencocokan skor kecenderungan praktis: balasan untuk Smith dan Todd." Jurnal ekonometrika 125, no. 1-2 (2005): 355-364.

Imbens, Guido W. "Lebih baik LATE daripada tidak sama sekali: Beberapa komentar tentang Deaton (2009) dan Heckman dan Urzua (2009)." Jurnal literatur Ekonomi 48, no. 2 (2010): 399-423.

LaLonde, Robert J. "Mengevaluasi evaluasi ekonometrik dari program pelatihan dengan data eksperimental." Ulasan ekonomi Amerika (1986): 604-620. *


1

Saya mencoba (meskipun tidak terlalu kuat):

Sangat berguna [Cameron, AC, & Miller, DL (2015). Panduan praktisi untuk inferensi cluster-robust. Jurnal Sumber Daya Manusia, 50 (2), 317-372.] // sudah tahun 1900 kutipan sarjana Google // memberikan saran mengenai tingkat pengelompokan kesalahan standar yang sesuai:

"Konsensus adalah untuk bersikap konservatif dan menghindari bias dan untuk menggunakan klaster yang lebih besar dan lebih agregat bila memungkinkan, hingga dan termasuk titik di mana ada kekhawatiran tentang memiliki terlalu sedikit kluster."

Namun, [Abadie, A., Athey, S., Imbens, GW, & Wooldridge, J. (2017). Kapan Anda harus menyesuaikan kesalahan standar untuk pengelompokan? (No. w24003). Biro Riset Ekonomi Nasional.] Menunjukkan bahwa "sebenarnya ada kerugian dalam pengelompokan pada tingkat yang terlalu agregat". Silakan lihat halaman 1 nanti: https://economics.mit.edu/files/13927

Mungkin Anda juga bisa membuat kasus yang lebih keras mulai dari dua kesalahpahaman yang disorot oleh Abadie et al (2017).

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.