Memilih tes statistik berdasarkan hasil yang lain (mis. Normalitas)


13

Jadi saya telah mendengarnya mengatakan bahwa itu bukan ide yang baik untuk memilih satu uji statistik berdasarkan hasil yang lain. Ini tampaknya aneh bagiku. Sebagai contoh, orang sering memilih untuk menggunakan tes non parametrik ketika beberapa tes lain menunjukkan bahwa residu tidak terdistribusi secara normal. Pendekatan ini tampaknya diterima secara luas tetapi tampaknya tidak setuju dengan kalimat pertama dalam paragraf ini. Saya hanya berharap mendapat klarifikasi tentang masalah ini.


3
Hanya karena residu bukan Gaussian, bukan berarti Anda memerlukan tes non-parametrik. Anda biasanya dapat membedakan jenis model yang akan digunakan (ya model, bukan tes) dari sifat data (hitung, 0 1 data, kontinu, hubungan mean-variance, hubungan linear atau non-linear, dll) dan paskan model sesuai untuk memenuhi fitur data yang sebelumnya telah memutuskan apa hipotesis yang akan diuji. Setelah Anda merasa cocok memenuhi asumsi model yang dipasang maka Anda dapat mengevaluasi nilai-p dan statistik lainnya,
Pasang kembali Monica - G. Simpson

Jawaban:


14

Mengingat bahwa adalah probabilitas untuk mengamati data yang ekstrem ini atau yang lebih ekstrem jika H 0 benar, lalu apa interpretasi p di mana p diperoleh melalui proses di mana ada keputusan kontingen yang dibuat dalam pemilihan tes yang diproduksi p itu ? Jawabannya tidak diketahui (atau paling tidak hampir tidak diketahui). Dengan membuat keputusan untuk menjalankan tes atau tidak atas dasar beberapa proses probabilistik lain Anda telah membuat interpretasi hasil Anda menjadi lebih berbelit-belit. halpH0ppppnilai-nilai dapat ditafsirkan secara maksimal ketika ukuran sampel dan rencana analisis sepenuhnya dipilih sebelumnya. Dalam situasi lain, interpretasi menjadi sulit, itu sebabnya 'bukan ide yang baik'. Yang sedang berkata, itu adalah praktik yang diterima secara luas ... setelah semua, mengapa repot-repot menjalankan tes jika Anda mengetahui bahwa tes yang Anda rencanakan untuk dijalankan tidak valid? Jawaban atas pertanyaan itu jauh lebih tidak pasti. Ini semua bermuara pada fakta sederhana bahwa pengujian signifikansi hipotesis nol (kasus penggunaan utama ) memiliki beberapa masalah yang sulit untuk diatasi.hal


Saya tidak dapat menemukan artikel yang membahas fenomena ini di Google, mungkin karena saya menggunakan istilah pencarian yang salah. Apakah ada yang bisa mengarahkan saya ke arah artikel yang membahas masalah tes berdasarkan tes?
Rob Hall

1
@ Rhoball: Ini adalah contoh spesifik dari "Pentingnya masalah hipotetis untuk data imajiner". Lih Wagenmakers, 2007, hlm. 784. Pembuat Wagen secara khusus mengacu pada masalah transformasi pada kolom kedua yang menyatakan "untuk menghitung nilai ap, Anda perlu tahu apa yang akan Anda lakukan seandainya data berubah secara berbeda ... ini termasuk apa yang akan Anda lakukan jika data telah jelas didistribusikan secara tidak normal ..., nilai p hanya dapat dihitung setelah rencana pengambilan sampel diketahui sepenuhnya dan ditentukan sebelumnya ".
russellpierce

8

Sebagai contoh, orang sering memilih untuk menggunakan tes non parametrik ketika beberapa tes lain menunjukkan bahwa residu tidak terdistribusi secara normal. Pendekatan ini tampaknya diterima secara luas tetapi tampaknya tidak setuju dengan kalimat pertama dalam paragraf ini. Saya hanya berharap mendapat klarifikasi tentang masalah ini.

Ya, banyak orang melakukan hal semacam ini, dan mengubah tes kedua mereka menjadi yang dapat mengatasi heteroskedastisitas ketika mereka menolak persamaan varian, dan seterusnya.

Hanya karena sesuatu itu biasa, bukan berarti itu bijak.

Memang, di beberapa tempat (saya tidak akan menyebutkan disiplin yang paling buruk) banyak pengujian hipotesis formal ini bergantung pada pengujian hipotesis formal lainnya yang sebenarnya diajarkan.

Masalah dengan melakukannya adalah prosedur Anda tidak memiliki sifat nominalnya, kadang-kadang bahkan tidak menutup. (Di sisi lain, mengasumsikan hal-hal seperti itu tanpa pertimbangan sama sekali untuk kemungkinan pelanggaran ekstrem bisa jadi lebih buruk.)

Beberapa makalah menyarankan bahwa untuk kasus heteroskedastik, Anda lebih baik hanya bertindak seolah-olah varians tidak sama daripada menguji untuk itu dan hanya melakukan sesuatu tentang hal itu pada penolakan.

Dalam kasus normalitas kurang jelas. Paling tidak dalam sampel besar, dalam banyak kasus, normalitas tidak terlalu penting (tetapi ironisnya, dengan sampel besar, uji normalitas Anda lebih cenderung ditolak), selama non-normalitas tidak terlalu liar. Satu pengecualian adalah untuk interval prediksi, di mana Anda benar-benar membutuhkan asumsi distribusi Anda agar mendekati kanan.

Sebagian, satu masalah adalah bahwa tes hipotesis menjawab pertanyaan yang berbeda dari yang perlu dijawab. Anda tidak benar-benar perlu tahu 'apakah datanya benar-benar normal' (hampir selalu, itu tidak sepenuhnya normal a priori ). Pertanyaannya agak 'seberapa parah tingkat non-normalitas akan mempengaruhi kesimpulan saya'.

Masalah kedua biasanya hanya tentang ukuran sampel independen atau benar-benar menjadi lebih baik dengan meningkatnya ukuran sampel - namun tes hipotesis hampir selalu menolak pada ukuran sampel besar.

Ada banyak situasi di mana ada prosedur yang kuat atau bahkan distribusi gratis yang sangat dekat dengan sepenuhnya efisien bahkan pada normal (dan berpotensi jauh lebih efisien pada beberapa keberangkatan yang cukup sederhana dari itu) - dalam banyak kasus tampaknya konyol untuk tidak mengambil pendekatan bijaksana yang sama.


Bagus (+1) Bisakah Anda memberikan referensi ke artikel yang Anda sebutkan tentang kasus heteroskedastik?
gui11aume

2
Saya tidak ingin menunjukkan apa pun, tapi saya bertemu mereka online setiap saat, jadi tidak sulit untuk mencari tahu mana yang cenderung menekankan itu (mereka cenderung sama dengan yang secara historis terlalu menekankan pengujian hipotesis). Memang disiplin dari orang-orang yang mengajukan pertanyaan di sini di mana poster berpikir mereka harus menggunakan tes formal biasanya akan sama. Bukan hanya satu atau dua disiplin - saya melihat banyak - tetapi beberapa tampaknya melakukannya sangat sering. Agar hal itu cukup umum, saya hanya dapat berasumsi bahwa ada teks-teks yang sangat terkenal di bidang-bidang yang bersikeras itu.
Glen_b -Reinstate Monica

1
@ gui11aume Berikut ini adalah referensi ... itu bukan salah satu yang saya cari, tapi itu membuat saya mengerti (pengujian awal dapat membuat segalanya lebih buruk).
Glen_b -Reinstate Monica

2
Andrew Gelman memiliki pos terkait baru-baru ini tentang heterogenitas antara kelompok yang terkait (setidaknya tentang mengapa proses seperti itu bermasalah).
Andy W

1
Sebuah pertanyaan yang terkait dengan diskusi ini sejak beberapa waktu yang lalu: stats.stackexchange.com/questions/305/…
russellpierce

8

Masalah utama telah dijelaskan dengan baik oleh orang lain, tetapi bingung dengan yang mendasarinya atau terkait

  1. Terlalu hormat untuk nilai-P, paling banyak satu jenis bukti dalam statistik.

  2. Keengganan untuk melihat bahwa laporan statistik tidak dapat dihindari didasarkan pada kombinasi pilihan, beberapa berdasarkan bukti kuat, yang lain didasarkan pada campuran analisis sebelumnya, intuisi, dugaan, penilaian, teori, dan sebagainya.

Misalkan saya dan teman saya yang berhati-hati, Test Everything, keduanya memilih transformasi log untuk respons, tetapi saya langsung mengambil kesimpulan itu berdasarkan campuran dari penalaran fisik dan pengalaman sebelumnya dengan data, sedangkan Test Everything memilih skala log berdasarkan pengujian dan estimasi Box-Cox dari suatu parameter.

Sekarang kami berdua menggunakan regresi berganda yang sama. Apakah nilai-P kami memiliki interpretasi yang berbeda? Pada satu interpretasi, nilai-P Test Semuanya tergantung pada kesimpulan sebelumnya. Saya menggunakan inferensi juga, tetapi sebagian besar bersifat informal, berdasarkan serangkaian panjang grafik sebelumnya, perhitungan, dll dalam proyek sebelumnya. Bagaimana cara melaporkannya?

Secara alami, hasil regresi sama persis untuk Tes Semuanya dan saya sendiri.

Campuran yang sama dari saran yang masuk akal dan filosofi yang meragukan berlaku untuk pilihan prediktor dan bentuk fungsional. Ekonom, misalnya, banyak diajarkan untuk menghormati diskusi teoretis sebelumnya dan mewaspadai pengintaian data, dengan alasan yang bagus dalam setiap kasus. Tetapi dalam kasus terlemah teori yang bersangkutan hanyalah saran sementara yang dibuat sebelumnya dalam literatur, sangat mungkin setelah beberapa analisis empiris. Tetapi referensi literatur menguduskan, sementara belajar dari data di tangan adalah tersangka, bagi banyak penulis.


Sangat jelas (+1).
gui11aume

1
+1. Namun, ada perbedaan jangka panjang dalam kinerja analisis Anda vs analisis Pengujian Semuanya. Setiap kali analisis ini dijalankan, Anda akan menggunakan strategi yang sama, berdasarkan apa yang ditulis dalam literatur (yang tidak berfluktuasi dari eksperimen ke eksperimen). OTOH, data adalah sampel acak, & output dari pengujian Box-Cox akan berfluktuasi dengan studi demi studi.
gung - Reinstate Monica

Itu lucu, tapi pengalaman saya juga berubah, dalam jangka panjang.
Nick Cox
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.