Hasil mana yang harus dipilih ketika Kruskal-Wallis dan Mann-Whitney tampaknya memberikan hasil yang bertentangan?


10

Saya memiliki grup ini di mana nilainya adalah respons terhadap item Likert 10 poin:

g1 <- c(10,9,10,9,10,8,9)
g2 <- c(4,9,4,9,8,8,8)
g3 <- c(9,7,9,4,8,9,10)

Oleh karena itu saya menggunakan Kruskal-Wallis untuk menentukan perbedaan antara tanggapan dalam kelompok, dan hasilnya adalah:

Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091

Namun, jika saya menjalankan tes Mann-Whitney yang tepat antara kelompok g1 dan g2 saya mendapatkan:

Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test)
Z = 2.3939, p-value = 0.02797

yang mengembalikan perbedaan signifikan pada alpha = 0,05.

Tes mana yang harus saya pilih, dan mengapa?


1
Untuk beberapa tawa dan pada topik cut off hitam dan putih: mchankins.wordpress.com/2013/04/21/still-not-signific-2-2
Hank

Jawaban:


11

Saya setuju dengan jawaban Michael Chernick, tetapi berpikir bahwa itu bisa dibuat sedikit lebih kuat. Abaikan batas 0,05 dalam sebagian besar keadaan. Ini hanya relevan dengan pendekatan Neyman-Pearson yang sebagian besar tidak relevan dengan penggunaan statistik inferensial di banyak bidang ilmu pengetahuan.

Kedua tes menunjukkan bahwa data Anda berisi bukti moderat terhadap hipotesis nol. Pertimbangkan bukti itu sehubungan dengan apa pun yang Anda ketahui tentang sistem dan konsekuensi yang timbul dari keputusan (atau keraguan) tentang keadaan dunia nyata. Pertanyakan kasus yang beralasan dan lanjutkan dengan cara yang mengakui kemungkinan evaluasi ulang selanjutnya.

Saya menjelaskan lebih banyak dalam makalah ini: http://www.ncbi.nlm.nih.gov/pubmed/22394284

[Addendum ditambahkan Nov 2019: Saya memiliki referensi baru yang menjelaskan masalah ini secara lebih rinci https://arxiv.org/abs/1910.02042v1 ]


@MichaelChernick Saya telah belajar dari Anda bahwa ada lebih banyak statistik daripada hanya mencari "p <0,05". Michael Lew: Saya sudah mengunduh makalah Anda dan pasti akan membacanya. Saya akan mengikuti saran Anda untuk memiliki alasan yang baik tentang data saya dalam situasi ini. Terima kasih semua!
mljrg

3
@MichaelLew Saya tidak berbagi pandangan suram Anda tentang pendekatan Neyman-Pearson untuk pengujian hipotesis. Saya masih berpikir itu penting untuk kesimpulan yang sering. Hanya kepatuhan ketat pada tingkat 0,05 yang saya keberatankan.
Michael R. Chernick

@MichaelChernick Jadi, apakah Anda mengatakan bahwa orang harus memilih cutoff untuk signifikansi sebelum percobaan, atau bahwa Anda dapat memilihnya setelah hasilnya masuk. Yang pertama OK, tetapi yang kedua tidak. Pendekatan Neyman-Pearson berkaitan dengan tingkat kesalahan, dan tingkat kesalahan tipe I hanya dilindungi ketika cutoff untuk signifikansi dipilih sebelumnya. Jadi, jika Anda memberi tahu seseorang bahwa sedikit di atas 0,05 cukup dekat karena mereka mungkin telah memilih cutoff yang lebih tinggi, maka Anda sebenarnya tidak menggunakan pendekatan Neyman-Pearson, tetapi pendekatan hibrida yang tidak sempurna seperti yang saya jelaskan dalam makalah yang terkait.
Michael Lew

Orang dapat memilih 0,01, 0,05 atau 0,10 jika mereka mau. Ini harus dilakukan tanpa dipengaruhi oleh data. Tapi pilihan 0,01 atau 0,05 bukan masalah yang saya maksudkan. Ini adalah kepercayaan hitam dan putih pada tingkat signifikansi karena yang 0,049 berarti signifikansi statistik dan 0,0501 tidak!
Michael R. Chernick

Ilmuwan menarik dalam bukti tetapi mereka tidak terpaku pada metodologi yang digunakan untuk memutuskan signifikansi.
Michael R. Chernick

13

Uji Mann-Whitney atau Wilcoxon membandingkan dua kelompok sedangkan uji Kruskal-Wallis membandingkan 3. Sama seperti dalam ANOVA biasa dengan tiga atau lebih kelompok prosedur yang umumnya disarankan adalah melakukan uji ANOVA F keseluruhan terlebih dahulu dan kemudian melihat perbandingan berpasangan di Jika ada perbedaan yang signifikan. Saya akan melakukan hal yang sama di sini dengan ANOVA nonparametrik. Interpetasi saya atas hasil Anda adalah bahwa ada sedikit perbedaan yang signifikan antara kelompok-kelompok di level 0,05 dan jika Anda menerimanya maka perbedaan berdasarkan uji Mann-Whitney menunjukkan bahwa itu dapat dikaitkan dengan g.1 dan g2 menjadi sangat berbeda.

Jangan terpaku pada keajaiban level signifikansi 0,05! Hanya karena uji Kruskal-Wallis memberikan nilai-p sedikit di atas 0,05, jangan menganggap itu berarti bahwa tidak ada perbedaan yang signifikan secara statistik antara kelompok. Juga fakta bahwa uji Mann-Whitney memberikan nilai-p untuk perbedaan antara g1 dan g2sedikit di bawah 0,03 tidak membuat perbedaan di antara kedua kelompok sangat signifikan. Kedua nilai-p mendekati 0,05. Set data yang sedikit berbeda dapat dengan mudah berubah menjadi K-nilai-Kruskal sebesar itu.

Setiap pemikiran yang mungkin Anda miliki bahwa hasilnya kontradiktif harus berasal dari memikirkan pemotongan 0,05 sebagai batas hitam dan putih tanpa area abu-abu di lingkungan 0,05. Saya pikir hasil ini masuk akal dan cukup kompatibel.


2
Anda akan mengkomunikasikan jawaban Anda dengan lebih baik ketika Anda membacanya kembali untuk kesalahan (dalam tanda baca, tata bahasa, tipografi, dan ejaan) dan menggunakan format yang efektif. Harap tinjau halaman bantuan Penurunan harga .
Whuber

Pandangan yang lebih klasik adalah bahwa Anda gagal menemukan signifikansi statistik dengan tes pertama Anda, jadi Anda tidak boleh melaporkan (dalam publikasi profesional) tes lebih lanjut sebagai indikasi signifikan secara statistik dari perbedaan kelompok. Untuk melakukannya adalah dengan menggunakan alfa selain 0,05. Ini khususnya bermasalah (dari tampilan klasik) karena Anda tidak memilih alpha yang lebih tinggi sebelum melakukan tes, sehingga alpha Anda tidak diketahui. Tentu saja, ketika Anda mencoba untuk memahami data Anda, untuk memandu program penelitian masa depan Anda sendiri, Anda dapat mencatat perbedaan antara kelompok 1 dan 2.
Joel W.

@ JoelW. Apakah Anda mencoba memberi tahu saya bahwa 0,05091 benar-benar berbeda dari 0,05? Pokoknya poin saya bukan bagaimana melaporkan kesimpulan tetapi untuk mengatakan bahwa dua tes tidak bertentangan. Saya setuju bahwa cara Anda menganalisis data harus ditentukan terlebih dahulu sebelum melihat data.
Michael R. Chernick

1
@whuber Maaf karena tidak mengedit posting sebelumnya. Saya harap ini terlihat jauh lebih baik sekarang.
Michael R. Chernick

@ JoelW Pandangan 'lebih klasik' Anda sebenarnya adalah pendekatan 'perilaku induktif' Neyman untuk menyimpulkan. Ini relevan dengan sebagian kecil dari penggunaan statistik untuk mendukung kesimpulan. Sangat disayangkan bahwa itu disajikan begitu sering sebagai klasik.
Michael Lew

4

Hasil uji Kruskal-Wallis dan Mann-Whitney U mungkin berbeda karena

  • Peringkat yang digunakan untuk tes Mann-Whitney U bukan peringkat yang digunakan oleh tes Kruskal-Wallis; dan
  • Tes peringkat jumlah tidak menggunakan varian gabungan yang disiratkan oleh hipotesis nol Kruskal-Wallis.

Oleh karena itu, tidak dianjurkan untuk menggunakan uji Mann-whitney U sebagai tes post hoc setelah uji Kruskal-Wallis.

Tes lain seperti tes Dunn (umum digunakan), tes Conover-Iman dan Dwass-Steel-Citchlow-Fligner dapat digunakan sebagai tes post-hoc untuk uji kruskal-wallis.


3

Ini adalah jawaban untuk @vinesh serta melihat prinsip umum dalam pertanyaan awal.

Sebenarnya ada 2 masalah di sini dengan beberapa perbandingan: karena kami meningkatkan jumlah perbandingan yang dibuat, kami memiliki lebih banyak informasi yang membuatnya lebih mudah untuk melihat perbedaan nyata, tetapi peningkatan jumlah perbandingan juga membuatnya lebih mudah untuk melihat perbedaan yang tidak ada (Positif palsu, pengerukan data, menyiksa data sampai ia mengaku).

Pikirkan kelas dengan 100 siswa, masing-masing siswa diberi koin yang adil dan disuruh membalik koin 10 kali dan menggunakan hasilnya untuk menguji hipotesis nol bahwa proporsi kepala adalah 50%. Kami akan mengharapkan nilai-p berkisar antara 0 dan 1 dan kebetulan kami berharap untuk melihat sekitar 5 siswa mendapatkan nilai-p kurang dari 0,05. Bahkan kami akan sangat terkejut jika tidak satupun dari mereka memperoleh nilai p kurang dari 0,05 (kemungkinan kurang dari 1% dari hal itu terjadi). Jika kita hanya melihat beberapa nilai penting dan mengabaikan yang lain maka kita akan secara keliru menyimpulkan bahwa koin-koin itu bias, tetapi jika kita menggunakan teknik yang memperhitungkan beberapa perbandingan, maka kita kemungkinan masih akan menilai dengan benar bahwa koin itu adil. (atau setidaknya gagal untuk menolak bahwa mereka atau adil).

Di sisi lain, pertimbangkan kasus serupa di mana kami memiliki 10 siswa yang melempar dadu dan menentukan apakah nilainya ada di set {1,2,3} atau set {4,5,6} yang masing-masing akan memiliki 50% kesempatan setiap gulungan jika dadu itu adil (tetapi bisa berbeda jika dadu dicurangi). Semua 10 siswa menghitung nilai-p (nol adalah 50%) dan mendapatkan nilai antara 0,06 dan 0,25. Sekarang dalam kasus ini tidak satupun dari mereka mencapai keajaiban 5% cut-off, jadi melihat setiap hasil siswa tidak akan menghasilkan deklarasi yang tidak adil, tetapi semua nilai-p kurang dari 0,5, jika semua dadu adil maka nilai-p harus didistribusikan secara seragam dan memiliki peluang 50% berada di atas 0,5. Peluang mendapatkan 10 nilai p independen semuanya kurang dari 0,5 ketika nol benar adalah kurang dari keajaiban 0,05 dan ini menunjukkan bahwa dadu bias,

Sekarang membalik koin dan mati bergulir sedikit dibuat-buat, jadi contoh yang berbeda: Saya punya obat baru yang ingin saya uji. Anggaran saya memungkinkan saya untuk menguji obat pada 1.000 subjek (ini akan menjadi perbandingan berpasangan dengan masing-masing subjek menjadi kontrol mereka sendiri). Saya sedang mempertimbangkan 2 desain studi yang berbeda, pada awalnya saya merekrut 1.000 subjek melakukan penelitian dan melaporkan nilai-p tunggal. Dalam desain kedua saya merekrut 1.000 subjek tetapi memecahnya menjadi 100 kelompok masing-masing 10, saya melakukan studi pada masing-masing 100 kelompok 10 dan menghitung nilai p untuk setiap kelompok (100 total nilai p). Pikirkan tentang perbedaan potensial antara 2 metodologi dan bagaimana kesimpulan bisa berbeda. Pendekatan obyektif akan mengharuskan kedua desain penelitian mengarah pada kesimpulan yang sama (mengingat 1.000 pasien yang sama dan yang lainnya sama).

@mljrg, mengapa Anda memilih untuk membandingkan g1 dan g2? Jika ini adalah pertanyaan yang menarik sebelum mengumpulkan data, maka nilai p MW masuk akal dan bermakna, namun jika Anda melakukan tes KW, maka cari tahu 2 kelompok mana yang paling berbeda dan lakukan uji MW hanya pada mereka yang terlihat paling berbeda, maka asumsi untuk uji MW dilanggar dan nilai p MW tidak ada artinya dan nilai p KW adalah satu-satunya dengan makna potensial.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.