Kesesuaian Wilcoxon menandatangani uji peringkat

11

Saya telah mencari-cari sedikit di arsip Cross Validated dan sepertinya belum menemukan jawaban untuk pertanyaan saya. Pertanyaan saya adalah sebagai berikut: Wikipedia memberikan tiga asumsi yang perlu dimiliki untuk uji peringkat Wilcoxon (sedikit dimodifikasi untuk pertanyaan saya):

Biarkan Zi = Xi-Yi untuk i = 1, ..., n.

Perbedaan Zi dianggap independen.
(a.) Setiap Zi berasal dari populasi berkelanjutan yang sama, dan (b.) masing-masing Zi simetris tentang median umum;
Nilai yang mewakili Xi dan Yi diperintahkan ... sehingga perbandingan 'lebih besar dari', 'kurang dari', dan 'sama dengan' berguna.

Dokumentasi untuk? Wilcox.test dalam R, tampaknya mengindikasikan bahwa (2.b) sebenarnya adalah sesuatu yang diuji oleh prosedur:

"... jika kedua x dan y diberikan dan dipasangkan adalah BENAR, uji peringkat Wilcoxon yang ditandatangani dari nol bahwa distribusi ... dari x - y (dalam pasangan sampel dua kasus) adalah simetris tentang mu yang dilakukan."

Ini kedengarannya bagi saya seolah-olah tes ini dilakukan untuk hipotesis nol bahwa "Z didistribusikan secara simetris di sekitar median mu = SomeMu" - sedemikian rupa sehingga penolakan untuk nol dapat berupa penolakan terhadap simetri atau penolakan bahwa mu di sekitar Z simetris adalah SomeMu.

Apakah ini pemahaman yang benar tentang dokumentasi R untuk wilcox.test? Alasan mengapa hal ini penting, tentu saja, adalah karena saya melakukan sejumlah tes perbedaan berpasangan pada beberapa data sebelum dan sesudah ("X" dan "Y" di atas). Data "sebelum" dan "setelah" secara individual sangat miring, tetapi perbedaannya tidak terlalu miring (walaupun masih agak miring). Maksud saya bahwa data "sebelum" atau "setelah" yang dianggap sendiri memiliki kemiringan ~ 7 hingga 21 (tergantung pada sampel yang saya lihat), sedangkan data "perbedaan" memiliki kemiringan ~ = 0,5 hingga 5. Masih condong, tapi tidak sebanyak itu.

Jika memiliki kemiringan dalam data "perbedaan" saya akan menyebabkan tes Wilcoxon memberi saya hasil yang salah / bias (seperti yang ditunjukkan artikel Wikipedia), maka kemiringan bisa menjadi perhatian besar. Namun, jika tes Wilcoxon benar-benar menguji apakah distribusi perbedaannya "simetris di sekitar mu = SomeMu" (seperti yang ditunjukkan oleh? Wilcox.test), maka ini kurang menjadi perhatian.

Jadi pertanyaan saya adalah:

Interpretasi mana di atas yang benar? Apakah kemiringan dalam distribusi "perbedaan" saya akan membuat tes Wilcoxon saya bias?
Jika skewness adalah keprihatinan: "? Berapa banyak skewness adalah kekhawatiran"
Jika Wilcoxon menandatangani tes peringkat tampaknya sangat tidak pantas di sini, ada saran untuk apa yang harus saya gunakan?

Terima kasih banyak. Jika Anda memiliki saran lebih lanjut tentang bagaimana saya melakukan analisis ini, saya senang mendengarnya (walaupun saya juga dapat membuka utas lain untuk tujuan itu). Juga, ini adalah pertanyaan pertama saya tentang Cross Validated; jika Anda memiliki saran / komentar tentang bagaimana saya mengajukan pertanyaan ini, saya juga terbuka untuk itu!

Sedikit latar belakang: Saya menganalisis dataset yang berisi pengamatan tentang apa yang saya sebut "kesalahan dalam produksi perusahaan." Saya memiliki pengamatan tentang kesalahan yang terjadi dalam proses produksi sebelum dan sesudah inspeksi mendadak, dan salah satu tujuan analisis ini adalah untuk menjawab pertanyaan, "apakah inspeksi membuat perbedaan dalam jumlah kesalahan yang terjadi?"

Kumpulan data terlihat seperti ini:

ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD
0123,1,1,1,0,1,1,1,0 
2345,1,0,0,0,0,1,1,0
6789,2,1,0,1,0,1,0,0
1234,8,8,0,0,1,0,0,0

Ada sekitar 4000 pengamatan. Variabel lain adalah pengamatan katagoris yang menggambarkan karakteristik perusahaan. Ukuran bisa kecil, sedang, atau besar, dan masing-masing perusahaan adalah satu dan hanya satu dari mereka. Perusahaan dapat berupa salah satu atau semua "tipe".

Saya diminta untuk menjalankan beberapa tes sederhana untuk melihat apakah ada perbedaan yang signifikan secara statistik dalam tingkat kesalahan yang diamati sebelum dan sesudah inspeksi untuk semua perusahaan dan berbagai sub-kelompok (berdasarkan ukuran dan jenis). Tes-T dikeluarkan karena data sangat miring sebelum dan sesudah, misalnya, dalam R data sebelum terlihat seperti ini:

summary(errorsBefore)
# Min.  1st Qu.  Median   Mean  3rd Qu.    Max
# 0.000  0.000    4.000  12.00    13.00  470.0

(Ini dibuat-buat - Saya khawatir saya tidak dapat memposting data aktual atau manipulasi aktual apa pun karena masalah kepemilikan / privasi - permintaan maaf saya!)

Perbedaan berpasangan lebih terpusat tetapi masih sangat tidak cocok dengan distribusi normal - terlalu memuncak. Data perbedaan terlihat seperti ini:

summary(errorsBefore-errorsAfter)
# Min.   1st Qu.  Median   Mean  3rd Qu.    Max
# -110.0  -2.000   0.000  0.005   2.000   140.0

Disarankan agar saya menggunakan tes peringkat bertanda Wilcoxon, dan setelah persuasi singkat dari "wilcox.test dan Wikipedia, dan di sini, ini sepertinya tes yang digunakan. Mempertimbangkan asumsi di atas, saya percaya (1) baik-baik saja mengingat proses pembuatan data. Asumsi (2.a) tidak sepenuhnya benar untuk data saya, tetapi diskusi di sini: Alternatif untuk uji Wilcoxon ketika distribusi tidak kontinu? tampaknya menunjukkan bahwa ini tidak terlalu menjadi perhatian. Asumsi (3) baik-baik saja. Satu-satunya kekhawatiran saya (saya percaya) adalah Asumsi (2.b).

Satu catatan tambahan , beberapa tahun kemudian: Saya akhirnya mengambil kursus statistik non-parametrik yang sangat baik dan menghabiskan banyak waktu pada tes peringkat-jumlah. Tertanam dalam asumsi (2.a), "Setiap Zi berasal dari populasi berkelanjutan yang sama", adalah gagasan bahwa kedua sampel tersebut berasal dari populasi dengan varian yang sama - ini ternyata sangat penting, secara praktis berbicara. Jika Anda memiliki kekhawatiran tentang perbedaan ragam dalam populasi Anda (dari mana Anda mengambil sampel), Anda harus khawatir tentang penggunaan WMW.

r hypothesis-testing

— CompEcon
sumber

Terima kasih atas dua jawaban! Mereka berdua sama-sama membantu saya. Saya akan "memilih keduanya" jika saya bisa. Mike mengarahkan saya ke beberapa pemahaman teoretis, yang sangat membantu secara konseptual, meskipun Aniko sedikit lebih langsung menjawab pertanyaan awal saya. Terima kasih untuk kalian berdua!

— CompEcon

8

Wikipedia telah menyesatkan Anda dalam menyatakan "... jika x dan y diberikan dan dipasangkan adalah BENAR, uji peringkat Wilcoxon yang ditandatangani dari nol bahwa distribusi ... dari x - y (dalam pasangan dua sampel kasus) simetris tentang mu dilakukan. "

Tes menentukan apakah nilai RANK-TRANSFORMED dari simetris di sekitar median yang Anda tentukan dalam hipotesis nol Anda (saya berasumsi Anda akan menggunakan nol). Skewness bukan masalah, karena tes peringkat bertanda, seperti kebanyakan tes nonparametrik, adalah "bebas distribusi." Harga yang Anda bayar untuk tes ini sering kali berkurang daya, tetapi sepertinya Anda memiliki sampel yang cukup besar untuk mengatasinya. $z_i = x_i - y_i$

Alternatif "apa-apaan" untuk tes peringkat-sum mungkin dengan mencoba transformasi sederhana seperti dan jika ada kemungkinan pengukuran ini secara kasar mengikuti distribusi lognormal - jadi log nilai harus terlihat "bell curvish". Maka Anda dapat menggunakan saat ujian dan meyakinkan diri sendiri (dan bos Anda yang hanya mengambil Statistik Bisnis) bahwa tes peringkat-sum bekerja. Jika ini berhasil, ada bonus: uji t pada rata-rata untuk data lognormal adalah perbandingan median untuk pengukuran asli, yang tidak ditransformasi. $\ln(x_i)$ $\ln(y_i)$

Saya? Saya akan melakukan keduanya, dan hal lain yang saya bisa masak (uji rasio kemungkinan pada Poisson dihitung berdasarkan ukuran perusahaan?). Pengujian hipotesis adalah semua tentang menentukan apakah bukti meyakinkan, dan beberapa orang mengambil tumpukan convincin '.

— Mike Anderson
sumber

Ah, itu masuk akal. Apalagi sekarang saya sudah sampai di rumah dan mengeluarkan buku teks DeGroot & Schervish lama saya, yang memiliki deskripsi bagus tentang apa yang sebenarnya dilakukan tes tanda ini. Fantastis. Dan terima kasih atas pemikiran umum tentang pengujian hipotesis :) Saya suka perspektifnya. Satu catatan kecil: porsi yang Anda catat sebagai menyesatkan sebenarnya dari R, dari dokumentasi untuk wilcox.test. Ini agak mengganggu saya ...

— CompEcon

9

Baik Wikipedia maupun halaman bantuan R agak benar dan berusaha menyatakan hal yang sama, mereka hanya mengucapkannya secara berbeda.

Artikel Wikipedia menyatakan hipotesis sebagai (median = 0) vs (median! = 0), dan mengatakan bahwa Anda dapat menyimpulkan ini dari tes jika perbedaannya memiliki distribusi simetris (+ asumsi lain).

Halaman bantuan R lebih spesifik, ini menyatakan hipotesis sebagai (median = 0 dan perbedaan memiliki distribusi simetris) vs (setidaknya salah satunya adalah salah). Jadi itu memindahkan asumsi ke hipotesis nol. Saya pikir mereka telah melakukan ini untuk menekankan perlunya simetrisitas: dengan perbedaan yang miring, tes peringkat-bertanda akan menolak hipotesis nol bahkan jika median sudah mati. Jika Anda membaca buku teks, itu mungkin juga memberitahu Anda bahwa hipotesis nol yang diuji adalah P (X> Y) = 0,5 - sisanya sebenarnya hanya mengikuti dari ini.

Dalam hal aplikasi, pertanyaannya tentu saja apakah Anda peduli secara khusus tentang median (dan kemudian kemiringan adalah masalah, dan tes median adalah alternatif yang mungkin), atau apakah Anda peduli dengan seluruh distribusi, dan kemudian P (X> y)! = 0,5 adalah bukti perubahan.

— Aniko
sumber

1

Ok, ini masuk akal. Terima kasih atas masukannya! Saya perhatikan bahwa halaman Wikipedia untuk tes median mengatakan tes Mann-Whitney-U yang tidak berpasangan lebih disukai. Ini segera membuat saya berpikir bahwa saya semacam kembali ke tempat saya mulai, berpikir bahwa tes Wilcoxon pasangan entah bagaimana menggunakan lebih banyak informasi. Mungkin yang benar-benar saya coba pikirkan adalah apa yang Anda maksud ketika Anda mengatakan "peduli secara khusus tentang median ... atau tentang seluruh distribusi." Saya peduli dengan keseluruhan distribusinya, tetapi saya mengkarakteristikannya melalui median ..

— CompEcon