Kekuatan tes Mann Whitney dibandingkan dengan pada tes

Jadi tes Mann Whitney U seharusnya sekitar 95% sama kuatnya dengan uji-t ketika asumsi uji-t normalitas dan varian homogen terpenuhi. Saya juga tahu bahwa tes Mann Whitney U lebih kuat daripada uji-t ketika asumsi ini tidak terpenuhi. Pertanyaan saya adalah, apakah tes Mann Whitney pada data di mana asumsi tidak puas atau hampir kuat seperti uji-t pada data di mana asumsi puas?

Saya bertanya karena saya sering melihat orang melakukan perhitungan daya berdasarkan asumsi bahwa mereka akan melakukan tes. Setelah mereka mengumpulkan data, mereka mengeksplorasi data dan memutuskan untuk menggunakan tes Mann Whitney sebagai gantinya dan tidak benar-benar meninjau kembali bagaimana mengubah tes mempengaruhi daya.

Terima kasih!

— Jimj
sumber

" Saya juga tahu bahwa tes Mann Whitney U lebih kuat daripada uji-t ketika asumsi ini tidak terpenuhi ". Pernyataan itu terlalu kuat. Katakanlah data terdistribusi secara seragam (misalnya). Anda mengatakan Anda tahu bahwa dalam keadaan itu tes U lebih kuat daripada t , tetapi tidak demikian halnya.

— Glen_b -Reinstate Monica

Jawaban:

1) Tes Mann-Whitney tidak dijamin lebih kuat daripada uji-t ketika asumsi uji-t tidak puas, meskipun untuk jenis pelanggaran yang cenderung kita lihat di dunia nyata, itu. Pertimbangkan distribusi Normal normal terpotong pada +/- 100 dan perbedaan antara rata-rata dua kelompok 0,01; ini bukan Normal, tetapi kedua tes akan bekerja seolah-olah itu, karena perbedaan antara kedua distribusi sangat kecil.

2) Uji-t adalah uji seragam yang paling kuat untuk perbedaan antara rata-rata dari dua varian Normal bla bla, jadi itu tidak akan dikalahkan oleh Mann-Whitney pada data semacam itu tidak peduli apa. Namun, yang terburuk yang dapat dilakukan oleh Mann-Whitney relatif terhadap uji-t adalah sekitar 0,864 dalam hal efisiensi relatif asimptotik, yaitu, akan membutuhkan 1 / 0,864x lebih banyak data untuk memberikan kekuatan yang sama (asimptotik.) ( Hollander dan Wolfe , Metode Statistik Nonparametrik.) Tidak ada jalan sebaliknya. Mereproduksi beberapa angka dari Hollander dan Wolfe, untuk distribusi yang berbeda kami mendapatkan ARE dari MW untuk uji-t:

Normal: 0,955
Seragam: 1,0 <- juga contoh tandingan untuk UM yang lebih baik daripada t untuk distribusi yang tidak normal
Logistik: 1.097
Eksponensial Ganda: 1,5
Eksponensial: 3.0
Cauchy (yah itu mudah): $\infty$

Intinya tentu saja adalah bahwa Anda tidak dapat menembak diri sendiri dengan menggunakan uji Mann-Whitney alih-alih uji-t, tetapi kebalikannya tidak benar.

— Jbowman
sumber

Mengapa Cauchy mudah? Dan mengapa ARE 0? Untuk N hingga, efisiensi relatif tidak bisa

inf

$\inf$ , karena kekuatan uji-t bukan 0. Tetapi dengan N yang tak terbatas, varians dari distribusi tidak ditentukan. Cauchy itu benar-benar jahat!

— Peter Flom

@PeterFlom Menarik sekali! Perbedaan antara nilai pembatas dan nilai pada batas adalah kepalanya; Pitman ARE adalah yang pertama, bukan yang terakhir.

— jbowman

@PeterFlom ARE berkaitan dengan rasio turunan kedua ("kelengkungan") dari kurva daya di nol, karena ukuran sampel pergi hingga tak terbatas. Mungkin saja kurva daya memiliki turunan nol detik di sana. Dalam praktiknya, sampel berukuran kecil hingga sedang, dua sampel t agak oke di Cauchy jika Anda tidak keberatan tingkat signifikansi Anda jauh lebih rendah daripada nilai nominal.

— Glen_b -Reinstate Monica

Jadi dengan kata lain, katakanlah saya malas dan tidak ingin memeriksa asumsi saya tentang normalitas dll. Dan hanya memutuskan untuk melanjutkan dan menggunakan tes MW daripada uji-t. Saya bisa menggunakan tes MW dan mengatakan bahwa, paling buruk saya akan membutuhkan data 1 / 0.864x lebih banyak untuk mencapai tingkat kekuatan yang sama seperti pada tes di mana semua asumsi dipenuhi. Apakah itu masuk akal?

— Jimj

@ Jim tidak, bukan itu artinya. Anda dapat menggunakan tes MW dan mengatakan bahwa (dalam sampel besar) paling buruk Anda akan membutuhkan 1 / 0,864 kali lebih banyak data untuk mencapai tingkat daya yang sama seperti pada tes pada set data dari distribusi yang sama (bahwa 0,864 tidak terjadi ketika semua asumsi t terpenuhi ... ketika mereka, ARE adalah 0,955)

— Glen_b -Reinstate Monica

Apakah uji Mann Whitney pada data di mana asumsi tidak terpenuhi atau hampir kuat seperti uji-t pada data di mana asumsi puas?

Ungkapan seperti 'sekuat' tidak benar-benar berfungsi sebagai pernyataan umum.

Daya tidak dapat dibandingkan secara khusus pada model distribusi yang berbeda. Ukuran efek yang diberikan memiliki arti yang berbeda di berbagai bagian distribusi. Bayangkan Anda memiliki distribusi yang cukup memuncak, tetapi memiliki ekor yang berat; Menurut ukuran apa kita mengatakan ukuran penyimpangan tertentu mirip dengan sesuatu dengan pusat yang lebih 'rata' dan ekor yang lebih kecil? Penyimpangan kecil mungkin sekitar mudah untuk diambil, tetapi penyimpangan besar mungkin (relatif terhadap kemungkinan distribusi lain yang kami coba untuk membandingkan daya) dengan lebih keras.

Dengan dua set distribusi normal, satu pasang dengan sd besar dan satu dengan sd kecil, mudah untuk mengatakan 'well, power hanya akan skala dengan deviasi standar; jika kita menentukan ukuran efek kita dalam hal jumlah standar deviasi, kita dapat menghubungkan dua kurva daya '.

Tetapi sekarang dengan distribusi yang berbeda bentuk , tidak ada pilihan skala yang jelas. Kita harus membuat beberapa pilihan tentang bagaimana membandingkannya. Pilihan apa yang kita buat akan menentukan bagaimana mereka "membandingkan".

Sebagai contoh, bagaimana saya membandingkan daya ketika data Cauchy dengan daya ketika data dikatakan sebagai beta berskala (2,2)? Apa ukuran efek yang sebanding? Cauchy di bawah ini memiliki lebih banyak distribusinya antara -1 dan 1 dan lebih sedikit distribusinya antara -3 dan 3 daripada yang lainnya. Rentang interkuartil mereka berbeda, misalnya. Apa dasar perbandingan kami?

Cauchy vs scaled beta

Jika Anda dapat menyelesaikan teka-teki itu, sekarang pertimbangkan apakah salah satu distribusinya miring ke kiri dan yang lainnya bimodal, atau banyak sekali kemungkinan lainnya.

Anda masih dapat menghitung daya di bawah serangkaian asumsi tertentu, tetapi perbandingan satu tes di berbagai asumsi distribusi daripada dua tes di bawah asumsi distribusi yang diberikan secara konseptual sangat rumit.

— Glen_b -Reinstate Monica
sumber