Mengapa ikatan begitu sulit dalam statistik nonparametrik?

Teks nonparametrik saya, Praktis Statistik Nonparametrik , sering memberikan rumus yang bersih untuk harapan, varian, statistik uji, dan sejenisnya, tetapi termasuk peringatan bahwa ini hanya berfungsi jika kita mengabaikan ikatan. Saat menghitung Statistik Mann-Whitney U, Anda disarankan untuk membuang pasangan terikat ketika membandingkan mana yang lebih besar.

Saya mendapatkan bahwa ikatan tidak benar-benar memberi tahu kita banyak tentang populasi yang lebih besar (jika itu yang kita minati) karena tidak ada kelompok yang lebih besar dari yang lain, tetapi tampaknya tidak masalah ketika mengembangkan distribusi asimptotik.

Lalu mengapa ini menjadi masalah yang berhubungan dengan ikatan dalam beberapa prosedur nonparametrik? Apakah ada cara untuk mengekstraksi informasi yang berguna dari ikatan, daripada hanya membuangnya?

EDIT: Sehubungan dengan komentar @ whuber, saya memeriksa sumber saya lagi, dan beberapa prosedur menggunakan rata-rata peringkat alih-alih menjatuhkan nilai yang diikat sepenuhnya. Meskipun ini tampaknya lebih masuk akal dalam hal mempertahankan informasi, bagi saya tampaknya juga kurang tepat. Namun, semangat pertanyaan tetap ada.

nonparametric ties

— Christopher Aden
sumber

Apakah Anda mengatakan bahwa Statistik Nonparametrik Praktis memberitahu Anda untuk " membuang " data ketika mereka diikat? Mungkinkah Anda salah menafsirkan nasihatnya? Bisakah Anda mengutipnya dengan tepat?

— whuber

Ya, mungkin saya salah menafsirkan saran. Dari penulis yang sama: jstor.org/stable/2284536 "Wilcoxon menyarankan untuk menjatuhkan nol dari data pada awalnya, dan melakukan tes pada set data yang berkurang. Jika tidak ada ikatan nol, prosedur ini menghasilkan kondisional (diberi nomor of nol) uji bebas distribusi, dan memungkinkan tabel yang tepat dari nilai kritis untuk digunakan. Karena alasan ini, sebagian besar buku tentang statistik nonparametrik memasukkan metode Wilcoxon ke dalam deskripsi tes "

— Christopher Aden

Memang, ini mengacu pada tes Peringkat Bertanda Wilcoxon, tetapi saya telah mendengar saran serupa yang digunakan dalam prosedur NP lainnya. Mengenai contoh Mann-Whitney, saya kembali dan memeriksa buku itu, dan Anda benar bahwa saya salah. Dengan Mann-Whitney, buku ini merekomendasikan rata-rata peringkat nilai-nilai terikat, yaitu: jika peringkat 6 dan 7 terikat, memberikan masing-masing nilai 6,5.

— Christopher Aden

Terima kasih. Ada cara-cara ketat untuk menjelaskan kelompok-kelompok yang terikat. Mereka penting ketika bekerja dengan data yang disensor (tetapi terus menerus), karena seringkali nilai-nilai yang disensor merupakan kelompok terikat yang besar. Untuk tes Kruskal-Wallis dan Wilcoxon Rank Sum, lihat bab 18 dari RO Gilbert, * Metode Statistik untuk Pemantauan Polusi Lingkungan. "Rumus yang melibatkan data terikat dapat menjadi rumit, tetapi dalam beberapa kasus (seperti tes KW) semua yang perlu Anda lakukan dihitung tabel ANOVA untuk jajaran

— whuber

Sebagian besar pekerjaan pada non-parametrik awalnya dilakukan dengan asumsi bahwa ada distribusi berkelanjutan yang mendasarinya di mana ikatan tidak mungkin (jika diukur cukup akurat). Teori ini kemudian dapat didasarkan pada distribusi statistik pesanan (yang jauh lebih sederhana tanpa ikatan) atau formula lainnya. Dalam beberapa kasus, statistik berjalan mendekati normal yang membuat semuanya menjadi sangat mudah. Ketika ikatan diperkenalkan karena data dibulatkan atau secara alami diskrit, maka asumsi standar tidak berlaku. Perkiraan mungkin masih cukup baik dalam beberapa kasus, tetapi tidak dalam kasus lain, sehingga seringkali hal yang paling mudah untuk dilakukan adalah hanya memberi peringatan bahwa formula ini tidak bekerja dengan ikatan.

Ada alat untuk beberapa tes non-parametrik standar yang telah menentukan distribusi yang tepat ketika ada ikatan. Paket exactRankTests untuk R adalah salah satu contoh.

Salah satu cara sederhana untuk menangani ikatan adalah dengan menggunakan tes pengacakan seperti tes permutasi atau bootstrap. Ini tidak khawatir tentang distribusi asimptotik, tetapi gunakan data apa adanya, ikatan dan semua (perhatikan bahwa dengan banyak ikatan, bahkan teknik ini mungkin memiliki daya rendah).

Ada sebuah artikel beberapa tahun yang lalu (saya pikir dalam Ahli Statistik Amerika, tetapi saya tidak menemukannya) yang membahas ide-ide ikatan dan beberapa hal yang dapat Anda lakukan dengan mereka. Satu hal adalah bahwa itu tergantung pada pertanyaan apa yang Anda tanyakan, apa yang harus dilakukan dengan ikatan bisa sangat berbeda dalam tes superioritas vs tes non-inferioritas.

— Greg Snow
sumber