Apakah kita perlu khawatir tentang pencilan ketika menggunakan tes berbasis peringkat?

Mohon maaf jika ini adalah pertanyaan yang sangat mendasar.

Jika kita memiliki data yang tidak terdistribusi secara normal (misalnya miring, uji Shapiro-Wilk signifikan) dan kita menggunakan metode berbasis peringkat (misalnya uji Peringkat Bertanda Wilcoxon), maka apakah kita perlu khawatir dengan pencilan?

Bayangkan, misalnya, kami memplot data menggunakan boxplot dan sebagian kecil titik data ditandai sebagai outlier. Haruskah kita mengubah poin-poin itu? Atau hapus? Tampaknya bagi saya banyak buku teks berbicara tentang berurusan dengan pencilan, tetapi hanya karena mereka memberikan pengaruh besar pada parameter seperti mean dan standar deviasi. Namun, ketika kita menggunakan tes berbasis peringkat mereka sudah akan 'ditransformasikan' menjadi nilai berikutnya dalam peringkat, dan karenanya tidak akan memberikan pengaruh besar pada tes. Saya belum melihat ini dinyatakan secara eksplisit dalam buku statistik sejauh ini, jadi saya pikir saya akan mengajukan pertanyaan di sini.

outliers ranks

— trev
sumber

Tes berbasis peringkat secara statistik kuat terhadap pencilan. Tetapi outlier adalah outlier, pada level operasional analis masih harus memeriksa kasus itu. Jadi, saya katakan kita masih perlu "sebagian" khawatir tentang outlier.

— Penguin_Knight

Tidak masalah walaupun pertanyaannya mungkin sangat mendasar. Selama pertanyaan itu belum dihapus di situs ini, bahkan pertanyaan mendasar adalah pertanyaan yang bagus

— Hotaka

Tidak. Ketika data diberi peringkat, pencilan hanya akan dikenali sebagai kasus yang diberi peringkat satu di atas (atau di bawah) kasus berikutnya yang kurang ekstrim. Terlepas dari apakah ada 0,01 atau 5 standar deviasi antara nilai paling ekstrim dan paling kedua, tingkat perbedaan itu dibuang ketika data diurutkan.

Bahkan, salah satu dari banyak alasan mengapa seseorang mungkin menggunakan tes berbasis peringkat (atau nonparametrik) adalah karena outlier.

— Hotaka
sumber

Dan efisiensi yang sangat baik dari metode nonparametrik dan semiparametrik adalah alasan untuk tidak melakukan pra-uji normalitas (selain kekuatan uji normalitas yang tidak memadai).

— Frank Harrell

Saya bingung apakah akan menerima jawaban singkat yang hebat ini atau yang mendetail yang dipikirkan oleh @NickCox. Saya akan menunggu beberapa hari untuk melihat yang berakhir dengan suara terbanyak!

— trev

@ Jawaban Hotaka cukup benar. Pemeringkatan membuat transformasi tidak perlu; itu sendiri merupakan transformasi yang mengabaikan nilai-nilai pasti kecuali sejauh mereka mengarah pada perbedaan peringkat. Bahkan, sedikit pemikiran, atau beberapa contoh perhitungan, akan menunjukkan bahwa hasil setelah pemeringkatan logaritma atau akar kuadrat atau transformasi monoton lainnya persis sama dengan hasil setelah pemeringkatan data asli.

Tetapi lebih banyak yang bisa dikatakan. Baik-atau berpikir

Entah data saya terdistribusi normal, dan saya dapat menggunakan prosedur standar atau klasik.
Atau saya perlu menggunakan tes berbasis peringkat.

sedikit kejam, dan (mungkin disarankan) terlalu disederhanakan. Meskipun sulit untuk menyarankan dengan tepat apa yang harus Anda lakukan tanpa melihat data dan tujuan Anda, ada beberapa perspektif lain:

Banyak pengguna statistik melihat distribusi marjinal (univariat) dan menilai apakah mereka mendekati normal, tetapi itu mungkin bahkan tidak relevan. Misalnya, normalitas marginal tidak diperlukan untuk prosedur tipe regresi. Untuk banyak prosedur, cara perilakunya, bukan bagaimana perilakunya, itulah yang lebih penting dan lebih dekat dengan asumsi utama.
Bahkan (katakanlah) hasil yang signifikan pada tingkat konvensional untuk tes Shapiro-Wilk adalah samar-samar dalam hal membimbing analisis kemudian. Itu hanya mengatakan "distribusi Anda terdeteksi berbeda dari distribusi normal". Itu sendiri tidak menyiratkan bahwa tingkat ketidaknormalan yang Anda miliki membuat apa pun yang ada dalam pikiran Anda menjadi tidak valid atau absurd. Ini bisa berarti: berjalanlah dengan hati-hati, karena asumsi yang mendasari tidak sepenuhnya terpenuhi. (Dalam praktiknya, mereka tidak pernah benar-benar puas, dengan cara apa pun.) Kebiasaan untuk mengolah adalah berpikir bahwa semua nilai-P adalah perkiraan. (Bahkan ketika asumsi tentang distribusi tidak dibuat, asumsi tentang pengambilan sampel atau independensi atau pengukuran bebas kesalahan biasanya tersirat.)
Meskipun banyak teks dan kursus menyiratkan sebaliknya, statistik non-parametrik adalah sesuatu jalan buntu yang mulia: ada setumpuk tes kadang-kadang berguna, tetapi dalam praktiknya Anda menyerah pada sebagian besar pemodelan berguna yang merupakan pusat statistik modern.
Pencilan disebutkan di sini, dan mereka selalu patut mendapatkan perhatian. Mereka seharusnya tidak pernah dihilangkan hanya karena mereka tidak nyaman atau tampaknya menjadi alasan mengapa asumsi tidak terpenuhi. Terkadang analisis pada skala yang diubah adalah cara terbaik untuk maju. Terkadang beberapa outlier ringan tidak bermasalah seperti yang ditakuti oleh pengguna statistik yang kurang berpengalaman. Dengan sampel kecil, data akan sering terlihat kasar atau tidak rata, bahkan jika proses pembuatannya berperilaku cukup baik; dengan sampel besar, outlier tunggal tidak perlu mendominasi sisa data.
Selalu ada opsi untuk melakukan kedua jenis tes, misalnya Student's dan Mann-Whitney-Wilcoxon. Mereka tidak mengajukan pertanyaan yang persis sama, tetapi seringkali mudah untuk melihat apakah mereka menunjuk ke arah yang sama. Yaitu, jika pada pengujian dan pengujian lainnya keduanya memberikan sinyal yang jelas bahwa dua kelompok berbeda, Anda memiliki kepastian bahwa kesimpulan Anda didukung dengan baik (dan beberapa pembelaan terhadap skeptis yang tidak mempercayai satu atau prosedur lain yang diberi aroma tidak normal). ). Jika dua tes memberikan jawaban yang sangat berbeda, ini dengan sendirinya merupakan bukti berguna yang harus Anda pikirkan dengan cermat tentang cara terbaik untuk menganalisis data. (Mungkin outlier besar itu benar-benar menentukan ke arah mana jawaban itu keluar.)

Dengan pengalaman, pengguna statistik seringkali lebih informal daripada teks atau kursus menyiratkan mereka seharusnya. Jika Anda berbicara melalui analisis dengan mereka, Anda akan sering menemukan bahwa mereka membuat penilaian cepat seperti "Tentu, plot kotak menunjukkan beberapa outlier ringan, tetapi dengan data seperti analisis varian ini akan berfungsi dengan baik" atau "Dengan kemiringan yang ditandai, skala logaritmik adalah satu - satunya pilihan yang masuk akal ". Saya tidak berpikir Anda akan sering menemukan mereka memilih teknik berdasarkan apakah tes Shapiro-Wilk signifikan atau tidak signifikan $P < 0.05$ . Mengatakan sesuatu seperti itu mungkin tidak banyak membantu pengguna yang kurang berpengalaman, tetapi tampaknya lebih benar daripada gagasan bahwa statistik menawarkan resep tepat yang harus selalu diikuti.

— Nick Cox
sumber

Terima kasih atas jawaban terinci Anda. Mengenai pilihan metode, saya bisa percaya sebagian besar pengguna statistik cukup eksploratif selama pertama kali melihat data mereka. Tetapi ketika mereka menulis artikel, mereka perlu membenarkan metode mana yang mereka pilih. Saya kira ini sebagian tergantung pada lapangan dan apakah kita lebih tertarik dalam memodelkan banyak data atau menguji suatu hipotesis. Untuk yang terakhir, Shapiro-Wilk, bagaimana pun di bawah bertenaga, harus terlihat lebih baik daripada melaporkan kemiringan tanpa tes, dan kemudian melakukan tes non-parametrik.

— trev

Saya cukup menyukai ide (5), melakukan tes parametrik dan non-parametrik. Tetapi saya jarang melihat artikel (setidaknya dalam psikologi) yang mengatakan "ini adalah hasil dari berbagai tes statistik alternatif." Mereka hanya memilih satu metode dan melaporkannya, yang bisa bermasalah, karena mereka bisa memilih metode yang memberi mereka hasil yang signifikan, seperti yang disorot dalam artikel ilmu psikologi di sini: bit.ly/15uTFlT

— trev

Tentu saja, alternatif pelaporan beberapa metode hampir pasti akan mengarah pada beberapa ambiguitas, yaitu beberapa metode menjadi signifikan dan yang lainnya tidak. Berapa banyak yang Anda perlukan untuk menyimpulkan bahwa Anda mendapat pengaruh? 4 dari 5 signifikan? Bagaimana dengan 3 dari 5?

— trev

Komentar penuh pertimbangan Anda layak untuk diskusi yang sangat rinci. Pengalaman saya menegaskan bahwa orang-orang di berbagai bidang sangat peduli untuk menunjukkan bahwa ada analisis tunggal yang benar dari kumpulan data yang diberikan, yang merupakan apa yang mereka lakukan.

— Nick Cox