@ Jawaban Hotaka cukup benar. Pemeringkatan membuat transformasi tidak perlu; itu sendiri merupakan transformasi yang mengabaikan nilai-nilai pasti kecuali sejauh mereka mengarah pada perbedaan peringkat. Bahkan, sedikit pemikiran, atau beberapa contoh perhitungan, akan menunjukkan bahwa hasil setelah pemeringkatan logaritma atau akar kuadrat atau transformasi monoton lainnya persis sama dengan hasil setelah pemeringkatan data asli.
Tetapi lebih banyak yang bisa dikatakan. Baik-atau berpikir
Entah data saya terdistribusi normal, dan saya dapat menggunakan prosedur standar atau klasik.
Atau saya perlu menggunakan tes berbasis peringkat.
sedikit kejam, dan (mungkin disarankan) terlalu disederhanakan. Meskipun sulit untuk menyarankan dengan tepat apa yang harus Anda lakukan tanpa melihat data dan tujuan Anda, ada beberapa perspektif lain:
Banyak pengguna statistik melihat distribusi marjinal (univariat) dan menilai apakah mereka mendekati normal, tetapi itu mungkin bahkan tidak relevan. Misalnya, normalitas marginal tidak diperlukan untuk prosedur tipe regresi. Untuk banyak prosedur, cara perilakunya, bukan bagaimana perilakunya, itulah yang lebih penting dan lebih dekat dengan asumsi utama.
Bahkan (katakanlah) hasil yang signifikan pada tingkat konvensional untuk tes Shapiro-Wilk adalah samar-samar dalam hal membimbing analisis kemudian. Itu hanya mengatakan "distribusi Anda terdeteksi berbeda dari distribusi normal". Itu sendiri tidak menyiratkan bahwa tingkat ketidaknormalan yang Anda miliki membuat apa pun yang ada dalam pikiran Anda menjadi tidak valid atau absurd. Ini bisa berarti: berjalanlah dengan hati-hati, karena asumsi yang mendasari tidak sepenuhnya terpenuhi. (Dalam praktiknya, mereka tidak pernah benar-benar puas, dengan cara apa pun.) Kebiasaan untuk mengolah adalah berpikir bahwa semua nilai-P adalah perkiraan. (Bahkan ketika asumsi tentang distribusi tidak dibuat, asumsi tentang pengambilan sampel atau independensi atau pengukuran bebas kesalahan biasanya tersirat.)
Meskipun banyak teks dan kursus menyiratkan sebaliknya, statistik non-parametrik adalah sesuatu jalan buntu yang mulia: ada setumpuk tes kadang-kadang berguna, tetapi dalam praktiknya Anda menyerah pada sebagian besar pemodelan berguna yang merupakan pusat statistik modern.
Pencilan disebutkan di sini, dan mereka selalu patut mendapatkan perhatian. Mereka seharusnya tidak pernah dihilangkan hanya karena mereka tidak nyaman atau tampaknya menjadi alasan mengapa asumsi tidak terpenuhi. Terkadang analisis pada skala yang diubah adalah cara terbaik untuk maju. Terkadang beberapa outlier ringan tidak bermasalah seperti yang ditakuti oleh pengguna statistik yang kurang berpengalaman. Dengan sampel kecil, data akan sering terlihat kasar atau tidak rata, bahkan jika proses pembuatannya berperilaku cukup baik; dengan sampel besar, outlier tunggal tidak perlu mendominasi sisa data.
Selalu ada opsi untuk melakukan kedua jenis tes, misalnya Student's dan Mann-Whitney-Wilcoxon. Mereka tidak mengajukan pertanyaan yang persis sama, tetapi seringkali mudah untuk melihat apakah mereka menunjuk ke arah yang sama. Yaitu, jika pada pengujian dan pengujian lainnya keduanya memberikan sinyal yang jelas bahwa dua kelompok berbeda, Anda memiliki kepastian bahwa kesimpulan Anda didukung dengan baik (dan beberapa pembelaan terhadap skeptis yang tidak mempercayai satu atau prosedur lain yang diberi aroma tidak normal). ). Jika dua tes memberikan jawaban yang sangat berbeda, ini dengan sendirinya merupakan bukti berguna yang harus Anda pikirkan dengan cermat tentang cara terbaik untuk menganalisis data. (Mungkin outlier besar itu benar-benar menentukan ke arah mana jawaban itu keluar.)
Dengan pengalaman, pengguna statistik seringkali lebih informal daripada teks atau kursus menyiratkan mereka seharusnya. Jika Anda berbicara melalui analisis dengan mereka, Anda akan sering menemukan bahwa mereka membuat penilaian cepat seperti "Tentu, plot kotak menunjukkan beberapa outlier ringan, tetapi dengan data seperti analisis varian ini akan berfungsi dengan baik" atau "Dengan kemiringan yang ditandai, skala logaritmik adalah satu - satunya pilihan yang masuk akal ". Saya tidak berpikir Anda akan sering menemukan mereka memilih teknik berdasarkan apakah tes Shapiro-Wilk signifikan atau tidak signifikanP<0.05. Mengatakan sesuatu seperti itu mungkin tidak banyak membantu pengguna yang kurang berpengalaman, tetapi tampaknya lebih benar daripada gagasan bahwa statistik menawarkan resep tepat yang harus selalu diikuti.