Dalam beberapa kasus tampak jelas bahwa teori mungkin paling berhasil (panjang ekor tikus mungkin terdistribusi normal).
Panjang ekor tentu tidak terdistribusi normal.
Distribusi normal memiliki probabilitas nol untuk mengambil nilai negatif; panjang ekor tidak.
Garis terkenal George Box , " semua model salah, tetapi ada yang berguna " membuat titik agak baik. Kasus-kasus di mana kita mungkin secara wajar menyatakan normalitas (bukan hanya perkiraan normalitas) memang sangat jarang, hampir makhluk legenda, fatamorgana kadang-kadang hampir sekilas keluar dari sudut mata.
Dalam banyak kasus, mungkin tidak ada teori untuk mendeskripsikan sekumpulan data, jadi Anda hanya menggunakan sesuatu yang sesuai dengan apa yang Anda miliki dengan cukup baik terlepas dari apa yang semula dikembangkan untuk menggambarkannya?
Dalam kasus di mana jumlah yang Anda minati tidak terlalu sensitif terhadap pilihan (selama fitur luas dari distribusi konsisten dengan apa yang diketahui), maka ya, Anda bisa menggunakan sesuatu yang cocok dengan cukup baik.
Dalam kasus di mana ada tingkat sensitivitas yang lebih besar, 'hanya menggunakan sesuatu yang sesuai' tidak cukup sendiri. Kami mungkin menggunakan beberapa pendekatan yang tidak membuat asumsi tertentu (mungkin prosedur bebas distribusi, seperti permutasi, bootstrap atau pendekatan resampling lainnya, atau prosedur yang kuat). Atau kita dapat mengukur sensitivitas terhadap asumsi distribusi, seperti melalui simulasi (memang saya pikir ini umumnya ide yang baik).
tampaknya ada masalah yang mungkin Anda harus menggunakan distribusi empiris jika Anda benar-benar tidak tahu.
Saya tidak akan menggambarkan bahwa sebagai masalah - mendasarkan kesimpulan pada distribusi empiris tentu saja pendekatan yang sah cocok untuk berbagai jenis masalah (permutasi / pengacakan dan bootstrap adalah dua contoh).
apakah seseorang memiliki cara yang koheren untuk mendekati / memikirkan masalah ini?
secara luas, dalam banyak kasus, saya cenderung mempertimbangkan pertanyaan seperti:
1) Apa yang saya mengerti * tentang bagaimana cara (atau jumlah tipe lokasi lainnya) berperilaku untuk data dari formulir ini?
* (apakah dari teori, atau pengalaman dari bentuk data ini, atau saran ahli, atau jika perlu, dari data itu sendiri, meskipun itu membawa masalah yang harus dihadapi)
2) Bagaimana dengan penyebaran (varian, IQR, dll) - bagaimana cara kerjanya?
3) Bagaimana dengan fitur distribusi lainnya (batas, kemiringan, kelonggaran, dll)
4) Bagaimana dengan ketergantungan, heterogenitas populasi, kecenderungan nilai yang kadang sangat berbeda, dll
Pertimbangan semacam ini mungkin memandu pilihan antara model normal, GLM, beberapa model lain atau beberapa pendekatan yang kuat atau bebas distribusi (seperti pendekatan bootstrap atau permutasi / pengacakan, termasuk prosedur berbasis peringkat)