Karena, mengasumsikan kesalahan normal secara efektif sama dengan mengasumsikan bahwa kesalahan besar tidak terjadi! Distribusi normal memiliki ekor yang sangat ringan, sehingga kesalahan di luar standar deviasi memiliki probabilitas yang sangat rendah, kesalahan di luar standar deviasi secara efektif tidak mungkin. Dalam praktiknya, anggapan itu jarang benar. Ketika menganalisis kumpulan data kecil dan rapi dari percobaan yang dirancang dengan baik, ini mungkin tidak terlalu menjadi masalah, jika kita melakukan analisis residu yang baik. Dengan data dengan kualitas yang lebih rendah, mungkin lebih penting.± 6± 3± 6
Ketika menggunakan metode berbasis-likelihood (atau bayesian), efek dari normalitas ini (seperti dikatakan di atas, secara efektif ini adalah "tidak ada kesalahan besar" -asumsi!) Adalah membuat inferensi sangat sedikit kuat. Hasil analisis terlalu banyak dipengaruhi oleh kesalahan besar! Ini harus demikian, karena dengan asumsi "tidak ada kesalahan besar" memaksa metode kami untuk menafsirkan kesalahan besar sebagai kesalahan kecil, dan itu hanya dapat terjadi dengan memindahkan parameter nilai rata-rata untuk membuat semua kesalahan lebih kecil. Salah satu cara untuk menghindarinya adalah dengan menggunakan apa yang disebut "metode kuat", lihat http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf
Tetapi Andrew Gelman tidak akan mendukung hal ini, karena metode yang kuat biasanya disajikan dengan cara yang sangat non-bayesian. Menggunakan kesalahan t-didistribusikan dalam model kemungkinan / bayesian adalah cara yang berbeda untuk mendapatkan metode yang kuat, karena distribusi memiliki ekor yang lebih berat daripada normal, sehingga memungkinkan untuk proporsi kesalahan besar yang lebih besar. Jumlah parameter derajat kebebasan harus diperbaiki terlebih dahulu, tidak diperkirakan dari data, karena perkiraan seperti itu akan menghancurkan sifat ketahanan metode (*) (ini juga merupakan masalah yang sangat sulit, fungsi kemungkinan untuk , angka derajat kebebasan, dapat tidak terbatas, mengarah pada penduga yang sangat tidak efisien (bahkan tidak konsisten).νtν
Jika, misalnya, Anda berpikir (takut) bahwa sebanyak 1 dari sepuluh pengamatan mungkin merupakan "kesalahan besar" (di atas 3 sd), maka Anda dapat menggunakan distribusi- dengan 2 derajat kebebasan, menambah jumlah itu jika proporsi kesalahan besar diyakini lebih kecil.t
Saya harus mencatat bahwa apa yang telah saya katakan di atas adalah untuk model dengan didistribusikan kesalahan independen . Ada juga proposal distribusi multivariat (yang tidak independen) sebagai distribusi kesalahan. Propsal yang banyak dikritik di koran "baju baru kaisar: kritik terhadap multivariat model regresi" oleh TS Breusch, JC Robertson dan AH Welsh, di Statistika Neerlandica (1997) Vol. 51, no. 3, hal. 269-286, di mana mereka menunjukkan bahwa distribusi kesalahan multivariat secara empiris tidak dapat dibedakan dari normal. Tapi kritik yang tidak mempengaruhi independen Model. t t t tttttt
(*) Salah satu referensi yang menyatakan ini adalah MASS Venables & Ripley --- Statistik Terapan Modern dengan S (pada halaman 110 dalam edisi ke-4).