Ketika Anda bergerak cukup jauh dari normalitas, semua estimator linier mungkin sewenang-wenang .
Mengetahui bahwa Anda bisa mendapatkan yang terbaik dari banyak yang buruk (yaitu perkiraan linear tidak memihak terbaik ) tidak banyak penghiburan.
Jika Anda dapat menentukan model distribusi yang cocok (ya , ada intinya ), memaksimalkan kemungkinan memiliki daya tarik intuitif langsung - dalam hal itu "memaksimalkan peluang" untuk melihat sampel yang benar-benar Anda lihat (dengan penyempurnaan yang sesuai dari apa yang kami maksud dengan itu untuk kasus kontinu) dan sejumlah sifat yang sangat rapi yang berguna baik secara teoritis dan praktis (misalnya hubungan dengan batas bawah Cramer-Rao, kesetaraan dalam transformasi, hubungan dengan uji rasio kemungkinan dan sebagainya). Ini memotivasi estimasi-M misalnya.
Bahkan ketika Anda tidak dapat menentukan model, dimungkinkan untuk membangun model yang ML kuat terhadap kontaminasi oleh kesalahan kotor dalam distribusi bersyarat dari respons - di mana ia mempertahankan efisiensi yang cukup baik di Gaussian tetapi menghindari kemungkinan bencana. dampak outlier besar sewenang-wenang.
[Itu bukan satu-satunya pertimbangan dengan regresi, karena ada juga kebutuhan untuk ketahanan terhadap efek pencilan yang berpengaruh misalnya, tapi itu adalah langkah awal yang baik]
Sebagai demonstrasi masalah bahkan dengan penaksir linier terbaik, pertimbangkan perbandingan penaksir kemiringan ini untuk regresi. Dalam hal ini ada 100 pengamatan di setiap sampel, x adalah 0/1, kemiringan sebenarnya adalah12dan kesalahan adalah Cauchy standar. Simulasi mengambil 1000 set data simulasi dan menghitung estimasi kuadrat kemiringan ("LS") serta beberapa penduga nonlinier yang dapat digunakan dalam situasi ini (keduanya tidak sepenuhnya efisien di Cauchy tetapi keduanya masuk akal ) - satu adalah penaksir L1 dari garis ("L1") dan yang kedua menghitung perkiraan-L lokasi yang sederhana pada dua nilai x dan cocok dengan garis yang menyatukannya ("LE").
Bagian atas diagram adalah petak dari seribu perkiraan kemiringan lereng untuk setiap simulasi. Bagian bawah adalah pusat satu persen (kira-kira, itu ditandai dengan kotak oranye-abu-abu samar di plot atas) dari gambar "meledak" sehingga kita dapat melihat lebih detail. Seperti yang kita lihat, lereng dengan kuadrat terkecil berkisar dari -771 hingga 1224 dan kuartil bawah dan atas adalah -1,24 dan 2,46. Kesalahan dalam kemiringan LS lebih dari 10 lebih dari 10% dari waktu. Dua penduga nonlinier bekerja jauh lebih baik - mereka melakukan cukup mirip satu sama lain, tak satu pun dari 1.000 perkiraan kemiringan dalam kedua kasus lebih dari 0,84 dari kemiringan sebenarnya dan kesalahan absolut median di lereng adalah di stadion baseball 0,14 untuk masing-masing (vs 1,86 untuk estimator kuadrat terkecil). Kemiringan LS memiliki RMSE sebesar 223 dan 232 kali dari estimasi L1 dan LE dalam kasus ini (yaitu '
Ada lusinan penaksir wajar lainnya yang mungkin telah digunakan di sini; ini hanyalah perhitungan cepat untuk menggambarkan bahwa bahkan penaksir linier terbaik / paling efisien mungkin tidak berguna. Pengukur ML lereng akan berkinerja lebih baik (dalam arti MSE) daripada dua penaksir kuat yang digunakan di sini, tetapi dalam praktiknya Anda menginginkan sesuatu dengan kekokohan pada titik yang berpengaruh.