Sering kali seorang analis statistik menyerahkan set dataset dan diminta untuk mencocokkan suatu model menggunakan teknik seperti regresi linier. Seringkali dataset disertai dengan penafian yang mirip dengan "Oh yeah, kami mengacaukan mengumpulkan beberapa poin data ini - lakukan apa yang Anda bisa".
Situasi ini mengarah pada kecocokan regresi yang sangat dipengaruhi oleh keberadaan pencilan yang mungkin merupakan data yang salah. Diberikan sebagai berikut:
Berbahaya dari sudut pandang ilmiah dan moral untuk membuang data tanpa alasan selain itu "membuat fit tampak buruk".
Dalam kehidupan nyata, orang-orang yang mengumpulkan data sering kali tidak tersedia untuk menjawab pertanyaan seperti "kapan menghasilkan kumpulan data ini, poin mana yang Anda salahkan, tepatnya?"
Tes statistik atau aturan praktis apa yang dapat digunakan sebagai dasar untuk mengecualikan pencilan dalam analisis regresi linier?
Apakah ada pertimbangan khusus untuk regresi multilinear?