Komentar @Jerome Baum tepat. Untuk membawa kutipan Gelman ke sini:
Deteksi outlier bisa menjadi hal yang baik. Masalahnya adalah bahwa non-ahli statistik tampaknya suka menempel pada kata "outlier" tanpa mencoba berpikir sama sekali tentang proses yang menciptakan outlier, juga beberapa buku teks memiliki aturan yang terlihat bodoh bagi ahli statistik seperti saya, aturan seperti memberi label sesuatu sebagai outlier jika lebih dari beberapa sd dari median, atau apa pun. Konsep outlier berguna tetapi saya pikir itu membutuhkan konteks — jika Anda memberi label sesuatu sebagai outlier, Anda ingin mencoba memahami mengapa Anda berpikir demikian.
Untuk menambahkan sedikit lebih banyak, bagaimana kalau kita mendefinisikan outlier terlebih dahulu . Cobalah untuk melakukannya dengan keras tanpa merujuk pada sesuatu yang visual seperti "sepertinya jauh dari poin lain". Ini sebenarnya cukup sulit.
Saya akan mengatakan bahwa pencilan adalah titik yang sangat tidak mungkin diberikan model bagaimana poin dihasilkan. Dalam kebanyakan situasi, orang tidak benar-benar memiliki model bagaimana poin dihasilkan, atau jika mereka melakukannya terlalu disederhanakan sehingga sering salah. Jadi, seperti yang dikatakan Andrew, orang akan melakukan hal-hal seperti berasumsi bahwa beberapa jenis proses Gaussian menghasilkan poin dan jadi jika suatu titik lebih dari sejumlah SD tertentu dari nilai rata-rata, itu adalah outlier. Secara matematis nyaman, tidak begitu berprinsip.
Dan kami bahkan belum masuk ke dalam apa yang dilakukan orang dengan outlier setelah mereka diidentifikasi. Kebanyakan orang ingin membuang poin-poin yang tidak nyaman ini, misalnya. Dalam banyak kasus, outlier yang mengarah pada terobosan dan penemuan, bukan yang bukan outlier!
Ada banyak ad-hoc'ery dalam deteksi outlier, seperti yang dilakukan oleh non-ahli statistik, dan Andrew tidak nyaman dengan itu.