Panji-panji outlier tidak merupakan panggilan penilaian (atau dalam hal apa pun tidak perlu satu). Diberikan model statistik, outlier memiliki definisi objektif yang tepat: mereka adalah pengamatan yang tidak mengikuti pola mayoritas data. Pengamatan seperti itu perlu dipisahkan pada awal analisis apa pun hanya karena jarak mereka dari sebagian besar data memastikan bahwa mereka akan melakukan tarikan yang tidak proporsional pada model multivariabel yang dipasang dengan kemungkinan maksimum (atau bahkan fungsi kehilangan cembung lainnya).
Hal ini penting untuk menunjukkan bahwa outlier multivariabel s dapat hanya tidak bisa diandalkan terdeteksi menggunakan residual dari fit setidaknya persegi (atau model lain diperkirakan oleh ML, atau kehilangan fungsi cembung lainnya). Sederhananya, outlier multivariabel hanya dapat dideteksi dengan andal menggunakan residu mereka dari model yang dipasang menggunakan prosedur estimasi yang tidak rentan untuk diayun oleh mereka.
Keyakinan bahwa pencilan akan perlu menonjol dalam residu dari kecocokan klasik di suatu tempat di sana dengan yang sulit lainnya untuk menyangkal statistik tidak-tidak seperti menafsirkan nilai-p sebagai ukuran bukti atau menarik kesimpulan pada populasi dari sampel yang bias. Kecuali mungkin yang ini mungkin jauh lebih tua: Gauss sendiri merekomendasikan penggunaan estimator yang kuat seperti median dan mad (bukan rata-rata klasik dan standar deviasi) untuk memperkirakan parameter distribusi normal dari pengamatan bising (bahkan terjadi sejauh menurunkan faktor konsistensi orang gila (1)).
Untuk memberikan contoh visual sederhana berdasarkan data nyata, pertimbangkan data bintang CYG yang terkenal itu . Garis merah di sini menggambarkan paling cocok persegi, garis biru cocok diperoleh dengan menggunakan regresi linier yang kuat. Kecocokan kuat di sini adalah kecocokan FastLTS (2), suatu alternatif terhadap kecocokan LS yang dapat digunakan untuk mendeteksi pencilan (karena menggunakan prosedur estimasi yang memastikan bahwa pengaruh pengamatan apa pun terhadap koefisien estimasi dibatasi). Kode R untuk mereproduksi itu adalah:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
Menariknya, 4 pengamatan terluar di sebelah kiri bahkan tidak memiliki residu terbesar sehubungan dengan kecocokan LS dan plot QQ dari residu kecocokan LS (atau alat diagnostik apa pun yang berasal darinya seperti jarak Cook atau jarak dfbeta) gagal menunjukkan salah satu dari mereka bermasalah. Ini sebenarnya adalah norma: tidak lebih dari dua outlier diperlukan (terlepas dari ukuran sampel) untuk menarik perkiraan LS sedemikian rupa sehingga outlier tidak akan menonjol dalam plot residual. Ini disebut efek maskingdan itu didokumentasikan dengan baik. Mungkin satu-satunya hal yang luar biasa tentang set data CYGstars adalah bahwa itu adalah bivariat (karenanya kita dapat menggunakan inspeksi visual untuk mengkonfirmasi hasil dari fit yang kuat) dan bahwa sebenarnya ada penjelasan yang baik mengapa empat pengamatan di sebelah kiri ini begitu tidak normal.
Ini, btw, pengecualian lebih dari aturan: kecuali dalam studi percontohan kecil yang melibatkan sampel kecil dan beberapa variabel dan di mana orang yang melakukan analisis statistik juga terlibat dalam proses pengumpulan data, saya tidak pernah mengalami kasus di mana keyakinan sebelumnya tentang identitas outlier sebenarnya benar. Omong-omong, mudah untuk memverifikasi. Terlepas dari apakah outlier telah diidentifikasi menggunakan algoritma pendeteksian outlier atau firasat peneliti, outlier adalah dengan pengamatan definisi yang memiliki leverage abnormal (atau 'tarikan') atas koefisien yang diperoleh dari fit LS. Dengan kata lain, pencilan adalah pengamatan yang pemindahan dari sampel harus sangat berdampak pada kecocokan LS.
Meskipun saya tidak pernah secara pribadi mengalami hal ini, ada beberapa kasus yang terdokumentasi dengan baik dalam literatur di mana pengamatan ditandai sebagai outlier oleh algoritma pendeteksian outlier yang kemudian ditemukan sebagai kesalahan besar atau dihasilkan oleh proses yang berbeda. Dalam kasus apa pun, tidak dibenarkan secara ilmiah atau bijaksana untuk hanya menghapus pencilan jika mereka dapat dipahami atau dijelaskan. Jika sekelompok kecil pengamatan sejauh ini dihapus dari badan utama data sehingga dapat dengan sendirinya menarik hasil dari prosedur statistik dengan sendirinya adalah bijaksana (dan saya mungkin menambahkan alami) untuk memperlakukannya terpisah terlepas dari apakah atau tidak titik data ini kebetulan juga tersangka dengan alasan lain.
(1): lihat Stephen M. Stigler, The History of Statistics: Pengukuran Ketidakpastian sebelum 1900.
(2): Komputasi Regresi LTS untuk Set Data Besar (2006) PJ Rousseeuw, K. van Driessen.
(3): Metode Multivariat Robust High-Breakdown (2008). Hubert M., Rousseeuw PJ dan Van Aelst S. Sumber: Statist. Sci. Volume 23, 92-119.