Selama data Anda berasal dari distribusi yang diketahui dengan properti yang diketahui, Anda dapat dengan ketat mendefinisikan pencilan sebagai peristiwa yang terlalu kecil kemungkinannya dihasilkan oleh proses yang diamati (jika Anda menganggap "terlalu tidak mungkin" menjadi tidak ketat, maka semua pengujian hipotesis adalah).
Namun, pendekatan ini bermasalah pada dua tingkat: Ini mengasumsikan bahwa data berasal dari distribusi yang diketahui dengan properti yang diketahui, dan itu membawa risiko bahwa pencilan dipandang sebagai titik data yang diselundupkan ke dalam kumpulan data Anda oleh beberapa peri sihir.
Dengan tidak adanya faery data magis, semua data berasal dari percobaan Anda, dan karenanya sebenarnya tidak mungkin untuk memiliki outlier, hanya hasil yang aneh. Ini dapat berasal dari kesalahan perekaman (misalnya 400.000 kamar tidur untuk 4 dolar), masalah pengukuran sistematis (algoritma analisis gambar melaporkan area besar jika objek terlalu dekat dengan perbatasan) masalah eksperimental (kadang-kadang, kristal mengendap keluar dari solusi, yang memberikan sinyal sangat tinggi), atau fitur sistem Anda (sel kadang-kadang dapat membelah menjadi tiga, bukan dua), tetapi mereka juga dapat menjadi hasil dari mekanisme yang tidak ada yang pernah mempertimbangkan karena jarang dan Anda melakukan penelitian, yang berarti bahwa beberapa hal yang Anda lakukan sama sekali belum diketahui.
Idealnya, Anda meluangkan waktu untuk menyelidiki setiap pencilan, dan hanya menghapusnya dari kumpulan data Anda setelah Anda memahami mengapa itu tidak sesuai dengan model Anda. Ini menghabiskan waktu dan subyektif karena alasannya sangat tergantung pada percobaan, tetapi alternatifnya lebih buruk: Jika Anda tidak mengerti dari mana asal outlier, Anda memiliki pilihan antara membiarkan outlier "mengacaukan" hasil Anda, atau mendefinisikan beberapa pendekatan "ketat matematis" untuk menyembunyikan kurangnya pemahaman Anda. Dengan kata lain, dengan mengejar "ketelitian matematis" Anda memilih antara tidak mendapatkan efek signifikan dan tidak masuk surga.
SUNTING
Jika semua yang Anda miliki adalah daftar angka tanpa mengetahui dari mana mereka berasal, Anda tidak memiliki cara untuk mengatakan apakah beberapa titik data adalah pencilan, karena Anda selalu dapat menganggap distribusi di mana semua data adalah inliers.