Perbedaan antara Outlier dan Inlier

Saya menemukan istilah inlier dalam ukuran LOF (Local Outlier Factor), saya akrab dengan istilah outlier (pada dasarnya liers - contoh yang tidak berperilaku seperti contoh lainnya).

Apa arti 'Inliers' dalam konteks deteksi anomali? dan bagaimana hal itu terkait dengan (berbeda dari) pencilan?

residuals outliers anomaly-detection

— Anton.P
sumber

ec.europa.eu/eurostat/statistics-explained/index.php/... dan stats.oecd.org/glossary/detail.asp?ID=3464

— Mark L. Batu

Ini adalah area di mana ada sedikit ketidakkonsistenan dalam terminologi yang memiliki efek yang disayangkan membingungkan beberapa diskusi statistik. Konsep " inlier ""umumnya digunakan untuk merujuk ke nilai data yang ada dalam kesalahan (yaitu, tunduk pada kesalahan pengukuran) tetapi tetap dalam" interior "dari distribusi nilai-nilai yang diukur dengan benar. Dengan definisi ini inlier memiliki dua aspek: (1 ) itu di bagian dalam distribusi nilai yang relevan, dan (2) itu adalah nilai yang salah. Sebaliknya, gagasan yang sesuai dari "outlier" biasanya digunakan untuk merujuk pada setiap nilai data yang jauh ke ujung ekor dari distribusi, tetapi tanpa aspek definisi dengan asumsi bahwa itu salah. Terminologi ini menghasilkan inkonsistensi yang tidak menguntungkan, di mana "inlier" adalah titik data yang keliru (menurut definisi) tetapi "outlier" tidak selalu merupakan titik data yang salah. di bawah terminologi ini, penyatuan "inliers" dan "outlier"tidak sesuai dengan semua data, atau bahkan dengan semua data yang salah.

Berurusan dengan outlier: Saya telah membahas berurusan dengan outlier dalam pertanyaan lain di sini dan di sini , tetapi untuk kenyamanan, saya akan mengulangi beberapa dari pernyataan itu di sini. Pencilan adalah titik yang jauh dari sebagian besar titik lain dalam distribusi, dan diagnosis "pencilan" dilakukan dengan membandingkan titik data dengan beberapa bentuk distribusi yang diasumsikan. Meskipun outlier kadang-kadang dapat disebabkan oleh kesalahan pengukuran, diagnosis outlier juga dapat terjadi ketika data mengikuti distribusi dengan kurtosis tinggi (yaitu, ekor berlemak), tetapi analis membandingkan titik data dengan bentuk distribusi yang diasumsikan dengan kurtosis rendah (misalnya, distribusi normal).

Menandai "pencilan" dalam tes pencilan benar-benar hanya berarti bahwa distribusi model yang Anda gunakan tidak memiliki ekor yang cukup gemuk untuk secara akurat mewakili data yang diamati. Ini bisa jadi karena beberapa data mengandung kesalahan pengukuran, atau bisa juga dari distribusi dengan ekor berlemak. Kecuali ada beberapa alasan untuk berpikir bahwa penyimpangan dari bentuk model yang diasumsikan merupakan bukti kesalahan pengukuran (yang akan membutuhkan dasar teoritis untuk asumsi distribusi), keberadaan pencilan umumnya berarti bahwa Anda harus mengubah model Anda untuk menggunakan distribusi dengan gemuk. ekor. Secara inheren sulit untuk membedakan antara kesalahan pengukuran dan kurtosis tinggi yang merupakan bagian dari distribusi yang mendasarinya.

Berurusan dengan inliers (yang biasanya melibatkan tidak berurusan dengan mereka): Kecuali Anda memiliki sumber informasi eksternal yang mengindikasikan kesalahan pengukuran, pada dasarnya tidak mungkin untuk mengidentifikasi "inliers". Menurut definisi, ini adalah titik data yang ada di "interior" distribusi, tempat sebagian besar data lainnya terjadi. Oleh karena itu, tidak terdeteksi oleh tes yang mencari data yang merupakan "penyimpangan" dari titik data lainnya. (Dalam beberapa kasus Anda dapat mendeteksi "inliers" yang tampaknya berada di bagian dalam distribusi, tetapi sebenarnya "outlier" ketika diambil sehubungan dengan representasi distribusi yang lebih kompleks. Dalam hal ini intinya sebenarnya adalah sebuah outlier,

Dalam beberapa kasus yang jarang terjadi, Anda mungkin memiliki sumber informasi eksternal yang mengidentifikasi bagian dari data Anda sebagai subjek kesalahan pengukuran (misalnya, jika Anda melakukan survei besar dan Anda menemukan bahwa salah satu surveyor Anda hanya membuat data mereka ). Dalam hal ini, setiap titik data dalam subset yang ada di bagian dalam distribusi adalah "inliers" dan diketahui melalui informasi eksternal yang akan mengalami kesalahan pengukuran. Dalam hal ini Anda biasanya akan menghapus semua data yang diketahui salah, bahkan jika beberapa di antaranya adalah "inliers" yang ada di bagian dalam distribusi di mana Anda mengharapkannya. Intinya di sini adalah bahwa suatu titik data dapat keliru bahkan jika itu tidak ada di ujung distribusi.

— Ben - Pasang kembali Monica
sumber