Apa perbedaan antara Outlier dan Anomaly dalam konteks pembelajaran mesin. Pemahaman saya adalah keduanya merujuk pada hal yang sama.
Apa perbedaan antara Outlier dan Anomaly dalam konteks pembelajaran mesin. Pemahaman saya adalah keduanya merujuk pada hal yang sama.
Jawaban:
Kedua istilah tersebut adalah sinonim menurut:
Aggarwal, Charu C. Analisis Pencilan. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1
Kutipan dari halaman 1:
Pencilan juga disebut sebagai ketidaknormalan, ketidaksesuaian, penyimpangan, atau anomali dalam penambangan data dan literatur statistik.
Teks tebal bukan bagian dari teks asli.
Pdf gratis untuk mengunduh buku yang tersedia dari penulis ada di sini.
Jawaban menjilat:
Outlier: nilai yang dapat Anda temukan dalam data yang mengindikasikan model Anda tidak berfungsi dengan benar
Anomali: nilai yang bertentangan dengan semua peluang yang Anda temukan di data yang menunjukkan model Anda berfungsi dengan baik
Jawaban yang lebih serius, lebih samar:
Konsep outlier dimulai dari masalah membangun model yang membuat asumsi tentang data. Pencilan sering merupakan indikator bahwa model tidak menggambarkan data dengan baik dan karenanya kita harus mempertanyakan hasil model kita atau kualitas data kita.
Konsep anomali dimulai di luar dunia teoretis dan di dalam dunia terapan: kami ingin mencari perilaku yang tidak biasa dalam data kami, kadang-kadang dimotivasi oleh fakta bahwa kami tertarik untuk menemukan perilaku yang berusaha disembunyikan seseorang (seperti virus dalam suatu surel). Masalahnya adalah karena orang berusaha menyembunyikan apa yang mereka lakukan, kita tidak benar-benar tahu apa yang harus dicari. Jadi kami mengambil satu set data "baik", dan memutuskan bahwa apa pun yang kami temukan dalam set data baru kami yang tidak terlihat "baik" adalah anomali dan layak waktu kami untuk memeriksa lebih detail. Seringkali, mencari anomali berarti mencari outlier dalam kumpulan data baru Anda. Tetapi perhatikan bahwa nilai-nilai ini mungkin sangat umum di dataset baru Anda, meskipun jarang dalam dataset lama Anda!
Singkatnya, kedua konsep ini sangat mirip dalam hal statistik di belakangnya (yaitu nilai-nilai yang tidak biasa diberikan model pas Anda) tetapi datang pada ide dari sudut yang berbeda. Selain itu, ketika kita berbicara tentang outlier, kami biasanya berarti titik data yang tidak biasa dalam data yang sesuai dengan model kami , di mana sebagai anomali biasanya dimaksudkan sebagai titik data yang tidak biasa dalam dataset di luar data yang digunakan agar sesuai dengan model kami .
Catatan: jawaban ini didasarkan pada bagaimana saya telah melihat dua istilah yang sering digunakan daripada definisi formal. Pengalaman pengguna mungkin berbeda.
Anomali adalah hasil yang tidak bisa dijelaskan dengan basis distribusi (ketidakmungkinan jika asumsi kita benar). Pencilan adalah peristiwa yang tidak mungkin diberikan distribusi dasar (ketidakmungkinan).
Istilah-istilah tersebut sebagian besar digunakan dengan cara yang dapat dipertukarkan. "Outlier" mengacu pada sesuatu yang berada di luar norma - jadi "anomali". Tetapi saya memiliki kesan bahwa "outlier" biasanya digunakan untuk pengamatan yang sangat jarang . Dalam statistik, pada distribusi normal, Anda akan menganggap tiga sigma sebagai outlier. Itu adalah 99,7% dari objek Anda diharapkan menjadi "normal". "Anomali" digunakan jauh lebih bebas. Jika Anda tiba-tiba memiliki jutaan pengunjung di situs web Anda, ini bukan pengunjung yang jarang. Namun peningkatan pengunjung yang tiba-tiba masih "anomali", sedangkan setiap pengunjung individu bukan "outlier".
Mungkin ada di artikel ini di mana saya melihat perbedaan ini dibahas, tetapi sayangnya saya tidak dapat mengaksesnya sekarang.
Analisis Statistik dan Penambangan Data, Volume 5, Edisi 5, Oktober 2012, Halaman 363-387 Survei tentang deteksi outlier tanpa pengawasan dalam data numerik dimensi tinggi
Hanya untuk memperkeruh air lebih jauh, dalam anomali klimatologi hanya menyiratkan perbedaan antara nilai dan rata-rata, atau penyimpangan:
Anomali suhu istilah berarti penyimpangan dari nilai referensi atau rata-rata jangka panjang. Anomali positif menunjukkan bahwa suhu yang diamati lebih hangat dari nilai referensi, sedangkan anomali negatif menunjukkan bahwa suhu yang diamati lebih dingin daripada nilai referensi.
Itu mungkin dianggap sebagai pembelajaran mesin di luar, tetapi orang-orang yang tertarik pada pertanyaan mungkin tertarik pada ini.
Pencilan adalah titik data yang membuatnya sulit untuk dicocokkan dengan model. Anda menghadapi pencilan, seringkali dengan enggan, ketika Anda mencoba menyesuaikan model pada dataset Anda. Menghapus pencilan memungkinkan membangun model yang lebih baik (yaitu lebih dapat digeneralisasikan). Sebuah titik akan menjadi pencilan untuk model . Anda mengabaikannya mengingat fakta bahwa semua poin Anda yang lain, , lebih cocok .
Suatu anomali dapat menjadi satu titik data, atau juga kecenderungan umum atau perilaku yang diamati dalam data setelah suatu model dibangun atau pemahaman tentang proses pembuatan data terbentuk. Anda menghadapi anomali karena sistem mulai berperilaku berbeda, atau Anda mencari titik data seperti itu, karena Anda ingin diberi tahu ketika suatu peristiwa terjadi selama model Anda tidak valid. Anda mungkin peduli mengamati perilaku aneh apa pun dalam amplitudo gelombang laut, bukan karena Anda ingin membuang titik data tersebut dan membangun model yang lebih baik, tetapi karena Anda ingin waspada ketika tsunami mungkin terjadi.