Perbedaan antara Anomali dan Pencilan


13

Apa perbedaan antara Outlier dan Anomaly dalam konteks pembelajaran mesin. Pemahaman saya adalah keduanya merujuk pada hal yang sama.


3
Karena penasaran, di mana dalam literatur perbedaan seperti itu dibuat? Saya mendapat kesan bahwa "pencilan" tidak memiliki definisi formal, di luar dari pengaruh tinggi dan pengamatan pengaruh tinggi. Pengaruh dan pengaruh memang memiliki definisi matematika, tetapi mempertimbangkan sesuatu yang "tinggi" adalah sewenang-wenang. Sepertinya kata-kata sewenang-wenang sedang dipertukarkan.
AdamO

Orang-orang yang menggunakan kata "inlier" secara implisit membuat semacam perbedaan antara "anomali" dan "outlier," karena inlier adalah sejenis anomali. Karena "outlier" atau "anomali" tidak memiliki definisi teknis yang pasti dan dipahami secara umum, kita harus mengharapkan pertanyaan ini memiliki beberapa jawaban yang berbeda (setidaknya sedikit) satu sama lain.
whuber

Jawaban:


9

Kedua istilah tersebut adalah sinonim menurut:

Aggarwal, Charu C. Analisis Pencilan. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1

Kutipan dari halaman 1:

Pencilan juga disebut sebagai ketidaknormalan, ketidaksesuaian, penyimpangan, atau anomali dalam penambangan data dan literatur statistik.

Teks tebal bukan bagian dari teks asli.

Pdf gratis untuk mengunduh buku yang tersedia dari penulis ada di sini.


Fakta bahwa "pencilan" disebut sebagai "anomali" tidak berarti bahwa mereka identik. "Anjing" kadang-kadang disebut sebagai "binatang", dalam hal ini. Saya mencoba untuk membahas hal ini secara lebih rinci dalam jawaban ini (saya tidak dapat mempostingnya di sini, karena pertanyaannya terlindungi).
Marco13

9

Jawaban menjilat:

Outlier: nilai yang dapat Anda temukan dalam data yang mengindikasikan model Anda tidak berfungsi dengan benar

Anomali: nilai yang bertentangan dengan semua peluang yang Anda temukan di data yang menunjukkan model Anda berfungsi dengan baik

Jawaban yang lebih serius, lebih samar:

Konsep outlier dimulai dari masalah membangun model yang membuat asumsi tentang data. Pencilan sering merupakan indikator bahwa model tidak menggambarkan data dengan baik dan karenanya kita harus mempertanyakan hasil model kita atau kualitas data kita.

Konsep anomali dimulai di luar dunia teoretis dan di dalam dunia terapan: kami ingin mencari perilaku yang tidak biasa dalam data kami, kadang-kadang dimotivasi oleh fakta bahwa kami tertarik untuk menemukan perilaku yang berusaha disembunyikan seseorang (seperti virus dalam suatu surel). Masalahnya adalah karena orang berusaha menyembunyikan apa yang mereka lakukan, kita tidak benar-benar tahu apa yang harus dicari. Jadi kami mengambil satu set data "baik", dan memutuskan bahwa apa pun yang kami temukan dalam set data baru kami yang tidak terlihat "baik" adalah anomali dan layak waktu kami untuk memeriksa lebih detail. Seringkali, mencari anomali berarti mencari outlier dalam kumpulan data baru Anda. Tetapi perhatikan bahwa nilai-nilai ini mungkin sangat umum di dataset baru Anda, meskipun jarang dalam dataset lama Anda!

Singkatnya, kedua konsep ini sangat mirip dalam hal statistik di belakangnya (yaitu nilai-nilai yang tidak biasa diberikan model pas Anda) tetapi datang pada ide dari sudut yang berbeda. Selain itu, ketika kita berbicara tentang outlier, kami biasanya berarti titik data yang tidak biasa dalam data yang sesuai dengan model kami , di mana sebagai anomali biasanya dimaksudkan sebagai titik data yang tidak biasa dalam dataset di luar data yang digunakan agar sesuai dengan model kami .

Catatan: jawaban ini didasarkan pada bagaimana saya telah melihat dua istilah yang sering digunakan daripada definisi formal. Pengalaman pengguna mungkin berbeda.


6

Anomali adalah hasil yang tidak bisa dijelaskan dengan basis distribusi (ketidakmungkinan jika asumsi kita benar). Pencilan adalah peristiwa yang tidak mungkin diberikan distribusi dasar (ketidakmungkinan).


7
Mengutip sumber untuk definisi dan contoh akan sangat meningkatkan jawabannya.
Tim

4
Sejauh yang saya tahu mereka adalah sinonim. Jadi @H. Iqbal benar-benar harus mengutip sumber dan semua pembaca kemudian harus mengevaluasi
keabsahan

2
Ketidakmungkinan tampaknya menyiratkan P (X = ANOMALI) = 0 (yaitu tepat 0). Pemahaman saya tentang deteksi anomali adalah bahwa peneliti mungkin tertarik pada peristiwa yang mungkin memiliki probabilitas positif.
Cliff AB

4

Istilah-istilah tersebut sebagian besar digunakan dengan cara yang dapat dipertukarkan. "Outlier" mengacu pada sesuatu yang berada di luar norma - jadi "anomali". Tetapi saya memiliki kesan bahwa "outlier" biasanya digunakan untuk pengamatan yang sangat jarang . Dalam statistik, pada distribusi normal, Anda akan menganggap tiga sigma sebagai outlier. Itu adalah 99,7% dari objek Anda diharapkan menjadi "normal". "Anomali" digunakan jauh lebih bebas. Jika Anda tiba-tiba memiliki jutaan pengunjung di situs web Anda, ini bukan pengunjung yang jarang. Namun peningkatan pengunjung yang tiba-tiba masih "anomali", sedangkan setiap pengunjung individu bukan "outlier".

Mungkin ada di artikel ini di mana saya melihat perbedaan ini dibahas, tetapi sayangnya saya tidak dapat mengaksesnya sekarang.

Analisis Statistik dan Penambangan Data, Volume 5, Edisi 5, Oktober 2012, Halaman 363-387 Survei tentang deteksi outlier tanpa pengawasan dalam data numerik dimensi tinggi


1
Saya pikir Anda telah secara halus mengisyaratkan perbedaan antara outlier dan anomali; outlier digunakan untuk menggambarkan data yang tidak sesuai dengan tren umum, anomali menggambarkan lalu lintas yang tidak biasa di server. 50% jk.
Cliff AB

2

Hanya untuk memperkeruh air lebih jauh, dalam anomali klimatologi hanya menyiratkan perbedaan antara nilai dan rata-rata, atau penyimpangan:

Anomali suhu istilah berarti penyimpangan dari nilai referensi atau rata-rata jangka panjang. Anomali positif menunjukkan bahwa suhu yang diamati lebih hangat dari nilai referensi, sedangkan anomali negatif menunjukkan bahwa suhu yang diamati lebih dingin daripada nilai referensi.

lihat misalnya

Itu mungkin dianggap sebagai pembelajaran mesin di luar, tetapi orang-orang yang tertarik pada pertanyaan mungkin tertarik pada ini.


1

Pencilan adalah titik data yang membuatnya sulit untuk dicocokkan dengan model. Anda menghadapi pencilan, seringkali dengan enggan, ketika Anda mencoba menyesuaikan model pada dataset Anda. Menghapus pencilan memungkinkan membangun model yang lebih baik (yaitu lebih dapat digeneralisasikan). Sebuah titik(1,5) akan menjadi pencilan untuk model y=x. Anda mengabaikannya mengingat fakta bahwa semua poin Anda yang lain(1,1), (5,5), (3,3.1) lebih cocok y=x.

Suatu anomali dapat menjadi satu titik data, atau juga kecenderungan umum atau perilaku yang diamati dalam data setelah suatu model dibangun atau pemahaman tentang proses pembuatan data terbentuk. Anda menghadapi anomali karena sistem mulai berperilaku berbeda, atau Anda mencari titik data seperti itu, karena Anda ingin diberi tahu ketika suatu peristiwa terjadi selama model Anda tidak valid. Anda mungkin peduli mengamati perilaku aneh apa pun dalam amplitudo gelombang laut, bukan karena Anda ingin membuang titik data tersebut dan membangun model yang lebih baik, tetapi karena Anda ingin waspada ketika tsunami mungkin terjadi.


2
Saya tidak setuju dengan sebagian besar dari ini. Pertama, kalimat pertama bisa menjadi definisi Anda tentang outlier jika Anda suka, tetapi sulit untuk berdamai dengan banyak definisi atau penggunaan lainnya. Jika datanya (1, 1), (2, 2), (3, 3), (jauh lebih besar, jauh lebih besar) maka titik yang jauh lebih besar sering digambarkan sebagai pencilan tetapi tidak ada masalah dalam pemasangan model. Anda mungkin (dan harus) bertanya-tanya mengapa data datang seperti itu, tetapi menyesuaikan model itu mudah. Secara umum, prinsipnya adalah bahwa pencilan dapat dipisahkan dari badan utama data tetapi masih konsisten dengan model yang masuk akal.
Nick Cox

Kedua, jika implikasi bahwa menghilangkan outlier adalah apa yang harus Anda lakukan, maka (a) seringkali bermasalah bahkan untuk mengatakan outlier mana yang (b) ada banyak solusi lain. Benang stats.stackexchange.com/questions/78063/... rentang yang lebih luas daripada judul untuk menyebutkan beberapa.
Nick Cox

1
Jika Anda mengikuti tautan saya, Anda akan melihat bahwa saya telah memposting panjang lebar tentang outlier. Saya tidak masuk akal membaca kembali jawaban Anda bahwa Anda berpikir secara retrospektif karena Anda tampaknya berbicara tentang menghilangkan pencilan sementara pas. Saat membaca ulang, saya perhatikan juga bahwa kalimat pertama dari paragraf kedua Anda mencakup gagasan bahwa anomali dapat menjadi 'tren atau perilaku umum', yang tidak mungkin seperti yang Anda maksudkan - atau jika ya, saya tidak tahu. aku tidak mengerti.
Nick Cox

1

Pertanyaan bagus. Namun, pencarian google pada "perbedaan antara outlier dan situs anomali: .edu" menunjukkan bahwa tidak ada perbedaan teoritis antara kedua istilah ini. Mereka digunakan secara bergantian dalam literatur.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.