K-means vs. K-means online


15

K-means adalah algoritma yang terkenal untuk pengelompokan, tetapi ada juga variasi online dari algoritma tersebut (online K-means). Apa pro dan kontra dari pendekatan ini, dan kapan masing-masing harus lebih disukai?

Jawaban:


11

K-means online (lebih dikenal sebagai sekuensial k-means ) dan k-means tradisional sangat mirip. Perbedaannya adalah bahwa k-means online memungkinkan Anda untuk memperbarui model saat data baru diterima.

K-means online harus digunakan ketika Anda mengharapkan data diterima satu per satu (atau mungkin dalam satuan). Ini memungkinkan Anda untuk memperbarui model Anda saat Anda mendapatkan informasi lebih lanjut tentang itu. Kelemahan dari metode ini adalah tergantung pada urutan penerimaan data ( ref ).


7

Publikasi k-means MacQueen asli (yang pertama menggunakan nama "kmeans") adalah algoritma online.

MacQueen, JB (1967). "Beberapa Metode untuk klasifikasi dan Analisis Pengamatan Multivariat". Prosiding Simposium Berkeley ke-5 tentang Statistik Matematika dan Probabilitas 1. University of California Press. hlm. 281–297

Setelah menetapkan setiap titik, rerata diperbarui secara bertahap menggunakan rumus rata-rata tertimbang sederhana (rerata lama ditimbang dengan n, pengamatan baru ditimbang dengan 1, jika rerata memiliki n pengamatan sebelumnya).

Sejauh yang saya tahu, itu juga dimaksudkan untuk menjadi hanya satu melewati data saja, meskipun dapat diulang sepele beberapa kali untuk menetapkan kembali poin sampai konvergensi.

MacQueen biasanya membutuhkan lebih sedikit iterasi daripada Lloyds untuk konvergen jika data Anda diacak (karena pembaruan berarti lebih cepat!). Pada data yang dipesan, ini dapat memiliki masalah. Pada sisi negatifnya, ini membutuhkan lebih banyak perhitungan untuk setiap objek, sehingga setiap iterasi membutuhkan waktu yang sedikit lebih lama (operasi matematika tambahan, tentu saja).

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.