Formalisasi pengelompokan selain dari K-means untuk data yang dapat dipisahkan


11

Data dunia nyata kadang-kadang memiliki jumlah kluster alami (mencoba mengelompokkannya ke dalam jumlah klaster yang lebih rendah daripada beberapa k ajaib akan menyebabkan peningkatan dramatis pada biaya pengelompokan). Hari ini saya menghadiri kuliah oleh Dr. Adam Meyerson dan dia menyebut jenis data itu sebagai "data yang dapat dipisahkan".

Apa saja formalisasi pengelompokan, selain dari K-means, yang dapat menerima algoritma pengelompokan (perkiraan atau heuristik) yang akan mengeksploitasi pemisahan alami dalam data?

Jawaban:


11

Salah satu model terbaru yang mencoba menangkap gagasan semacam itu adalah oleh Balcan, Blum, dan Gupta '09. Mereka memberikan algoritma untuk berbagai tujuan pengelompokan ketika data memenuhi asumsi tertentu: yaitu bahwa jika data sedemikian rupa sehingga aproksimasi untuk tujuan pengelompokan adalah dekat dengan pengelompokan yang optimal, maka mereka dapat memberikan algoritma yang efisien untuk menemukan suatu pengelompokan hampir-optimal, bahkan untuk nilai yang menemukan -approximation adalah NP-hard. Ini adalah asumsi tentang data yang entah bagaimana "baik" atau "dapat dipisahkan." Lipton memiliki posting blog yang bagus tentang ini.cϵcc

Jenis kondisi serupa lainnya tentang data yang diberikan dalam makalah oleh Bilu dan Linial '10 adalah stabilitas-gangguan. Pada dasarnya, mereka menunjukkan bahwa jika data sedemikian rupa sehingga pengelompokan optimal tidak berubah ketika data terganggu (oleh beberapa parameter ) untuk nilai-nilai cukup besar , orang dapat secara efisien menemukan pengelompokan optimal untuk data asli, bahkan ketika masalahnya adalah NP-Hard pada umumnya. Ini adalah gagasan lain tentang stabilitas atau keterpisahan data.αα

Saya yakin ada karya sebelumnya dan gagasan yang relevan sebelumnya, tetapi ini adalah beberapa hasil teoritis terbaru yang terkait dengan pertanyaan Anda.


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.