Jadi saya menyadari ini telah ditanyakan sebelumnya: misalnya Apa kasus penggunaan terkait dengan analisis cluster metrik jarak yang berbeda? tetapi saya telah menemukan jawaban yang agak kontradiktif dengan apa yang disarankan harus dimungkinkan dalam literatur.
Baru-baru ini saya telah membaca dua makalah yang menyebutkan menggunakan algoritma kmeans dengan metrik lain, misalnya mengedit jarak antara string dan "Jarak Penggerak Bumi" antara distribusi. Mengingat bahwa makalah ini menyebutkan menggunakan kmeans dengan metrik lain tanpa menentukan bagaimana , terutama ketika datang untuk menghitung rata-rata set poin, menunjukkan kepada saya bahwa mungkin ada beberapa metode "standar" untuk menangani ini yang saya tidak memilih di atas.
Ambil contoh makalah ini , yang memberikan implementasi lebih cepat dari algoritma k-means. Mengutip dari paragraf 4 dalam pengantar, penulis mengatakan algoritmenya "dapat digunakan dengan metrik jarak kotak hitam", dan pada paragraf berikutnya ia menyebutkan edit jarak sebagai contoh spesifik. Namun algoritma-nya masih menghitung rata-rata sekumpulan poin dan tidak menyebutkan bagaimana hal ini dapat memengaruhi hasil dengan metrik lain (saya terutama bingung bagaimana cara kerja rata-rata dengan mengedit jarak).
Makalah lain ini menjelaskan menggunakan k-means untuk mengelompokkan tangan poker untuk abstraksi hold-em texas. Jika Anda melompat ke halaman 2 di bawah kolom kiri penulis menulis "dan kemudian k-means digunakan untuk menghitung abstraksi dengan jumlah cluster yang diinginkan menggunakan Earth Mover Distance antara setiap pasangan histogram sebagai metrik jarak".
Saya tidak benar-benar mencari seseorang untuk menjelaskan makalah ini kepada saya, tetapi apakah saya kehilangan beberapa metode standar untuk menggunakan k-means dengan metrik lainnya? Rata-rata standar dengan jarak penggerak bumi sepertinya bisa bekerja secara heuristik, tetapi jarak edit tampaknya tidak sesuai dengan cetakan sama sekali. Saya menghargai wawasan yang bisa diberikan seseorang.
(sunting) : Saya maju dan mencoba k-means pada histogram distribusi menggunakan jarak penggerak bumi (mirip dengan apa yang ada di kertas poker) dan tampaknya berfungsi dengan baik, kluster yang dihasilkannya terlihat cukup bagus untuk kasus penggunaan saya. Untuk rata-rata saya hanya memperlakukan histogram sebagai vektor dan dirata-rata dengan cara normal. Satu hal yang saya perhatikan adalah jumlah semua titik jarak ke sarana tidak selalu menurun secara monoton. Namun dalam praktiknya, itu akan menentukan min lokal dalam 10 iterasi meskipun ada masalah monoton. Saya akan berasumsi bahwa ini adalah apa yang mereka lakukan di makalah kedua, satu-satunya pertanyaan yang tersisa kemudian adalah, bagaimana sih yang akan Anda rata-rata ketika menggunakan sesuatu seperti mengedit jarak?