Dalam metode pengelompokan seperti K-means , jarak euclidean adalah metrik yang digunakan. Akibatnya, kami hanya menghitung nilai rata-rata di dalam setiap kluster. Dan kemudian penyesuaian dilakukan pada elemen-elemen berdasarkan jarak mereka ke setiap nilai rata-rata.
Saya bertanya-tanya mengapa fungsi Gaussian tidak digunakan sebagai metrik? Alih-alih menggunakan xi -mean(X)
, kita bisa menggunakan exp(- (xi - mean(X)).^2/std(X).^2)
. Jadi tidak hanya kesamaan di antara cluster diukur (rata-rata), tetapi kesamaan dalam cluster juga dipertimbangkan (std). Apakah ini juga setara dengan model campuran Gaussian ?
Itu di luar pertanyaan saya di sini, tetapi saya pikir pergantian-kejam mungkin muncul pertanyaan yang sama di atas.