Saya memerlukan beberapa saran untuk metode clustering (klasifikasi tanpa pengawasan) untuk proyek konsultasi. Saya mencari metode yang mudah-mudahan memiliki properti berikut:
Subjek penelitian saya memiliki tiga sifat. Satu diwakili oleh matriks jarak (non-Euclidean) dan dua lainnya dalam bentuk vektor dalam ruang Euclidean. Matriks jarak berasal dari urutan dan bisa dalam bentuk persen ketidaksamaan atau pengukuran jarak urutan lainnya. Algoritme harus dapat mengambil kedua vektor dalam ruang euclidean dan jarak non-euclidean sebagai input. Sebagai contoh, K-medoid dapat bekerja dengan matriks jarak tetapi K-berarti tidak bisa.
Saya ingin algoritma untuk memilih jumlah cluster dan bobot untuk tiga properti secara otomatis (dengan pengetahuan dan kendala sebelumnya).
Saya memiliki informasi tentang "pusat cluster" yang sebelumnya diidentifikasi. Saya ingin memasukkannya sebagai nilai awal atau awal.
Sebagai ahli statistik, saya lebih suka metode ini memiliki fungsi kemungkinan atau kerugian yang jelas.
Hal terdekat yang dapat saya pikirkan adalah memasang model campuran dalam kerangka Bayesian menggunakan reverse jump MCMC untuk menentukan jumlah cluster. Vektor dalam R ^ d dapat dengan mudah diformulasikan menjadi kemungkinan normal tetapi bagaimana cara berurusan dengan matriks jarak tidak jelas bagi saya. Saya dapat membatasi rata-rata kemungkinan normal untuk berada di setiap pengamatan untuk menjalankan MCMC tetapi itu tidak memiliki arti matematika / statistik yang jelas.
Adakah yang punya pengalaman dengan masalah serupa? Saran untuk referensi akan sangat dihargai!