Pertama, peringatan. Dalam pengelompokan seringkali tidak ada satu "jawaban yang benar" - satu pengelompokan mungkin lebih baik daripada yang lain dengan satu metrik, dan sebaliknya mungkin benar menggunakan metrik lain. Dan dalam beberapa situasi dua pengelompokan yang berbeda bisa sama-sama dimungkinkan di bawah metrik yang sama.
Karena itu, Anda mungkin ingin melihat Dirichlet Processes . Lihat juga tutorial ini .
Jika Anda mulai dengan model Gaussian Mixture, Anda memiliki masalah yang sama dengan k-means - bahwa Anda harus memilih jumlah cluster. Anda dapat menggunakan bukti model, tetapi tidak akan kuat dalam hal ini. Jadi triknya adalah dengan menggunakan Proses Dirichlet sebelum melewati komponen campuran, yang kemudian memungkinkan Anda untuk memiliki jumlah komponen campuran yang berpotensi tak terbatas, tetapi model akan (biasanya) secara otomatis menemukan jumlah komponen yang "benar" (berdasarkan asumsi dari model).
Perhatikan bahwa Anda masih harus menentukan parameter konsentrasi dari Proses Dirichlet sebelumnya. Untuk nilai kecil , sampel dari DP cenderung terdiri dari sejumlah kecil ukuran atom dengan bobot besar. Untuk nilai besar, sebagian besar sampel cenderung berbeda (terkonsentrasi). Anda dapat menggunakan hiper-sebelum pada parameter konsentrasi dan kemudian menyimpulkan nilainya dari data, dan hiper-sebelum ini dapat samar-samar sesuai untuk memungkinkan berbagai nilai yang mungkin. Namun, dengan data yang cukup, parameter konsentrasi akan berhenti menjadi sangat penting, dan hiper-prior ini dapat dibatalkan.ααα