Sebagai catatan whuber, penulis dari algoritma clustering kanopi menyarankan bahwa T1 dan T2 dapat diatur dengan validasi silang. Namun, parameter ini dapat disetel dengan cara yang sama seperti parameter hiper lainnya. Salah satu teknik yang paling umum adalah pencarian kisi, di mana rentang ditentukan untuk setiap parameter, serta ukuran langkah untuk bagaimana parameter diubah di setiap iterasi. Misalnya, misalkan kita menetapkan T1 memiliki kisaran nilai 25 hingga 100 dengan ukuran langkah 25. Ini berarti nilai yang mungkin dari T1 untuk dicoba adalah (25, 50, 75, 100). Demikian juga, kita bisa mengatur T2 untuk memiliki nilai yang mungkin antara 1-4, dengan ukuran langkah 1, sehingga nilai yang mungkin adalah (1,2,3,4). Ini berarti ada 16 set parameter yang mungkin untuk dicoba. Seperti halnya algoritma klasifikasi atau pengelompokan lainnya, apakah Anda akan menilai kemanjurannya dengan menghitung skor-F1, akurasi / kesalahan, atau metrik kinerja lainnya untuk menentukan set terbaik dari 16 set parameter. Selain pencarian kisi, algoritma pengoptimalan parameter-hyper lainnya termasuk Nelder-Mead ,algoritma genetik , anil simulasi , dan optimalisasi kerumunan partikel , di antara banyak lainnya. Algoritma ini akan membantu Anda menentukan nilai yang sesuai untuk T1 dan T2 secara otomatis.
Anda mencatat di atas bahwa Anda memiliki kumpulan data 100K-dimensi. Apakah Anda mengacu pada jumlah baris atau jumlah kolom dalam data Anda? Jika Anda mengacu pada jumlah kolom, saya akan menyarankan untuk melakukan beberapa kombinasi pemilihan fitur berdasarkan varians fitur individu dan ekstraksi fitur melalui analisis komponen utama (PCA) atau Kernel-PCA . Sekalipun banyak fitur Anda berguna (mis. Memberikan keuntungan informasi untuk membedakan antara cluster / kelas / nilai variabel output), memiliki terlalu banyak fitur mungkin berarti algoritma pengelompokan Anda tidak dapat menentukan jarak yang sesuai antara instance.