Saya tidak memiliki pengalaman industri dalam penambangan data atau data besar sehingga akan senang mendengar Anda berbagi pengalaman.
Apakah orang benar-benar menjalankan k-means, PAM, CLARA, dll. Pada dataset yang sangat besar? Atau mereka hanya mengambil sampel secara acak? Jika mereka hanya mengambil sampel dataset, apakah hasilnya dapat diandalkan jika dataset tidak terdistribusi secara normal?
Dalam situasi praktis saat menjalankan algoritme ini, dapatkah kita memberi tahu berapa banyak iterasi yang biasanya diperlukan hingga konvergensi terjadi? Atau jumlah iterasi selalu bertambah dengan ukuran data?
Saya menanyakan hal ini karena saya sedang berpikir untuk mengembangkan pendekatan untuk menghentikan algoritma iteratif sebelum konvergensi, namun hasilnya masih dapat diterima. Saya pikir pantas untuk dicoba jika jumlah iterasi adalah, katakan lebih dari 1.000, sehingga kita dapat menghemat biaya dan waktu komputasi. Bagaimana menurut anda?
number of iterations always grow with the data size
Belum tentu.