Saya mencari untuk melakukan k-means pengelompokan pada set poin 10-dimensi. Tangkapan: ada 10 ^ 10 poin .
Saya hanya mencari pusat dan ukuran cluster terbesar (misalkan 10 hingga 100 cluster); Saya tidak peduli tentang tujuan dari setiap titik. Menggunakan k-means secara spesifik tidak penting; Saya hanya mencari efek yang sama, setiap perkiraan k-means atau algoritma terkait akan bagus (minibatch-SGD berarti, ...). Karena GMM dalam arti masalah yang sama dengan k-means, melakukan GMM pada data ukuran yang sama juga menarik.
Pada skala ini, melakukan subsampling data mungkin tidak mengubah hasilnya secara signifikan: kemungkinan menemukan 10 klaster teratas yang sama dengan menggunakan sampel 1/1000 data sangat baik. Tetapi bahkan kemudian, itu adalah masalah 10 ^ 6 poin yang berada di / di luar batas penurut.