Saya membaca bahwa algoritma k-means hanya konvergen ke minimum lokal dan bukan ke minimum global. Kenapa ini? Saya secara logis dapat memikirkan bagaimana inisialisasi dapat mempengaruhi pengelompokan akhir dan ada kemungkinan pengelompokan sub-optimal, tetapi saya tidak menemukan apa pun yang secara matematis akan membuktikannya.
Juga, mengapa k-berarti proses berulang? Tidak bisakah kita hanya mendiferensiasikan sebagian fungsi obyektif ke centroid, menyamakannya dengan nol untuk menemukan centroid yang meminimalkan fungsi ini? Mengapa kita harus menggunakan gradient descent untuk mencapai minimum langkah demi langkah?