Dalam kondisi apa K-berarti pengelompokan transformasi-invarian?

Diberikan sekumpulan titik data $X = \{x_1, x_2, \ldots, x_m\}$ mana $x_i \in \mathbb{R}^d$ kita menjalankan K-means pada $X$ dan mendapatkan klaster $c_1, c_2, \ldots, c_k$ .

Sekarang, jika kita membuat dataset baru $Y = \{y_1, y_2, \ldots, y_m\}$ mana $y_i = Ax_i + b$ dan $y_i \in \mathbb{R}^d$ dan menjalankan K-means pada $Y$ untuk mendapatkan kluster $g_1, g_2, \ldots g_k$ .

Dalam kondisi $A$ dan $b$ apa kami dijamin mendapatkan kluster yang sama?

Mari kita asumsikan bahwa K-means menggunakan jarak euclidean dan memiliki kondisi awal yang sama pada kedua algoritma, yaitu, jika pusat awal untuk X adalah maka pusat awal untuk Y adalah mana . $c^0_1, \ldots, c^0_k$ $g^0_1, \ldots, g^0_k$ $g^0_i = Ac^0_i + b$

Sejauh ini saya sudah berpikir bahwa harus peringkat penuh dan dapat berupa vektor apa pun. Namun, saya belum bisa membuktikannya. $A$ $b$

algorithms clustering

— Ana Echavarria
sumber

Jawabannya tergantung pada algoritma K-means Anda, tetapi yang berikut harus bekerja untuk algoritma standar.

Anda akan mendapatkan hasil yang sama jika transformasi Anda memenuhi dua kondisi: $T$

Ini menjaga jarak: , di mana adalah metrik Anda, katakanlah. $d(z,w) = d(T(z),T(w))$ $d$ $d(z,w) = \|z-w\|$
Ini mempertahankan rata-rata: jika adalah kombinasi cembung yang . $\sum_i p_i z_i$ $T(\sum_i p_i z_i) = \sum_i p_i T(z_i)$

Anda dapat memeriksanya dengan memeriksa algoritme, yang menunjukkan bahwa ia selalu membuat pilihan yang sama.

— Yuval Filmus
sumber

Terima kasih Yuval, ini sangat masuk akal. Apakah ini berarti bahwa untuk jarak euclidean, A harus menjadi matriks ortogonal untuk menciptakan transformasi yang kaku?

— Ana Echavarria

Sepertinya memang begitu.

— Yuval Filmus