Saya mengerti dari makalah Hinton bahwa T-SNE melakukan pekerjaan dengan baik dalam menjaga kesamaan lokal dan pekerjaan yang layak dalam melestarikan struktur global (klasterisasi).
Namun saya tidak jelas apakah poin yang muncul lebih dekat dalam visualisasi t-sne 2D dapat dianggap sebagai titik data "lebih mirip". Saya menggunakan data dengan 25 fitur.
Sebagai contoh, mengamati gambar di bawah, dapatkah saya berasumsi bahwa titik data biru lebih mirip dengan titik hijau, khususnya untuk kelompok titik hijau terbesar ?. Atau, bertanya secara berbeda, apakah boleh mengasumsikan bahwa titik biru lebih mirip dengan titik hijau di gugus terdekat, daripada titik merah di gugus lainnya? (Mengabaikan poin hijau di cluster red-ish)
Ketika mengamati contoh-contoh lain, seperti yang disajikan di sci-kit, pelajari Manifold belajar, sepertinya benar untuk menganggap ini, tapi saya tidak yakin apakah benar secara statistik.
EDIT
Saya telah menghitung jarak dari dataset asli secara manual (jarak euclidean rata-rata berpasangan) dan visualisasi sebenarnya mewakili jarak spasial proporsional mengenai dataset. Namun, saya ingin tahu apakah ini cukup dapat diterima untuk diharapkan dari formulasi matematika asli dari t-sne dan bukan hanya kebetulan.