Saya akan mengutip FAQ dari situs web t-SNE . Pertama karena kebingungan:
Bagaimana cara mengatur kebingungan di t-SNE?
Kinerja t-SNE cukup kuat di bawah pengaturan yang berbeda dari kebingungan. Nilai yang paling tepat tergantung pada kepadatan data Anda. Secara longgar, bisa dikatakan bahwa dataset yang lebih besar / lebih padat membutuhkan kebingungan yang lebih besar. Nilai tipikal untuk rentang kebingungan antara 5 dan 50.
Untuk semua paremeter lainnya, saya akan mempertimbangkan untuk membaca ini:
Bagaimana saya bisa menilai kualitas visualisasi yang dibangun oleh t-SNE?
Lebih disukai, lihat saja mereka! Perhatikan bahwa t-SNE tidak mempertahankan jarak tetapi probabilitas, jadi mengukur beberapa kesalahan antara jarak Euclidean di D-tinggi dan D-rendah tidak berguna. Namun, jika Anda menggunakan data dan kebingungan yang sama, Anda dapat membandingkan divergensi Kullback-Leibler yang dilaporkan oleh t-SNE. Sangat baik untuk menjalankan t-SNE sepuluh kali, dan pilih solusi dengan divergensi KL terendah.
Dengan kata lain itu berarti: lihat plot, jika visualisasinya bagus jangan mengubah parameter. Anda juga dapat memilih proses dengan KL divergensi terendah untuk setiap kebingungan tetap.