Penafian: Saya hanya memiliki pengetahuan tangensial tentang topik tersebut, tetapi karena tidak ada orang lain yang menjawab, saya akan mencobanya
Jarak itu penting
Setiap teknik pengurangan dimensionalitas berdasarkan jarak (tSNE, UMAP, MDS, PCoA dan mungkin lainnya) hanya sebagus metrik jarak yang Anda gunakan. Seperti yang ditunjukkan @amoeba dengan benar, tidak mungkin ada solusi satu ukuran untuk semua, Anda harus memiliki metrik jarak yang menangkap apa yang Anda anggap penting dalam data, yaitu bahwa baris yang Anda anggap serupa memiliki jarak kecil dan baris yang Anda inginkan anggap berbeda punya jarak yang jauh.
Bagaimana Anda memilih metrik jarak yang baik? Pertama, izinkan saya melakukan sedikit pengalihan:
Pentahbisan
Jauh sebelum masa kejayaan pembelajaran mesin modern, ahli ekologi komunitas (dan kemungkinan besar yang lain) telah mencoba membuat plot yang bagus untuk analisis eksplorasi data multidimensi. Mereka menyebut proses penahbisan dan itu adalah kata kunci yang berguna untuk mencari dalam literatur ekologi kembali setidaknya ke tahun 70-an dan masih kuat sampai sekarang.
Yang penting adalah bahwa ahli ekologi memiliki kumpulan data yang sangat beragam dan berurusan dengan campuran fitur biner, bilangan bulat dan nilai nyata (misalnya ada / tidaknya spesies, jumlah spesimen yang diamati, pH, suhu). Mereka telah menghabiskan banyak waktu memikirkan jarak dan transformasi untuk membuat penahbisan bekerja dengan baik. Saya tidak memahami bidang dengan sangat baik, tetapi sebagai contoh review oleh Legendre dan De Cáceres Beta keragaman sebagai varians dari data komunitas: dissimilaritycoefficients dan partisi menunjukkan sejumlah besar kemungkinan jarak yang mungkin ingin Anda periksa.
Penskalaan multidimensi
Alat masuk untuk penahbisan adalah penskalaan multi-dimensi (MDS), terutama varian non-metrik (NMDS) yang saya anjurkan agar Anda coba selain t-SNE. Saya tidak tahu tentang dunia Python, tetapi implementasi R dalam metaMDS
fungsi vegan
paket melakukan banyak trik untuk Anda (misalnya menjalankan beberapa kali hingga menemukan dua yang serupa).
Ini telah diperdebatkan, lihat komentar: Bagian bagus tentang MDS adalah bahwa ia juga memproyeksikan fitur (kolom), sehingga Anda dapat melihat fitur mana yang mendorong pengurangan dimensi. Ini membantu Anda menafsirkan data Anda.
Perlu diingat bahwa t-SNE telah dikritik sebagai alat untuk memperoleh pemahaman lihat misalnya eksplorasi ini perangkapnya - Saya pernah mendengar UMAP memecahkan beberapa masalah, tetapi saya tidak memiliki pengalaman dengan UMAP. Saya juga tidak meragukan sebagian alasan para ahli ekologi menggunakan NMDS adalah budaya dan kelembaman, mungkin UMAP atau t-SNE sebenarnya lebih baik. Sejujurnya aku tidak tahu.
Meluncurkan jarak Anda sendiri
[ 0 , 1 ] terlepas dari jumlah fitur sementara besarnya jarak Euclidean mencerminkan jumlah fitur.
Sebuah kata peringatan
Setiap saat Anda harus ingat bahwa karena Anda memiliki begitu banyak tombol untuk disetel, Anda dapat dengan mudah jatuh ke dalam perangkap penyetelan sampai Anda melihat apa yang ingin Anda lihat. Ini sulit dihindari sepenuhnya dalam analisis eksplorasi, tetapi Anda harus berhati-hati.