Saya punya beberapa pertanyaan singkat tentang PCA:
- Apakah PCA berasumsi bahwa dataset adalah Gaussian?
- Apa yang terjadi ketika saya menerapkan PCA ke data non-linear yang inheren?
Diberikan dataset, prosesnya adalah untuk menormalkan rata-rata, mengatur varians ke 1, mengambil SVD, mengurangi peringkat, dan akhirnya memetakan dataset ke dalam ruang pengurangan peringkat yang baru. Di ruang baru, setiap dimensi sesuai dengan "arah" varians maksimal.
- Tetapi apakah korelasi dataset itu di ruang baru selalu nol, atau apakah itu hanya berlaku untuk data yang secara inheren Gaussian?
Misalkan saya memiliki dua set data, "A" dan "B", di mana "A" sesuai dengan poin sampel yang diambil secara acak dari Gaussian, sedangkan "B" sesuai dengan poin yang diambil secara acak dari sampel distribusi lain (misalnya Poisson).
- Bagaimana PCA (A) dibandingkan dengan PCA (B)?
- Dengan melihat titik-titik di ruang baru, bagaimana saya menentukan bahwa PCA (A) sesuai dengan poin sampel dari Gaussian, sedangkan PCA (B) sesuai dengan poin sampel dari Poisson?
- Apakah korelasi poin dalam "A" 0?
- Apakah korelasi poin dalam "B" juga 0?
- Lebih penting lagi, apakah saya mengajukan pertanyaan "benar"?
- Haruskah saya melihat korelasinya, atau apakah ada metrik lain yang harus saya pertimbangkan?