Saya telah menemukan sebuah skenario di mana saya memiliki 10 sinyal / orang untuk 10 orang (jadi 100 sampel) berisi 14000 titik data (dimensi) yang harus saya sampaikan ke pengklasifikasi. Saya ingin mengurangi dimensi data ini dan PCA tampaknya menjadi cara untuk melakukannya. Namun, saya hanya dapat menemukan contoh PCA di mana jumlah sampel lebih besar dari jumlah dimensi. Saya menggunakan aplikasi PCA yang menemukan PC menggunakan SVD. Ketika saya melewatinya dataset 100x14000 saya ada 101 PC dikembalikan sehingga sebagian besar dimensi jelas diabaikan. Program menunjukkan 6 PC pertama mengandung 90% dari varians.
Apakah ini asumsi yang masuk akal bahwa 101 PC ini pada dasarnya mengandung semua varian dan dimensi yang tersisa dapat diabaikan?
Salah satu makalah yang saya baca mengklaim bahwa, dengan menggunakan set data yang serupa (walaupun kualitasnya sedikit lebih rendah) daripada milik saya, mereka mampu mengurangi 4.500 dimensi hingga 80 mempertahankan 96% dari informasi asli. Kertas tangan-gelombang atas rincian teknik PCA yang digunakan, hanya 3100 sampel tersedia, dan saya punya alasan untuk percaya sampel kurang dari yang digunakan untuk benar-benar melakukan PCA (untuk menghilangkan bias dari fase klasifikasi).
Apakah saya kehilangan sesuatu atau apakah ini benar-benar cara PCA digunakan dengan dataset ukuran sampel berdimensi tinggi-rendah? Umpan balik akan sangat dihargai.