Kami biasanya menggunakan PCA sebagai teknik reduksi dimensi untuk data di mana kasus dianggap iid
Pertanyaan: Apa nuansa khas dalam menerapkan PCA untuk data dependen dan non-iid? Apa sifat bagus / berguna PCA yang berlaku untuk data iid dikompromikan (atau hilang seluruhnya)?
Sebagai contoh, data dapat berupa deret waktu multivariat di mana autokorelasi atau autoregresif kondisional heteroskedastisitas (ARCH) dapat diharapkan.
Beberapa pertanyaan terkait tentang penerapan PCA ke data deret waktu telah diajukan sebelumnya, misalnya 1 , 2 , 3 , 4 , tetapi saya mencari jawaban yang lebih umum dan komprehensif (tanpa perlu memperluas banyak pada setiap titik individual).
Sunting: Seperti dicatat oleh @ttnphns, PCA sendiri bukan merupakan analisis inferensial. Namun, orang dapat tertarik pada kinerja generalisasi PCA, yaitu berfokus pada populasi pendamping sampel PCA. Misalnya seperti yang ditulis dalam Nadler (2008) :
Dengan asumsi data yang diberikan adalah sampel terbatas dan acak dari distribusi (umumnya tidak diketahui), pertanyaan teoretis dan praktis yang menarik adalah hubungan antara sampel hasil PCA dihitung dari data hingga dan orang-orang dari model populasi yang mendasari.
Referensi:
- Nadler, Boaz. "Hasil pendekatan sampel hingga untuk analisis komponen utama: Pendekatan perturbasi matriks." The Annals of Statistics (2008): 2791-2817.