Memilih sejumlah komponen yang "sesuai" dalam PCA dapat dilakukan secara elegan dengan Horn's Parallel Analysis (PA). Makalah menunjukkan bahwa kriteria ini secara konsisten mengungguli aturan praktis seperti kriteria siku atau aturan Kaiser. Paket R "paran" memiliki implementasi PA yang hanya membutuhkan beberapa klik mouse.
Tentu saja, berapa banyak komponen yang Anda simpan tergantung pada tujuan pengurangan data. Jika Anda hanya ingin mempertahankan varian yang "bermakna", PA akan memberikan pengurangan yang optimal. Namun, jika Anda ingin meminimalkan hilangnya informasi dari data asli, Anda harus menyimpan komponen yang cukup untuk mencakup 95% perbedaan yang dijelaskan. Ini jelas akan menyimpan lebih banyak komponen daripada PA, meskipun untuk dataset berdimensi tinggi, pengurangan dimensionalitas akan tetap besar.
Satu catatan terakhir tentang PCA sebagai masalah "pemilihan model". Saya tidak sepenuhnya setuju dengan jawaban Peter. Ada sejumlah makalah yang merumuskan ulang PCA sebagai masalah tipe regresi, seperti PCA Jarang, PCA Kemungkinan Jarang, atau ScotLASS. Dalam solusi PCA "berbasis model" ini, memuat adalah parameter yang dapat diatur ke 0 dengan ketentuan penalti yang sesuai. Agaknya, dalam konteks ini, dimungkinkan juga untuk menghitung statistik tipe AIC atau BIC untuk model yang dipertimbangkan.
Pendekatan ini secara teoritis dapat mencakup model di mana, misalnya, dua PC tidak dibatasi (semua memuat non-nol), versus model di mana PC1 tidak dibatasi dan PC2 memiliki semua beban diatur ke 0. Ini akan setara dengan menyimpulkan apakah PC2 berlebihan secara keseluruhan.
Referensi (PA) :
- Dinno, A. (2012). paran: Uji Tanduk Komponen Utama / Faktor. Paket R versi 1.5.1. http://CRAN.R-project.org/package=paran
- Klakson JL 1965. Alasan dan ujian untuk sejumlah faktor dalam analisis faktor. Psikometrika . 30: 179–185
- Hubbard, R. & Allen SJ (1987). Perbandingan empiris metode alternatif untuk ekstraksi komponen utama. Jurnal Penelitian Bisnis, 15 , 173-190.
- Zwick, WR & Velicer, WF 1986. Perbandingan Lima Aturan untuk Menentukan Jumlah Komponen yang Akan Dipertahankan. Buletin Psikologis. 99 : 432–442