Pemilihan model PCA menggunakan AIC (atau BIC)

12

Saya ingin menggunakan Akaike Information Criterion (AIC) untuk memilih jumlah faktor yang tepat untuk diekstraksi dalam PCA. Satu-satunya masalah adalah saya tidak yakin bagaimana menentukan jumlah parameter.

Pertimbangkan matriks , di mana mewakili jumlah variabel dan jumlah pengamatan, sehingga . Karena matriks kovarians simetris, maka estimasi kemungkinan maksimum dapat menetapkan jumlah parameter dalam AIC sama dengan . $T\times N$ $X$ $N$ $T$ $X\sim \mathcal N\left(0,\Sigma\right)$ $\Sigma$ $\frac{N\left(N+1\right)}{2}$

Atau, dalam PCA, Anda bisa mengekstrak pertama vektor eigen dan nilai eigen dari , menyebut mereka dan dan kemudian menghitung mana adalah varian residual rata-rata. Menurut hitungan saya, jika Anda memiliki faktor , maka Anda akan parameter di , parameter dalam , dan parameter dalam . $f$ $\Sigma$ $\beta_{f}$ $\Lambda_{f}$

Σ = β_{f} Λ_{f} β_{f}^{'} + I σ_{r}^{2}

$\Sigma=\beta_{f}\Lambda_{f}\beta_{f}'+I\sigma_{r}^{2}$

σ_{r}^{2}

$\sigma_{r}^{2}$

f

$f$

f

$f$

Λ_{f}

$\Lambda_{f}$

N f

$Nf$

β_{f}

$\beta_{f}$

1

$1$

σ_{r}^{2}

$\sigma_{r}^{2}$

Apakah pendekatan ini benar? Sepertinya hal itu akan menyebabkan lebih banyak parameter dibandingkan dengan pendekatan kemungkinan maksimum sebagai jumlah faktor meningkat menjadi . $N$

pca model-selection

— John
sumber

1

N f

$N f$ overcounts parameter: ada redundansi karena fakta bahwa vektor eigen saling ortogonal.

— whuber

10

Vektor eigen pertama memiliki parameter gratis. Kondisi orthogonality membatasi vektor eigen kedua ke hyperspace orthogonal ke yang pertama, hanya membutuhkan parameter . Setiap vektor eigen berturut-turut membutuhkan satu parameter lebih sedikit daripada yang sebelumnya. Pada batas vektor eigen Anda membuang (karena sekarang nol), memberikan = parameter di toto, dalam perjanjian dengan parameter pertama Anda menghitung.

N

$N$

N - 1

$N-1$

N

$N$

σ_{r}^{2}

$\sigma_r^2$

N + (N - 1) + \dots + 1

$N+(N-1)+\cdots+1$

N (N + 1) / 2

$N(N+1)/2$

— whuber

1

@ A.Donda Situasinya tidak jelas: anggaplah Anda juga telah menunjukkan multiplisitas dari setiap nilai eigen dan bahwa multiplisitas ini adalah menjumlahkan ke Memungkinkan PCA menemukan transformasi ortogonal, kita akan memiliki parameter untuk menentukannya. Tetapi stabilisator dari setiap eigenspace adalah kelompok ortogonal dalam dimensiMasing-masing dengan demikian menghilangkan parameter , meninggalkan parameter untuk rotasi. The eigen memasok parameter yang tersisa.

n_{1}, n_{2}, \dots, n_{s},

$n_1, n_2, \ldots, n_s,$

N .

$N.$

N (N - 1) / 2

$N(N-1)/2$

n_{i} .

$n_i.$

n_{i} (n_{i} - 1) / 2

$n_i(n_i-1)/2$

N (N - 1) / 2 - \sum_{i = 1}^{s} n_{i} (n_{i} - 1) / 2

$N(N-1)/2 - \sum_{i=1}^s n_i(n_i-1)/2$

s

$s$

— whuber

1

(Saya harus menambahkan bahwa aplikasi penghitungan ini untuk pertanyaan itu meragukan: PCA menggunakan semua parameter , bahkan jika itu mungkin terjadi untuk menemukan beberapa nilai eigen dari multiplisitas yang lebih tinggi. Dan di hampir semua dataset nyata, itu tidak akan pernah mendapatkan multiplisitas lebih besar dari )

N (N - 1) / 2

$N(N-1)/2$

1

$1$

— whuber

1

@whuber, terima kasih! Pertanyaan saya dimotivasi oleh situasi di mana saya memperkirakan matriks kovarian di bawah batasan pada nilai eigen.

— A. Donda

5

$\mathrm{log}\: p(D|k)$ $k$ $D$

Jelas ini mengambil sudut pandang Bayesian dari masalah Anda yang tidak didasarkan pada kriteria teori informasi (KL-divergence) yang digunakan oleh AIC.

Mengenai pertanyaan "penentuan parameter 'angka" asli saya juga berpikir komentar @ whuber membawa intuisi yang benar.

— usεr11852
sumber

Saya bermain-main dengan AIC versus AICc pada matriks acak dengan berbagai ukuran. AICc tampaknya bekerja lebih baik. Referensi-referensi itu terlihat bagus, tetapi saya belum sempat mencernanya.

— John

6

Memilih sejumlah komponen yang "sesuai" dalam PCA dapat dilakukan secara elegan dengan Horn's Parallel Analysis (PA). Makalah menunjukkan bahwa kriteria ini secara konsisten mengungguli aturan praktis seperti kriteria siku atau aturan Kaiser. Paket R "paran" memiliki implementasi PA yang hanya membutuhkan beberapa klik mouse.

Tentu saja, berapa banyak komponen yang Anda simpan tergantung pada tujuan pengurangan data. Jika Anda hanya ingin mempertahankan varian yang "bermakna", PA akan memberikan pengurangan yang optimal. Namun, jika Anda ingin meminimalkan hilangnya informasi dari data asli, Anda harus menyimpan komponen yang cukup untuk mencakup 95% perbedaan yang dijelaskan. Ini jelas akan menyimpan lebih banyak komponen daripada PA, meskipun untuk dataset berdimensi tinggi, pengurangan dimensionalitas akan tetap besar.

Satu catatan terakhir tentang PCA sebagai masalah "pemilihan model". Saya tidak sepenuhnya setuju dengan jawaban Peter. Ada sejumlah makalah yang merumuskan ulang PCA sebagai masalah tipe regresi, seperti PCA Jarang, PCA Kemungkinan Jarang, atau ScotLASS. Dalam solusi PCA "berbasis model" ini, memuat adalah parameter yang dapat diatur ke 0 dengan ketentuan penalti yang sesuai. Agaknya, dalam konteks ini, dimungkinkan juga untuk menghitung statistik tipe AIC atau BIC untuk model yang dipertimbangkan.

Pendekatan ini secara teoritis dapat mencakup model di mana, misalnya, dua PC tidak dibatasi (semua memuat non-nol), versus model di mana PC1 tidak dibatasi dan PC2 memiliki semua beban diatur ke 0. Ini akan setara dengan menyimpulkan apakah PC2 berlebihan secara keseluruhan.

Referensi (PA) :

Dinno, A. (2012). paran: Uji Tanduk Komponen Utama / Faktor. Paket R versi 1.5.1. http://CRAN.R-project.org/package=paran
Klakson JL 1965. Alasan dan ujian untuk sejumlah faktor dalam analisis faktor. Psikometrika . 30: 179–185
Hubbard, R. & Allen SJ (1987). Perbandingan empiris metode alternatif untuk ekstraksi komponen utama. Jurnal Penelitian Bisnis, 15 , 173-190.
Zwick, WR & Velicer, WF 1986. Perbandingan Lima Aturan untuk Menentukan Jumlah Komponen yang Akan Dipertahankan. Buletin Psikologis. 99 : 432–442

— Ben M.
sumber

Selamat datang di situs ini, @BenM. Dari jawaban Anda, saya pikir akan menyenangkan mengajak Anda (walaupun saya tidak cukup tahu tentang PCA di luar dasar-dasar untuk mengevaluasi klaim Anda). Satu pertanyaan, Anda perhatikan bahwa posisi-posisi ini telah mapan, dapatkah Anda membuat daftar beberapa publikasi representatif di mana pembaca yang tertarik dapat menemukan lebih detail?

— gung - Reinstate Monica

-1

AIC dirancang untuk pemilihan model. Ini sebenarnya bukan masalah pemilihan model dan mungkin Anda akan lebih baik mengambil pendekatan yang berbeda. Alternatifnya adalah dengan menentukan persentase total tertentu dari varians yang dijelaskan (misalnya, 75%) dan berhenti ketika persentase mencapai 75% jika pernah.

— Michael R. Chernick
sumber

1

Saya memilih antara model yang berbeda berdasarkan jumlah faktor (model dengan 1 faktor versus model dengan 2, dll). Masalah dengan persentase varians terutama adalah bahwa ia mengabaikan biaya estimasi vektor eigen tambahan, terutama ketika jumlah pengamatan kurang dari jumlah variabel. AIC cocok dengan pendekatan PCA probabilistik.

— John

3

Michael, dapatkah Anda menjelaskan dengan tepat mengapa ini bukan masalah pemilihan model? Sepertinya John telah merumuskannya dengan jelas.

— whuber

@whuber Apa model statistiknya? Tampak bagi saya bahwa menentukan jumlah komponen utama yang digunakan untuk mewakili x% dari varians dalam variabel Y tidak memilih model. Saya tidak akan menganggap komponen utama sebagai parameter model juga.

— Michael R. Chernick

2

X_{i}

$X_i$

N (0, Σ)

$N(0,\Sigma)$

Σ

$\Sigma$

σ_{i}^{2}

$\sigma_i^2$

ρ

$\rho$

| ρ | = 1

$|\rho|=1$

θ

$\theta$

λ_{1} \geq λ_{2}

$\lambda_1\ge\lambda_2$

λ_{2} = 0

$\lambda_2=0$ . Kedua tes perspektif untuk korelasi sempurna (collinearity); mereka hanya menggunakan parameterisasi yang berbeda. Jika Anda mengizinkan yang pertama sebagai model, Anda harus mengizinkan yang kedua.

— whuber

-3

AIC tidak sesuai di sini. Anda tidak memilih di antara model dengan jumlah parameter yang bervariasi - komponen utama bukan parameter.

Ada sejumlah metode untuk menentukan jumlah faktor atau komponen dari analisis faktor atau analisis komponen utama - uji scree, nilai eigen> 1, dll. Tetapi tes sebenarnya adalah substantif: Jumlah faktor apa yang masuk akal ? Lihatlah faktor-faktornya, pertimbangkan bobotnya, cari tahu mana yang paling cocok dengan data Anda.

Seperti hal lain dalam statistik, ini bukan sesuatu yang dapat dengan mudah diotomatisasi.

— Peter Flom - Pasang kembali Monica
sumber

4

Σ

$\Sigma$

Σ

$\Sigma$

1

@whuber Parameter dari matriks kovarians mungkin tetapi bukan parameter model. Saya memihak Peter dalam hal ini.

— Michael R. Chernick

3

Peter, apa perbedaan yang Anda buat antara "parameter model" dan "parameter"? Saya tidak mengetahui hal seperti itu dan akan sangat menghargai belajar tentang ini. Jika tujuan Anda adalah menemukan deskripsi kovarian multivarian yang kikir, bukankah itu merupakan parameter "model"?

— whuber

3

n

$n$

m ≪ n

$m\ll n$

1

Terimakasih atas infonya. Rangkaian waktu adalah salah satu bidang statistik yang saya tahu sedikit tentang.

— Peter Flom - Reinstate Monica