Apa metrik yang baik untuk menilai kualitas kecocokan PCA, untuk memilih jumlah komponen?

10

Apa metrik yang baik untuk menilai kualitas analisis komponen utama (PCA)?

Saya melakukan algoritma ini pada dataset. Tujuan saya adalah mengurangi jumlah fitur (informasinya sangat berlebihan). Saya tahu persentase varians yang disimpan adalah indikator yang baik tentang seberapa banyak informasi yang kami simpan, apakah ada metrik informasi lain yang dapat saya gunakan untuk memastikan saya menghapus informasi yang berlebihan dan tidak 'kehilangan' informasi seperti itu?

— pohon besar
sumber

3

Sebenarnya, tidak ada informasi "berlebihan", kecuali jika data awal Anda benar-benar sejajar. Orang biasanya melihat persentase varian dipertahankan ("kami menggunakan lima komponen utama pertama, yang menyumbang 90% dari varian"). Saya tertarik melihat alternatif.

— Stephan Kolassa

Karena salah satu tag Anda adalah teori info: Cara tidak langsung menilai apakah PCA berfungsi adalah dengan memeriksa asumsi yang digunakan teori informasi untuk memberi informasi bahwa ia memiliki kehilangan info yang rendah untuk pengurangan dimensi tertentu. Wiki mengatakan ini demikian ketika data Anda adalah jumlah dari sinyal gaussian ditambah gaussian noise. en.wikipedia.org/wiki/…

— CloseToC

17

Saya berasumsi bagian dari pertanyaan ini adalah apakah ada metrik lain selain varians kumulatif persen (CPV) dan pendekatan plot scree serupa. Jawabannya adalah, ya, banyak .

Makalah yang bagus tentang beberapa opsi adalah Valle 1999:

Pemilihan Jumlah Komponen Utama: Varians Kriteria Kesalahan Rekonstruksi dengan Perbandingan dengan Metode Lain

Sergio Valle, Weihua Li, dan S. Joe Qin, Penelitian Kimia Industri & Rekayasa 1999 38 (11), 4389-4401

Ini melampaui CPV, tetapi juga Analisis Paralel, validasi silang, Varian kesalahan rekonstruksi (VRE), metode berbasis kriteria informasi, dan banyak lagi. Anda dapat mengikuti rekomendasi yang dibuat oleh makalah setelah membandingkan dan menggunakan VRE, tetapi validasi silang berdasarkan PRESS juga bekerja dengan baik dalam pengalaman saya dan mereka mendapatkan hasil yang baik dengan itu. Dalam pengalaman saya, CPV nyaman dan mudah, dan melakukan pekerjaan yang layak, tetapi kedua metode itu biasanya lebih baik.

Ada cara lain untuk mengevaluasi seberapa baik model PCA Anda jika Anda tahu lebih banyak tentang data. Salah satu caranya adalah membandingkan perkiraan beban PCA dengan yang benar jika Anda mengetahuinya (yang akan Anda lakukan dalam simulasi). Ini dapat dilakukan dengan menghitung bias dari estimasi beban ke yang sebenarnya. Semakin besar bias Anda, semakin buruk model Anda. Untuk cara melakukannya, Anda dapat memeriksa makalah ini di mana mereka menggunakan pendekatan ini untuk membandingkan metode. Ini tidak dapat digunakan dalam kasus data nyata, di mana Anda tidak tahu pemuatan PCA yang sebenarnya. Ini berbicara kurang tentang berapa banyak komponen yang Anda hapus, daripada bias model Anda karena pengaruh pengamatan terpencil, tetapi masih berfungsi sebagai metrik kualitas model.

— Kematian14
sumber

4

Tautan ke kertas Valle, Li, dan Qin

— Zhubarb

3

Ada juga ukuran berdasarkan kriteria informasi-teoretis seperti

Rissanen MDL (dan variasi)

— Nikos M.
sumber

@ pengguna: 45382 Ya, itu satu lagi. Hal ini juga disinggung di dalam tautan yang ditulis oleh Zhubarb.

— Deathkill14

@ Deathkill14 benar saya membaca makalah, langkah-langkah informasi-teori disebutkan (sebenarnya sebagai alternatif yang baik)

— Nikos M.

Makalah teoritis yang sangat baik tentang MDL, MML dan Bayesianisme: Vitany & Li, MDL Ideal dan Kaitannya dengan Bayesianism citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . Juga metode pemilihan model lain seperti AIC dan BIC adalah implementasi MDL yang efektif.

— ggll