Saya berasumsi bagian dari pertanyaan ini adalah apakah ada metrik lain selain varians kumulatif persen (CPV) dan pendekatan plot scree serupa. Jawabannya adalah, ya, banyak .
Makalah yang bagus tentang beberapa opsi adalah Valle 1999:
Ini melampaui CPV, tetapi juga Analisis Paralel, validasi silang, Varian kesalahan rekonstruksi (VRE), metode berbasis kriteria informasi, dan banyak lagi. Anda dapat mengikuti rekomendasi yang dibuat oleh makalah setelah membandingkan dan menggunakan VRE, tetapi validasi silang berdasarkan PRESS juga bekerja dengan baik dalam pengalaman saya dan mereka mendapatkan hasil yang baik dengan itu. Dalam pengalaman saya, CPV nyaman dan mudah, dan melakukan pekerjaan yang layak, tetapi kedua metode itu biasanya lebih baik.
Ada cara lain untuk mengevaluasi seberapa baik model PCA Anda jika Anda tahu lebih banyak tentang data. Salah satu caranya adalah membandingkan perkiraan beban PCA dengan yang benar jika Anda mengetahuinya (yang akan Anda lakukan dalam simulasi). Ini dapat dilakukan dengan menghitung bias dari estimasi beban ke yang sebenarnya. Semakin besar bias Anda, semakin buruk model Anda. Untuk cara melakukannya, Anda dapat memeriksa makalah ini di mana mereka menggunakan pendekatan ini untuk membandingkan metode. Ini tidak dapat digunakan dalam kasus data nyata, di mana Anda tidak tahu pemuatan PCA yang sebenarnya. Ini berbicara kurang tentang berapa banyak komponen yang Anda hapus, daripada bias model Anda karena pengaruh pengamatan terpencil, tetapi masih berfungsi sebagai metrik kualitas model.