Saya cenderung mendengar bahwa biasanya 3 nilai eigen terbesar adalah yang paling penting, sedangkan yang mendekati nol adalah noise
Anda dapat menguji untuk itu. Lihat makalah yang tertaut dalam posting ini untuk detail lebih lanjut. Sekali lagi jika Anda berurusan dengan seri waktu keuangan, Anda mungkin ingin mengoreksi leptokurtisitas terlebih dahulu (yaitu pertimbangkan serangkaian pengembalian yang disesuaikan dengan garch, bukan pengembalian mentah).
Saya telah melihat beberapa makalah penelitian yang menyelidiki bagaimana distribusi nilai eigen yang terjadi secara alami berbeda dari yang dihitung dari matriks korelasi acak (sekali lagi, membedakan suara dari sinyal).
Edward:> Biasanya, orang akan melakukannya dengan cara lain: lihat distribusi multivariat dari nilai eigen (dari matriks korelasi) yang berasal dari aplikasi yang Anda inginkan. Setelah Anda mengidentifikasi kandidat yang kredibel untuk distribusi nilai eigen, seharusnya cukup mudah untuk menghasilkannya.
Prosedur terbaik tentang cara mengidentifikasi distribusi multivariat dari nilai eigen Anda bergantung pada berapa banyak aset yang ingin Anda pertimbangkan secara bersamaan (yaitu apa dimensi dari matriks korelasi Anda). Ada trik yang rapi jika ( p menjadi jumlah aset).p≤10p
Edit (komentar oleh Shabbychef)
prosedur empat langkah:
- Misalkan Anda memiliki sub sampel data multivarian. Anda memerlukan estimator dari matriks varians-kovarian ˜ C j untuk setiap sub-sampel j (Anda dapat menggunakan estimator klasik atau alternatif yang kuat seperti MCD cepat , yang diterapkan dengan baik di matlab, SAS, S, R ,. ..) Seperti biasa, jika Anda berurusan dengan seri waktu keuangan Anda ingin mempertimbangkan serangkaian pengembalian yang disesuaikan dengan garch, bukan pengembalian mentah.j=1,...,JC~jj
- jΛ~j= log(λ~j1)catatan( λ~jhal)C~j
- CV( Λ~)J× halΛ~j
- CV(Λ~)wiCV(Λ~)wi=γi∑pi=1γiγi
J≥2