Saya memiliki dataset dengan 11 variabel dan PCA (orthogonal) dilakukan untuk mengurangi data. Memutuskan jumlah komponen untuk dijaga jelas bagi saya dari pengetahuan saya tentang subjek dan plot scree (lihat di bawah) bahwa dua komponen utama (PC) cukup untuk menjelaskan data dan komponen lainnya hanya kurang informatif.
Scree plot dengan analisis paralel: nilai eigen yang diamati (hijau) dan nilai eigen yang disimulasikan berdasarkan pada 100 simulasi (merah). Plot Scree menyarankan 3 PC, sedangkan tes paralel menunjukkan hanya dua PC pertama.
Seperti yang Anda lihat, hanya 48% varians yang dapat ditangkap oleh dua PC pertama.
Pengamatan plot pada bidang pertama yang dibuat oleh 2 PC pertama mengungkapkan tiga cluster yang berbeda menggunakan hierarchical aglomerative clustering (HAC) dan K-means clustering. 3 kelompok ini ternyata sangat relevan dengan masalah yang dipermasalahkan dan konsisten dengan temuan lain juga. Jadi kecuali fakta bahwa hanya 48% dari varians yang ditangkap, semuanya sangat baik.
Salah satu dari dua pengulas saya mengatakan: seseorang tidak dapat banyak bergantung pada temuan ini karena hanya 48% dari varians dapat dijelaskan dan itu kurang dari yang dibutuhkan.
Pertanyaan
Apakah ada nilai yang diperlukan tentang berapa banyak varians yang harus ditangkap oleh PCA agar valid? Apakah itu tidak tergantung pada pengetahuan domain dan metodologi yang digunakan? Adakah yang bisa menilai berdasarkan keseluruhan analisis hanya berdasarkan nilai varians yang dijelaskan saja?
Catatan
- Data adalah 11 variabel gen yang diukur dengan metodologi yang sangat sensitif dalam biologi molekuler yang disebut Real-Time Quantitative Polymerase Chain Reaction (RT-qPCR).
- Analisis dilakukan dengan menggunakan R.
- Jawaban dari analis data berdasarkan pengalaman pribadi mereka yang bekerja pada masalah kehidupan nyata di bidang analisis microarray, chemometrics, analisis spektometrik atau sama-sama sangat dihargai.
- Harap pertimbangkan untuk mendukung jawaban Anda dengan referensi sebanyak mungkin.