Apakah ada jumlah varian yang diperlukan yang ditangkap oleh PCA untuk melakukan analisis selanjutnya?


15

Saya memiliki dataset dengan 11 variabel dan PCA (orthogonal) dilakukan untuk mengurangi data. Memutuskan jumlah komponen untuk dijaga jelas bagi saya dari pengetahuan saya tentang subjek dan plot scree (lihat di bawah) bahwa dua komponen utama (PC) cukup untuk menjelaskan data dan komponen lainnya hanya kurang informatif.

masukkan deskripsi gambar di sini
Scree plot dengan analisis paralel: nilai eigen yang diamati (hijau) dan nilai eigen yang disimulasikan berdasarkan pada 100 simulasi (merah). Plot Scree menyarankan 3 PC, sedangkan tes paralel menunjukkan hanya dua PC pertama.

masukkan deskripsi gambar di sini

Seperti yang Anda lihat, hanya 48% varians yang dapat ditangkap oleh dua PC pertama.

Pengamatan plot pada bidang pertama yang dibuat oleh 2 PC pertama mengungkapkan tiga cluster yang berbeda menggunakan hierarchical aglomerative clustering (HAC) dan K-means clustering. 3 kelompok ini ternyata sangat relevan dengan masalah yang dipermasalahkan dan konsisten dengan temuan lain juga. Jadi kecuali fakta bahwa hanya 48% dari varians yang ditangkap, semuanya sangat baik.

Salah satu dari dua pengulas saya mengatakan: seseorang tidak dapat banyak bergantung pada temuan ini karena hanya 48% dari varians dapat dijelaskan dan itu kurang dari yang dibutuhkan.

Pertanyaan
Apakah ada nilai yang diperlukan tentang berapa banyak varians yang harus ditangkap oleh PCA agar valid? Apakah itu tidak tergantung pada pengetahuan domain dan metodologi yang digunakan? Adakah yang bisa menilai berdasarkan keseluruhan analisis hanya berdasarkan nilai varians yang dijelaskan saja?

Catatan

  • Data adalah 11 variabel gen yang diukur dengan metodologi yang sangat sensitif dalam biologi molekuler yang disebut Real-Time Quantitative Polymerase Chain Reaction (RT-qPCR).
  • Analisis dilakukan dengan menggunakan R.
  • Jawaban dari analis data berdasarkan pengalaman pribadi mereka yang bekerja pada masalah kehidupan nyata di bidang analisis microarray, chemometrics, analisis spektometrik atau sama-sama sangat dihargai.
  • Harap pertimbangkan untuk mendukung jawaban Anda dengan referensi sebanyak mungkin.

Distribusi nilai eigen cukup penting untuk Teori Matriks Acak. Distribusi Marcenko-Pastur kadang-kadang digunakan untuk aplikasi serupa.
John

Apa yang ditunjukkan oleh warna hijau dan garis oranye / kecoklatan? Hanya ada di poros.
usεr11852 mengatakan Reinstate Monic

@ usεr11852, silakan lihat keterangan yang diperbarui.
gelar doktor

Jawaban:


8

Mengenai pertanyaan khusus Anda:

Apakah ada nilai yang diperlukan dari berapa banyak varians yang harus ditangkap oleh PCA agar valid?

Tidak, tidak ada (setahu saya). Saya sangat percaya bahwa tidak ada nilai tunggal yang dapat Anda gunakan; tidak ada ambang ajaib persentase persentase yang ditangkap. Artikel Cangelosi dan Goriely: Retensi komponen dalam analisis komponen utama dengan aplikasi data microarray cDNA memberikan gambaran yang agak bagus tentang setengah lusin aturan standar praktis untuk mendeteksi jumlah komponen dalam sebuah penelitian. (Scree plot, Proportion of total variance dijelaskan, aturan Nilai eigen rata-rata, diagram nilai Log-eigen, dll.) Sebagai aturan praktis saya tidak akan sangat bergantung pada salah satu dari mereka.

Apakah itu tidak tergantung pada pengetahuan domain dan metodologi yang digunakan?

Idealnya itu harus tergantung tetapi Anda harus berhati-hati bagaimana Anda mengucapkannya dan apa yang Anda maksudkan.

Sebagai contoh: Dalam Akustik ada gagasan Just Notable Perbedaan ( JND ). Asumsikan Anda menganalisis sampel akustik dan PC tertentu memiliki variasi skala fisik jauh di bawah ambang JND. Tidak ada yang bisa dengan mudah menyatakan bahwa untuk aplikasi Akustik Anda harus memasukkan PC itu. Anda akan menganalisis suara yang tidak terdengar. Mungkin ada beberapa alasan untuk memasukkan PC ini tetapi alasan-alasan ini perlu disampaikan bukan sebaliknya. Apakah mereka mirip dengan JND untuk analisis RT-qPCR?

Demikian pula, jika sebuah komponen terlihat seperti urutan ke-9 Legendre polinomial dan Anda memiliki bukti kuat bahwa sampel Anda terdiri dari benjolan Gaussian tunggal, Anda memiliki alasan kuat untuk meyakini bahwa Anda lagi memodelkan variasi yang tidak relevan. Apa yang ditunjukkan oleh mode variasi ortogonal ini? Apa yang "salah" dengan PC ke-3 dalam kasus Anda misalnya?

Fakta bahwa Anda mengatakan " 3 kelompok ini ternyata sangat relevan dengan masalah yang dipermasalahkan " bukanlah argumen yang kuat. Anda mungkin mengeruk data sederhana (yang merupakan hal buruk ). Ada teknik lain, misalnya. Isomaps dan embedding lokal-linear , yang juga keren, mengapa tidak menggunakannya? Mengapa Anda memilih PCA khusus?

Konsistensi temuan Anda dengan temuan lain lebih penting, terutama jika temuan ini dianggap mapan. Gali lebih dalam tentang ini. Cobalah untuk melihat apakah hasil Anda setuju dengan temuan PCA dari penelitian lain.

Adakah yang bisa menilai berdasarkan keseluruhan analisis hanya berdasarkan nilai varians yang dijelaskan saja?

Secara umum orang tidak boleh melakukan itu. Namun jangan berpikir bahwa resensi buku Anda adalah bajingan atau semacamnya; 48% memang merupakan persentase kecil untuk dipertahankan tanpa menghadirkan pembenaran yang masuk akal.


Terima kasih atas jawaban Anda. Tidak ada yang terlalu istimewa tentang RT-qPCR seperti dengan JND. Faktanya, RT-qPCR hanya teknik yang digunakan untuk mengukur variabel gen itu sendiri. Kemungkinan besar yang Anda maksudkan adalah PC yang merupakan variabel baru yang dibuat dari kombinasi linear dari semua 11. Mengingat variabel deskriptif lainnya, 2 PC pertama ternyata terkait dengan sel-sel respon imun, sedangkan PC ke-3 tidak. Kalau tidak, tidak ada yang salah dengan PC ke-3.
gelar doktor

Saya akan melihat teknik pengerukan data dan belajar lebih banyak tentang mereka. Tapi apakah Anda tahu secara kebetulan apakah ini telah diterapkan oleh paket-R apa saja?
gelar doktor

1
@doctorate: Seluruh idenya adalah untuk menghindari pengerukan data. Saya minta maaf tapi saya tidak tahu paket apa pun yang secara eksplisit menguji untuk itu.
usεr11852 mengatakan Reinstate Monic

1
+1, tetapi kalimat Anda tentang pengerukan data ("Anda mungkin pengerukan data sederhana") tidak terlalu jelas dan mungkin itulah sebabnya @doctorate bingung. Bahkan, saya menemukan bahwa seluruh paragraf tidak begitu jelas: apa yang harus dilakukan Isomap dan LLE dengan pengerukan data? apakah pengerukan data baik atau buruk? artikel wiki yang Anda tautkan dimulai dengan menggambarkannya sebagai sesuatu yang baik. Mungkin Anda bisa mengedit menjadi sedikit lebih eksplisit dalam paragraf itu?
Amuba kata Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.