Contoh PCA di mana PC dengan varian rendah "berguna"

24

Biasanya dalam analisis komponen utama (PCA) beberapa PC pertama digunakan dan PC varians rendah dijatuhkan, karena mereka tidak menjelaskan banyak variasi dalam data.

Namun, adakah contoh di mana PC dengan variasi rendah bermanfaat (yaitu menggunakan dalam konteks data, memiliki penjelasan intuitif, dll.) Dan tidak boleh dibuang?

pca

— Michael
sumber

5

Cukup sedikit. Lihat PCA, keacakan komponen? Ini bahkan mungkin merupakan duplikat, tetapi judul Anda jauh lebih jelas (karenanya mungkin lebih mudah ditemukan dengan mencari), jadi tolong jangan menghapusnya bahkan jika itu ditutup.

— Nick Stauner

18

Berikut kutipan keren dari Jolliffe ^{₍₁₉₈₂₎} yang tidak saya sertakan dalam jawaban saya sebelumnya untuk pertanyaan yang sangat mirip, " Komponen varians rendah dalam PCA, apakah mereka benar-benar hanya noise? Apakah ada cara untuk mengujinya? " itu cukup intuitif.

$\quad$ Misalkan diperlukan untuk memprediksi ketinggian pangkalan cloud, $H$ , masalah penting di bandara. Berbagai variabel iklim diukur termasuk suhu permukaan $T_s$ , dan titik embun permukaan, $T_d$ . Di sini, $T_d$ adalah suhu di mana udara permukaan akan jenuh dengan uap air, dan perbedaannya $T_s-T_d$ , adalah ukuran kelembaban permukaan. Sekarang $T_s,T_d$ umumnya berkorelasi positif, sehingga analisis komponen utama dari variabel iklim akan memiliki komponen varians tinggi yang sangat berkorelasi dengan $T_s+T_d$ , dan komponen varians rendah yang berkorelasi sama dengan $T_s-T_d$ . Tapi $H$ terkait dengan kelembaban dan karenanya untuk $T_s-T_d$ , yaitu untuk rendah-varian daripada komponen high-varians, sehingga strategi yang menolak komponen rendah-varian akan memberikan prediksi yang buruk untuk $H$ .
$\quad$ Diskusi contoh ini tidak jelas karena efek yang tidak diketahui dari variabel iklim lainnya yang juga diukur dan dimasukkan dalam analisis. Namun, ini menunjukkan kasus yang masuk akal secara fisik di mana variabel dependen akan terkait dengan komponen varians rendah, mengkonfirmasikan tiga contoh empiris dari literatur.
$\quad$ Selain itu, contoh pangkalan awan telah diuji pada data dari Bandara Cardiff (Wales) untuk periode 1966-1973 dengan satu variabel iklim tambahan, suhu permukaan laut, juga disertakan. Hasilnya pada dasarnya seperti yang diprediksi di atas. Komponen utama terakhir adalah sekitar $T_s-T_d$ , dan hanya menyumbang $H$ persen dari total variasi. Namun, dalam regresi komponen utama itu mudah prediktor yang paling penting bagi . _{^{^{[Penekanan ditambahkan]}}}

Tiga contoh dari literatur yang disebutkan dalam kalimat terakhir dari paragraf kedua adalah tiga yang saya sebutkan dalam jawaban saya untuk pertanyaan terkait .

^{Referensi

Jolliffe, IT (1982). Catatan tentang penggunaan komponen utama dalam regresi. Statistik Terapan, 31 (3), 300–303. Diperoleh dari http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .}

— Nick Stauner
sumber

Ini sangat keren. Saya hanya akan menambahkan catatan bahwa selalu lebih besar dari . Itu membuat saya tersandung dalam memahami mengapa tentu merupakan komponen "varians rendah"

V (A + B) = V (A) + V (B) + 2 C o v (A, B)

$V(A+B) =V(A)+V(B)+2\mathrm{Cov}(A,B)$

V (A - B) = V (A) + V (B) - 2 C o v (A, B)

$V(A-B) =V(A)+V(B)-2\mathrm{Cov}(A,B)$

T_{s} - T_{d}

$T_s - T_d$

— shadowtalker

+1, ini adalah contoh yang bagus. Menariknya, ini juga merupakan contoh penindasan.

— gung - Reinstate Monica

17

Jika Anda memiliki R, ada contoh yang baik dalam crabsdata dalam paket MASS.

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

Lebih dari 98% varians "dijelaskan" oleh dua PC pertama, tetapi sebenarnya jika Anda benar-benar mengumpulkan pengukuran ini dan sedang mempelajarinya, PC ketiga sangat menarik, karena terkait erat dengan spesies kepiting. Tetapi dibanjiri oleh PC1 (yang tampaknya sesuai dengan ukuran kepiting) dan PC2 (yang tampaknya sesuai dengan jenis kelamin kepiting.)

masukkan deskripsi gambar di sini

— Flounderer
sumber

2

+1, ini adalah demonstrasi yang sangat rapi. Saya membuat 2 matriks sebaran yang dapat ditambahkan, jika Anda mau.

— gung - Reinstate Monica

1

@ung: Terima kasih telah menambahkan scatterplots! Saya membatalkan jawaban ini sebelumnya, tetapi tidak sepenuhnya menghargainya tanpa melihat plotnya. Scatterplot PC2 vs PC3 sangat bagus: memisahkan jenis kelamin dan spesies hampir sempurna. Saya suka contoh ini juga karena menggambarkan apa yang terjadi ketika semua variabel sangat berkorelasi positif (yaitu PC1 menjelaskan banyak perbedaan dan pada dasarnya rata-rata).

— Amuba mengatakan Reinstate Monica

1

Terima kasih, @amoeba. Saya sangat suka cara mereka ternyata. Saya menghabiskan banyak waktu melelahkan dengan mereka (warna, pch, lables, legenda). Aku sebenarnya berpikir mereka agak cantik sekarang. Anda membuat poin bagus tentang PC1. Kita juga dapat melihat bahwa ada (mungkin) koefisien variasi konstan & interaksi berdasarkan jenis kelamin & / atau spesies dalam banyak hubungan: kepiting kecil (bayi?) Cenderung memiliki nilai yang sama tanpa memandang jenis kelamin atau spesies, tetapi sebagai mereka tumbuh (umur?) mereka menjadi lebih berbeda. Dll. Ada banyak hal bagus untuk dilihat - Anda bisa terus melihatnya.

— gung - Reinstate Monica

8

Berikut adalah dua contoh dari pengalaman saya (chemometrics, optical / vibrational / Raman spectroscopy):

Baru-baru ini saya memiliki data spektroskopi optik, di mana> 99% dari total varians dari data mentah disebabkan oleh perubahan cahaya latar belakang (sorotan lebih atau kurang intens pada titik yang diukur, lampu neon dinyalakan / dimatikan, lebih atau kurang awan sebelumnya matahari). Setelah koreksi latar belakang dengan spektra optik dari faktor-faktor yang diketahui (diekstraksi oleh PCA pada data mentah; pengukuran ekstra dilakukan untuk mencakup variasi-variasi tersebut), efek yang kami tertarik muncul di PC 4 dan 5.
PC 1 dan 3 di mana karena efek lain dalam sampel yang diukur, dan PC 2 berkorelasi dengan ujung instrumen yang memanas selama pengukuran.
Dalam pengukuran lain, lensa tanpa koreksi warna untuk rentang spektral yang diukur digunakan. Aberasi kromatik menyebabkan distorsi pada spektrum yang menyebabkan ca. 90% dari total varians data pra-diproses (sebagian besar ditangkap di PC 1).
Untuk data ini, kami butuh waktu cukup lama untuk menyadari apa yang sebenarnya terjadi, tetapi beralih ke tujuan yang lebih baik memecahkan masalah untuk eksperimen selanjutnya.

(Saya tidak dapat menunjukkan detail karena studi ini masih belum dipublikasikan)

— Cbeleites mendukung Monica
sumber

3

Saya perhatikan bahwa PC dengan varian rendah paling membantu ketika melakukan PCA pada matriks kovarians di mana data yang mendasarinya dikelompokkan atau dikelompokkan dalam beberapa cara. Jika salah satu kelompok memiliki varians rata-rata yang jauh lebih rendah daripada kelompok lain, maka PC terkecil akan didominasi oleh kelompok itu. Namun, Anda mungkin memiliki beberapa alasan untuk tidak ingin membuang hasil dari grup itu.

Di bidang keuangan, pengembalian saham memiliki sekitar 15-25% standar deviasi tahunan. Perubahan dalam hasil obligasi secara historis jauh lebih rendah dari standar deviasi. Jika Anda melakukan PCA pada matriks kovarian pengembalian saham dan perubahan dalam hasil obligasi, maka PC teratas semua akan mencerminkan varians dari saham dan yang terkecil akan mencerminkan varian obligasi. Jika Anda membuang PC yang menjelaskan ikatan tersebut, maka Anda mungkin mengalami masalah. Sebagai contoh, obligasi mungkin memiliki karakteristik distribusi yang sangat berbeda dari saham (ekor yang lebih tipis, sifat varians yang bervariasi waktu, perbedaan pengembalian rata-rata, kointegrasi, dll). Ini mungkin sangat penting untuk dimodelkan, tergantung pada kondisinya.

Jika Anda melakukan PCA pada matriks korelasi, maka Anda mungkin melihat lebih banyak PC menjelaskan ikatan di dekat bagian atas.

— John
sumber

Jawaban ini sangat sulit untuk dipahami jika seseorang tidak tahu apa itu saham, obligasi, hasil, dan pengembalian. Saya tidak tahu, jadi saya tidak bisa melihat bagaimana kalimat pertama Anda terkait dengan yang kedua ...

— amoeba berkata Reinstate Monica

1

Saya telah melakukan beberapa pengeditan.

— John

1

Dalam pembicaraan ini ( slide ), presenter membahas penggunaan PCA untuk membedakan antara fitur variabilitas tinggi dan variabilitas rendah.

Mereka sebenarnya lebih suka fitur variabilitas rendah untuk deteksi anomali, karena perubahan signifikan dalam dimensi variabilitas rendah merupakan indikator kuat perilaku anomali. Contoh motivasi yang mereka berikan adalah sebagai berikut:

Asumsikan pengguna selalu masuk dari Mac. Dimensi "sistem operasi" aktivitas mereka akan menjadi varian yang sangat rendah. Tetapi jika kita melihat acara masuk dari pengguna yang sama di mana "sistem operasi" adalah Windows, itu akan sangat menarik, dan sesuatu yang ingin kita tangkap.

— turtlemonvh
sumber