Kesimpulan dari output analisis komponen utama


9

Saya mencoba memahami keluaran dari analisis komponen utama yang dilakukan sebagai berikut:

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265

Rotation:
                    PC1         PC2        PC3        PC4
Sepal.Length  0.5210659 -0.37741762  0.7195664  0.2612863
Sepal.Width  -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length  0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width   0.5648565 -0.06694199 -0.6342727  0.5235971
> 
> summary(res)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000
> 

Saya cenderung menyimpulkan sebagai berikut dari output di atas:

  1. Proporsi varians menunjukkan berapa banyak total varians yang ada di varian komponen utama tertentu. Oleh karena itu, variabilitas PC1 menjelaskan 73% dari total varians data.

  2. Nilai rotasi yang ditampilkan sama dengan 'memuat' yang disebutkan dalam beberapa deskripsi.

  3. Mempertimbangkan rotasi PC1, orang dapat menyimpulkan bahwa Sepal. Panjang, Petal. Panjang dan Petal. Lebar terkait langsung, dan mereka semua berbanding terbalik dengan Sepal. Lebar (yang memiliki nilai negatif dalam rotasi PC1)

  4. Mungkin ada faktor dalam tanaman (beberapa sistem fungsional kimia / fisik dll) yang dapat mempengaruhi semua variabel ini (Sepal. Panjang, Petal. Panjang dan Petal. Lebar dalam satu arah dan Sepal. Lebar dalam arah yang berlawanan).

  5. Jika saya ingin menunjukkan semua rotasi dalam satu grafik, saya dapat menunjukkan kontribusi relatif mereka terhadap variasi total dengan mengalikan setiap rotasi dengan proporsi varian komponen utama itu. Misalnya, untuk PC1, rotasi 0,52, -0,26, 0,58 dan 0,56 semuanya dikalikan dengan 0,73 (varian proporsional untuk PC1, ditunjukkan dalam ringkasan (res) output.

Apakah saya benar tentang kesimpulan di atas?

Sunting terkait pertanyaan 5: Saya ingin menampilkan semua rotasi dalam barchart sederhana sebagai berikut: masukkan deskripsi gambar di sini

Karena PC2, PC3 dan PC4 memiliki kontribusi variasi yang semakin rendah, akankah masuk akal untuk menyesuaikan (mengurangi) pemuatan variabel di sana?


Re (5): apa yang Anda sebut "memuat" sebenarnya bukan memuat, tetapi vektor eigen dari matriks kovarians, alias arahan utama, alias sumbu utama. "Muatan" adalah vektor eigen yang dikalikan dengan akar kuadrat dari nilai eigennya, yaitu dengan akar kuadrat dari proporsi varian yang dijelaskan. Memuat memiliki banyak properti bagus dan berguna untuk interpretasi, lihat misal utas ini: Memuat vs vektor eigen di PCA: kapan harus menggunakan satu atau yang lain? Jadi ya, sangat masuk akal untuk mengukur vektor eigen Anda, cukup gunakan akar kuadrat dari varian yang dijelaskan.
amoeba

@amoeba: Apa yang diplot dalam biplot PCA, rotasi atau pemuatan?
rnso

Paling sering memuat direncanakan, dengan melihat jawaban saya di sini untuk diskusi lebih lanjut.
amoeba

Jawaban:


9
  1. Iya. Inilah interpretasi yang benar.
  2. Ya, nilai rotasi menunjukkan nilai pemuatan komponen. Ini dikonfirmasi oleh prcomp dokumentasi , meskipun saya tidak yakin mengapa mereka memberi label bagian ini dari aspek "Rotasi", karena ini menyiratkan pemuatan telah diputar menggunakan beberapa metode ortogonal (mungkin) atau miring (kurang mungkin).
  3. Meskipun tampaknya menjadi kasus yang Sepal.Length, Petal.Length, dan Petal. Lebar semuanya terkait positif, saya tidak akan memasukkan sebanyak mungkin stok dalam loading negatif kecil Sepal.Width pada PC1; ini memuat jauh lebih kuat (hampir secara eksklusif) pada PC2. Agar lebih jelas, Sepal.Width kemungkinan masih berhubungan negatif dengan tiga variabel lainnya, tetapi sepertinya tidak terkait kuat dengan komponen prinsip pertama.
  4. Berdasarkan pertanyaan ini, saya bertanya-tanya apakah Anda akan lebih baik dilayani dengan menggunakan analisis faktor umum (CF), daripada analisis komponen utama (PCA). CF lebih merupakan teknik reduksi data yang tepat ketika tujuan Anda adalah untuk mengungkap dimensi teoretis yang bermakna - seperti faktor tanaman yang dihipotesiskan dapat memengaruhi Sepal. Panjang, Petal. Panjang, dan Petal. Lebar. Saya menghargai Anda dari beberapa jenis ilmu biologi - botani mungkin - tetapi ada beberapa tulisan bagus dalam Psikologi tentang PCA v. CF perbedaan oleh Fabrigar et al., 1999, Widaman, 2007, dan lain-lain. Perbedaan utama antara keduanya adalah bahwa PCA mengasumsikan bahwa semua varians adalah varian skor-benar - tidak ada kesalahan yang diasumsikan - sedangkan CF membuat varian skor skor sebenarnya dari varian kesalahan, sebelum faktor diekstraksi dan memuat faktor diperkirakan. Pada akhirnya, Anda mungkin mendapatkan solusi yang mirip - kadang-kadang orang melakukannya - tetapi ketika mereka berbeda, cenderung menjadi kasus PCA melebih-lebihkan nilai pemuatan, dan meremehkan korelasi antar komponen. Sebuah tambahan tambahan dari pendekatan CF adalah bahwa Anda dapat menggunakan estimasi kemungkinan maksimum untuk melakukan tes signifikansi nilai pemuatan, sementara juga mendapatkan beberapa indeks seberapa baik solusi yang Anda pilih (1 faktor, 2 faktor, 3 faktor, atau 4 faktor) menjelaskan data.
  5. Saya akan memplot nilai pemuatan faktor seperti yang Anda miliki, tanpa menimbang bilah mereka dengan proporsi varians untuk masing-masing komponen. Saya mengerti apa yang ingin Anda coba tunjukkan dengan pendekatan seperti itu, tetapi saya pikir itu akan menyebabkan pembaca salah memahami nilai pemuatan komponen dari analisis Anda. Namun, jika Anda menginginkan cara visual untuk menunjukkan besarnya varians relatif yang diperhitungkan oleh masing-masing komponen, Anda dapat mempertimbangkan untuk memanipulasi opacity dari bilah grup (jika Anda menggunakan ggplot2, saya yakin ini dilakukan denganalphaestetika), berdasarkan proporsi varian yang dijelaskan oleh masing-masing komponen (yaitu, warna yang lebih solid = lebih banyak varian yang dijelaskan). Namun, dalam pengalaman saya, angka Anda bukanlah cara yang umum untuk mempresentasikan hasil PCA - Saya pikir satu atau dua tabel (memuat + varian dijelaskan dalam satu, korelasi komponen di yang lain) akan jauh lebih mudah.

Referensi

Fabrigar, LR, Wegener, DT, MacCallum, RC, & Strahan, EJ (1999). Mengevaluasi penggunaan analisis faktor eksplorasi dalam penelitian psikologis. Metode Psikologis , 4 , 272-299.

Widaman, KF (2007). Faktor umum versus komponen: Kepala sekolah dan prinsip, kesalahan, dan kesalahpahaman . Dalam R. Cudeck & RC MacCallum (Eds.), Analisis faktor pada 100: Perkembangan bersejarah dan arah masa depan (hal. 177-203). Mahwah, NJ: Lawrence Erlbaum.


2
+1, banyak poin bagus di sini. Re (2): vektor eigen dari matriks kovarians disebut "Rotasi" di sini, karena PCA pada dasarnya adalah rotasi sistem koordinat sedemikian rupa sehingga sistem koordinat baru selaras dengan vektor eigen. Ini tidak ada hubungannya dengan "rotasi faktor ortogonal / miring" dalam analisis faktor. Re (5): Saya tidak yakin saya mengerti apa yang Anda maksud di sini, dan saya juga tidak mengerti bagaimana OP ingin "menunjukkan" vektor eigen "dalam satu grafik". Mungkin OP memiliki sesuatu seperti biplot dalam pikirannya. Maka ya, vektor eigen sering diskalakan oleh nilai eigen, tetapi oleh akar kuadratnya.
amoeba

Meskipun plot bertema bunga yang bagus untuk topik Anda, @rnso :)
jsakaluk

1
  1. Tidak, bukan total varians data. Varians total data yang diberikan yang ingin Anda ungkapkan dalam 4 komponen prinsip. Anda selalu dapat menemukan lebih banyak varian total dengan menambahkan lebih banyak komponen prinsip. Tapi ini meluruh dengan cepat.
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.