Interpretasi biplot dalam analisis komponen utama


30

Saya menemukan tutorial yang bagus ini: Buku Pegangan Analisis Statistik Menggunakan R. Bab 13. Analisis Komponen Utama: Olympic Heptathlon tentang cara melakukan PCA dalam bahasa R. Saya tidak mengerti interpretasi dari Gambar 13.3:

biplot

Jadi saya merencanakan vektor eigen pertama vs vektor eigen kedua. Apa artinya? Misalkan nilai eigen yang sesuai dengan vektor eigen pertama menjelaskan 60% variasi dalam kumpulan data dan nilai eigen kedua-vektor eigen menjelaskan 20% variasi. Apa artinya merencanakan ini satu sama lain?


Jawaban:


22

PCA adalah salah satu dari banyak cara untuk menganalisis struktur matriks korelasi yang diberikan. Dengan konstruksi, sumbu utama pertama adalah yang memaksimalkan varians (tercermin oleh nilai eigennya) ketika data diproyeksikan ke garis (yang merupakan arah dalam ruang dimensi, dengan asumsi Anda memiliki variabel ) dan yang kedua adalah ortogonal untuk itu, dan masih memaksimalkan varian yang tersisa. Ini adalah alasan mengapa menggunakan dua sumbu pertama harus menghasilkan perkiraan yang lebih baik dari ruang variabel asli (katakanlah, matriks dari dim ) ketika diproyeksikan ke pesawat.halhalXn×hal

Komponen utama hanyalah kombinasi linear dari variabel asli. Oleh karena itu, merencanakan skor faktor individu (didefinisikan sebagai , di mana adalah vektor pemuatan komponen utama mana pun) dapat membantu menyoroti kelompok individu yang homogen, misalnya, atau untuk menafsirkan skor keseluruhan seseorang ketika mempertimbangkan semua variabel pada saat yang sama. Dengan kata lain, ini adalah cara untuk meringkas lokasi seseorang sehubungan dengan nilainya padaXkamukamuhalvariabel, atau kombinasi keduanya. Dalam kasus Anda, Gbr. 13.3 di HSAUR menunjukkan bahwa Joyner-Kersee (Jy-K) memiliki skor tinggi (negatif) pada sumbu 1, menunjukkan bahwa ia berkinerja secara keseluruhan cukup baik pada semua acara. Garis penalaran yang sama berlaku untuk menafsirkan sumbu kedua. Saya melihat sosok itu dengan sangat singkat sehingga saya tidak akan menjelaskan secara terperinci dan interpretasi saya tentu saja dangkal. Saya berasumsi bahwa Anda akan menemukan informasi lebih lanjut di buku teks HSAUR. Di sini perlu dicatat bahwa variabel dan individu ditampilkan pada diagram yang sama (ini disebut biplotr(x1,x2)=cos2(x1,x2)

Saya pikir, bagaimanapun, Anda sebaiknya mulai membaca beberapa buku pengantar tentang analisis multivariat untuk mendapatkan wawasan mendalam tentang metode berbasis PCA. Sebagai contoh, BS Everitt menulis buku teks yang bagus tentang topik ini, An R dan S-Plus ® Companion to Multivariate Analysis , dan Anda dapat memeriksa situs web pengiring untuk ilustrasi. Ada paket R hebat lainnya untuk analisis data multivarian terapan, seperti ade4 dan FactoMineR .


r(x1,x2)=cos(x1,x2)cos2(x1,x2)

21

Plotnya menunjukkan:

  • skor setiap kasus (yaitu, atlet) pada dua komponen utama pertama
  • pemuatan masing-masing variabel (yaitu, setiap acara olahraga) pada dua komponen utama pertama.

Sumbu kiri dan bawah menunjukkan skor komponen utama [dinormalisasi]; sumbu atas dan kanan menunjukkan pemuatan.

Secara umum diasumsikan bahwa dua komponen menjelaskan jumlah varians yang cukup untuk memberikan representasi visual yang bermakna dari struktur kasus dan variabel.

Anda dapat melihat untuk melihat acara mana yang berdekatan di ruang tersebut. Jika ini berlaku, ini mungkin menunjukkan bahwa atlet yang bagus di satu acara cenderung juga baik di acara proksimal lainnya. Atau Anda dapat menggunakan plot untuk melihat acara yang jauh. Sebagai contoh, lembing tampaknya sedikit outlier dan peristiwa besar yang mendefinisikan komponen utama kedua. Mungkin jenis atlet yang berbeda pandai lembing daripada yang baik di sebagian besar acara lainnya.

Tentu saja, lebih banyak yang bisa dikatakan tentang interpretasi substantif.



Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.