PCA dan proporsi varian dijelaskan


90

Secara umum, apa yang dimaksud dengan mengatakan bahwa fraksi x varian dalam analisis seperti PCA dijelaskan oleh komponen utama pertama? Dapatkah seseorang menjelaskan hal ini secara intuitif tetapi juga memberikan definisi matematis yang tepat tentang apa yang dimaksud "varians dijelaskan" dalam hal analisis komponen utama (PCA)?

Untuk regresi linier sederhana, r-kuadrat dari garis kecocokan terbaik selalu digambarkan sebagai proporsi dari varians yang dijelaskan, tetapi saya tidak yakin apa yang membuat itu. Apakah proporsi varian di sini hanya perpanjangan deviasi poin dari garis paling cocok?


Jawaban:


104

Dalam kasus PCA, "varians" berarti variatif sumatif atau variabilitas multivariat atau variabilitas keseluruhan atau variabilitas total . Di bawah ini adalah matriks kovarians dari 3 variabel. Variansnya ada pada diagonal, dan jumlah dari 3 nilai (3.448) adalah keseluruhan variabilitas.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Sekarang, PCA menggantikan variabel asli dengan variabel baru, yang disebut komponen utama, yang bersifat ortogonal (yaitu mereka memiliki nol kovariat) dan memiliki varian (disebut nilai eigen) dalam urutan menurun. Jadi, matriks kovarians antara komponen utama yang diekstraksi dari data di atas adalah ini:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Perhatikan bahwa jumlah diagonal masih 3,448, yang mengatakan bahwa ketiga komponen tersebut bertanggung jawab atas semua variabilitas multivariat. Komponen utama 1 menyumbang atau "menjelaskan" 1,651 / 3,448 = 47,9% dari keseluruhan variabilitas; yang ke-2 menjelaskan 1.220 / 3.448 = 35,4% dari itu; yang ke-3 menjelaskan .577 / 3.448 = 16.7% dari itu.

Jadi, apa yang mereka maksudkan ketika mereka mengatakan bahwa " PCA memaksimalkan varians " atau " PCA menjelaskan varian maksimal "? Tentu saja, itu tidak menemukan perbedaan terbesar di antara tiga nilai 1.343730519 .619205620 1.485549631, tidak. PCA menemukan, dalam ruang data, dimensi (arah) dengan varian terbesar dari keseluruhan varian 1.343730519+.619205620+1.485549631 = 3.448. Varians terbesar itu adalah 1.651354285. Kemudian ia menemukan dimensi varian terbesar kedua, ortogonal ke varian pertama, dari 3.448-1.651354285varian keseluruhan yang tersisa . Dimensi kedua itu adalah 1.220288343varian. Dan seterusnya. Dimensi terakhir yang tersisa adalah .576843142varians. Lihat juga "Pt3" di sini dan jawabannya di sini menjelaskan bagaimana hal itu dilakukan secara lebih rinci.

Secara matematis, PCA dilakukan melalui fungsi aljabar linier yang disebut dekomposisi eigen atau dekomposisi svd. Fungsi-fungsi ini akan mengembalikan Anda semua nilai eigen 1.651354285 1.220288343 .576843142(dan vektor eigen yang sesuai) sekaligus ( lihat , lihat ).


1
Apa yang Anda maksud dengan: "Perhatikan bahwa jumlah diagonal masih 3,448, yang mengatakan bahwa ketiga komponen tersebut bertanggung jawab atas semua variabilitas multivariat" dan apa perbedaan antara metode Anda dan PoV (Proporsi variasi)?
kamaci

2
Saya tidak menyarankan "metode" apa pun. Saya baru saja menjelaskan bahwa semua akun PC untuk jumlah total variabilitas yang sama dengan variabel asli lakukan.
ttnphns

Bisakah Anda memeriksa pertanyaan saya: stats.stackexchange.com/questions/44464/…
kamaci

Maaf :-( Saat ini saya tidak bisa. Ada terlalu banyak komentar untuk disetel.
ttnphns

1
jika Anda baru saja membaca pertanyaan itu sudah cukup. Tidak ada komentar.
kamaci

11

@ttnphns telah memberikan jawaban yang bagus, mungkin saya bisa menambahkan beberapa poin. Pertama, saya ingin menunjukkan bahwa ada pertanyaan yang relevan pada CV, dengan jawaban yang sangat kuat — Anda pasti ingin memeriksanya. Di bagian selanjutnya, saya akan merujuk ke plot yang ditunjukkan dalam jawaban itu.

Ketiga plot menampilkan data yang sama. Perhatikan bahwa ada variabilitas dalam data baik secara vertikal maupun horizontal, tetapi kita dapat menganggap sebagian besar variabilitas sebagai diagonal . Dalam plot ketiga, garis diagonal hitam yang panjang itu adalah vektor eigen pertama (atau komponen prinsip pertama), dan panjang komponen prinsip itu (penyebaran data di sepanjang garis itu - bukan panjang sebenarnya dari garis itu sendiri, yang hanya digambar di plot) adalah nilai eigen pertama--itu jumlah varians yang diperhitungkan oleh komponen prinsip pertama. Jika Anda menjumlahkan panjang itu dengan panjang komponen prinsip kedua (yang merupakan lebar dari penyebaran data secara ortogonal dari garis diagonal itu), dan kemudian membagi salah satu dari nilai eigen dengan total itu, Anda akan mendapatkan persen varians yang diperhitungkan oleh komponen prinsip yang sesuai.

Di sisi lain, untuk memahami persentase varians yang diperhitungkan dalam regresi, Anda dapat melihat plot teratas. Dalam hal itu, garis merah adalah garis regresi, atau himpunan nilai prediksi dari model. Varians yang dijelaskan dapat dipahami sebagai rasio penyebaran vertikal dari garis regresi (yaitu, dari titik terendah pada garis ke titik tertinggi pada garis) ke penyebaran vertikal data (yaitu, dari titik data terendah) ke titik data tertinggi). Tentu saja, itu hanya ide yang longgar, karena secara harfiah itu adalah rentang, bukan varian, tetapi itu akan membantu Anda mendapatkan intinya.

Pastikan untuk membaca pertanyaannya. Dan, meskipun saya merujuk pada jawaban teratas, beberapa jawaban yang diberikan sangat bagus. Perlu waktu Anda untuk membaca semuanya.


3

Ada jawaban matematis yang sangat sederhana, langsung, dan tepat untuk pertanyaan awal.

Y1Y2...YhalRsaya2

Sebuah1Sebuah2...SebuahhalPC1=Sebuah1Y1+Sebuah2Y2++SebuahhalYhalsaya=1halRsaya2(Ysaya|PC1)

Dalam pengertian ini, Anda dapat mengartikan PC pertama sebagai pemaksimal "varians dijelaskan," atau lebih tepatnya, pemaksimator "total varians dijelaskan."

bsaya=c×Sebuahsayac0

Untuk referensi literatur asli dan ekstensi, lihat

Westfall, PH, Arias, AL, dan Fulton, LV (2017). Pengajaran Komponen Utama Menggunakan Korelasi, Penelitian Perilaku Multivariat, 52, 648-660.


0

Y=SEBUAH+BYSEBUAHBYSEBUAHBYSEBUAHBvSebuahr(Y)=vSebuahr(SEBUAH)+vSebuahr(B)+2cHaiv(SEBUAH,B)SEBUAHb0+b1XBeY=b0+b1X+eYb0+b1X

Y


Anda harus memeriksa rumus Anda untuk varian Y: itu tidak benar. Namun, yang lebih penting, upaya penjelasan regresi tidak mencirikan PCA dengan benar atau cara orang berpikir tentang hal itu dan menggunakannya.
whuber

1
Ty, memperbaiki kesalahan dalam rumus. Jawaban saya adalah untuk bagian kedua dari pertanyaan tentang proporsi varian yang dijelaskan oleh garis regresi.
Muda
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.