Pertama, ada berbagai cara untuk membangun apa yang disebut biplot dalam kasus analisis korespondensi. Dalam semua kasus, ide dasarnya adalah menemukan cara untuk menunjukkan perkiraan 2D terbaik dari "jarak" antara sel baris dan sel kolom. Dengan kata lain, kita mencari hierarki (kita juga berbicara tentang "pentahbisan") hubungan antara baris dan kolom dari tabel kontingensi.
Secara singkat, CA menguraikan statistik chi-square yang terkait dengan tabel dua arah menjadi faktor ortogonal yang memaksimalkan pemisahan antara skor baris dan kolom (yaitu frekuensi yang dihitung dari tabel profil). Di sini, Anda melihat bahwa ada beberapa koneksi dengan PCA tetapi ukuran varians (atau metrik) yang dipertahankan dalam CA adalah , yang hanya tergantung pada profil kolom (Karena cenderung memberikan lebih penting bagi modalitas yang memiliki besar nilai marginal, kami juga dapat menimbang ulang data awal, tetapi ini adalah cerita lain).χ2
Ini jawaban yang lebih detail. Implementasi yang diusulkan dalam corresp()
fungsi (dalam MASS
) mengikuti dari pandangan CA sebagai dekomposisi SVD dari matriks kode dummy yang mewakili baris dan kolom (sedemikian sehingga , dengan total sampel). Ini sesuai dengan analisis korelasi kanonik. Sebaliknya, sekolah analisis data Prancis menganggap CA sebagai varian dari PCA, di mana Anda mencari arahan yang memaksimalkan "inersia" di cloud data. Hal ini dilakukan dengan mendiagonalisasi matriks inersia yang dihitung dari tabel dua arah terpusat dan diskalakan (dengan frekuensi marginal), dan mengekspresikan profil baris dan kolom dalam sistem koordinat baru ini.RtC= NN
Jika Anda mempertimbangkan tabel dengan rows, dan kolom, setiap baris ditimbang dengan jumlah marginal yang sesuai yang menghasilkan serangkaian frekuensi kondisional yang terkait dengan setiap baris: . Kolom marginal disebut profil rata - rata (untuk baris). Ini memberi kita vektor koordinat, juga disebut profil (dengan baris). Untuk kolom, kita memiliki . Dalam kedua kasus, kami akan mempertimbangkan profil baris (terkait dengan bobotnya ) sebagai individu dalam ruang kolom, dan profil kolom (terkait dengan bobotnyaj = 1 , ... , J f j | i = n i j / n i ⋅ f i | j = n i j / n ⋅ j Ii = 1 , ... , Ij = 1 , ... , Jfj | saya= nsaya j/ nsaya ⋅fsaya | j= nsaya j/ n⋅ jsaya J f ⋅ j χ 2 i i ′fsaya ⋅Jf⋅ j ) sebagai individu di ruang baris. Metrik yang digunakan untuk menghitung kedekatan antara dua individu adalah jarak . Misalnya, antara dua baris dan , kami punyaχ2sayasaya′
d2χ2( saya , saya′) = ∑j = 1Jnn⋅ j( nsaya jnsaya ⋅- nsaya′jnsaya′⋅)2
Anda juga dapat melihat tautan dengan statistik dengan mencatat bahwa itu hanyalah jarak antara jumlah yang diamati dan yang diharapkan, di mana penghitungan yang diharapkan (di bawah , independensi kedua variabel) dihitung sebagai untuk setiap sel . Jika dua variabel harus independen, profil baris akan sama, dan identik dengan profil marginal yang sesuai. Dengan kata lain, ketika ada independensi, tabel kontingensi Anda sepenuhnya ditentukan oleh marginnya.H 0 n i ⋅ × n ⋅ j / n ( i , j )χ2H0nsaya ⋅× n⋅ j/ n( i , j )
Jika Anda menyadari PCA pada profil baris (dilihat sebagai individu), mengganti jarak euclidean dengancos 2 i j χ 2χ2jarak, maka Anda mendapatkan CA Anda. Sumbu utama pertama adalah garis yang paling dekat dengan semua titik, dan nilai eigen yang sesuai adalah inersia yang dijelaskan oleh dimensi ini. Anda dapat melakukan hal yang sama dengan profil kolom. Dapat ditunjukkan bahwa ada simetri antara dua pendekatan, dan lebih khusus lagi bahwa komponen utama (PC) untuk profil kolom dikaitkan dengan nilai eigen yang sama daripada PC untuk profil baris. Apa yang ditampilkan pada biplot adalah koordinat individu-individu dalam sistem koordinat baru ini, meskipun individu-individu tersebut diwakili dalam ruang faktorial yang terpisah. Asalkan setiap individu / modalitas terwakili dengan baik dalam ruang faktorialnya (Anda dapat melihatcos2dari modalitas dengan sumbu utama 1, yang merupakan ukuran dari korelasi / asosiasi), Anda bahkan dapat menafsirkan kedekatan antara elemen dan dari tabel kontingensi Anda (seperti yang dapat dilakukan dengan melihat residu dari tes independensi, mis .).sayajχ2chisq.test(tab)$expected-chisq.test(tab)$observed
Inersia total CA Anda (= jumlah nilai eigen) adalah statistik dibagi dengan (yang merupakan Pearson ). n ϕ 2χ2nϕ2
Sebenarnya, ada beberapa paket yang dapat memberikan Anda dengan CA ditingkatkan dibandingkan dengan fungsi yang tersedia dalam MASS
paket: ade4 , FactoMineR , anacor , dan ca .
Yang terbaru adalah salah satu yang digunakan untuk ilustrasi tertentu, dan kertas diterbitkan dalam Journal of Software statistik yang menjelaskan sebagian besar functionnalities nya: Analisis Korespondensi dalam R, dengan Graphics Dua dan Tiga dimensi: The ca Paket .
Jadi, contoh Anda tentang warna mata / rambut dapat direproduksi dalam banyak cara:
data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab
library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)
library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))
library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib
library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))
Dalam semua kasus, apa yang kita baca di biplot yang dihasilkan pada dasarnya (saya membatasi interpretasi saya ke sumbu 1 yang menjelaskan sebagian besar inersia):
- sumbu pertama menyoroti pertentangan yang jelas antara warna rambut terang dan gelap, dan antara mata biru dan coklat;
- orang dengan rambut pirang cenderung juga memiliki mata biru, dan orang dengan rambut hitam cenderung memiliki mata cokelat.
Ada banyak sumber daya tambahan pada analisis data di laboratorium bioinformatika dari Lyon, di Perancis. Ini sebagian besar dalam bahasa Prancis, tapi saya pikir itu tidak akan menjadi masalah bagi Anda. Dua selebaran berikut harus menarik sebagai permulaan pertama:
Akhirnya, ketika Anda mempertimbangkan pengkodean penuh (dummy) variabel , Anda mendapatkan beberapa analisis korespondensi .k