Menafsirkan plot analisis korespondensi 2D

Saya telah mencari di internet jauh dan luas ... Saya belum menemukan gambaran yang sangat bagus tentang bagaimana menafsirkan plot analisis korespondensi 2D. Bisakah seseorang menawarkan saran untuk menafsirkan jarak antar titik?

Mungkin contoh akan membantu, berikut adalah plot yang ditemukan di banyak situs web yang saya lihat membahas analisis korespondensi. Segitiga merah melambangkan warna mata dan titik-titik hitam melambangkan warna rambut.

teks alternatif

Melihat grafik di atas, dapatkah Anda membuat beberapa pernyataan tentang apa yang Anda lihat dalam data ini. Poin menarik tentang perbedaan dimensi dan hubungan antara segitiga dan titik?

Penjelasan poin-poin baris poin kolom, dan penggunaan kata "profil" dengan fokus khusus pada contoh akan sangat berperan.

interpretation correspondence-analysis biplot

— Brandon Bertelsen
sumber

Selain akun yang sangat baik @ chl di bawah ini, perhatikan juga ini satu mempertimbangkan CA sederhana dan PCA hanya sebagai bentuk "analisis biplot".

— ttnphns

Pertama, ada berbagai cara untuk membangun apa yang disebut biplot dalam kasus analisis korespondensi. Dalam semua kasus, ide dasarnya adalah menemukan cara untuk menunjukkan perkiraan 2D terbaik dari "jarak" antara sel baris dan sel kolom. Dengan kata lain, kita mencari hierarki (kita juga berbicara tentang "pentahbisan") hubungan antara baris dan kolom dari tabel kontingensi.

Secara singkat, CA menguraikan statistik chi-square yang terkait dengan tabel dua arah menjadi faktor ortogonal yang memaksimalkan pemisahan antara skor baris dan kolom (yaitu frekuensi yang dihitung dari tabel profil). Di sini, Anda melihat bahwa ada beberapa koneksi dengan PCA tetapi ukuran varians (atau metrik) yang dipertahankan dalam CA adalah , yang hanya tergantung pada profil kolom (Karena cenderung memberikan lebih penting bagi modalitas yang memiliki besar nilai marginal, kami juga dapat menimbang ulang data awal, tetapi ini adalah cerita lain). $\chi^2$

Ini jawaban yang lebih detail. Implementasi yang diusulkan dalam corresp()fungsi (dalam MASS) mengikuti dari pandangan CA sebagai dekomposisi SVD dari matriks kode dummy yang mewakili baris dan kolom (sedemikian sehingga , dengan total sampel). Ini sesuai dengan analisis korelasi kanonik. Sebaliknya, sekolah analisis data Prancis menganggap CA sebagai varian dari PCA, di mana Anda mencari arahan yang memaksimalkan "inersia" di cloud data. Hal ini dilakukan dengan mendiagonalisasi matriks inersia yang dihitung dari tabel dua arah terpusat dan diskalakan (dengan frekuensi marginal), dan mengekspresikan profil baris dan kolom dalam sistem koordinat baru ini. $R^tC=N$ $N$

Jika Anda mempertimbangkan tabel dengan rows, dan kolom, setiap baris ditimbang dengan jumlah marginal yang sesuai yang menghasilkan serangkaian frekuensi kondisional yang terkait dengan setiap baris: . Kolom marginal disebut profil rata - rata (untuk baris). Ini memberi kita vektor koordinat, juga disebut profil (dengan baris). Untuk kolom, kita memiliki . Dalam kedua kasus, kami akan mempertimbangkan profil baris (terkait dengan bobotnya ) sebagai individu dalam ruang kolom, dan profil kolom (terkait dengan bobotnya $i=1,\dots,I$ $j=1,\dots,J$ $f_{j|i}=n_{ij}/n_{i\cdot}$ $f_{i|j}=n_{ij}/n_{\cdot j}$ $I$ $f_{i\cdot}$ $J$ $f_{\cdot j}$ ) sebagai individu di ruang baris. Metrik yang digunakan untuk menghitung kedekatan antara dua individu adalah jarak . Misalnya, antara dua baris dan , kami punya $\chi^2$ $i$ $i'$

d_{χ^{2}}^{2} (i, i^{'}) = \sum_{j = 1}^{J} \frac{n}{n_{\cdot j}} {(\frac{n_{i j}}{n_{i \cdot}} - \frac{n_{i^{'} j}}{n_{i^{'} \cdot}})}^{2}

$d^2_{\chi^2}(i,i')=\sum_{j=1}^J\frac{n}{n_{\cdot j}}\left(\frac{n_{ij}}{n_{i\cdot}}-\frac{n_{i'j}}{n_{i'\cdot}} \right)^2$

Anda juga dapat melihat tautan dengan statistik dengan mencatat bahwa itu hanyalah jarak antara jumlah yang diamati dan yang diharapkan, di mana penghitungan yang diharapkan (di bawah , independensi kedua variabel) dihitung sebagai untuk setiap sel . Jika dua variabel harus independen, profil baris akan sama, dan identik dengan profil marginal yang sesuai. Dengan kata lain, ketika ada independensi, tabel kontingensi Anda sepenuhnya ditentukan oleh marginnya. $\chi^2$ $H_0$ $n_{i\cdot}\times n_{\cdot j}/n$ $(i,j)$

Jika Anda menyadari PCA pada profil baris (dilihat sebagai individu), mengganti jarak euclidean dengan $\chi^2$ jarak, maka Anda mendapatkan CA Anda. Sumbu utama pertama adalah garis yang paling dekat dengan semua titik, dan nilai eigen yang sesuai adalah inersia yang dijelaskan oleh dimensi ini. Anda dapat melakukan hal yang sama dengan profil kolom. Dapat ditunjukkan bahwa ada simetri antara dua pendekatan, dan lebih khusus lagi bahwa komponen utama (PC) untuk profil kolom dikaitkan dengan nilai eigen yang sama daripada PC untuk profil baris. Apa yang ditampilkan pada biplot adalah koordinat individu-individu dalam sistem koordinat baru ini, meskipun individu-individu tersebut diwakili dalam ruang faktorial yang terpisah. Asalkan setiap individu / modalitas terwakili dengan baik dalam ruang faktorialnya (Anda dapat melihat $\cos^2$ dari modalitas dengan sumbu utama 1, yang merupakan ukuran dari korelasi / asosiasi), Anda bahkan dapat menafsirkan kedekatan antara elemen dan dari tabel kontingensi Anda (seperti yang dapat dilakukan dengan melihat residu dari tes independensi, mis .). $i$ $j$ $\chi^2$ chisq.test(tab)$expected-chisq.test(tab)$observed

Inersia total CA Anda (= jumlah nilai eigen) adalah statistik dibagi dengan (yang merupakan Pearson ). $\chi^2$ $n$ $\phi^2$

Sebenarnya, ada beberapa paket yang dapat memberikan Anda dengan CA ditingkatkan dibandingkan dengan fungsi yang tersedia dalam MASSpaket: ade4 , FactoMineR , anacor , dan ca .

Yang terbaru adalah salah satu yang digunakan untuk ilustrasi tertentu, dan kertas diterbitkan dalam Journal of Software statistik yang menjelaskan sebagian besar functionnalities nya: Analisis Korespondensi dalam R, dengan Graphics Dua dan Tiga dimensi: The ca Paket .

Jadi, contoh Anda tentang warna mata / rambut dapat direproduksi dalam banyak cara:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

Dalam semua kasus, apa yang kita baca di biplot yang dihasilkan pada dasarnya (saya membatasi interpretasi saya ke sumbu 1 yang menjelaskan sebagian besar inersia):

sumbu pertama menyoroti pertentangan yang jelas antara warna rambut terang dan gelap, dan antara mata biru dan coklat;
orang dengan rambut pirang cenderung juga memiliki mata biru, dan orang dengan rambut hitam cenderung memiliki mata cokelat.

Ada banyak sumber daya tambahan pada analisis data di laboratorium bioinformatika dari Lyon, di Perancis. Ini sebagian besar dalam bahasa Prancis, tapi saya pikir itu tidak akan menjadi masalah bagi Anda. Dua selebaran berikut harus menarik sebagai permulaan pertama:

Akhirnya, ketika Anda mempertimbangkan pengkodean penuh (dummy) variabel , Anda mendapatkan beberapa analisis korespondensi . $k$

— chl
sumber

@Brandon Sumbu 1 adalah sumbu "dominasi" (terang -> gelap) untuk kedua modalitas, tetapi kita juga dapat melihat bahwa sumbu 1 menentang mata biru dan hijau menjadi mata cokelat dan cokelat (koordinatnya bertanda berlawanan), dan kombinasi rambut merah / mata hijau - yang sangat jarang - berkontribusi sebagian besar pada sumbu faktor ke-2. Karena poros ini hanya menjelaskan 9,5% dari total inersia, agak sulit untuk menarik kesimpulan yang kuat (terutama hipotesis genetik).

— chl

@Brandon Dua referensi lebih lanjut (dalam bahasa Inggris kali ini): kursus PBIL ( j.mp/cHZT7X ) dan sumber daya Michael Friendly ( j.mp/cYHyVn + vcddan vcdExtrapaket R, yang terakhir termasuk sketsa yang bagus).

— chl

@Brandon Ya, satu modalitas = satu kategori untuk variabel Anda. Untuk pertanyaan kedua Anda, coradalah korelasi kuadrat dengan sumbu, dan ctrapakah kontribusinya (harus dibagi 10 untuk dibaca sebagai%). Jadi "rambut merah" menyumbang 55,1% dari kelembaman dari sumbu ke-2. Dalam arti tertentu saya menemukan output FactoMineR lebih "intuitif" ( CA(tab, graph=FALSE)$row$contribmemberi Anda% langsung).

— chl

@ chl: wow, untuk seseorang yang tidak tahu apa-apa tentang CCA atau "Cara Prancis", ini adalah bacaan yang bagus! Terimakasih banyak. Saya juga menemukan ini dengan beberapa googling yang mungkin menarik: www-stat.stanford.edu/~susan/papers/dfc.pdf

— ars

@ars (+1) Terima kasih atas tautannya (tidak tahu tentang monograf ini, itu terlihat menarik). Rekomendasi terbaik saya untuk perkembangan terkini sebenarnya adalah SEMUA makalah dari Jan de Leeuw dan dua buku ini: Analisis Korespondensi Berganda dan Metode Terkait dari Greenacre, dan Analisis Data Geometrik: Dari Analisis Korespondensi hingga Analisis Data Terstruktur dari Le Roux & Rouanet (cara Prancis) .

— chl