Yah, saya pikir itu benar-benar sulit untuk menyajikan penjelasan visual dari analisis korelasi Canonical (CCA) vis-a-vis Analisis komponen utama (PCA) atau regresi Linear . Dua yang terakhir sering dijelaskan dan dibandingkan dengan menggunakan sebar data 2D atau 3D, tapi saya ragu apakah itu mungkin dengan CCA. Di bawah ini saya telah menggambar gambar yang mungkin menjelaskan esensi dan perbedaan dalam tiga prosedur, tetapi bahkan dengan gambar-gambar ini - yang merupakan representasi vektor dalam "ruang subjek" - ada masalah dengan menangkap CCA secara memadai. (Untuk aljabar / algoritma analisis korelasi kanonik lihat di sini .)
Menggambar individu sebagai titik dalam ruang di mana sumbu adalah variabel, sebar scatter biasa, adalah ruang variabel . Jika Anda menggambar cara yang berlawanan - variabel sebagai titik dan individu sebagai sumbu - itu akan menjadi ruang subjek . Menggambar banyak sumbu sebenarnya tidak perlu karena ruang memiliki jumlah dimensi non-redundan sama dengan jumlah variabel non-collinear. Titik variabel terhubung dengan vektor asal dan bentuk, panah, yang menjangkau ruang subjek; jadi di sinilah kita ( lihat juga ). Dalam ruang subjek, jika variabel telah dipusatkan, kosinus sudut antara vektor mereka adalah korelasi Pearson di antara mereka, dan panjang vektor kuadrat adalah varians mereka. Pada gambar di bawah, variabel yang ditampilkan terpusat (tidak perlu untuk konstan muncul).
Komponen Utama
Variabel X1 dan X2 berkorelasi positif: mereka memiliki sudut akut di antara mereka. Komponen utama P1 dan P2 terletak di ruang yang sama "bidang X" yang direntang oleh dua variabel. Komponen adalah variabel juga, hanya saling ortogonal (tidak berkorelasi). Arah P1 adalah seperti untuk memaksimalkan jumlah dari dua pemuatan kuadrat dari komponen ini; dan P2 , komponen yang tersisa, berjalan ortogonal ke P1dalam bidang X. Panjang kuadrat dari keempat vektor adalah variansnya (varian komponen adalah jumlah penjumlahan kuadrat yang disebutkan di atas). Pemuatan komponen adalah koordinat variabel ke komponen - Sebuah ditunjukkan pada gambar sebelah kiri. Setiap variabel adalah kombinasi linear bebas kesalahan dari dua komponen, dengan pembebanan yang sesuai adalah koefisien regresi. Dan sebaliknya , masing-masing komponen adalah kombinasi linear bebas kesalahan dari dua variabel; koefisien regresi dalam kombinasi ini diberikan oleh koordinat miring dari komponen ke variabel - b ditunjukkan pada gambar kanan. Besarnya koefisien regresi aktual adalah bdibagi dengan produk panjang (standar deviasi) dari komponen yang diprediksi dan variabel prediktor, misalnya b12/ ( | P1| ∗ | X2| ) . [Catatan Kaki: Nilai-nilai komponen yang muncul dalam dua kombinasi linear yang disebutkan di atas adalah nilai standar, st. dev. = 1. Ini karena informasi tentang variansnya ditangkap oleh pemuatan . Untuk berbicara dalam hal nilai-nilai komponen unstandardixed, Sebuah 's di pic di atas harus vektor eigen ' nilai-nilai, sisa penalaran menjadi sama.]
Regresi Berganda
Sedangkan dalam PCA semuanya terletak pada bidang X, dalam regresi berganda muncul variabel dependen Y yang biasanya bukan milik bidang X, ruang prediksi X1 , X2 . Tapi Y adalah tegak lurus diproyeksikan ke pesawat X, dan proyeksi Y′ , yang Y 'teduh s, adalah prediksi oleh atau kombinasi linear dari dua X ' s. Pada gambar, panjang kuadrat e adalah varians kesalahan. Kosinus antara Y dan Y′adalah koefisien korelasi berganda. Seperti halnya dengan PCA, koefisien regresi diberikan oleh koordinat miring prediksi ( Y′ ) ke variabel - b . Besarnya koefisien regresi aktual akan b dibagi dengan panjang (standar deviasi) dari variabel prediktor, misalnya b2/ | X2|.
Korelasi Kanonik
Dalam PCA, seperangkat variabel memprediksi sendiri: mereka memodelkan komponen utama yang pada gilirannya memodelkan kembali variabel, Anda tidak meninggalkan ruang prediktor dan (jika Anda menggunakan semua komponen) prediksi tersebut bebas kesalahan. Dalam regresi berganda, satu set variabel memprediksi satu variabel asing dan karenanya ada beberapa kesalahan prediksi. Dalam CCA, situasinya mirip dengan yang ada dalam regresi, tetapi (1) variabel-variabel asingnya berlipat ganda, membentuk seperangkatnya sendiri; (2) dua set saling memprediksi secara bersamaan (karenanya korelasi daripada regresi); (3) apa yang mereka prediksi satu sama lain lebih merupakan ekstrak, variabel laten, daripada prediksi yang diamati dan regresi ( lihat juga ).
Y1Y2XYVxVyY′Y′YVxVyVyVxϕXYX1 X2Y1 Y2Vx ( 2 )VxVy( 2 )Vy
Untuk perbedaan antara regresi CCA dan PCA + lihat juga Melakukan CCA vs membangun variabel dependen dengan PCA dan kemudian melakukan regresi .