Apa hubungan antara analisis komponen independen dan analisis faktor?


67

Saya baru mengenal Analisis Komponen Independen (ICA) dan hanya memiliki pemahaman dasar tentang metode ini. Tampak bagi saya bahwa ICA mirip dengan Analisis Faktor (FA) dengan satu pengecualian: ICA mengasumsikan bahwa variabel acak yang diamati adalah kombinasi linear dari komponen / faktor independen yang non-gaussian sedangkan model FA klasik mengasumsikan bahwa variabel acak yang diamati adalah kombinasi linear dari komponen / faktor gaussian yang berkorelasi.

Apakah hal di atas akurat?


1
Jawaban untuk pertanyaan lain ( PCA secara iteratif menemukan arah varian terbesar; tetapi bagaimana menemukan seluruh subruang dengan varian terbesar? ) Layak untuk dilihat.
Piotr Migdal

Jawaban:


72

masukkan deskripsi gambar di sini

FA, PCA, dan ICA, semuanya 'terkait', di mana ketiganya mencari vektor basis yang diproyeksikan terhadap data, sehingga Anda memaksimalkan masukkan-kriteria-sini. Pikirkan vektor basis hanya sebagai enkapsulasi kombinasi linear.

Z2NNw=[0.14]y

y=wTZ

y1N

Jadi apa kriteria itu?

Kriteria Orde Kedua:

Di PCA, Anda menemukan vektor basis yang 'paling menjelaskan' varian data Anda. Vektor dasar pertama (yaitu peringkat tertinggi) akan menjadi yang paling sesuai dengan semua varian dari data Anda. Yang kedua juga memiliki kriteria ini, tetapi harus ortogonal dengan yang pertama, dan seterusnya dan seterusnya. (Ternyata vektor basis tersebut untuk PCA tidak lain adalah vektor eigen dari matriks kovarian data Anda).

Dalam FA, ada perbedaan antara itu dan PCA, karena FA adalah generatif, sedangkan PCA tidak. Saya telah melihat FA digambarkan sebagai 'PCA dengan noise', di mana 'noise' disebut 'faktor spesifik'. Semua sama, kesimpulan keseluruhan adalah bahwa PCA dan FA didasarkan pada statistik orde kedua, (kovarians), dan tidak ada yang di atas.

Kriteria Pesanan Tinggi:

Di ICA, Anda kembali menemukan vektor basis, tetapi kali ini, Anda ingin vektor basis yang memberikan hasil, sehingga vektor yang dihasilkan ini adalah salah satu komponen independen dari data asli. Anda dapat melakukan ini dengan memaksimalkan nilai absolut kurtosis yang dinormalisasi - statistik urutan ke-4. Artinya, Anda memproyeksikan data Anda pada beberapa vektor dasar, dan mengukur kurtosis hasilnya. Anda mengubah sedikit vektor basis Anda (biasanya melalui pendakian gradien), dan kemudian mengukur kurtosis lagi, dll. Akhirnya Anda akan terjadi pada vektor basis yang memberi Anda hasil yang memiliki kurtosis tertinggi, dan ini adalah kemandirian Anda. komponen.

Diagram atas di atas dapat membantu Anda memvisualisasikannya. Anda dapat melihat dengan jelas bagaimana vektor ICA sesuai dengan sumbu data, (tidak tergantung satu sama lain), sedangkan vektor PCA mencoba menemukan arah di mana varians dimaksimalkan. (Agak seperti resultan).

Jika pada diagram atas, vektor PCA terlihat seperti mereka hampir bersesuaian dengan vektor ICA, itu hanya kebetulan. Berikut ini adalah contoh lain pada data yang berbeda dan pencampuran matriks di mana mereka sangat berbeda. ;-)

masukkan deskripsi gambar di sini


2
Lihat bahwa Anda terbiasa dengan kedua metode ini. Sebagai orang yang kompeten, dapatkah Anda menjawab jika metode-metode itu secara inheren menyiratkan bahwa vektor basis adalah ortogonal? Bagaimana seseorang dapat menemukan komponen primer atau independen yang memiliki proyeksi tidak nol satu sama lain, sesuatu seperti dua titik awan yang berorientasi kira-kira pada sudut 45 derajat satu sama lain?
mbaitoff

2
@ mbaitoff ICA akan memulihkan kumpulan vektor ortogonal, ya. Kedua, ketika Anda memiliki apa yang Anda minta, dua sinyal yang memiliki proyeksi tidak nol satu sama lain - itulah yang ICA coba urungkan. Itulah sebabnya vektor basis terakhir yang ditemukan oleh ICA saling orthogonal. Kemudian ketika Anda memproyeksikan data Anda pada dua vektor baru itu, mereka akan saling orthogonal.
Spacey

1
@Tarantula Saya telah mengajukan pertanyaan tentang apa yang saya bicarakan: stats.stackexchange.com/questions/6575/… , Anda dapat melihat ilustrasinya, i.stack.imgur.com/U6fWb.png . Saya tidak bisa mengerti bagaimana dasar ortogonal akan menggambarkan kedua awan itu. Jelas bagi saya bahwa dua vektor yang menggambarkan arah osilasi utama tidak ortogonal.
mbaitoff

@ Mbaitoff Anda mengambil data Anda dari dua sensor, dan Anda memplotnya satu sama lain, dan Anda melihat dua mode, sehingga Anda tahu mereka setidaknya berkorelasi. Kemudian pertanyaannya menjadi, bagaimana Anda bisa memproyeksikan semua poin yang Anda miliki di sana, sehingga mereka independen? (Yaitu, secara ortogonal seperti apa yang ditemukan ICA). Itulah yang ICA temukan untuk Anda. Saya tidak mengerti apa yang Anda maksud ketika Anda mengatakan, "Saya tidak bisa mengerti bagaimana dasar ortogonal akan menggambarkan kedua awan itu." Kenapa tidak?
Spacey

@ Tarantula Oh, sekarang saya mengerti artinya! Saya pikir itu seperti 'menemukan dua vektor ortogonal pada plot asli' sedangkan memang berarti 'menemukan dua vektor pada plot asli proyeksi yang akan membuat mereka ortogonal (independen)'.
mbaitoff

31

Tidak terlalu. Analisis faktor beroperasi dengan momen kedua, dan benar-benar berharap bahwa data tersebut Gaussian sehingga kemungkinan rasio dan hal-hal seperti itu tidak terpengaruh oleh non-normalitas. ICA, di sisi lain, dimotivasi oleh gagasan bahwa ketika Anda menambahkan sesuatu, Anda mendapatkan sesuatu yang normal, karena CLT, dan sangat berharap bahwa data tersebut tidak normal, sehingga komponen yang tidak normal dapat diekstraksi dari mereka. Untuk mengeksploitasi non-normalitas, ICA mencoba memaksimalkan momen keempat dari kombinasi linear dari input:

maxa:a=11ni[a(xix¯)]4

Jika ada, ICA harus dibandingkan dengan PCA, yang memaksimalkan momen kedua (varian) dari kombinasi input standar.


jawaban yang bagus dan renyah
Subhash C. Davar

apa momen ke-4 di sini? PL.EXPLAIN.
Subhash C. Davar

@ subhashc.davar Momen ke-4 adalah kurtosis - yaitu tingkat kemunculan data yang lebih berat atau lebih ringan daripada distribusi normal. en.wikipedia.org/wiki/Kurtosis
javadba
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.