Apakah ada alasan bagus untuk menggunakan PCA dan bukannya EFA? Juga, dapatkah PCA menjadi pengganti untuk analisis faktor?


73

Dalam beberapa disiplin ilmu, PCA (analisis komponen utama) secara sistematis digunakan tanpa justifikasi, dan PCA dan EFA (analisis faktor eksplorasi) dianggap sebagai sinonim.

Karena itu saya baru-baru ini menggunakan PCA untuk menganalisis hasil studi validasi skala (21 item pada skala Likert 7 poin, diasumsikan menyusun 3 faktor masing-masing 7 item) dan seorang reviewer bertanya kepada saya mengapa saya memilih PCA daripada EFA. Saya membaca tentang perbedaan antara kedua teknik, dan sepertinya EFA lebih disukai dibandingkan PCA di sebagian besar jawaban Anda di sini.

Apakah Anda punya alasan bagus mengapa PCA menjadi pilihan yang lebih baik? Apa manfaatnya dan mengapa itu bisa menjadi pilihan bijak dalam kasus saya?


1
Pertanyaan bagus Saya cenderung tidak setuju dengan jawaban ttnphns, dan akan mencoba memberikan pandangan alternatif hari ini.
Amoeba berkata Reinstate Monica

5
@amoeba saya rooting untuk Anda sebelumnya. PCA hanyalah teknik transformasi yang mungkin (kadang-kadang, sangat) membantu. Tidak perlu menjelekkannya atau mengaitkannya dengan niat palsu atau tidak pantas. Anda mungkin juga mengecam logaritma.
Nick Cox

4
Sepertinya bukan jawaban ttnphns yang menjelekkan PCA. Bagi saya dia sepertinya berpendapat bahwa PCA tidak didasarkan pada asumsi variabel laten menghasilkan data Anda, jadi jika itu yang Anda coba lakukan, FA adalah pilihan yang lebih baik.
gung - Reinstate Monica

1
FWIW, saya tidak mengomentari jawaban ttphns secara khusus, tetapi pada komentar dan kritik saya sering menemukan bahwa PCA tidak melakukan sesuatu yang tidak pernah dimaksudkan atau tidak cocok.
Nick Cox

3
@ NeilG: PCA bukan model generatif [probabilistik], karena tidak termasuk istilah noise dan karenanya tidak ada kemungkinan yang terkait dengannya. Ada generalisasi probabilistik (PPCA), dan itu sangat terkait dengan PCA, lihat jawaban saya di sini.
Amuba kata Reinstate Monica

Jawaban:


95

Penafian: @ttnphns sangat berpengetahuan tentang PCA dan FA, dan saya menghargai pendapatnya dan telah belajar banyak dari banyak jawaban besarnya tentang topik ini. Namun, saya cenderung tidak setuju dengan jawabannya di sini, serta dengan (banyak) posting lain tentang topik ini di CV, bukan hanya miliknya; atau lebih tepatnya, saya pikir mereka memiliki penerapan terbatas.


Saya pikir perbedaan antara PCA dan FA terlalu tinggi.

Lihatlah seperti itu: kedua metode berusaha untuk memberikan pendekatan peringkat rendah dari matriks kovarians (atau korelasi) yang diberikan. "Low-rank" berarti bahwa hanya sejumlah faktor laten atau komponen utama yang digunakan (terbatas). Jika kovarians matriks data yang C , maka model adalah:n×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

Di sini adalah sebuah matriks dengan kolom (di mana biasanya dipilih untuk menjadi sejumlah kecil, ), yang mewakili komponen atau faktor utama, adalah matriks identitas, dan adalah diagonal matriks. Setiap metode dapat dirumuskan sebagai menemukan (dan sisanya) meminimalkan [norma] perbedaan antara sisi kiri dan kanan. k k k < n k I Ψ WWkkk<nkIΨW

PPCA adalah singkatan dari PCA probabilistik , dan jika Anda tidak tahu apa itu, tidak masalah untuk saat ini. Saya ingin menyebutkannya, karena cocok antara PCA dan FA, memiliki kompleksitas model menengah. Ini juga menempatkan perbedaan yang diduga besar antara PCA dan FA ke dalam perspektif: meskipun ini merupakan model probabilistik (persis seperti FA), sebenarnya ternyata hampir setara dengan PCA ( mencakup subruang yang sama).W

Yang paling penting, perhatikan bahwa model hanya berbeda dalam cara mereka memperlakukan diagonal . Seiring dengan meningkatnya dimensi , diagonal menjadi semakin kurang penting (karena hanya ada elemen pada diagonal dan elemen di luar diagonal). Akibatnya, untuk besar biasanya tidak ada banyak perbedaan antara PCA dan FA sama sekali, pengamatan yang jarang dihargai. Untuk kecil mereka memang bisa sangat berbeda. n n n ( n - 1 ) / 2 = O ( n 2 ) n nCnnn(n1)/2=O(n2)nn

Sekarang untuk menjawab pertanyaan utama Anda mengapa orang-orang dalam beberapa disiplin ilmu tampaknya lebih menyukai PCA. Saya kira itu bermuara pada kenyataan bahwa secara matematis jauh lebih mudah daripada FA (ini tidak jelas dari rumus di atas, jadi Anda harus percaya saya di sini):

  1. PCA - serta PPCA, yang hanya sedikit berbeda, - memiliki solusi analitik, sedangkan FA tidak. Jadi FA harus sesuai secara numerik, terdapat berbagai algoritme untuk melakukannya, memberikan kemungkinan jawaban yang berbeda dan beroperasi berdasarkan asumsi yang berbeda, dll. Dll. Dalam beberapa kasus, beberapa algoritme dapat macet (lihat misalnya "kasus heywood"). Untuk PCA Anda melakukan dekomposisi eigen dan Anda selesai; FA jauh lebih berantakan.

    Secara teknis, PCA hanya memutar variabel, dan itulah sebabnya orang dapat menyebutnya sebagai transformasi belaka, seperti yang dilakukan @NickCox dalam komentarnya di atas.

  2. Solusi PCA tidak bergantung pada : Anda dapat menemukan tiga PC pertama ( ) dan dua yang pertama akan identik dengan yang Anda temukan jika Anda awalnya menetapkan . Itu tidak benar untuk FA: solusi untuk tidak harus terkandung di dalam solusi untuk . Ini kontra-intuitif dan membingungkan.k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

Tentu saja FA adalah model yang lebih fleksibel daripada PCA (setelah semua, ia memiliki lebih banyak parameter) dan seringkali dapat lebih bermanfaat. Saya tidak membantah hal itu. Apa yang saya sedang berdebat melawan, adalah klaim bahwa mereka secara konseptual sangat berbeda dengan PCA menjadi sekitar "menggambarkan data" dan FA menjadi sekitar "menemukan variabel laten". Saya hanya tidak melihat ini benar [hampir] sama sekali.

Untuk mengomentari beberapa poin spesifik yang disebutkan di atas dan dalam jawaban terkait:

  • "di PCA jumlah dimensi untuk mengekstrak / mempertahankan pada dasarnya subjektif, sedangkan di EFA jumlahnya tetap, dan Anda biasanya harus memeriksa beberapa solusi" - yah, pilihan solusinya masih subyektif, jadi saya tidak lihat perbedaan konseptual di sini. Dalam kedua kasus, (subyektif atau obyektif) dipilih untuk mengoptimalkan trade-off antara kesesuaian model dan kompleksitas model.k

  • "FA mampu menjelaskan korelasi berpasangan (kovarian). PCA umumnya tidak dapat melakukannya" - tidak juga, keduanya menjelaskan korelasi yang lebih baik dan lebih baik seiring bertambah.k

  • Terkadang kebingungan ekstra muncul (tetapi tidak dalam jawaban @ ttnphns!) Karena praktik yang berbeda dalam disiplin menggunakan PCA dan FA. Sebagai contoh, itu adalah praktik umum untuk memutar faktor dalam FA untuk meningkatkan interpretabilitas. Ini jarang dilakukan setelah PCA, tetapi pada prinsipnya tidak ada yang mencegahnya. Jadi orang sering cenderung berpikir bahwa FA memberi Anda sesuatu yang "dapat ditafsirkan" dan PCA tidak, tetapi ini sering merupakan ilusi.

Akhirnya, saya menekankan lagi bahwa untuk sangat kecil perbedaan antara PCA dan FA memang bisa menjadi besar, dan mungkin beberapa klaim dalam mendukung FA selesai dengan kecil dalam pikiran. Sebagai contoh ekstrem, untuk faktor tunggal selalu dapat dengan sempurna menjelaskan korelasinya, tetapi satu PC bisa gagal melakukannya dengan sangat buruk.n n = 2nnn=2


Pembaruan 1: model generatif data

Anda dapat melihat dari sejumlah komentar bahwa apa yang saya katakan dianggap kontroversial. Dengan risiko membanjiri bagian komentar lebih jauh, berikut adalah beberapa komentar tentang "model" (lihat komentar oleh @ttnphns dan @gung). @ttnphns tidak suka saya menggunakan kata "model" [dari matriks kovarians] untuk merujuk pada perkiraan di atas; ini adalah masalah terminologi, tetapi apa yang ia sebut "model" adalah model probabilistik / generatif dari data :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

Perhatikan bahwa PCA bukan model probabilistik, dan tidak dapat dirumuskan dengan cara ini.

Perbedaan antara PPCA dan FA adalah dalam istilah derau: PPCA mengasumsikan varians derau yang sama untuk setiap variabel, sedangkan FA mengasumsikan varian yang berbeda ("keunikan"). Perbedaan kecil ini memiliki konsekuensi penting. Kedua model dapat disesuaikan dengan algoritma maksimalisasi-harapan umum. Untuk FA tidak ada solusi analitik yang diketahui, tetapi untuk PPCA orang dapat secara analitis mendapatkan solusi yang akan disatukan EM (keduanya dan ). Ternyata, memiliki kolom dalam arah yang sama tetapi dengan panjang yang lebih kecil dari pemuatan PCA standar (saya hilangkan rumus yang tepat). Untuk alasan itu saya menganggap PPCA sebagai "hampir" PCA:Ψ i i σ 2 W W P P C A W P C A Wσ2Ψiiσ2WWPPCAWPCAW dalam kedua kasus span "ruang utama" yang sama.

Buktinya ( Tipping dan Bishop 1999 ) agak teknis; alasan intuitif mengapa varians noise homogen mengarah ke solusi yang jauh lebih sederhana adalah bahwa memiliki vektor eigen yang sama dengan untuk nilai , tetapi ini tidak berlaku untuk .C σ 2 C - ΨCσ2ICσ2CΨ

Jadi ya, @gung dan @ttnphns benar karena FA didasarkan pada model generatif dan PCA tidak, tapi saya pikir penting untuk menambahkan bahwa PPCA juga didasarkan pada model generatif, tetapi "hampir" setara dengan PCA . Kemudian tidak lagi tampak perbedaan yang begitu penting.


Pembaruan 2: mengapa PCA memberikan perkiraan terbaik untuk matriks kovarian, ketika diketahui mencari varian maksimal?

PCA memiliki dua formulasi yang setara: misalnya PC pertama adalah (a) yang memaksimalkan varian proyeksi dan (b) yang memberikan kesalahan rekonstruksi minimal. Secara lebih abstrak, kesetaraan antara memaksimalkan varians dan meminimalkan kesalahan rekonstruksi dapat dilihat menggunakan teorema Eckart-Young .

Jika adalah matriks data (dengan pengamatan sebagai baris, variabel sebagai kolom, dan kolom diasumsikan terpusat) dan dekomposisi SVD-nya adalah , maka itu diketahui bahwa kolom adalah vektor eigen dari matriks pencar (atau matriks kovarian, jika dibagi dengan jumlah pengamatan) dan dengan demikian mereka adalah sumbu yang memaksimalkan varians (yaitu sumbu utama). Tapi dengan teorema Eckart-Young, pertama PC memberikan yang terbaik Rank pendekatan untuk :XX=USVVC=XX=VS2VkkXXk=UkSkVk(notasi ini berarti hanya mengambil nilai / vektor tunggal terbesar) meminimalkan .kXXk2

Pertama PC tidak hanya memberikan yang terbaik Rank pendekatan untuk , tetapi juga untuk kovarians matriks . Memang, , dan persamaan terakhir memberikan dekomposisi SVD dari (karena adalah ortogonal dan diagonal). Jadi teorema Eckert-Young memberi tahu kita bahwa perkiraan peringkat terbaik ke diberikan oleh . Ini dapat diubah dengan memperhatikan hal itukkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS adalah pemuatan PCA, dan begitu juga

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

Intinya di sini adalah bahwa seperti yang dinyatakan di awal.

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

Pembaruan 3: demonstrasi numerik bahwa PCA FA saatn

Saya didorong oleh @ttnphns untuk memberikan demonstrasi numerik klaim saya bahwa seiring dengan meningkatnya dimensi, solusi PCA mendekati solusi FA. Ini dia.

Saya menghasilkan matriks korelasi acak dengan beberapa korelasi off-diagonal yang kuat. Saya kemudian mengambil kiri atas blok persegi dari matriks ini dengan variabel untuk menyelidiki efek dimensi. Untuk setiap , saya melakukan PCA dan FA dengan jumlah komponen / faktor , dan untuk setiap saya menghitung kesalahan rekonstruksi off-diagonal (perhatikan bahwa pada diagonal, FA merekonstruksi sempurna, karena200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
CΨistilah, sedangkan PCA tidak; tetapi diagonal diabaikan di sini). Kemudian untuk setiap dan , saya menghitung rasio kesalahan off-diagonal PCA ke FA off-diagonal error. Rasio ini harus di atas , karena FA menyediakan rekonstruksi sebaik mungkin.nk1

Rekonstruksi kesalahan off-diagonal PCA vs FA

Di sebelah kanan, garis yang berbeda sesuai dengan nilai berbeda , dan ditunjukkan pada sumbu horizontal. Perhatikan bahwa saat tumbuh, rasio (untuk semua ) mendekati , yang berarti bahwa PCA dan FA menghasilkan kira-kira beban yang sama, PCA FA. Dengan relatif kecil , misalnya ketika , PCA melakukan [yang diharapkan] lebih buruk, tetapi perbedaannya tidak terlalu kuat untuk kecil , dan bahkan untuk rasionya di bawah .knnk1nn=25kk=51.2

Rasio dapat menjadi besar ketika jumlah faktor menjadi sebanding dengan jumlah variabel . Dalam contoh yang saya berikan di atas dengan dan , FA mencapai kesalahan rekonstruksi, sedangkan PCA tidak, yaitu rasio akan menjadi tak terbatas. Tapi kembali ke pertanyaan awal, ketika dan , PCA hanya cukup akan kalah FA dalam menjelaskan bagian off-diagonal dari .knn=2k=10n=21k=3C

Untuk contoh ilustrasi PCA dan FA yang diterapkan pada dataset nyata (dataset anggur dengan ), lihat jawaban saya di sini:n=13


2
Saya baru saja akan mengajukan pertanyaan tentang perbedaan matematika antara teknik, karena sebagian besar (jika tidak bagus) jawaban pada topik di sini tidak membuat perbandingan matematis eksplisit. Jawaban ini persis apa yang saya cari.
shadowtalker

2
Ini adalah akun yang sangat berharga dan tidak dilipat dengan perspektif baru. Menempatkan PPCA sebagai teknik di antara sangat penting - itu adalah dari mana pendapat Anda tumbuh. Bolehkah saya meminta Anda untuk meninggalkan lebih banyak baris tentang PPCA? - Apa itu , bagaimana perkiraannya (secara singkat) dan apa yang membuatnya berbeda dari sehingga PPC (tidak seperti faktor) mengisi subruang variabel dan PPC tidak bergantung pada . σ2Ψk
ttnphns

3
Saya terus setuju dengan ttnphn di sini, & perbedaan bahwa FA didasarkan pada variabel laten sedangkan PCA hanyalah transformasi data. Namun, ini sangat beralasan & posisi sebaliknya yang bermanfaat. Ini berkontribusi pada kualitas utas ini. +1
gung - Reinstate Monica

5
@amoeba JAWABAN ANDA HEBAT. Sangat jelas dan memuaskan. Terima kasih telah membagikan visi Anda.
Subhash C. Davar

2
@ user795305 Maaf, saya lupa membalas. Model FA yang ditulis dalam Pembaruan 1 benar. laten memang seharusnya berasal dari dan independen dari . Solusi ML untuk dan memang TIDAK meminimalkan norma seperti yang saya tulis di Pembaruan 2; itu ceroboh dan salah. Saya harus memperbaikinya, terima kasih. Namun, saya pikir tidak apa-apa untuk mengatakan bahwa solusi ML sedemikian rupa sehingga ; hanya saja fungsi kerugian di sini bukan norma perbedaan tetapi ekspresi yang lebih rumit (kemungkinan diberikan ). zN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
amoeba mengatakan Reinstate Monica

27

Seperti yang Anda katakan, Anda terbiasa dengan jawaban yang relevan ; lihat juga : So, as long as "Factor analysis..."+ beberapa paragraf terakhir; dan daftar paling bawah di sini . Singkatnya, PCA sebagian besar merupakan teknik reduksi data sedangkan FA adalah teknik pemodelan sifat laten. Terkadang mereka memberikan hasil yang serupa; tetapi dalam kasus Anda - karena Anda mungkin merasa ingin membangun / memvalidasi sifat laten seolah-olah entitas nyata - menggunakan FA akan lebih jujur ​​dan Anda tidak boleh memilih PCA dengan harapan hasil mereka akan bertemu. Di sisi lain, setiap kali Anda bermaksud untuk meringkas / menyederhanakan data - untuk analisis selanjutnya, misalnya - Anda lebih suka PCA, karena tidak memaksakan model yang kuat (yang mungkin tidak relevan) pada data.

Untuk mengulangi cara lain, PCA memberikan dimensi yang mungkin sesuai dengan beberapa subyektif berarti konstruksi, jika Anda ingin, sementara EFA pose yang mereka bahkan fitur rahasia yang benar-benar dihasilkan data Anda, dan bertujuan untuk menemukan fitur tersebut. Dalam FA, penafsiran dimensi (faktor) masih tertunda - apakah Anda dapat melampirkan makna ke variabel laten atau tidak, itu "ada" (FA sangat penting), jika tidak Anda harus membuangnya dari model atau mendapatkan lebih banyak data untuk mendukung saya t. Dalam PCA, arti dimensi adalah opsional.

Dan sekali lagi dengan kata lain: Ketika Anda mengekstraksi m faktor (memisahkan faktor dari kesalahan), beberapa faktor ini menjelaskan (hampir) semua korelasi antar variabel, sehingga variabel tidak dibiarkan berkorelasi melalui kesalahan bagaimanapun. Oleh karena itu, selama "faktor" didefinisikan sebagai sifat laten yang menghasilkan / mengikat data yang berkorelasi, Anda memiliki petunjuk penuh untuk menafsirkan bahwa - apa yang bertanggung jawab atas korelasi tersebut. Dalam PCA (ekstrak komponen seolah-olah "faktor"), kesalahan (mungkin) masih berkorelasi antara variabel; jadi Anda tidak dapat mengklaim bahwa Anda telah mengekstraksi sesuatu yang cukup bersih dan lengkap untuk ditafsirkan dengan cara itu.

Anda mungkin ingin membaca jawaban saya yang lain, lebih lama dalam diskusi saat ini, untuk beberapa detail percobaan teoretis dan simulasi tentang apakah PCA merupakan pengganti FA yang layak . Harap perhatikan juga jawaban-jawaban luar biasa dari @amoeba yang diberikan pada utas ini.


Pembaruan : Dalam jawaban mereka untuk pertanyaan ini @amoeba, yang menentang di sana, memperkenalkan teknik (tidak terkenal) PPCA sebagai berdiri di tengah antara PCA dan FA. Ini secara alami meluncurkan logika bahwa PCA dan FA berada di satu jalur daripada sebaliknya. Pendekatan yang berharga itu memperluas cakrawala teoretis seseorang. Tetapi ini dapat menutupi perbedaan praktis yang penting tentang FA yang merekonstruksi (menjelaskan) semua kovarian berpasangan dengan beberapa faktor, sementara PCA tidak dapat melakukannya dengan sukses (dan ketika kadang-kadang melakukannya - itu karena itu terjadi pada pantomim FA).


Terima kasih atas jawaban anda! Hasil FA sebenarnya sebagian besar menyatu dengan yang diperoleh melalui PCA. Satu-satunya hal adalah: penulis studi awal (saya adalah terjemahan + validasi) menggunakan analisis PCA. Apakah ini cukup untuk menyimpan analisis PCA di kertas saya dan mungkin untuk menambahkan kalimat yang menjelaskan bahwa hasil FA bertemu, atau haruskah saya mengganti PCA dengan FA? Perhatikan bahwa peninjau sebenarnya tidak meminta kami secara eksplisit untuk melakukannya, ia hanya meminta alasan mengapa kami memilih PCA, bukan FA.
Carine

Saya pikir: jika penulis menggunakan PCA tetapi pendekatan yang lebih ketat / jujur ​​meminta EFA dalam kasus mereka, Anda harus meninggalkan garis kritik dan kemudian melakukan PCA atau PCA dan EFA, untuk membandingkan hasilnya.
ttnphns

2
Perhatikan juga perbedaan bahwa dalam PCA jumlah dimensi untuk mengekstraksi / mempertahankan pada dasarnya subjektif, sedangkan dalam EFA jumlahnya tetap, dan Anda biasanya harus memeriksa beberapa solusi, misalnya 3 meskipun 5 faktor, untuk tingkat bagaimana mereka mereproduksi matriks korelasi dan seberapa baik mereka dapat ditafsirkan. FA lebih membosankan, itu sebabnya orang sering lebih suka melakukan PCA dalam kasus-kasus di mana pendekatan yang teliti memanggil untuk mencoba sejumlah izin PUS.
ttnphns

Lihat juga entri Wikipedia: en.wikipedia.org/wiki/…
RobertF

15

Dalam jawaban saya ini (satu detik dan tambahan yang lain dari saya di sini) saya akan mencoba menunjukkan dalam gambar bahwa PCA tidak mengembalikan kovarians dengan baik (sedangkan itu mengembalikan - memaksimalkan - varians secara optimal).

Seperti dalam sejumlah jawaban saya tentang PCA atau Analisis faktor, saya akan beralih ke representasi vektor variabel dalam ruang subjek . Dalam hal ini hanyalah plot pemuatan yang menunjukkan variabel dan pemuatan komponennya. Jadi kami mendapatkan dan variabel (kami hanya memiliki dua dalam dataset), komponen utama mereka 1, dengan dan . Sudut antara variabel juga ditandai. Variabel dipusatkan awal, jadi panjang , dan adalah varians masing-masing.X1X2Fa1a2h12h22

masukkan deskripsi gambar di sini

Kovarians antara dan adalah - ini adalah produk skalar mereka - (omong-omong cosinus ini adalah nilai korelasi, omong-omong). Memuat PCA, tentu saja, menangkap kemungkinan maksimum dari keseluruhan varian dengan , varian komponenX1X2h1h2cosϕh12+h22a12+a22F

Sekarang, kovarian , di mana adalah proyeksi dari variabel pada variabel (proyeksi yang merupakan prediksi regresi dari yang pertama dengan yang kedua). Dan besarnya kovarians dapat ditampilkan oleh luas persegi panjang di bawah (dengan sisi dan ).h1h2cosϕ=g1h2g1X1X2g1h2

masukkan deskripsi gambar di sini

Menurut apa yang disebut "teorema faktor" (mungkin tahu jika Anda membaca sesuatu tentang analisis faktor), kovarians antar variabel harus (erat, jika tidak persis) direproduksi dengan multiplikasi pemuatan variabel laten yang diekstraksi (s) ( baca ). Yaitu, oleh, , dalam kasus khusus kami (jika mengenali komponen utama sebagai variabel laten kami). Nilai kovarians yang direproduksi itu dapat diberikan oleh luas persegi panjang dengan sisi dan . Mari kita menggambar persegi panjang, selaras dengan persegi panjang sebelumnya, untuk membandingkan. Kotak itu ditunjukkan menetas di bawah, dan areanya dijuluki cov * (reproduced cov ).a1a2a1a2

masukkan deskripsi gambar di sini

Sudah jelas bahwa kedua area tersebut cukup berbeda, dengan cov * yang jauh lebih besar dalam contoh kita. Kovarian terlalu tinggi oleh beban , komponen utama 1. Ini bertentangan dengan seseorang yang mungkin berharap bahwa PCA, dengan komponen pertama saja dari dua kemungkinan, akan mengembalikan nilai yang diamati dari kovarians.F

Apa yang bisa kita lakukan dengan rencana kita untuk meningkatkan reproduksi? Kita dapat, misalnya, memutar berkas sedikit searah jarum jam, bahkan sampai dengan . Ketika garis mereka bertepatan, itu berarti bahwa kami memaksa menjadi variabel laten kami. Kemudian memuat (proyeksi di atasnya) akan menjadi , dan memuat (proyeksi di atasnya) akan . Kemudian dua persegi panjang adalah sama - satu yang diberi label cov , dan kovarians direproduksi dengan sempurna. Namun, , varians yang dijelaskan oleh "variabel laten" yang baru, lebih kecil dariFX2X2a2X2h2a1X1g1g12+h22a12+a22 , varians yang dijelaskan oleh variabel laten lama, komponen utama 1 (persegi dan susun sisi masing-masing dari dua persegi panjang pada gambar, untuk membandingkan). Tampaknya kami berhasil mereproduksi kovarian, tetapi dengan mengorbankan jumlah varian. Yaitu dengan memilih sumbu laten lain dan bukan komponen utama pertama.

Imajinasi atau dugaan kami mungkin menyarankan (saya tidak akan dan mungkin tidak dapat membuktikannya dengan matematika, saya bukan ahli matematika) bahwa jika kita melepaskan sumbu laten dari ruang yang ditentukan oleh dan , pesawat, yang memungkinkannya mengayunkan sebuah sedikit ke arah kita, kita dapat menemukan beberapa posisi yang optimal - sebut saja, katakanlah, - di mana kovarians kembali direproduksi dengan sempurna oleh pemuatan yang muncul ( ) sementara menjelaskan ( ) akan lebih besar dari , meskipun tidak sebesar komponen utama .X1X2Fa1a2a12+a22g12+h22a12+a22F

Saya percaya bahwa kondisi ini dapat dicapai, terutama dalam kasus ketika sumbu laten ditarik keluar dari pesawat sedemikian rupa untuk menarik "tudung" dari dua pesawat ortogonal turunan, satu berisi sumbu dan dan yang lainnya berisi sumbu dan . Kemudian sumbu laten ini kita sebut faktor umum , dan seluruh "upaya orisinalitas" kita akan dinamai analisis faktor .FX1X2


Balas ke "Pembaruan 2" dari @ amoeba sehubungan dengan PCA.

@amoeba benar dan relevan untuk mengingat teorema Eckart-Young yang mendasar bagi PCA dan teknik-tekniknya yang bersifat umum (PCoA, biplot, analisis korespondensi) berdasarkan SVD atau dekomposisi eigen. Menurutnya, sumbu utama pertama secara optimal meminimalkan - jumlah yang sama dengan , - serta . Di sini adalah singkatan dari data yang direproduksi oleh sumbu utama . dikenal sama dengan , dengan menjadi variabel beban darikX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk komponen.

Apakah ini berarti minimalisasi tetap benar jika kita hanya mempertimbangkan bagian off-diagonal dari kedua matriks simetris? Mari kita memeriksanya dengan bereksperimen.||XXXkXk||2

500 10x6matriks acak dihasilkan (distribusi seragam). Untuk masing-masing, setelah memusatkan kolomnya, PCA dilakukan, dan dua matriks data yang direkonstruksi dihitung: satu sebagai direkonstruksi oleh komponen 1 hingga 3 ( pertama, seperti biasa dalam PCA), dan yang lain sebagai direkonstruksi oleh komponen 1, 2 , dan 4 (yaitu, komponen 3 digantikan oleh komponen yang lebih lemah 4). Kesalahan rekonstruksi (jumlah selisih kuadrat = kuadrat jarak Euclidean) kemudian dihitung untuk satu , untuk yang lain . Kedua nilai ini adalah pasangan untuk ditampilkan pada sebar scatter.XXkk||XXXkXk||2XkXk

Kesalahan rekonstruksi dihitung setiap kali dalam dua versi: (a) seluruh matriks dan dibandingkan; (B) hanya diagonal diagonal dari dua matriks dibandingkan. Jadi, kami memiliki dua plot pencar, dengan masing-masing 500 poin.XXXkXk

masukkan deskripsi gambar di sini

Kita lihat, bahwa pada plot "seluruh matriks" semua titik berada di atas y=xgaris. Yang berarti bahwa rekonstruksi untuk seluruh matriks produk-skalar selalu lebih akurat dengan "1 hingga 3 komponen" daripada dengan "1, 2, 4 komponen". Ini sejalan dengan teorema Eckart-Young: komponen utama pertama adalah yang terbaik.k

Namun, ketika kita melihat plot "di luar diagonal saja", kita melihat sejumlah poin di bawah y=xgaris. Tampaknya kadang-kadang rekonstruksi bagian off-diagonal dengan "1 hingga 3 komponen" lebih buruk daripada dengan "1, 2, 4 komponen". Yang secara otomatis mengarah pada kesimpulan bahwa komponen utama pertama tidak secara teratur merupakan tukang terbaik untuk produk skalar off-diagonal di antara tukang yang tersedia di PCA. Misalnya, mengambil komponen yang lebih lemah dan bukannya yang lebih kuat terkadang dapat meningkatkan rekonstruksi.k

Jadi, bahkan dalam domain PCA itu sendiri, komponen utama senior - yang melakukan perkiraan varians keseluruhan, seperti yang kita tahu, dan bahkan seluruh matriks kovarians, - belum tentu mendekati kovarian off-diagonal . Oleh karena itu diperlukan optimasi yang lebih baik; dan kita tahu bahwa analisis faktor adalah (atau di antara) teknik yang dapat menawarkannya.


Tindak lanjut dari "Pembaruan 3" dari @ amoeba: Apakah PCA mendekati FA ketika jumlah variabel bertambah? Apakah PCA merupakan pengganti FA yang valid?

Saya sudah melakukan studi simulasi kisi. Beberapa jumlah struktur faktor populasi, memuat matriks dibuat dari angka acak dan dikonversi ke matriks kovarians populasi terkait sebagai , dengan menjadi suara diagonal (unik varian). Matriks kovarian ini dibuat dengan semua varian 1, oleh karena itu mereka sama dengan matriks korelasinya.AR=AA+U2U2

Dua jenis struktur faktor dirancang - tajam dan difus . Struktur tajam adalah struktur yang sederhana: pembebanan "tinggi" dari "rendah", tidak ada perantara; dan (dalam desain saya) masing-masing variabel dimuat sangat tepat oleh satu faktor. Sesuai karenanya noticebly blok-seperti. Struktur difus tidak membedakan antara beban tinggi dan rendah: mereka dapat berupa nilai acak apa pun dalam batas; dan tidak ada pola dalam pemuatan yang dikandung. Akibatnya, korespondensi menjadi lebih lancar. Contoh matriks populasi:RR

masukkan deskripsi gambar di sini

Jumlah faktor adalah atau . Jumlah variabel ditentukan oleh rasio k = jumlah variabel per faktor ; k berlari nilai dalam penelitian ini.264,7,10,13,16

Untuk masing-masing dari beberapa populasi yang dibangun , realisasi acak dari distribusi Wishart (di bawah ukuran sampel ) dihasilkan. Ini adalah matriks kovarians sampel . Masing-masing faktor dianalisis dengan FA (dengan ekstraksi sumbu utama) serta oleh PCA . Selain itu, setiap matriks kovarian tersebut dikonversi menjadi matriks korelasi sampel yang sesuai yang juga dianalisis dengan faktor (faktor) dengan cara yang sama. Terakhir, saya juga melakukan pemfaktoran "orangtua", matriks kovarians populasi (= korelasi) itu sendiri. Ukuran kecukupan sampel Kaiser-Meyer-Olkin selalu di atas 0,7.R50n=200

Untuk data dengan 2 faktor, analisis mengekstraksi 2, dan juga 1 serta 3 faktor ("terlalu rendah" dan "terlalu tinggi" dari jumlah rezim faktor yang benar). Untuk data dengan 6 faktor, analisis juga mengekstraksi 6, dan juga 4 serta 8 faktor.

Tujuan dari penelitian ini adalah kualitas restorasi kovarian / korelasi FA vs PCA. Oleh karena itu residu unsur-unsur off-diagonal diperoleh. Saya mendaftarkan residu antara elemen yang direproduksi dan elemen matriks populasi, serta residu antara elemen matriks sampel dan yang dianalisis. Residual tipe 1 secara konseptual lebih menarik.

Hasil yang diperoleh setelah analisis dilakukan pada kovarians sampel dan pada matriks korelasi sampel memiliki perbedaan tertentu, tetapi semua temuan utama terjadi serupa. Karena itu saya hanya membahas (menunjukkan hasil) dari analisis "mode korelasi".

1. Fit off-diagonal secara keseluruhan oleh PCA vs FA

Grafik di bawah ini menggambarkan berbagai faktor dan k yang berbeda, rasio rata-rata kuadrat residu diagonal yang dihasilkan dalam PCA dengan jumlah yang sama yang dihasilkan dalam FA . Ini mirip dengan yang ditunjukkan @amoeba di "Perbarui 3". Garis-garis pada plot mewakili kecenderungan rata-rata di 50 simulasi (saya hilangkan menunjukkan st. Error bar pada mereka).

(Catatan: hasilnya adalah tentang anjak matriks korelasi sampel acak , bukan tentang anjak matriks populasi orangtua kepada mereka: konyol untuk membandingkan PCA dengan FA tentang seberapa baik mereka menjelaskan matriks populasi - FA akan selalu menang, dan jika jumlah faktor yang benar diekstraksi, residunya akan hampir nol, sehingga rasio akan tergesa-gesa menuju tak terhingga.)

masukkan deskripsi gambar di sini

Mengomentari plot ini:

  • Kecenderungan umum: ketika k (jumlah variabel per faktor) menumbuhkan rasio subfit keseluruhan PCA / FA memudar ke 1. Yaitu, dengan lebih banyak variabel PCA mendekati FA dalam menjelaskan korelasi / kovariansi off-diagonal. (Didokumentasikan oleh @amoeba dalam jawabannya.) Agaknya hukum yang mendekati kurva adalah rasio = exp (b0 + b1 / k) dengan b0 mendekati 0.
  • Rasio adalah sisa lebih besar "sampel dikurangi sampel yang direproduksi" (plot kiri) daripada residu wrt "populasi dikurangi sampel yang direproduksi" (plot kanan). Artinya (sepele), PCA lebih rendah daripada FA dalam menyesuaikan matriks yang segera dianalisis. Namun, garis di plot kiri memiliki laju penurunan yang lebih cepat, sehingga dengan k = 16 rasio di bawah 2 juga, karena berada di plot kanan.
  • Dengan residu "populasi dikurangi sampel yang direproduksi", tren tidak selalu cembung atau bahkan monoton (siku yang tidak biasa ditampilkan melingkari). Jadi, selama pidato adalah tentang menjelaskan matriks populasi koefisien melalui anjak sampel, peningkatan jumlah variabel tidak secara teratur membawa PCA lebih dekat ke FA dalam kualitas fittinq, meskipun kecenderungannya ada.
  • Rasio lebih besar untuk faktor m = 2 daripada untuk faktor m = 6 dalam populasi (garis merah tebal di bawah garis hijau tebal). Yang berarti bahwa dengan lebih banyak faktor yang bertindak dalam data PCA lebih cepat mengejar FA. Misalnya, pada plot kanan k = 4 menghasilkan rasio sekitar 1,7 untuk 6 faktor, sedangkan nilai yang sama untuk 2 faktor tercapai pada k = 7.
  • Rasio lebih tinggi jika kita mengekstrak lebih banyak faktor relatif jumlah sebenarnya faktor. Artinya, PCA hanya sedikit lebih buruk daripada FA jika jika di ekstraksi kita meremehkan jumlah faktor; dan kehilangan lebih banyak jika jumlah faktor benar atau terlalu tinggi (bandingkan garis tipis dengan garis tebal).
  • Ada efek menarik dari ketajaman struktur faktor yang muncul hanya jika kita mempertimbangkan residu “populasi dikurangi sampel yang direproduksi”: bandingkan plot abu-abu dan kuning di sebelah kanan. Jika faktor populasi memuat variabel secara difus, garis merah (m = 6 faktor) tenggelam ke dasar. Artinya, dalam struktur difus (seperti pemuatan angka-angka kacau) PCA (dilakukan pada sampel) hanya sedikit lebih buruk daripada FA dalam merekonstruksi korelasi populasi - bahkan di bawah k kecil, asalkan jumlah faktor dalam populasi tidak sangat kecil. Ini mungkin adalah kondisi ketika PCA paling dekat dengan FA dan paling dijamin sebagai pengganti yang lamban. Sedangkan di hadapan struktur faktor tajam PCA tidak begitu optimis dalam merekonstruksi korelasi populasi (atau kovariansi): ia mendekati FA hanya dalam perspektif k besar.

2. Tingkat elemen fit oleh PCA vs FA: distribusi residu

Untuk setiap percobaan simulasi di mana anjak (dengan PCA atau FA) dari 50 matriks sampel acak dilakukan dari matriks populasi, distribusi residu "korelasi populasi dikurangi yang direproduksi (oleh anjak piutang) korelasi sampel" diperoleh untuk setiap elemen korelasi off-diagonal. Distribusi mengikuti pola yang jelas, dan contoh distribusi tipikal digambarkan tepat di bawah ini. Hasil setelah anjak PCA adalah sisi kiri biru dan hasil setelah anjak FA adalah sisi kanan hijau.

masukkan deskripsi gambar di sini

Temuan utama adalah itu

  • Diucapkan, dengan besaran absolut, korelasi populasi dipulihkan oleh PCA tidak memadai: nilai-nilai yang direproduksi terlalu tinggi oleh besarnya.
  • Tetapi bias menghilang ketika k (jumlah variabel dengan jumlah faktor rasio) meningkat. Pada gambar, ketika hanya ada k = 4 variabel per faktor, residu PCA menyebar dalam offset dari 0. Ini terlihat baik ketika ada 2 faktor dan 6 faktor. Tetapi dengan k = 16 offset hampir tidak terlihat - hampir hilang dan PCA fit mendekati FA fit. Tidak ada perbedaan dalam penyebaran (varians) residu antara PCA dan FA yang diamati.

Gambaran serupa terlihat juga ketika jumlah faktor yang diekstraksi tidak sesuai dengan jumlah sebenarnya faktor: hanya varian residu yang agak berubah.

Distribusi yang ditunjukkan di atas pada latar belakang abu-abu berkaitan dengan percobaan dengan struktur faktor yang tajam (sederhana) hadir dalam populasi. Ketika semua analisis dilakukan dalam situasi struktur faktor populasi difus , ditemukan bahwa bias PCA memudar tidak hanya dengan kenaikan k, tetapi juga dengan kenaikan m (jumlah faktor). Silakan lihat lampiran latar belakang kuning yang diperkecil pada kolom "6 faktor, k = 4": hampir tidak ada offset dari 0 yang diamati untuk hasil PCA (offset masih ada dengan m = 2, yang tidak ditunjukkan pada gambar ).

Berpikir bahwa temuan dijelaskan penting saya memutuskan untuk memeriksa mereka distribusi residual yang lebih dalam dan diplot scatterplots dari residual (Y axis) terhadap elemen (korelasi populasi) nilai (X axis). Setiap scatterplot ini menggabungkan hasil dari semua (50) simulasi / analisis. Garis cocok LOESS (50% poin lokal untuk digunakan, kernel Epanechnikov) disorot. Set plot pertama adalah untuk kasus struktur faktor tajam dalam populasi (trimodality nilai-nilai korelasi jelas karena itu):

masukkan deskripsi gambar di sini

Berkomentar:

  • Kami jelas melihat bias rekonstruksi (dijelaskan di atas) yang merupakan karakteristik PCA sebagai garis miring, tren negatif loess: besar dalam korelasi populasi nilai absolut yang ditaksir terlalu tinggi oleh PCA dari kumpulan data sampel. FA tidak bias (horizontal loess).
  • Seiring k tumbuh, bias PCA berkurang.
  • PCA bias terlepas dari berapa banyak faktor yang ada dalam populasi: dengan 6 faktor yang ada (dan 6 diekstraksi pada analisis) itu juga cacat seperti halnya dengan 2 faktor yang ada (2 diekstraksi).

Set plot kedua di bawah ini adalah untuk kasus struktur faktor difus dalam populasi:

masukkan deskripsi gambar di sini

Sekali lagi kami mengamati bias oleh PCA. Namun, berlawanan dengan kasus struktur faktor tajam, bias memudar ketika jumlah faktor meningkat: dengan 6 faktor populasi, garis loess PCA tidak terlalu jauh dari horizontal bahkan di bawah k hanya 4. Ini adalah apa yang telah kami ungkapkan dengan " histogram kuning "sebelumnya.

Salah satu fenomena menarik pada kedua set scatterplots adalah garis loess untuk PCA berbentuk S-curved. Lengkungan ini terlihat di bawah struktur faktor populasi lainnya (pembebanan) yang dibangun secara acak oleh saya (saya periksa), walaupun tingkatannya bervariasi dan seringkali lemah. Jika mengikuti dari bentuk-S maka PCA itu mulai mendistorsi korelasi dengan cepat ketika mereka memantul dari 0 (terutama di bawah k kecil), tetapi dari beberapa nilai pada - sekitar 0,30 atau 0,40 - itu stabil. Saya tidak akan berspekulasi pada saat ini untuk kemungkinan alasan perilaku itu, meskipun saya percaya "sinusoid" berasal dari sifat korelasi triginometrik.

Fit by PCA vs FA: Kesimpulan

Sebagai pengatur keseluruhan bagian off-diagonal dari matriks korelasi / kovarian, PCA - ketika diterapkan untuk menganalisis matriks sampel dari suatu populasi - dapat menjadi pengganti yang cukup baik untuk analisis faktor. Ini terjadi ketika rasio jumlah variabel / jumlah faktor yang diharapkan cukup besar. (Alasan geometris untuk efek menguntungkan dari rasio dijelaskan di bawah Catatan Kaki ) Dengan lebih banyak faktor yang ada rasio mungkin kurang dari hanya dengan beberapa faktor. Kehadiran struktur faktor tajam (struktur sederhana yang ada dalam populasi) menghambat PCA untuk mendekati kualitas FA.1

Efek dari struktur faktor yang tajam pada kemampuan kecocokan keseluruhan PCA hanya terlihat selama residual "populasi dikurangi sampel yang direproduksi" dipertimbangkan. Oleh karena itu orang dapat kehilangan untuk mengenalinya di luar pengaturan studi simulasi - dalam studi observasional sampel kita tidak memiliki akses ke residu penting ini.

Tidak seperti analisis faktor, PCA adalah penduga yang bias (positif) dari besarnya korelasi populasi (atau kovariansi) yang jauh dari nol. Namun bias PCA menurun karena jumlah rasio variabel / jumlah faktor yang diharapkan tumbuh. Bias juga berkurang ketika jumlah faktor dalam populasi tumbuh, tetapi kecenderungan yang terakhir ini terhambat di bawah struktur faktor yang tajam.

Saya akan berkomentar bahwa bias kecocokan PCA dan efek struktur tajam di atasnya dapat diungkap juga dalam mempertimbangkan residu "sampel dikurangi sampel yang direproduksi"; Saya tidak menampilkan hasil seperti itu karena sepertinya tidak menambah tayangan baru.

Saran saya yang sangat tentatif dan luas pada akhirnya mungkin untuk tidak menggunakan PCA daripada FA untuk tipikal (yaitu dengan 10 atau kurang faktor yang diharapkan dalam populasi) untuk tujuan analitik faktor kecuali Anda memiliki variabel 10 kali lebih banyak daripada faktor. Dan semakin sedikit faktor, semakin berat rasio yang diperlukan. Saya lebih lanjut tidak akan merekomendasikan menggunakan PCA sebagai pengganti FA sama sekali setiap kali data dengan mapan, struktur faktor tajam dianalisis - seperti ketika analisis faktor dilakukan untuk memvalidasi sedang dikembangkan atau sudah meluncurkan tes psikologi atau kuesioner dengan konstruksi artikulasi / skala . PCA dapat digunakan sebagai alat pemilihan item awal dan awal untuk instrumen psikometri.

Keterbatasan penelitian. 1) Saya hanya menggunakan metode ekstraksi faktor PAF. 2) Ukuran sampel diperbaiki (200). 3) Populasi normal diasumsikan dalam pengambilan sampel matriks sampel. 4) Untuk struktur yang tajam, ada model jumlah variabel yang sama per faktor. 5) Membangun muatan faktor populasi Saya meminjamnya dari distribusi kasar yang seragam (untuk struktur yang tajam - trimodal, yaitu seragam 3 potong). 6) Mungkin ada kekeliruan dalam ujian instan ini, tentu saja, seperti di mana saja.


Catatan kaki . PCA akan meniru hasil FA dan menjadi bugar yang setara dari korelasi ketika - seperti yang dikatakan di sini - variabel kesalahan model, yang disebut faktor unik , menjadi tidak berkorelasi. FA berusaha untuk membuat mereka tidak berkorelasi, namun PCA tidak, mereka mungkin terjadi untuk berkorelasi di PCA. Kondisi utama ketika itu mungkin terjadi adalah ketika jumlah variabel per jumlah faktor umum (komponen disimpan sebagai faktor umum) besar.1

Pertimbangkan foto-foto berikut (jika Anda perlu terlebih dahulu mempelajari cara memahaminya, baca jawaban ini ):

masukkan deskripsi gambar di sini

Dengan persyaratan analisis faktor untuk dapat mengembalikan korelasi yang berhasil dengan beberapa mfaktor umum, faktor unik , yang mengkarakterisasi bagian unik statistik dari variabel manifes , harus tidak berkorelasi. Ketika PCA digunakan, harus terletak di subruang -ruang yang direntang oleh karena PCA tidak meninggalkan ruang variabel yang dianalisis. Jadi - lihat gambar kiri - dengan (komponen utama adalah faktor yang diekstraksi) dan ( , ) dianalisis, faktor unik ,UpXp Up-mpXm=1P1p=2X1X2U1U2memaksakan superimpose pada komponen kedua yang tersisa (berfungsi sebagai kesalahan analisis). Akibatnya mereka harus dikorelasikan dengan . (Pada gambar, korelasi cosinus sudut yang sama antara vektor.) Ortogonalitas yang diperlukan tidak mungkin, dan korelasi yang diamati antara variabel tidak pernah dapat dipulihkan (kecuali faktor uniknya adalah vektor nol, kasus yang sepele).r=1

Tetapi jika Anda menambahkan satu variabel lagi ( ), gambar kanan, dan ekstrak masih satu pr. komponen sebagai faktor umum, tiga harus berbaring di pesawat (didefinisikan oleh dua komponen pr yang tersisa). Tiga panah dapat menjangkau pesawat dengan sudut yang lebih kecil dari 180 derajat. Di sana kebebasan untuk sudut muncul. Sebagai kasus tertentu yang mungkin, sudut bisa sekitar sama, 120 derajat. Itu sudah tidak jauh dari 90 derajat, yaitu dari tidak berkorelasi. Ini adalah situasi yang ditunjukkan pada gambar.X3U

Saat kita menambahkan variabel ke-4, 4 akan mencakup ruang 3d. Dengan 5, 5 hingga rentang 4d, dll. Ruang untuk banyak sudut secara bersamaan untuk mencapai lebih dekat ke 90 derajat akan berkembang. Yang berarti bahwa ruang untuk PCA untuk mendekati FA dalam kemampuannya untuk menyesuaikan segitiga diagonal dari matriks korelasi juga akan diperluas.U

Tetapi FA yang sebenarnya biasanya dapat mengembalikan korelasi bahkan di bawah rasio kecil "jumlah variabel / jumlah faktor" karena, seperti yang dijelaskan di sini (dan lihat gambar 2 di sana) analisis faktor memungkinkan semua vektor faktor (faktor umum dan unik) yang) untuk menyimpang dari berbaring di ruang variabel. Karenanya ada ruang untuk ortogonalitas bahkan dengan hanya 2 variabel dan satu faktor.UX

Foto-foto di atas juga memberikan petunjuk yang jelas mengapa PCA melebih-lebihkan korelasi. Di gambar sebelah kiri, misalnya, , di mana adalah proyeksi pada (memuat ) dan adalah panjang ( ). Tetapi korelasi yang direkonstruksi oleh saja sama dengan hanya , yaitu lebih besar dari .rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
Saya suka gambar PCA / FA / CCA Anda, jadi dengan senang hati memberi +1. Cara berpikir ini adalah sesuatu yang saya sama sekali tidak terbiasa, sehingga memerlukan beberapa pemikiran untuk memetakannya ke matematika yang saya tahu ... Namun, perhatikan bahwa di sini (dan juga dalam jawaban FA-vs-PCA Anda yang terkenal lainnya dengan gambar) Anda hanya memiliki dua variabel. Seperti yang saya katakan dalam jawaban saya, ketika hanya ada dua variabel, satu faktor dalam FA cukup untuk dengan sempurna, 100%, mereproduksi kovarians (karena hanya ada satu derajat kebebasan dalam matriks kovarians, terlepas dari diagonal), tetapi satu PC umumnya tidak dapat melakukannya. Jadi tidak ada kontradiksi dengan jawaban saya.
Amuba mengatakan Reinstate Monica

Hmm, saya harap saya tidak salah paham tentang titik reproduksi yang berbeda oleh FA dan PCA. Tempatmu di sini adalah untuk maksudku, aku akan mengatakannya di jawaban lain
Gottfried Helms

2
Membalas pembaruan Anda (yang merupakan balasan Anda untuk pembaruan saya 2): Saya sangat setuju dengan semua yang Anda tulis di sini! Pemuatan PCA adalah pendekatan peringkat rendah terbaik untuk seluruh matriks kovarians (termasuk diagonal), tetapi tidak selalu merupakan pendekatan peringkat rendah terbaik ke bagian off-diagonalnya; perkiraan terakhir ini diberikan oleh analisis faktor. Tampaknya kita mencapai kesepakatan bersama di sini; atau apakah Anda masih merasa bahwa beberapa bagian dari jawaban saya bertentangan dengan pemikiran Anda?
Amuba kata Reinstate Monica

1
@ttnphns: Saya membaca kembali diskusi kami di atas, dan biarkan saya kembali ke satu titik yang saya buat dalam jawaban asli saya. PCA mencoba menemukan pembebanan yang mendekati seluruh matriks kovarian; FA mencoba menemukan pemuatan yang mendekati bagian off-diagonal. Tetapi yang lebih besar dimensi, bagian kecil dari matriks kovarians diambil oleh diagonal, yang berarti bahwa dalam dimensi besar PCA mulai peduli sebagian besar tentang bagian off-diagonal dari itu (karena bagian diagonal menjadi begitu kecil). Jadi secara umum, semakin besar dimensinya, semakin dekat PCA ke FA. Apa kamu setuju?
Amuba kata Reinstate Monica

1
Terima kasih atas pingnya, ttnphns. Wow, ini terlihat menarik. Saya akan membacanya dengan cermat tetapi tidak sekarang; Saya mungkin harus menundanya hingga Januari. Saya akan berkomentar di sini setelah saya membacanya. Ngomong-ngomong, saya sudah berpikir (di belakang kepala saya) tentang kembali ke utas ini dan mengedit jawaban saya sedikit untuk membuatnya lebih "rujuk". Ini mungkin kesempatan yang baik untuk melakukannya (tetapi biarkan saya membaca apa yang Anda tulis terlebih dahulu). С наступающим!
Amoeba berkata Reinstate Monica

4

(Ini benar-benar komentar untuk jawaban kedua @ttnphns)
Sejauh perbedaan jenis kovariansi dengan asumsi kesalahan oleh PC dan FA, saya hanya mencetak pemuatan / komponen varian yang terjadi pada dua contoh sebelumnya. ; hanya untuk contoh saya ambil 2 variabel.

Kami menganggap konstruksi dua item sebagai satu faktor umum dan faktor spesifik item. Inilah faktor-loadingsmatrix:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

Matriks korelasi dengan ini adalah

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

Jika kita melihat load_-matrix L_fa dan menafsirkannya seperti biasa dalam FA bahwa f2 dan f3 adalah istilah kesalahan / item kesalahan spesifik, kami mereproduksi C tanpa kesalahan itu, menerima

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

Jadi kita telah dengan sempurna mereproduksi elemen off-diagonal, yang merupakan kovarians (dan diagonal berkurang)

Jika kita melihat solusi pca (dapat dilakukan dengan rotasi sederhana), kita mendapatkan dua faktor dari matriks korelasi yang sama:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

Dengan menganggap faktor kedua sebagai kesalahan, kita mendapatkan matriks kovariansi yang direproduksi

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

di mana kita telah melebih - lebihkan korelasi sebenarnya. Ini karena kami mengabaikan mengoreksi kovarians parsial negatif pada faktor kedua = kesalahan. Perhatikan bahwa PPCA akan identik dengan contoh pertama.

Dengan lebih banyak item, ini tidak begitu jelas tetapi masih merupakan efek yang melekat. Oleh karena itu ada juga konsep MinRes-ekstraksi (atau -rotasi?) Dan saya juga telah melihat sesuatu seperti ekstraksi penentu maksimum dan ...


[update] Adapun pertanyaan dari @amoeba:

Saya memahami konsep "Minimal Residuals" ("MinRes") - rotasi sebagai metode yang sesuai dengan metode komputasi CFA sebelumnya, untuk mencapai reproduksi terbaik elemen-elemen off-diagonal dari matriks korelasi. Saya belajar ini di tahun 80-an / 90-an dan tidak mengikuti perkembangan analisis faktor (sejauh ini dalam beberapa tahun terakhir), jadi mungkin "MinRes" sudah ketinggalan zaman.

Untuk membandingkannya dengan solusi PCA : orang dapat berpikir untuk menemukan solusi pc dengan rotasi faktor-faktor ketika mereka dianggap sebagai sumbu dalam ruang euclidean dan pemuatan adalah koordinat dari item dalam ruang vektor itu.
Kemudian untuk sepasang sumbu katakan x, y jumlah kuadrat dari pembebanan sumbu x dan sumbu y dihitung.
Dari sini kita dapat menemukan sudut rotasi, yang dengannya kita harus memutar, untuk mendapatkan jumlah kuadrat dalam sumbu yang diputar maksimal pada x ° dan minimal pada sumbu y ° (di mana lingkaran kecil menunjukkan sumbu yang diputar) .

Melakukan ini untuk semua pasangan sumbu (di mana hanya selalu sumbu x adalah kiri dan sumbu y adalah kanan (jadi untuk 4 faktor, kami hanya memiliki 6 pasang rotasi)) dan kemudian ulangi seluruh proses untuk hasil yang stabil menyadari apa yang disebut "Jacobi-method" untuk menemukan solusi komponen utama: ia akan menemukan sumbu pertama sedemikian rupa sehingga ia mengumpulkan jumlah maksimum yang mungkin dari kuadrat pemuatan ("SSqL") (yang berarti juga "varians ") pada satu sumbu dalam konfigurasi korelasional saat ini.

Sejauh yang saya mengerti hal-hal, " MinRes " harus melihat korelasi parsial daripada SSqL; sehingga tidak meringkas kuadrat pemuatan (seperti yang dilakukan dalam rotasi Jacobi-pc) tetapi merangkum produk silang pemuatan di setiap faktor - kecuali "produk silang" (= kuadrat) dari pemuatan masing-masing item dengan sendirinya.
Setelah kriteria untuk sumbu x dan untuk sumbu y dihitung, ia menghasilkan cara yang sama seperti yang dijelaskan untuk rotasi jacobi berulang.

Karena kriteria rotasi berbeda secara numerik dari kriteria maksimum SSqL, maka hasil / posisi rotasi harus berbeda dari solusi PCA. Jika konvergen seharusnya memberikan korelasi parsial maksimum yang mungkin pada satu sumbu pada faktor pertama, korelasi maksimal berikutnya pada faktor berikutnya dan seterusnya. Idenya tampaknya, maka untuk mengasumsikan begitu banyak sumbu / faktor sehingga kovarians parsial yang tersisa / residual menjadi marjinal.

(Perhatikan ini hanya bagaimana saya mengartikan hal-hal, saya belum melihat prosedur yang ditulis secara eksplisit (atau tidak dapat mengingat saat ini); deskripsi di mathworld tampaknya mengungkapkannya dalam hal rumus seperti dalam jawaban amoeba) dan kemungkinan lebih berwibawa. Baru saja menemukan referensi lain dalam dokumentasi proyek-R dan kemungkinan referensi yang sangat bagus dalam buku Gorsuch tentang factoranalysis, halaman 116, tersedia melalui google-books )


Bisakah Anda menjelaskan apa yang Anda maksud dalam kalimat terakhir Anda? Apa itu ekstraksi "MinRes" atau "penentu maksimum", dan bagaimana hubungannya dengan apa yang Anda tulis sebelumnya?
Amuba kata Reinstate Monica

"MinRes" adalah beberapa metode ekstraksi atau rotasi yang saya temui bertahun-tahun yang lalu baik dalam monografi S Mulaik atau K. Überla tentang Factoranalysis. Ini berfokus pada meminimalkan elemen offdiagonal residual. Karena telah disebutkan secara eksplisit dalam konteks banyak metode lain saya menganggap itu - mungkin sedikit - berbeda dari CFA - implementasi era itu. Saya telah mencoba menerapkan alasannya sebagai kriteria rotasi tetapi entah bagaimana tidak memiliki hasil konklusif. Saya juga berharap bahwa "Memaksimalkan penentu" akan diketahui di sini; Saya akan melihat deskripsi apa yang saya terima 20 tahun yang lalu ...
Gottfried Helms

Ahh, aku punya dua bagian. Penjelasan tentang kriteria rotasi-untuk -Rantai "minres" ada di go.helms-net.de/stat/fa/minres.htm . "Penentu maksimal" adalah model matematika di bawah metode ekstraksi / rotasi dari beberapa koresponden Jeffrey Owen Katz yang menyebutnya "oblisim" dan mungkin dikembangkan setelah korespondensi kami. Pada saat itu sudah di atas kepala saya; Lagi pula saya mencoba memahami metode dan memformat dan mengatur ulang dalam wordfile. Lihat go.helms-net.de/stat/fa/oblisim.zip Google untuk "oblisim" memberikan entri newsgroup yang tampaknya telah memperkenalkannya.
Gottfried Helms

@amoeba: Ini mungkin entri pertama, di mana Jeff Katz memperkenalkan serangkaian metodenya: mathforum.org/kb/message.jspa?messageID=1516627 Ini tahun 1998, jadi dugaan saya sekitar 20 tahun yang lalu agak tidak tepat ...
Gottfried Helms

2

Dalam pandangan saya, pengertian "PCA" dan "FA" berada pada dimensi yang berbeda dari pengertian "eksplorasi", "konfirmasi" atau mungkin "inferensial". Jadi masing-masing dari dua metode matematika / statistik dapat diterapkan dengan salah satu dari tiga pendekatan.

Misalnya, mengapa harus tidak hipotesa untuk memiliki hipotesis, bahwa data saya memiliki faktor umum dan juga struktur seperangkat komponen utama (karena percobaan saya dengan peralatan elektronik saya memberi saya data yang hampir bebas kesalahan) dan saya menguji hipotesis saya, bahwa nilai-nilai eigen dari faktor-faktor selanjutnya terjadi dengan rasio 75%? Ini kemudian PCA dalam kerangka konfirmasi.

Di sisi lain, tampaknya konyol bahwa dalam tim penelitian kami, kami membuat dengan banyak pekerjaan baterai untuk mengukur kekerasan di antara murid dan mengasumsikan 3 perilaku utama (agresi fisik, depresi, mencari bantuan oleh pihak berwenang / orang tua) dan mengajukan pertanyaan terkait dalam baterai itu ... dan "eksploratori" mencari tahu berapa banyak faktor yang kita miliki ... Alih-alih untuk melihat, seberapa baik skala kita mengandung tiga faktor yang dapat dikenali (selain item-item tertentu yang diabaikan dan mungkin bahkan kesalahan yang berkorelasi palsu). Dan setelah itu, ketika saya sudah mengkonfirmasi, bahwa memang barang-baterai kami melayani niat, kita dapat menguji hipotesis, bahwa di kelas anak-anak yang lebih muda memuat pada faktor yang menunjukkan "pencarian-bantuan-oleh-otoritas" lebih tinggi dari murid yang lebih tua. Hmmm, lagi konfirmasi ...

Dan eksplorasi? Saya memiliki serangkaian tindakan yang diambil dari penelitian tentang mikrobiologi dari tahun 1960 dan mereka tidak memiliki banyak teori tetapi mengambil sampel semua yang mereka bisa kelola karena bidang penelitian mereka masih sangat muda, dan saya mengeksplorasi kembali struktur faktor yang dominan, dengan asumsi (misalnya) , bahwa semua kesalahan memiliki jumlah yang sama karena presisi optik dari mikroskop yang digunakan (ppca-ansatz seperti yang baru saja saya pelajari). Kemudian saya menggunakan model statistik (dan kemudian matematis) untuk FA, tetapi dalam kasus ini secara eksploratif.

Setidaknya begitulah cara saya memahami persyaratan.
Mungkin saya benar-benar di jalur yang salah di sini, tapi saya tidak menganggapnya.


Ps. Pada tahun 90-an saya menulis sebuah program interaktif kecil untuk mengeksplorasi metode PCA dan factoranalysis ke bawah. Itu ditulis dalam Turbo-Pascal, masih hanya dapat dijalankan di Dos-Window ("Dos-box" di bawah Win7) tetapi memiliki daya tarik yang sangat bagus: secara interaktif beralih faktor untuk dimasukkan atau tidak, kemudian memutar, pisahkan item spesifik kesalahan- variance (sesuai dengan SMC-criteria atau equal-variance-criterion (ppca?)), aktifkan dan matikan opsi Kaiser, penggunaan kovarian on dan off - hanya saja sementara factorloadingsmatrix terlihat seperti di spreadsheet dan dapat diputar untuk metode rotasi dasar yang berbeda.
Ini tidak sangat canggih: misalnya tidak ada chisquare-test, hanya dimaksudkan untuk belajar mandiri dari mekanisme matematika internal. Ini juga memiliki "mode demo", di mana program berjalan sendiri, menampilkan komentar yang jelas di layar dan mensimulasikan input keyboard, yang biasanya dilakukan pengguna.
Siapa pun yang tertarik untuk melakukan selfstudy atau mengajar dengannya dapat mengunduhnya dari halaman kecil perangkat lunak saya di dalam- (R) .zip Cukup rentangkan file di zip di direktori yang dapat diakses oleh Dos-Box dan panggil "demoall.bat" In bagian ketiga dari "demoall" Saya telah membuat demonstrasi bagaimana memodelkan kesalahan spesifik item dengan rotasi dari solusi pca-awalnya ...


Port R dari program Anda akan menarik. Ngomong-ngomong, bahasa pemrograman pertama saya (dan salah satu favorit) adalah [Turbo] Pascal. Saya bahkan menggunakannya untuk menulis perangkat lunak untuk pekerjaan diploma BS saya. Kemudian, beberapa waktu kemudian, saya menggunakan Delphi untuk sementara waktu, bersama dengan bahasa dan sistem lain. :-)
Aleksandr Blekh

1
@Alexandr: Ya, impor seperti itu pastilah ide yang bagus; namun ... sementara itu saya mendapatkan "tiket Senior" untuk sistem lalu lintas lokal, dan, meskipun belum kembali lelah, saya agak lelah pemrograman ... Saya pikir "Delphi" adalah pengganti alami untuk Turbo Pascal ; Saya telah banyak meningkatkan Inside- [r] hingga matriks-kalkulator "MatMate" menggunakan Delphi 6 di mana saya memasukkan Inside- [r] sebagai alat bantu. Namun, kadang-kadang saya berpikir, fitur yang sangat bagus dengan titik & klik di dalam- [r] juga harus direalisasikan kembali - selain bahasa skrip atau penerjemah canggih ...
Gottfried Helms

2

Hanya satu komentar tambahan untuk jawaban @ amoebas yang panjang (dan benar-benar hebat) pada karakter -estimate. Ψ

Dalam pernyataan awal Anda, Anda memiliki tiga : untuk PCA adalah , untuk PPCA adalah dan untuk FA Anda meninggalkan tidak ditentukan. ΨΨ=0Ψ=σ2IΨ

Tetapi harus disebutkan, bahwa ada jumlah tak terbatas dari berbagai kemungkinan (pasti dibatasi) tetapi tepat satu yang meminimalkan pangkat matriks faktor. Sebut saja ini Estimasi standar (otomatis) untuk adalah diagonalmatrix berdasarkan pada SMC, jadi mari kita tulis ini sebagai (dan bahkan beberapa perangkat lunak (tampaknya) tidak berusaha untuk mengoptimalkan turun dari sementara diperlukan (umumnya) untuk mencegah Heywood-cases / negative-definiteness). Dan terlebih lagi, bahkan yang dioptimalkan seperti ituΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2tidak akan menjamin peringkat minimal dari kovarian yang tersisa, sehingga biasanya kita memiliki ini tidak sama: secara umum . Untuk benar-benar menemukan adalah permainan yang sangat sulit, dan sejauh yang saya tahu (tapi itu tidak lebih "sejauh" seperti, katakanlah, 20 tahun yang lalu ketika saya lebih terlibat dan lebih dekat ke buku-buku) ini masih masalah yang belum terpecahkan. ΨstdΨopt
Ψopt


Nah ini mencerminkan sisi matematis yang ideal dari masalah, dan perbedaan saya antara dan juga mungkin sebenarnya kecil. Namun, peringatan yang lebih umum, yaitu membahas seluruh mesin faktorisasi dari pandangan bahwa saya hanya mempelajari sampel saya atau memiliki data seluruh populasi ; dalam model statistik inferensial, di mana saya menyimpulkan dari sampel yang tidak sempurna pada populasi, kovarians empiris saya - dan dengan demikian juga factormatrix hanya perkiraan, itu hanya bayangan dari kovarians- / factormatrix yang sebenarnya. Jadi dalam kerangka / model seperti itu kita bahkan harus mempertimbangkan bahwa "kesalahan" kita tidak idealΨstdΨopt, dan dengan demikian mungkin berkorelasi palsu. Jadi pada kenyataannya dalam model seperti itu kita harus / akan meninggalkan asumsi idealis tentang kesalahan tidak berkorelasi, dan dengan demikian dari bentuk diagonal ketat , di belakang kita.Ψ


Hai, saya tidak yakin bisa sepenuhnya mengikuti komentar Anda di sini. Apakah saya mengerti benar bahwa dengan Anda maksud adalah matriks diagonal dengan elemen positif yang memiliki peringkat serendah mungkin (di mana adalah matriks cov / corr)? Saya pikir untuk umum ukuran peringkat serendah ini mungkin tidak jauh lebih kecil dari (mungkin atau sesuatu), jadi menemukan tampaknya tidak terlalu menarik. Saya mendasarkan jawaban saya pada asumsi bahwa FA mencoba menemukan dan (dari ukuran untuk diberikanΨoptCΨoptCCn×nnn1ΨoptΨWn×kk) untuk meminimalkan. CWWΨ
Amuba mengatakan Reinstate Monica

Perbedaan sudut pandang mungkin didasarkan pada urutan langkah-langkah untuk menyelesaikan masalah untuk memperkirakan dua parameter yang juga bergantung satu sama lain. Dalam komentar saya, saya mulai dengan intinya, bahwa ada yang peringkatnya tersisa, katakanlah , dari minimal dan , sementara itu mungkin kita memiliki sejumlah faktor dengan mengingat . Jika kita memutar kemudian ke posisi minres, sejumlah faktor terpotong dari kanan hanya menghilangkan kovarians minimal (sebagian). ...ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k
Gottfried Helms

(...) Jika Anda mulai dengan sebagai gantinya, secara umum memiliki setidaknya satu peringkat lebih dan dengan demikian jumlah faktor s akan memiliki . Kemudian menemukan jumlah minimum yang mungkin dari kovarians yang dapat dilepas dengan memotong faktor (bahkan setelah rotasi dengan beberapa kriteria seperti pc atau minres) harus suboptimal. Penafian : ini masih hipotesis - sulit untuk menemukan untuk kovarian, yang strukturnya tidak dibuat sendiri dan semua eksperimen pseudorandom dengan contoh yang dibuat sendiri kurang dapat diandalkan daripada kasus empiris. ΨstdCstds>rs+1kΨopt
Gottfried Helms

Baik, saya mengerti apa yang Anda katakan. saya adalah bahwa untuk kebanyakan nyata peringkat akan hampir sama dengan , yaitu . Jika seseorang hanya memutar setelah itu, ini mungkin hampir setara atau sangat dekat dengan melakukan PCA pada dan tidak mengganggu FA sama sekali. CC=CΨoptCrnkWrC
Amuba mengatakan Reinstate Monica

Benar. Yah, saya berpikir untuk membuatnya menjadi sangat eksplisit di mana kasus "ideal" harus ditemukan dari tempat kita mereduksi menjadi perkiraan praktis yang dapat dihitung. <br> Dan sekarang bahkan lebih menguntungkan untuk PCA ;-): Mengizinkan korelasi palsu dalam kesalahan (dalam mode kedua aplikasi / statistik inferensial) memungkinkan hasilnya datang lebih dekat ke salah satu jenis yang dimulai dengan ekstraksi PC ...
Gottfried Helms
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.