Membuat indeks tunggal dari beberapa komponen atau faktor utama yang dipertahankan dari PCA / FA


15

Saya menggunakan Principal Component Analysis (PCA) untuk membuat indeks yang diperlukan untuk penelitian saya. Pertanyaan saya adalah bagaimana saya harus membuat indeks tunggal dengan menggunakan komponen utama yang disimpan yang dihitung melalui PCA.

Sebagai contoh, saya memutuskan untuk mempertahankan 3 komponen utama setelah menggunakan PCA dan saya menghitung skor untuk 3 komponen utama ini. Apa cara yang tepat untuk membuat, untuk setiap responden, satu indeks dari 3 skor ini?

  • Apakah relevan untuk menambahkan 3 skor yang dihitung untuk memiliki nilai gabungan?
  • Atau rata-rata 3 skor untuk memiliki nilai seperti itu?
  • Atau haruskah saya hanya menyimpan komponen utama pertama (yang terkuat) saja dan menggunakan nilainya sebagai indeks?

Atau, orang dapat menggunakan Analisis Faktor (FA) tetapi pertanyaan yang sama tetap: bagaimana membuat indeks tunggal berdasarkan beberapa skor faktor?


4
PC tidak berkorelasi dengan definisi. Oleh karena itu, sebagai variabel, mereka tidak menggandakan informasi masing-masing dengan cara apa pun. Itu berarti bahwa tidak ada alasan untuk membuat nilai tunggal (variabel komposit) dari mereka. Atau, kadang-kadang mengalikannya bisa menjadi hal yang menarik, mungkin - tetapi tidak menjumlahkan atau membuat rata-rata.
ttnphns

3
Saya setuju dengan @ttnphns: dua opsi pertama Anda tidak masuk akal, dan seluruh upaya "menggabungkan" tiga PC menjadi satu indeks tampaknya salah arah. Ambil PC 1 sebagai indeks Anda atau gunakan beberapa pendekatan yang berbeda sama sekali.
Amuba kata Reinstate Monica

2
@ttnphns tidak berkorelasi, tidak independen. Mungkin ada informasi yang berlebihan diulang di PC, hanya saja tidak secara linear.
Dugaan

1
@amoeba Terima kasih atas pengingatnya. Saya menyusun versi untuk tag dan kutipannya di stats.stackexchange.com/tags/valuation/info .
whuber

1
@ttnphns Apakah Anda mempertimbangkan untuk mengirim jawaban di sini berdasarkan komentar Anda di atas? Saya baru saja memulai hadiah di sini karena variasi pertanyaan ini terus muncul dan kami tidak dapat menutupnya sebagai duplikat karena tidak ada jawaban yang memuaskan di mana pun.
Amuba kata Reinstate Monica

Jawaban:


11

Jawaban ini sengaja non-matematis dan berorientasi pada psikolog non-statistik (katakanlah) yang menanyakan apakah ia dapat menjumlahkan / skor faktor rata-rata faktor yang berbeda untuk mendapatkan skor "indeks komposit" untuk setiap responden.

Penjumlahan atau rata-rata skor beberapa variabel mengasumsikan bahwa variabel-variabel tersebut memiliki dimensi yang sama dan merupakan ukuran yang sepadan. (Dalam pertanyaan, "variabel" adalah skor komponen atau faktor , yang tidak mengubah hal itu, karena mereka adalah contoh dari variabel.)

masukkan deskripsi gambar di sini

Benar-benar (Gbr. 1), responden 1 dan 2 dapat dilihat sebagai sama atipikal (yaitu menyimpang dari 0, lokus pusat data atau skala asal), keduanya memiliki skor rata-rata yang sama dan ( 1.2 + .4 ) / 2 = .8 . Nilai 0,8 valid, sebagai tingkat atipikalitas, untuk konstruk X + Y sesempurna untuk X dan Y(.8+.8)/2=.8(1.2+.4)/2=.8.8X+YXYterpisah. Variabel yang berkorelasi, mewakili satu dimensi yang sama, dapat dilihat sebagai pengukuran berulang dengan karakteristik yang sama dan perbedaan atau ketidaksetaraan skor mereka sebagai kesalahan acak. Oleh karena itu diperintahkan untuk menjumlahkan / rata-rata skor karena kesalahan acak diharapkan untuk membatalkan satu sama lain dalam spe .

Itu tidak demikian jika dan Y tidak cukup berkorelasi untuk dilihat "dimensi" yang sama. Untuk saat itu, deviasi / atipikalitas responden disampaikan oleh jarak Euclidean dari titik asal (Gbr. 2).XY

masukkan deskripsi gambar di sini

Jarak itu berbeda untuk responden 1 dan 2: dan.82+.821.131.22+.421.26X=.8Y=-.8X=0Y=0

wXXi+wYYiXYwXwYditetapkan konstan untuk semua responden i, yang merupakan penyebab cacatnya. Untuk menghubungkan deviasi bivariat responden - dalam lingkaran atau elips - bobot yang tergantung pada nilainya harus dimasukkan; jarak euclidean dianggap sebelumnya adalah sebenarnya sebuah contoh dari jumlah tertimbang tersebut dengan tergantung pada nilai-nilai bobot. Dan jika penting untuk Anda memasukkan varians variabel yang tidak sama (misalnya komponen utama, seperti dalam pertanyaan), Anda dapat menghitung jarak euclidean tertimbang, jarak yang akan ditemukan pada Gambar. 2 setelah lingkaran menjadi memanjang.

|.8|+|.8|=1.6|1.2|+|.4|=1.6 give equal Manhattan atypicalities for two our respondents; it is actually the sum of scores - but only when the scores are all positive. In case of X=.8 and Y=.8 the distance is 1.6 but the sum is 0.

(You might exclaim "I will make all data scores positive and compute sum (or average) with good conscience since I've chosen Manhatten distance", but please think - are you in right to move the origin freely? Principal components or factors, for example, are extracted under the condition the data having been centered to the mean, which makes good sense. Other origin would have produced other components/factors with other scores. No, most of the time you may not play with origin - the locus of "typical respondent" or of "zero-level trait" - as you fancy to play.)

To sum up, if the aim of the composite construct is to reflect respondent positions relative some "zero" or typical locus but the variables hardly at all correlate, some sort of spatial distance from that origin, and not mean (or sum), weighted or unweighted, should be chosen.

Well, the mean (sum) will make sense if you decide to view the (uncorrelated) variables as alternative modes to measure the same thing. This way you are deliberately ignoring the variables' different nature. In other words, you consciously leave Fig. 2 in favour of Fig. 1: you "forget" that the variables are independent. Then - do sum or average. For example, score on "material welfare" and on "emotional welfare" could be averaged, likewise scores on "spatial IQ" and on "verbal IQ". This type of purely pragmatic, not approved satistically composites are called battery indices (a collection of tests or questionnaires which measure unrelated things or correlated things whose correlations we ignore is called "battery"). Battery indices make sense only if the scores have same direction (such as both wealth and emotional health are seen as "better" pole). Their usefulness outside narrow ad hoc settings is limited.

If the variables are in-between relations - they are considerably correlated still not strongly enough to see them as duplicates, alternatives, of each other, we often sum (or average) their values in a weighted manner. Then these weights should be carefully designed and they should reflect, this or that way, the correlations. This what we do, for example, by means of PCA or factor analysis (FA) where we specially compute component/factor scores. If your variables are themselves already component or factor scores (like the OP question here says) and they are correlated (because of oblique rotation), you may subject them (or directly the loading matrix) to the second-order PCA/FA to find the weights and get the second-order PC/factor that will serve the "composite index" for you.

But if your component/factor scores were uncorrelated or weakly correlated, there is no statistical reason neither to sum them bluntly nor via inferring weights. Use some distance instead. The problem with distance is that it is always positive: you can say how much atypical a respondent is but cannot say if he is "above" or "below". But this is the price you have to pay for demanding a single index out from multi-trait space. If you want both deviation and sign in such space I would say you're too exigent.

In the last point, the OP asks whether it is right to take only the score of one, strongest variable in respect to its variance - 1st principal component in this instance - as the only proxy, for the "index". It makes sense if that PC is much stronger than the rest PCs. Though one might ask then "if it is so much stronger, why didn't you extract/retain just it sole?".


0

Creating composite index using PCA from time series links to http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf.

In that article on page 19, the authors mention a way to create a Non-Standardised Index (NSI) by using the proportion of variation explained by each factor to the total variation explained by the chosen factors. This NSI was then normalised.


6
That section on page 19 does exactly that questionable, problematic adding up apples and oranges what was warned against by amoeba and me in the comments above. Summation of uncorrelated variables in one index hardly has any statistical meaning.
ttnphns

1
Sometimes we do add constructs/scales/tests which are uncorrelated and measure different things. That would be the battery index (tests which are considered quite different / uncorrelated are called "battery"). A battery index might have some local pragmatic sense although it almost lacks a statistical meaning, as said in the previous comment.
ttnphns


-1 due to what is written above.
amoeba says Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.