Bagaimana penjumlahan dua variabel dapat menjelaskan lebih banyak varians daripada variabel individual?


13

Saya mendapatkan beberapa hasil membingungkan untuk korelasi jumlah dengan variabel ketiga ketika kedua prediktor berkorelasi negatif. Apa yang menyebabkan hasil yang membingungkan ini?

Contoh 1: Korelasi antara jumlah dua variabel dan variabel ketiga

Pertimbangkan formula 16.23 di halaman 427 dari teks Guildford 1965, yang ditunjukkan di bawah ini.

Temuan membingungkan: Jika kedua variabel berkorelasi .2 dengan variabel ketiga dan berkorelasi -7 satu sama lain, rumus menghasilkan nilai .52. Bagaimana korelasi total dengan variabel ketiga menjadi .52 jika masing-masing variabel hanya berkorelasi .2 dengan variabel ketiga?

Contoh 2: Apa korelasi berganda antara dua variabel dan variabel ketiga?

Pertimbangkan formula 16.1 di halaman 404 dari teks 1965 Guildford (diperlihatkan di bawah).

Temuan membingungkan: Situasi yang sama. Jika kedua variabel berkorelasi .2 dengan variabel ketiga dan berkorelasi -.7 dengan satu sama lain, rumus menghasilkan nilai .52. Bagaimana korelasi total dengan variabel ketiga menjadi .52 jika masing-masing variabel hanya berkorelasi .2 dengan variabel ketiga?

Saya mencoba simulasi Monte Carlo kecil cepat dan itu mengkonfirmasi hasil dari rumus Guilford.

Tetapi jika dua prediktor masing-masing memprediksi 4% dari varians dari variabel ketiga, bagaimana bisa jumlah mereka memprediksi 1/4 dari varians?

correlation of sum of two variables with a third variable multiple correlation of two variables with a third variable

Sumber: Statistik Fundamental dalam Psikologi dan Pendidikan, edisi ke-4, 1965.

KLARIFIKASI

Situasi yang saya hadapi melibatkan prediksi kinerja individu di masa mendatang berdasarkan pengukuran kemampuan mereka sekarang.

Dua diagram Venn di bawah ini menunjukkan pemahaman saya tentang situasi dan dimaksudkan untuk memperjelas kebingungan saya.

Diagram Venn ini (Gambar 1) mencerminkan urutan nol r = .2 antara x1 dan C. Di bidang saya ada banyak variabel prediktor seperti itu yang secara sederhana memprediksi kriteria.

Fig. 1

Diagram Venn ini (Gambar 2) mencerminkan dua prediktor tersebut, x1 dan x2, masing-masing memprediksi C pada r = .2 dan dua prediktor berkorelasi negatif, r = -. 7.

Fig. 2

Saya bingung membayangkan hubungan antara dua r = .2 prediktor yang akan membuat mereka bersama-sama memprediksi 25% dari varian C.

Saya mencari bantuan untuk memahami hubungan antara x1, x2, dan C.

Jika (seperti yang disarankan oleh beberapa orang dalam menjawab pertanyaan saya) x2 bertindak sebagai variabel penekan untuk x1, area apa dalam diagram Venn kedua yang ditekan?

Jika contoh konkret akan membantu, kita dapat menganggap x1 dan x2 sebagai dua kemampuan manusia dan C menjadi IPK perguruan tinggi 4 tahun, 4 tahun kemudian.

Saya mengalami kesulitan membayangkan bagaimana variabel penekan dapat menyebabkan varians menjelaskan 8% dari dua r = .2 nol urutan r untuk memperbesar dan menjelaskan 25% dari varian C. Contoh konkret akan menjadi jawaban yang sangat membantu.


Ada aturan lama dalam statistik bahwa varians dari jumlah satu set variabel independen sama dengan jumlah varians mereka.
Mike Hunter

@ Johnson. Bagaimana komentar Anda terkait dengan pertanyaan yang diajukan?
Joel W.

Maaf, saya tidak mengerti pertanyaannya. Bagi saya, sudah jelas bagaimana hubungannya. Selain itu, ini adalah komentar yang tidak memenuhi syarat untuk hadiah atau membutuhkan penjabaran yang lebih dalam.
Mike Hunter

1
@ Johnson. Bagaimana komentar Anda terkait dengan pertanyaan yang diajukan? Bagi saya, TIDAK jelas bagaimana hubungannya.
Joel W.

2
Pertanyaan Anda tentang arti N views mungkin mendapatkan respons yang lebih baik di situs Meta CV.
mdewey

Jawaban:


3

Ini bisa terjadi ketika kedua prediktor keduanya mengandung faktor gangguan yang besar, tetapi dengan tanda yang berlawanan, jadi ketika Anda menambahkannya, gangguan akan dibatalkan dan Anda mendapatkan sesuatu yang lebih dekat dengan variabel ketiga.

Mari kita ilustrasikan dengan contoh yang bahkan lebih ekstrem. Misalkan adalah variabel standar normal acak independen. Sekarang mariX,YN(0,1)

A=X

B=X+0.00001Y

Katakan bahwa adalah variabel ketiga Anda, A , B adalah dua prediktor Anda, dan X adalah variabel laten yang tidak Anda ketahui. Korelasi A dengan Y adalah 0, dan korelasi B dengan Y sangat kecil, mendekati 0,00001. * Tetapi korelasi A + B dengan Y adalah 1.YA,BXA+BY

* Ada koreksi kecil mungil untuk standar deviasi B menjadi sedikit lebih dari 1.


Apakah jenis situasi seperti ini pernah muncul dalam ilmu sosial?
Joel W.

1
Dalam jargon ilmu sosial, ini pada dasarnya hanya efek kuat yang mengacaukan efek lemah dengan cara tertentu. Saya bukan ahli ilmu sosial, tapi saya tidak bisa membayangkan sulit untuk menemukan contohnya.
Paul

Mungkinkah Anda memiliki contoh selain ilmu fisika?
Joel W.

Bisakah hubungan yang Anda gambarkan ditampilkan dalam diagram Venn?
Joel W.

Saya pribadi tidak akan menemukan diagram Venn bermanfaat di sini, tetapi jika Anda harus, saya akan menggambar B sebagai persegi panjang, kemudian membaginya menjadi dua sub-persegi panjang, yang gemuk A besar dan yang kurus kecil Y. Menjumlahkan A dan B adalah membatalkan bagian besar A dan meninggalkan bagian kecil Y.
Paul

10

Dapat membantu untuk memahami ketiga variabel sebagai kombinasi linear dari variabel tidak berkorelasi lainnya. Untuk meningkatkan wawasan, kami dapat menggambarkannya secara geometris, bekerja dengannya secara aljabar, dan memberikan deskripsi statistik sesuka kami.

Pertimbangkan, kemudian, tiga berkorelasi nol-rata, variabel unit varian , Y , dan Z . Dari ini membangun berikut ini:XYZ

U=X,V=(7X+51Y)/10;W=(3X+17Y+55Z)/75.

Penjelasan Geometris

Grafik berikut adalah tentang semua yang Anda butuhkan untuk memahami hubungan di antara variabel-variabel ini.

Figure

Diagram pseudo-3D ini menunjukkan , V , W , dan U + V dalam sistem koordinat X , Y , Z. Sudut antara vektor mencerminkan korelasinya (koefisien korelasi adalah cosinus dari sudut). Korelasi negatif yang besar antara U dan V tercermin dalam sudut tumpul di antara mereka. Korelasi positif kecil antara U dan V dengan W dicerminkan oleh hampir tegak lurus. Namun, jumlah U dan V jatuh tepat di bawah WUVWU+VX,Y,ZUVUVWUVW, membuat sudut tajam (sekitar 45 derajat): ada korelasi positif tinggi yang tak terduga.


Perhitungan aljabar

Bagi mereka yang menginginkan ketelitian, berikut adalah aljabar untuk mendukung geometri dalam grafik.

Semua akar kuadrat itu ada di sana untuk membuat , V , dan W juga memiliki varian unit: yang membuatnya mudah untuk menghitung korelasinya, karena korelasinya akan sama dengan kovarian. Karena ituUVW

Cor(U,V)=Cov(U,V)=E(UV)=E(51XY7X2)/10=7/10=0.7

karena dan Y tidak berkorelasi. Demikian pula,XY

Cor(U,W)=3/75=1/5=0.2

dan

Cor(V,W)=(73+1517)/(1075)=1/5=0.2.

Akhirnya,

Cor(U+V,W)=Cov(U+V,W)Var(U+V)Var(W)=1/5+1/5Var(U)+Var(V)+2Cov(U,V)=2/51+12(7/10)=2/53/50.5164.

Akibatnya ketiga variabel ini memang memiliki korelasi yang diinginkan.


Penjelasan Statistik

Sekarang kita bisa melihat mengapa semuanya berjalan sebagaimana mestinya:

  • dan V memiliki korelasi negatif yang kuat dari - 7 / 10 karena V sebanding dengan negatif U ditambah sedikit "noise" dalam bentuk kelipatan kecil Y .UV7/10VUY

  • dan W memiliki korelasi positif yang lemah dari 1 / 5 karena W termasuk beberapa kecil U ditambah banyak suara dalam bentuk kelipatan Y dan Z .UW1/5WUYZ

  • dan W memiliki korelasi positif yang lemah dari 1 / 5 karena W (bila dikalikan denganVW1/5W , yang tidak akan mengubah korelasi apa pun) adalah jumlah dari tiga hal:75

    • , yang berkorelasi positif denganV;17YV
    • , yangkorelasinegatifnyadenganVmengurangi keseluruhan korelasi;3XV
    • dan kelipatan yang menghasilkan banyak noise.Z
  • Namun demikian, agak berkorelasi positif denganWkarena merupakan kelipatan dari bagianWyang tidak termasukZ.U+V=(3X+51Y)/10=3/100(3X+17Y)WWZ


Apakah ada cara untuk menunjukkan ini dalam diagram Venn? Terlepas dari matematika, saya masih tidak melihat logika penjumlahan dari dua variabel yang menjelaskan 25 +% dari varians dari variabel ketiga ketika masing-masing dari dua variabel yang masuk ke penjumlahan jumlah tetapi 4% dari varians dari variabel ketiga . Bagaimana 8% menjelaskan varian menjadi 25% menjelaskan varian hanya dengan menambahkan dua variabel?
Joel W.

Juga, apakah ada aplikasi praktis dari fenomena aneh ini?
Joel W.

Jika diagram Venn tidak sesuai untuk mewakili varian yang dijelaskan, dapatkah Anda memberi tahu saya mengapa itu tidak pantas?
Joel W.

@ JoelW. Jawaban yang bagus di sini menyentuh mengapa diagram Venn tidak mampu menggambarkan fenomena ini (menjelang akhir jawaban): stats.stackexchange.com/a/73876/5829
Jake Westfall

Joel, the Cohens menggunakan diagram mirip Venn yang mereka sebut "Ballantine" untuk menganalisis varian. Lihat ww2.amstat.org/publications/jse/v10n1/kennedy.html misalnya. Sejauh aplikasi praktis pergi, Anda harus mengajukan pertanyaan sebaliknya: aplikasi varians apa dan dekomposisi varian tidak praktis?
whuber

5

Contoh sederhana lainnya:

  • Biarkan zN(0,1)
  • Biarkan x1N(0,1)
  • x2=zx1z=x1+x2

Kemudian:

  • Corr(z,x1)=0
  • Corr(z,x2).7
  • Corr(z,x1+x2)=1

Secara geometris, apa yang terjadi seperti pada grafik WHuber. Secara konseptual, mungkin terlihat seperti ini: enter image description here

(At some point in your math career, it can be enlightening to learn that random variables are vectors, E[XY] is an inner product, and hence correlation is the cosine of the angle between the two random variables.)

x1 and z are uncorrelated, hence they're orthogonal. Let θ denote the angle between two vectors.

  • Corr(z,x1)=cosθzx1=0θz,x1=π2
  • Corr(z,x2)=cosθzx2.7θz,x2=π4
  • Corr(z,x1+x2)=cosθz,x1+x2=1θz,x1+x2=0

To connect to the discussion in the comments Flounderer's answer, think of z as some signal, x1 as some noise, and noisy signal x2 as the sum of signal z and noise x1. Adding x1 to x2 is equivalent to subtracting noise x1 from the noisy signal x2.


(+1) Nice example!
user795305

Please explain the premises of your answer. After positing z = x1 + x2, why say “then Corr(z,x1)=0”? Are you saying that Corr(z,x1)=0 follows from your first Let statement, or is the correlation of zero an additional assumption? If it is an additional assumption, why does the situation in the original question require that additional assumption?
Joel W.

@JoelW. I'm saying z is a random variable following the standard normal distribution and x1 is an independent random variable that also follows the standard normal distribution. z and x1 are independent, hence their correlation is precisely 0. Then compute zx1 and call that x2.
Matthew Gunn

@MatthewGunn. Your third Let says z=x1+x2. That seems to violate your first two Lets that say that z and x1 are independent.
Joel W.

1
@JoelW. I do not agree because that statement is not true. Seeing z=x1+x2 implies nothing about independence between z and x1.
Matthew Gunn

3

Addressing your comment:

Despite the math, I still do not see the logic of the sum of two variables explaining 25+% of the variance of a third variable when each off the two variables that go into the sum predict but 4% of the variance of that third variable. How can 8% explained variance become 25% explained variance just by adding the two variables?

The issue here seems to be the terminology "variance explained". Like a lot of terms in statistics, this has been chosen to make it sound like it means more than it really does.

Here's a simple numerical example. Suppose some variable Y has the values

y=(6,7,4,8,9,6,6,3,5,10)

and U is a small multiple of Y plus some error R. Let's say the values of R are much larger than the values of Y.

r=(20,80,100,90,50,70,40,30,40,60)

and U=R+0.1Y, so that

u=(19.4,79.3,100.4,90.8,50.9,70.6,40.6,30.3,40.5,61.0)

and suppose another variable V=R+0.1Y so that

v=(20.6,80.7,99.6,89.2,49.1,69.4,39.4,29.7,39.5,59.0)

Then both U and V have very small correlation with Y, but if you add them together then the r's cancel and you get exactly 0.2Y, which is perfectly correlated with Y.

In terms of variance explained, this makes perfect sense. Y explains a very small proportion of the variance in U because most of the variance in U is due to R. Similarly, most of the variance in V is due to R. But Y explains all of the variance in U+V. Here is a plot of each variable:

Plot of each of the variables

However, when you try to use the term "variance explained" in the other direction, it becomes confusing. This is because saying that something "explains" something else is a one-way relationship (with a strong hint of causation). In everyday language, A can explain B without B explaining A. Textbook authors seem to have borrowed the term "explain" to talk about correlation, in the hope that people won't realise that sharing a variance component isn't really the same as "explaining".


@naught101 has created some figures to illustrate your variables, Flounderer. You might want to see if including them appeals to you.
gung - Reinstate Monica

Sure, edit it however you like. I can't actually view imgur at work but I'm sure it will be fine!
Flounderer

I rejected the suggestion, b/c I didn't see that he had contacted you here. You can approve it by going to the suggested edit queue, though.
gung - Reinstate Monica

The example you provide is interesting, if carefully crafted, but the situation I presented is more general (with the numbers not carefully chosen) and based on 2 variables N(0,1). Even if we change the terminology from "explains" to "shared", the question remains. How can 2 random variables, each with 4% shared variance with a third variable, be combined in terms of a simple sum that, according to the formula, has 25% shared variance with a third variable? Also, if the goal is prediction, are there any real-world practical applications of this strange increase in shared variance?
Joel W.

Well, anywhere in electronics when you have (loud noise + weak signal) + (-loud noise) = weak signal, you would be applying this. For example, noise-cancelling headphones.
Flounderer
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.