Orang hanya bisa menebak apa yang dimaksud seorang penulis tertentu dengan "varian yang dibagikan". Kita mungkin berharap untuk membatasi kemungkinan dengan mempertimbangkan sifat apa yang dimiliki konsep ini (secara intuitif). Kita tahu bahwa "varians add": varians dari jumlah adalah jumlah dari varian dan ketika dan memiliki nol kovarians. Itu wajar untuk mendefinisikan "varians bersama" dari dengan jumlah yang akan fraksi varians dari jumlah diwakili oleh varian . Ini cukup untuk menyiratkan varians bersama setiap dua variabel acakX+ εXεXεXXXdan harus kuadrat dari koefisien korelasinya.Y
Hasil ini memberi makna pada interpretasi koefisien korelasi kuadrat sebagai "varians bersama": dalam arti yang sesuai, itu benar-benar adalah sebagian kecil dari total varians yang dapat ditugaskan ke satu variabel dalam jumlah.
Detailnya mengikuti.
Prinsip dan implikasinya
Tentu saja jika , "varians bersama" mereka (sebut saja "SV" mulai sekarang) seharusnya 100%. Tetapi bagaimana jika dan hanya versi yang diskalakan atau bergeser satu sama lain? Sebagai contoh, bagaimana jika mewakili suhu kota dalam derajat F dan mewakili suhu dalam derajat C? Saya ingin menyarankan bahwa dalam kasus seperti dan harus masih memiliki 100% SV, sehingga konsep ini akan tetap bermakna terlepas dari bagaimana dan dapat diukur:Y= XYXYXXYXY
SV( α + βX, γ+ δY) = SV( X, Y)(1)
untuk angka apa pun dan angka bukan nol .α , γβ, δ
Prinsip lain mungkin bahwa ketika adalah variabel acak independen , maka varians dapat secara unik didekomposisi menjadi dua bagian non-negatif,εXX+ε
Var(X+ε)=Var(X)+Var(ε),
menyarankan kami mencoba untuk mendefinisikan SV dalam kasus khusus ini sebagai
SV(X,X+ε)=Var(X)Var(X)+Var(ϵ).(2)
Karena semua kriteria ini hanya sampai urutan kedua - mereka hanya melibatkan momen pertama dan kedua dari variabel dalam bentuk ekspektasi dan varian - mari kita bersantai persyaratan bahwa dan menjadi independen dan hanya menuntut agar mereka tidak berkorelasi . Ini akan membuat analisis jauh lebih umum daripada yang seharusnya.Xε
Hasil
Prinsip-prinsip ini - jika Anda menerimanya - mengarah pada konsep yang unik, akrab, dan dapat ditafsirkan. Caranya adalah dengan mengurangi kasus umum ke kasus khusus dari jumlah, di mana kita dapat menerapkan definisi .(2)
Mengingat , kami hanya mencoba untuk menguraikan menjadi versi diskalakan dan bergeser ditambah variabel yang tidak berkorelasi dengan : yaitu, mari cari (jika mungkin) konstanta dan dan variabel acak untuk itu(X,Y)YXXαβϵ
Y=α+βX+ε(3)
dengan . Agar dekomposisi memiliki peluang untuk menjadi unik, kita harus menuntutCov(X,ε)=0
E[ε]=0
sehingga setelah ditemukan, ditentukan olehβα
α=E[Y]−βE[X].
Ini terlihat sangat mengerikan seperti regresi linier dan memang begitu. Prinsip pertama mengatakan kita dapat mengubah skala dan untuk memiliki varian unit (dengan asumsi mereka masing-masing memiliki varian nol) dan bahwa ketika dilakukan, hasil regresi standar menyatakan nilai dalam adalah korelasi dan :XYβ(3)XY
β=ρ(X,Y).(4)
Selain itu, mengambil varian dari memberi(1)
1=Var(Y)=β2Var(X)+Var(ε)=β2+Var(ε),
menyiratkan
Var(ε)=1−β2=1−ρ2.(5)
Karena itu
SV(X,Y)=SV(X,α+βX+ε)=SV(βX,βX+ε)=Var(βX)Var(βX)+Var(ϵ)=β2β2+(1−β2)=β2=ρ2(Model 3)(Property 1)(Definition 2)(Result 5)(Relation 4).
Perhatikan bahwa karena koefisien regresi pada (ketika dibakukan untuk varians unit) adalah , "varian bersama" itu sendiri simetris, membenarkan terminologi yang menyarankan urutan dan tidak masalah:Yρ(Y,X)=ρ(X,Y)XY
SV(X,Y)=ρ(X,Y)2=ρ(Y,X)2=SV(Y,X).