Apa intuisi di balik distribusi bersyarat Gaussian?


46

Misalkan . Kemudian distribusi bersyarat dari mengingat bahwa terdistribusi multivariat yang biasanya dengan mean:XN2(μ,Σ)X1X2=x2

E[P(X1|X2=x2)]=μ1+σ12σ22(x2-μ2)

dan varians:

Var[P(X1|X2=x2)]=σ11σ122σ22

Masuk akal bahwa varians akan berkurang karena kami memiliki lebih banyak informasi. Tapi apa intuisi di balik rumus yang berarti? Bagaimana faktor kovarians antara dan menjadi rata-rata bersyarat?X 2X1X2


2
Apakah pertanyaan Anda hanya 'mengapa tidak berarti distribusi bersyarat = '? μ1
gung - Reinstate Monica

@ung: Ini benar jika . Tetapi mengapa dan terlibat? σ 11 σ 22x2=μ2σ11σ22
eroeijr

3
Dalam satuan alami ("standar") kita menulis mana . Dalam istilah ini distribusi bersyarat adalah Normal dengan danFakta bahwa disebut "mean reversion" atau "regresi ke mean" : ada literatur teknis dan populer yang luas mengenai hal ini selama 130 tahun. σ i = Xi=μ1+σiZi E(Z1|Z2)=ρZ2ρ=σ12/(σ1σ2). | ρ| 1σi=σiiE(Z1|Z2)=ρZ2ρ=σ12/(σ1σ2).|ρ|1
whuber

2
Katakanlah, eroeijr, apakah ini milikmu? (Selain dari 'tamu' di awal ada kesamaan yang berbeda dalam nama.) Jika itu milik Anda, Anda harus meminta untuk menggabungkan kedua akun dan mengambil bonus besar dalam poin yang Anda miliki.
Glen_b

2
Seperti yang disarankan @Glen_b, jika Anda memiliki beberapa akun (tidak terdaftar), silakan isi formulir di stats.stackexchange.com/contact dan minta agar mereka digabung.
chl

Jawaban:


57

Ringkasan

Setiap pernyataan dalam pertanyaan dapat dipahami sebagai properti elips. The satunya properti tertentu untuk distribusi normal bivariat yang diperlukan adalah fakta bahwa dalam standar bivariat distribusi normal --Untuk yang dan tidak berkorelasi - varians bersyarat dari tidak tergantung pada . (Ini pada gilirannya adalah konsekuensi langsung dari fakta bahwa kurangnya korelasi menyiratkan independensi untuk variabel Normal bersama.)X Y Y XX,YXYYX

Analisis berikut menunjukkan dengan tepat properti elips apa yang terlibat dan memperoleh semua persamaan pertanyaan menggunakan ide-ide dasar dan aritmatika yang paling sederhana, dengan cara yang dimaksudkan agar mudah diingat.


Distribusi sirkular simetris

Distribusi pertanyaan adalah anggota keluarga dari distribusi Normal bivariat. Mereka semua berasal dari anggota dasar, standar bivariat Normal, yang menggambarkan dua distribusi Normal standar tidak berkorelasi (membentuk dua koordinatnya).

Gambar 1: distribusi normal bivariat standar

Sisi kiri adalah plot relief dengan kepadatan normal bivariat standar. Sisi kanan menunjukkan hal yang sama dalam pseudo-3D, dengan bagian depan diiris.

Ini adalah contoh distribusi simetris sirkuler : kepadatan bervariasi dengan jarak dari titik pusat tetapi tidak dengan arah yang jauh dari titik itu. Dengan demikian, kontur grafiknya (di sebelah kanan) adalah lingkaran.

Kebanyakan distribusi normal bivariat lainnya tidak simetris sirkular, namun: penampang melintangnya adalah elips. Elips ini memodelkan bentuk karakteristik dari banyak awan titik bivariat.

Gambar 2: distribusi normal bivariat lainnya, diplot

Ini adalah potret dari distribusi Normal bivariat dengan matriks kovarian Ini adalah model untuk data dengan koefisien korelasi-2/3.Σ=(123231).2/3


Cara Membuat Elips

Elips - menurut definisi tertua - adalah bagian berbentuk kerucut, yang merupakan lingkaran yang terdistorsi oleh proyeksi ke bidang lain. Dengan mempertimbangkan sifat proyeksi, seperti halnya seniman visual, kita dapat menguraikannya menjadi urutan distorsi yang mudah dipahami dan dihitung.

Pertama, regangkan (atau, jika perlu, tekan) lingkaran di sepanjang apa yang akan menjadi sumbu panjang elips sampai panjangnya benar:

Langkah 1: regangkan

Selanjutnya, peras (atau regangkan) elips ini di sepanjang sumbu minornya:

Langkah 2: peras

Ketiga, putar di sekitar pusatnya ke dalam orientasi terakhir:

Langkah 3: putar

Terakhir, geser ke lokasi yang diinginkan:

Langkah 4: bergeser

Ini semua adalah transformasi affine. (Faktanya, tiga yang pertama adalah transformasi linier ; pergeseran terakhir membuatnya affine.) Karena komposisi transformasi affine (menurut definisi) masih affine, distorsi bersih dari lingkaran ke elips akhir adalah transformasi affine. Tapi itu bisa agak rumit:

Transformasi komposit

Perhatikan apa yang terjadi pada sumbu elips (alami): setelah mereka dibuat oleh shift dan squeeze, mereka (tentu saja) berputar dan bergeser seiring dengan sumbu itu sendiri. Kita dengan mudah melihat sumbu ini bahkan ketika mereka tidak ditarik, karena mereka adalah sumbu simetri elips itu sendiri.

Kami ingin menerapkan pemahaman kami tentang elips untuk memahami distribusi simetris sirkular yang terdistorsi, seperti keluarga Normal bivariat. Sayangnya, ada masalah dengan distorsi ini : mereka tidak menghargai perbedaan antara sumbu dan y . Rotasi pada langkah 3 merusaknya. Lihat samar koordinat grid di latar belakang: acara ini apa yang terjadi pada grid (dari jala 1 / 2xy1/2di kedua arah) ketika terdistorsi. Pada gambar pertama jarak antara garis vertikal asli (ditunjukkan padatan) digandakan. Pada gambar kedua jarak antara garis horizontal asli (ditunjukkan putus-putus) menyusut sepertiga. Pada gambar ketiga jarak grid tidak berubah, tetapi semua garis diputar. Mereka bergeser ke atas dan ke kanan di gambar keempat. Gambar akhir, menunjukkan hasil bersih, menampilkan kisi yang direntangkan, diperas, diputar, dan digeser. Garis solid asli dari konstanta tidak lagi vertikal.x

Kunci Ide --one mungkin berani mengatakan itu adalah yang inti dari regresi - adalah bahwa ada cara di mana lingkaran dapat terdistorsi menjadi elips tanpa berputar garis vertikal . Karena rotasi adalah biang keladinya, mari kita potong ke pengejaran dan perlihatkan cara membuat elips yang diputar tanpa benar-benar tampak memutar apa pun !

Elips miring

Ini adalah transformasi miring. Ini sebenarnya melakukan dua hal sekaligus:

  • Itu meremas ke arah (dengan jumlah λ , katakanlah). Ini meninggalkan x -aksi sendirian.yλx

  • Ini mengangkat setiap titik yang dihasilkan dengan jumlah yang berbanding lurus dengan x . Menulis konstanta proporsionalitas sebagai ρ , ini mengirimkan ( x , y ) ke ( x , y + ρ x ) .(x,y)xρ(x,y)(x,y+ρx)

Langkah kedua mengangkat sumbu ke baris y = ρ x , yang ditunjukkan pada gambar sebelumnya. Seperti yang ditunjukkan pada gambar itu, saya ingin bekerja dengan transformasi kemiringan khusus, yang secara efektif memutar elips sebesar 45 derajat dan menuliskannya ke dalam unit square. Sumbu utama elips ini adalah garis y = x . Jelas secara visual bahwa | ρ | 1 . (Nilai negatif ρ miringkan elips ke kanan daripada ke kanan.) Ini adalah penjelasan geometris dari "regresi ke rata-rata."xy=ρxy=x|ρ|1ρ

Memilih sudut 45 derajat membuat elips simetris diagonal diagonal (bagian dari garis ). Untuk mengetahui parameter transformasi miring ini, perhatikan:y=x

  • Pengangkatan oleh memindahkan titik ( 1 , 0 ) ke ( 1 , ρ ) .ρx(1,0)(1,ρ)

  • Simetri di sekitar diagonal utama kemudian menyiratkan titik juga terletak pada elips.(ρ,1)

Di mana titik ini dimulai?

  • Titik asli (atas) pada lingkaran satuan (memiliki persamaan implisit ) dengan koordinat x ρ adalah ( ρ , x2+y2=1xρ.(ρ,1ρ2)

  • Setiap titik dari bentuk pertama kali diperas ke ( ρ , λ y ) dan kemudian diangkat ke ( ρ , λ y + ρ × ρ ) .(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)

Solusi unik untuk persamaan adalahλ=(ρ,λ1ρ2+ρ2)=(ρ,1) . Itu adalah jumlah di mana semua jarak dalam arah vertikal harus diperas untuk membuat elips pada sudut 45 derajat ketika miring secara vertikal olehρ.λ=1ρ2ρ

Untuk menguatkan ide-ide ini, inilah tablo yang menunjukkan bagaimana distribusi simetris sirkuler terdistorsi menjadi distribusi dengan kontur elips melalui transformasi miring ini. Panel menunjukkan nilai-nilai sama untuk 0 , 3 / 10 , 6 / 10 , dan 9 / 10 , dari kiri ke kanan.ρ0, 3/10, 6/10,9/10,

Tablo

Gambar paling kiri menunjukkan satu set titik awal di sekitar salah satu kontur lingkaran serta bagian dari sumbu horizontal. Gambar berikutnya menggunakan panah untuk menunjukkan bagaimana titik-titik itu dipindahkan. Gambar sumbu horizontal muncul sebagai segmen garis miring (dengan kemiringan ). (Warna-warna mewakili jumlah kepadatan yang berbeda dalam angka yang berbeda.)ρ


Aplikasi

Kami siap melakukan regresi. Metode standar, elegan (namun sederhana) untuk melakukan regresi adalah pertama-tama untuk mengekspresikan variabel asli dalam satuan pengukuran baru: kami memusatkan mereka pada cara mereka dan menggunakan standar deviasi sebagai unit. Ini memindahkan pusat distribusi ke titik asal dan membuat semua kontur elipsnya miring 45 derajat (naik atau turun).

Ketika data terstandarisasi ini membentuk awan titik melingkar, regresi itu mudah: sarana yang bersyarat pada semuanya 0 , membentuk garis yang melewati titik asal. (Simetri sirkular menyiratkan simetri sehubungan dengan sumbu x , menunjukkan bahwa semua distribusi bersyarat simetris, di mana mereka memiliki 0 berarti.) Seperti yang telah kita lihat, kita dapat melihat distribusi standar sebagai timbul dari situasi sederhana dasar ini dalam dua langkah: pertama , semua nilai (standar) y dikalikan dengan x0x0y untuk beberapa nilaiρ; selanjutnya, semua nilai denganx-koordinat secara vertikal condong olehρx. Apa yang dilakukan distorsi ini terhadap garis regresi (yang memplot cara bersyarat terhadapx)?1ρ2ρxρxx

  • Penyusutan koordinat mengalikan semua penyimpangan vertikal dengan konstanta. Ini hanya mengubah skala vertikal dan meninggalkan semua sarana kondisional tidak berubah pada 0 .y0

  • Transformasi kemiringan vertikal menambahkan ke semua nilai kondisional pada x , dengan demikian menambahkan ρ x ke rata-rata kondisionalnya: kurva y = ρ x adalah kurva regresi, yang ternyata berupa garis.ρxxρxy=ρx

Demikian pula, kami dapat memverifikasi bahwa karena -aksi adalah kuadrat terkecil yang cocok dengan distribusi simetris sirkuler, kuadrat terkecil yang cocok dengan distribusi yang ditransformasikan juga adalah garis y = ρ x : garis kuadrat-terkecil bertepatan dengan garis regresi.xy=ρx

Hasil yang indah ini adalah konsekuensi dari kenyataan bahwa transformasi kemiringan vertikal tidak mengubah koordinat .x

Kita dapat dengan mudah mengatakan lebih banyak:

  • Peluru pertama (sekitar menyusut) menunjukkan bahwa ketika memiliki setiap distribusi simetris sirkuler, varians bersyarat dari Y | X dikalikan dengan ( (X,Y)Y|X.(1ρ2)2=1ρ2

  • Lebih umum: transformasi kemiringan vertikal mengubah setiap distribusi kondisional dengan dan kemudian diperbarui olehρx.1ρ2ρx

Untuk distribusi Normal bivariat standar, varian bersyarat adalah konstan (sama dengan ), tidak tergantung pada x . Kami segera menyimpulkan bahwa setelah menerapkan transformasi miring ini, varians kondisional dari penyimpangan vertikal masih konstan dan sama dengan 1 - ρ 2 . Karena distribusi bersyarat dari Normal bivariat itu sendiri adalah Normal, sekarang kita tahu cara dan variansnya, kami memiliki informasi lengkap tentang mereka.1x1ρ2

Akhirnya, kita perlu menghubungkan dengan matriks kovarian asli Σ . ρΣ Untuk ini, mengingat bahwa (paling baik) definisi koefisien korelasi antara dua standar variabel dan Y adalah harapan dari produk mereka X Y . (Korelasi X dan Y hanya dinyatakan sebagai korelasi dari versi standar mereka.) Oleh karena itu, ketika ( X , Y ) mengikuti setiap distribusi simetris sirkuler dan kami menerapkan transformasi condong ke variabel, kita dapat menulisXYXYXY(X,Y)

ε=YρX

untuk penyimpangan vertikal dari garis regresi dan perhatikan bahwa harus memiliki distribusi simetris sekitar 0 . Mengapa? Karena sebelum transformasi skew diterapkan, Y memiliki distribusi simetris sekitar 0 dan kemudian kita (a) meremasnya dan (b) mengangkatnya dengan ρ X . Yang pertama tidak mengubah simetrinya sedangkan yang terakhir memusatkannya kembali pada ρ X , QED. Gambar berikut menggambarkan hal ini.ε0Y0ρXρX

Plot 3D menunjukkan distribusi bersyarat dan garis kuadrat-terkecil

Garis hitam melacak ketinggian proporsional dengan kepadatan bersyarat pada berbagai nilai berjarak secara teratur . Garis putih tebal adalah garis regresi, yang melewati pusat simetri setiap kurva kondisional. Plot ini menunjukkan kasus ρ = - 1 / 2 di koordinat standar.xρ=1/2

Karena itu

E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.

Kesetaraan final disebabkan oleh dua fakta: (1) karena telah distandarisasi, ekspektasi kuadratnya adalah varian standarnya, sama dengan 1 oleh konstruksi; dan (2) ekspektasi X ε sama dengan ekspektasi X ( - ε ) berdasarkan simetri ε . Karena yang terakhir adalah negatif dari yang pertama, keduanya harus sama dengan 0 : istilah ini keluar.X1XεX(ε)ε0

Kami telah mengidentifikasi parameter transformasi skew, , sebagai koefisien korelasi X dan Y .ρXY


Kesimpulan

Dengan mengamati bahwa setiap elips dapat dihasilkan dengan mendistorsi lingkaran dengan transformasi kemiringan vertikal yang mempertahankan koordinat , kita telah sampai pada pemahaman kontur dari setiap distribusi variabel acak ( X , Y ) yang diperoleh dari simetris sirkular satu melalui peregangan, remasan, rotasi, dan pergeseran (yaitu, setiap transformasi affine). Dengan menyatakan kembali hasilnya dalam satuan asli x dan y - jumlah yang ditambahkan kembali rata-rata, μ x dan μ y , setelah dikalikan dengan standar deviasi mereka σ xx(X,Y)xyμxμyσxdan --kami menemukan bahwa:σy

  • Garis kuadrat-terkecil dan kurva regresi keduanya melewati asal dari variabel standar, yang sesuai dengan "titik rata-rata" dalam koordinat asli.(μx,μy)

  • Kurva regresi, yang didefinisikan sebagai lokus cara kondisional, bertepatan dengan garis kuadrat-terkecil.{(x,ρx)},

  • Kemiringan garis regresi dalam koordinat standar adalah koefisien korelasi ; dalam unit aslinya karena itu sama dengan σ y ρ / σ x .ρσyρ/σx

Akibatnya persamaan garis regresi adalah

y=σyρσx(xμx)+μy.
  • Varian bersyarat dari adalah σ 2 y ( 1 - ρ 2 ) kali varians bersyarat dari Y | X ′ di mana ( X , Y ) memiliki distribusi standar (simetris sirkular dengan varian unit di kedua koordinat), X = ( X - μ X ) / σ x , dan Y = ( Y - μY|Xσy2(1ρ2)Y|X(X,Y)X=(XμX)/σx .Y=(YμY)/σY

Tak satu pun dari hasil ini adalah properti tertentu dari distribusi Normal bivariat! Untuk keluarga Normal bivariat, varian bersyarat dari adalah konstan (dan sama dengan 1 ): fakta ini membuat keluarga itu sangat mudah diajak bekerja sama. Khususnya:Y|X1

  • Karena dalam matriks kovarian koefisiennya adalah σ 11 = σ 2 x , σ 12 = σ 21 = ρ σ x σ y , dan σ 22 = σ 2 y , varian bersyarat dari Y | X untuk distribusi Normal bivariatΣσ11=σx2, σ12=σ21=ρσxσy,σ22=σy2,Y|X

σy2(1ρ2)=σ22(1(σ12σ11σ22)2)=σ22σ122σ11.

Catatan Teknis

Gagasan utama dapat dinyatakan dalam bentuk matriks yang menjelaskan transformasi linear. Itu datang untuk menemukan "akar kuadrat" yang cocok dari matriks korelasi yang adalah vektor eigen. Jadi:y

(1ρρ1)=AA

dimana

A=(10ρ1ρ2).

Akar kuadrat yang jauh lebih dikenal adalah yang awalnya dijelaskan (melibatkan rotasi alih-alih transformasi miring); itu adalah yang dihasilkan oleh dekomposisi nilai singular dan memainkan peran penting dalam analisis komponen utama (PCA):

(1ρρ1)=BB;

B=Q(ρ+1001ρ)Q

dimana adalah matriks rotasi untukrotasi45derajat.Q=(12121212)45

Dengan demikian, perbedaan antara PCA dan regresi bermuara pada perbedaan antara dua akar kuadrat khusus dari matriks korelasi.


1
Gambar yang indah dan deskripsi yang bagus. Ada beberapa kalimat dalam pembaruan yang dibiarkan tidak lengkap (seperti pada dasarnya Anda tahu apa yang akan Anda katakan, tetapi belum memutuskan kata akhir).
kardinal

1
@ Kardinal Terima kasih. Saya akan membaca ulang ini dan mencari hal-hal seperti itu, serta untuk kesalahan ketik yang tidak terhindarkan. Anda terlalu baik untuk menunjukkan hal-hal lain yang pasti Anda perhatikan, seperti beberapa celah dalam eksposisi. Yang terbesar adalah saya tidak benar-benar menunjukkan bahwa elips ini berada pada sudut 45 derajat (ekuivalen, tertulis dalam satuan persegi); Saya hanya berasumsi itu. Saya masih mencari demonstrasi sederhana. Yang lain adalah bahwa orang mungkin khawatir transformasi miring dapat menghasilkan distribusi yang berbeda dari stretch-squeeze-rotate-shift yang asli - tetapi mudah untuk menunjukkannya tidak.
whuber

3
Sangat menarik. Terima kasih telah meluangkan waktu untuk menuliskannya.
Bill

Dalam paragraf pertama dari aplikasi tertulis bahwa: "kami memusatkan mereka pada kemampuan mereka dan menggunakan deviasi standar mereka sebagai unit. Ini memindahkan pusat distribusi ke titik asal dan membuat semua kontur elips miring 45 derajat", tetapi saya tidak t mengerti bagaimana memusatkan variabel pada sarana mereka memindahkan pusat mereka ke asal dan menyelaraskannya ke 45 derajat?
Kaushal28

@whuber ketika Anda mulai dengan lingkaran unit (set sampel standar), Anda mengatakan korelasi adalah 0, jadi saya bayangkan, kita mendapatkan lingkaran seperti . Tetapi bagaimana 0 korelasi berarti independensi? (karenaf(X,Y)diperoleh olehf(X)f(Y)seperti yang kita lihat. Biasanya tidak benar? Bahkan variabel dependen dapat menghasilkan 0 korelasi?f(X,Y)=e12(x2+y2)f(X,Y)f(X)f(Y)
Parthiban Rajendran

21

Ini pada dasarnya adalah regresi linear (OLS). Dalam hal ini, Anda menemukan distribusi bersyarat mengingat X = x i . (Sebenarnya, regresi OLS tidak membuat asumsi tentang distribusi X , sedangkan contoh Anda adalah multivariat normal, tetapi kami akan mengabaikan hal-hal ini.) Sekarang, jika kovarians antara X 1 dan X 2 bukan 0 , maka mean dari bersyarat distribusi x 2 memiliki pergeseran ketika Anda mengubah nilai x 1YX=xiXX1X20X2x1di mana Anda 'memotong-motong' distribusi multivariat. Perhatikan gambar di bawah ini:

masukkan deskripsi gambar di sini

X1X2X2X1μX2|X1=25μX2|X1=45.

σ22ΣX2σ2σ

y^i

β^1=Cov(x,y)Var(x)
σ12/σ22μX2|X1=xiμX2μX2 x2iX1X2

Apa yang terjadi jika Anda mengkondisikan lebih banyak variabel? Anda hanya akan menambah dan mengurangi ketentuan tambahan dari mean dan varians?

2
YXy^i=Xiβ^β^=(XTX)1XTY

Apa yang Anda gunakan untuk menghasilkan grafik? Mathematica?
mpiktas

@mpikta, grafik saya atau whuber's? Saya percaya itu adalah Mathematica, tapi saya membuat yang di atas w / R. (meskipun kode jelek ...)
gung - Reinstate Monica

1
@mpikta, saya tidak bisa membayangkan kode saya harus digambarkan sebagai "luar biasa" ... Kurva normal digambar w / dnorm(y). Saya cukup menambahkan output ke 25& 45, & gunakan sebagai x.
gung - Reinstate Monica

3

X1X2σ1,2>0X2X2X1X1

X2=x2>μ2X2X1σ1,2>0X1X2X2X1

E{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
X2E{X1|X2=x2}>μ1

X1X2

BLP{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
BLP

x2μ2σ12/σ22

1
x2>μ2E(X1|X2=x2)<μ1σ1,2>0

1
"Intuitif" tidak menyiratkan "non-kuantitatif": keduanya dapat berjalan bersama. Seringkali sulit untuk menemukan argumen intuitif yang memberikan hasil kuantitatif, tetapi sering kali dapat dilakukan dan proses menemukan argumen seperti itu selalu mencerahkan.
whuber

Kembali paragraf terakhir: Saya telah menemukan bahwa distribusi normal tidak begitu istimewa: keluarga yang dibuat oleh transformasi affine dari distribusi simetris sirkular adalah yang spesial (yang jumlahnya sangat banyak).
whuber

@whuber Cukup menarik. Apakah Anda memiliki tautan atau kutipan?
Bill
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.