Penjelasan intuitif dari


18

Jika X adalah peringkat penuh, kebalikan dari XTX ada dan kita mendapatkan kuadrat

β^=(XTX)1XY
dan
Var(β^)=σ2(XTX)1

Bagaimana kita menjelaskan secara intuitif (XTX)1 dalam rumus varian? Teknik derivasi jelas bagi saya.


3
Anda mungkin ingin menambahkan catatan untuk menunjukkan bahwa rumus Anda sudah menyatakan untuk matriks varians-kovarians dari β - dengan asumsi β diperkirakan oleh OLS - benar hanya jika kondisi Gauss-Markov teorema yang puas dan, khususnya, hanya jika matriks varians-kovarians dari istilah kesalahan diberikan oleh σ 2 I n , di mana saya n adalah n × n matriks identitas dan n adalah jumlah baris X (dan Y ). Rumus yang Anda berikan tidak benar untuk kasus kesalahan non-bola yang lebih umum.β^β^σ2InInn×nnXY
Mico

Jawaban:


13

Pertimbangkan regresi sederhana tanpa suku yang konstan, dan di mana regressor tunggal berpusat pada mean sampelnya. Kemudian adalah ( n kali) varians sampelnya, dan ( X X ) - 1 adalah recirpocal. Jadi semakin tinggi varians = variabilitas dalam regressor, semakin rendah varians dari penaksir koefisien: semakin banyak variabilitas yang kita miliki dalam variabel penjelas, semakin akurat kita dapat memperkirakan koefisien yang tidak diketahui. XXn(XX)1

Mengapa? Karena semakin beragam regressor, semakin banyak informasi yang dikandungnya. Ketika banyak regressor, ini menggeneralisasi ke kebalikan dari matriks varians-kovarians mereka, yang juga memperhitungkan ko-variabilitas regressor. Dalam kasus ekstrim di mana adalah diagonal, maka ketepatan untuk masing-masing koefisien diperkirakan hanya bergantung pada varians / variabilitas regressor terkait (diberikan varians dari istilah kesalahan).XX


Bisakah Anda menghubungkan argumen ini dengan fakta bahwa kebalikan dari matriks varians-kovarians menghasilkan korelasi parsial ?
Heisenberg

5

Cara sederhana untuk melihat adalah sebagai analog matriks (multivarian)σ2(XTX)1 , yang merupakan varian dari koefisien kemiringan dalam regresi OLS sederhana. Satu bahkan bisa mendapatkanσ2,σ2i=1n(XiX¯)2σ2i=1nXi2 untuk varian itu dengan menghentikan intersep dalam model, yaitu dengan melakukan regresi melalui titik asal.

Dari salah satu formula ini dapat dilihat bahwa variabilitas yang lebih besar dari variabel prediktor secara umum akan mengarah pada estimasi koefisien yang lebih tepat. Ini adalah ide yang sering dimanfaatkan dalam desain eksperimen, di mana dengan memilih nilai untuk (non-random) prediktor, salah satu mencoba untuk membuat determinan (XTX) sebagai besar mungkin, determinan menjadi ukuran variabilitas.


2

Apakah transformasi linear variabel acak Gaussian membantu? Menggunakan aturan bahwa jika, , maka A x + b N ( A μ + b , A T Σ A ) .xN(μ,Σ)Ax+b N(Aμ+b,ATΣA)

Dengan asumsi, bahwa adalah model yang mendasarinya dan ϵ N ( 0 , σ 2 ) .Y=Xβ+ϵϵN(0,σ2)

YN(Xβ,σ2)XTYN(XTXβ,Xσ2XT)(XTX)1XTYN[β,(XTX)1σ2]

Jadi hanyalah matriks penskalaan rumit yang mengubah distribusi(XTX)1XT .Y

Semoga itu bermanfaat.


Tidak ada dalam derivasi estimator OLS dan variansnya yang memerlukan normalitas istilah kesalahan. Semua yang diperlukan adalah dan E ( ε ε T ) = σ 2 I n . (Tentu saja, normalitas yang diperlukan untuk menunjukkan bahwa OLS mencapai Cramer-Rao batas bawah, tapi bukan itu yang posting OP adalah tentang, bukan?)E(ε)=0E(εεT)=σ2In
Mico

2

Saya akan mengambil pendekatan berbeda dalam mengembangkan intuisi yang mendasari formula . Ketika mengembangkan intuisi untuk model regresi berganda, akan sangat membantu untuk mempertimbangkan model regresi linier bivariat,yaitu. ,yi=α+βxi+εi,Varβ^=σ2(XX)1α + β x i sering disebut kontribusi deterministik untuk y i , dan ε i disebut kontribusi stokastik. Dinyatakan dalam hal penyimpangan dari mean sampel ( ˉ x , ˉ y ) , model ini juga dapat ditulis sebagai ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε

yi=α+βxi+εi,i=1,,n.
α+βxiyiεi(x¯,y¯)
(yiy¯)=β(xix¯)+(εiε¯),i=1,,n.

To help develop the intuition, we will assume that the simplest Gauss-Markov assumptions are satisfied: xi nonstochastic, i=1n(xix¯)2>0 for all n, and εiiid(0,σ2) for all i=1,,n. As you already know very well, these conditions guarantee that

Varβ^=1nσ2(Varx)1,
where Varx is the sample variance of x. In words, this formula makes three claims: "The variance of β^ is inversely proportional to the sample size n, it is directly proportional to the variance of ε, and it is inversely proportional to the variance of x."

Why should doubling the sample size, ceteris paribus, cause the variance of β^ to be cut in half? This result is intimately linked to the iid assumption applied to ε: Since the individual errors are assumed to be iid, each observation should be treated ex ante as being equally informative. And, doubling the number of observations doubles the amount of information about the parameters that describe the (assumed linear) relationship between x and y. Having twice as much information cuts the uncertainty about the parameters in half. Similarly, it should be straightforward to develop one's intuition as to why doubling σ2 also doubles the variance of β^.

Let's turn, then, to your main question, which is about developing intuition for the claim that the variance of β^ is inversely proportional to the variance of x. To formalize notions, let us consider two separate bivariate linear regression models, called Model (1) and Model (2) from now on. We will assume that both models satisfy the assumptions of the simplest form of the Gauss-Markov theorem and that the models share the exact same values of α, β, n, and σ2. Under these assumptions, it is easy to show that Eβ^(1)=Eβ^(2)=β; in words, both estimators are unbiased. Crucially, we will also assume that whereas x¯(1)=x¯(2)=x¯, Varx(1)Varx(2). Without loss of generality, let us assume that Varx(1)>Varx(2). Which estimator of β^ will have the smaller variance? Put differently, will β^(1) or β^(2) be closer, on average, to β? From the earlier discussion, we have Varβ^(k)=1nσ2/Varx(k)) for k=1,2. Because Varx(1)>Varx(2) by assumption, it follows that Varβ^(1)<Varβ^(2). What, then, is the intuition behind this result?

Because by assumption Varx(1)>Varx(2), on average each xi(1) will be farther away from x¯ than is the case, on average, for xi(2). Let us denote the expected average absolute difference between xi and x¯ by dx. The assumption that Varx(1)>Varx(2) implies that dx(1)>dx(2). The bivariate linear regression model, expressed in deviations from means, states that dy=βdx(1) for Model (1) and dy=βdx(2) for Model (2). If β0, this means that the deterministic component of Model (1), βdx(1), has a greater influence on dy than does the deterministic component of Model (2), βdx(2). Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that β(1)=β(2)=β. Since Model (1) imparts more information about the contribution of the deterministic component of y than does Model (2), it follows that the precision with which the deterministic contribution can be estimated is greater for Model (1) than is the case for Model (2). The converse of greater precision is a lower variance of the point estimate of β.

It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)


1

Say we have n observations (or sample size) and p parameters.

The covariance matrix Var(β^) of the estimated parameters β^1,β^2 etc. is a representation of the accuracy of the estimated parameters.

If in an ideal world the data could be perfectly described by the model, then the noise will be σ2=0. Now, the diagonal entries of Var(β^) correspond to Var(β1^),Var(β2^) etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.

In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of XTX will be higher, as the number of columns of XT is n and the number of rows of X is n, and each entry of XTX is a sum of n product pairs. The absolute value of the entries of the inverse (XTX)1 will be lower.

Hence, even if there is a lot of noise, we can still reach good estimates βi^ of the parameters if we increase the sample size n.

I hope this helps.

Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.


1

This builds on @Alecos Papadopuolos' answer.

Recall that the result of a least-squares regression doesn't depend on the units of measurement of your variables. Suppose your X-variable is a length measurement, given in inches. Then rescaling X, say by multiplying by 2.54 to change the unit to centimeters, doesn't materially affect things. If you refit the model, the new regression estimate will be the old estimate divided by 2.54.

The XX matrix is the variance of X, and hence reflects the scale of measurement of X. If you change the scale, you have to reflect this in your estimate of β, and this is done by multiplying by the inverse of XX.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.