Mengapa residu dalam regresi linier selalu berjumlah nol ketika intersep dimasukkan?

14

Saya mengambil kursus tentang model regresi dan salah satu properti yang disediakan untuk regresi linier adalah bahwa residual selalu berjumlah nol ketika intersep dimasukkan.

Adakah yang bisa memberikan penjelasan yang baik mengapa ini terjadi?

regression residuals

— dts86
sumber

3

Anda mungkin ingin pertama-tama merenungkan pertanyaan yang berkaitan erat tetapi lebih sederhana mengapa dalam sampel univariat, residu yang Anda dapatkan dengan mengurangi rata-rata sampel dari setiap nilai juga berjumlah 0. (Coba ikuti aljabar melalui jika Anda bisa.)

— Glen_b - Pasang kembali Monica

3

Segera setelah Anda mengetahui bahwa "penjumlahan ke nol" berarti "ortogonal ke salah satu variabel penjelas" jawabannya menjadi jelas secara geometris.

— Whuber

18

Ini mengikuti langsung dari persamaan normal, yaitu persamaan yang diselesaikan oleh penaksir OLS,

X^{'} \underset{e}{\underset{⏟}{(y - X b)}} = 0

$\mathbf{X}^{\prime} \underbrace{\left( \mathbf{y} - \mathbf{X} \mathbf{b} \right)}_{\mathbf{e}} = 0$

Vektor di dalam tanda kurung tentu saja adalah vektor residual atau proyeksi ke komplemen ortogonal dari ruang kolom , jika Anda suka aljabar linier. Sekarang termasuk vektor yang ada dalam matriks , yang omong-omong tidak harus ada di kolom pertama seperti yang dilakukan secara konvensional, mengarah ke $\mathbf{y}$ $X$ $\mathbf{X}$

1^{'} e = 0 ⟹ \sum_{i = 1}^{n} e_{i} = 0

$\mathbf{1}^{\prime} \mathbf{e} = 0 \implies \sum_{i=1}^n e_i = 0$

Dalam masalah dua variabel ini bahkan lebih mudah untuk dilihat, karena meminimalkan jumlah residu kuadrat membawa kita ke

\sum_{i = 1}^{n} (y_{i} - a - b x_{i}) = 0

$\sum_{i=1}^n \left(y_i - a - b x_i \right) = 0$

ketika kita mengambil turunan sehubungan dengan intersepsi. Dari sini kemudian kita melanjutkan untuk mendapatkan penduga yang sudah dikenal

a = \bar{y} - b \bar{x}

$a = \bar{y} - b \bar{x}$

di mana lagi kita melihat bahwa konstruksi estimator kita memaksakan kondisi ini.

— JohnK
sumber

17

Jika Anda mencari penjelasan yang agak intuitif.

Dalam beberapa hal, model regresi linier tidak lain hanyalah sebuah kemewahan. Untuk menemukan rata-rata aritmatika atas beberapa nilai , kami menemukan nilai yang merupakan ukuran sentralitas dalam arti jumlah dari semua penyimpangan (di mana setiap deviasi didefinisikan sebagai ) di sebelah kanan nilai rata-rata sama dengan jumlah semua penyimpangan di sebelah kiri rata-rata itu. Tidak ada alasan yang melekat mengapa ukuran ini baik, apalagi cara terbaik untuk menggambarkan rata-rata sampel, tetapi tentu saja intuitif dan praktis. Poin pentingnya adalah, bahwa dengan mendefinisikan rata-rata aritmatika dengan cara ini, berarti bahwa setelah kita membuat rata-rata aritmatika, semua penyimpangan dari rata-rata itu harus dijumlahkan menjadi nol secara definisi! $\bar{x}$ $x_1, x_2, \dots, x_n$ $u_i = x_i - \bar{x}$

Dalam regresi linier, ini tidak berbeda. Kami cocok baris sehingga jumlah semua perbedaan antara nilai-nilai kita dipasang (yang berada di garis regresi) dan nilai-nilai yang sebenarnya yang di atas garis adalah persis sama dengan jumlah semua perbedaan antara garis regresi dan semua nilai-nilai di bawah ini baris. Sekali lagi, tidak ada alasan yang melekat, mengapa ini adalah cara terbaik untuk membangun kecocokan, tetapi itu mudah dan secara intuitif menarik. Seperti halnya rata-rata aritmatika: dengan membangun nilai-nilai yang sesuai dengan kita dengan cara ini, maka harus mengikuti, dengan konstruksi, bahwa semua penyimpangan dari garis itu harus dijumlahkan ke nol karena jika tidak, ini tidak hanya akan menjadi resesi OLS.

— Manuel R
sumber

2

+1 untuk jawaban langsung, sederhana, dan intuitif!

3

Ketika intersep dimasukkan dalam regresi linier berganda, Dalam regresi kuadrat terkecil, jumlah kuadrat kesalahan diminimalkan. Ambil parsial turunan dari SSE sehubungan dengan dan menetapkannya ke nol.

{\hat{y}}_{i} = β_{0} + β_{1} x_{i, 1} + β_{2} x_{i, 2} + \dots + β_{p} x_{i, p}

$\hat{y}_i = \beta_0 + \beta_1x_{i,1} + \beta_2x_{i,2} +…+ \beta_px_{i,p}$

S S E = \sum_{i = 1}^{n} {(e_{i})}^{2} = \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2} = \sum_{i = 1}^{n} {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{2}

$SSE=\displaystyle\sum\limits_{i=1}^n \left(e_i \right)^2= \sum_{i=1}^n\left(y_i - \hat{y_i} \right)^2= \sum_{i=1}^n\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^2$

β_{0}

$\beta_0$

\frac{\partial S S E}{\partial β_{0}} = \sum_{i = 1}^{n} 2 {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{1} (- 1) = - 2 \sum_{i = 1}^{n} e_{i} = 0

$\frac{\partial{SSE}}{\partial{\beta_0}} = \sum_{i=1}^n 2\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^1 (-1) =-2\displaystyle\sum\limits_{i=1}^ne_i=0$ Oleh karena itu, residu selalu berjumlah nol ketika intersep dimasukkan dalam regresi linier.

— DavidCruise
sumber

1

Pengamatan utama adalah bahwa karena model memiliki intersep, , yang merupakan kolom pertama dari matriks desain , dapat ditulis sebagai mana adalah vektor kolom dengan semua nol tetapi komponen pertama. Perhatikan juga, dalam notasi matriks, jumlah residu hanya . $1$ $X$

1 = X e,

$1 = Xe,$

e

$e$

1^{T} (y - \hat{y})

$1^T(y - \hat{y})$

Karenanya,

\begin{aligned} 1^{T} (y - \hat{y}) = 1^{T} (I - H) y \\ = & e^{T} X^{T} (I - X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T} X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T}) y \\ = & 0. \end{aligned}

$\begin{align} & 1^T(y - \hat{y}) = 1^T(I - H)y \\ = & e^TX^T(I - X(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^TX(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^T)y \\ = & 0. \end{align}$

— Zhanxiong
sumber

0

Derivasi sederhana menggunakan aljabar matriks:

$\sum e$ dapat ditulis sebagai $1^Te$

Kemudian

$1^Te = 1^T(M_x y)$ mana adalah matriks ortogonal. Karena simetris, kita dapat mengatur ulang sehingga $M_x$ $M_x$ $(M_x1)^Ty$

yang sama dengan nol jika dan adalah ortogonal, yang merupakan kasus jika matriks dari regresi berisi intersep (vektor , memang). $M_x$ $1$ $x$ $1$

— Mino
sumber

Saya pikir ini tidak benar.

— Michael R. Chernick

Jika Anda menjelaskan mengapa saya akan senang mempelajari sesuatu

— Mino

0

$e_i = y_i - [1, X] [a, b] = y_i - Xb - a = v_i - a$
$\frac{d}{da} \sum e_i^2 \propto \sum e_i\cdot 1 = \sum v_i - a = 0$ $\hat{a} = \frac{1}{n}\sum v_i$
$\sum e_i = \sum_i v_i - a = \sum_i v_i - \frac{n}{n}\sum_i v_i = 0$

..

— Hunaphu
sumber