Hubungan antara MLE dan kuadrat terkecil dalam kasus regresi linier

Hastie dan Tibshirani menyebutkan dalam bagian 4.3.2 dari buku mereka bahwa dalam pengaturan regresi linier, pendekatan kuadrat terkecil sebenarnya merupakan kasus khusus dari kemungkinan maksimum. Bagaimana kita dapat membuktikan hasil ini?

PS: Tidak ada detail matematis.

regression maximum-likelihood least-squares

— Pradnyesh Joshi
sumber

Ini bukan kasus khusus: mereka hanya identik ketika distribusi kesalahan normal.

— Zhanxiong

Model regresi linier

, di mana $Y = X\beta + \epsilon$ $\epsilon \sim N(0,I\sigma^2)$

, dan $Y \in \mathbb{R}^{n}$ $X \in \mathbb{R}^{n \times p}$ $\beta \in \mathbb{R}^{p}$

Perhatikan bahwa kesalahan model kami (residual) adalah . Tujuan kami adalah menemukan vektor s yang meminimalkan norma dikuadratkan dari kesalahan ini. ${\bf \epsilon = Y - X\beta}$ $\beta$ $L_2$

Kotak Terkecil

Data yang diberikan mana setiap adalah dimensi , kami berusaha menemukan: $(x_1,y_1),...,(x_n,y_n)$ $x_{i}$ $p$

{\hat{β}}_{L. S} = \underset{β}{Argmin} | | ϵ | |^{2} = \underset{β}{Argmin} | | Y - X β | |^{2} = \underset{β}{Argmin} \sum_{saya = 1}^{n} (y_{saya} - x_{saya} β)^{2}

$\widehat{\beta}_{LS} = {\underset \beta {\text{argmin}}} ||{\bf \epsilon}||^2 = {\underset \beta {\text{argmin}}} ||{\bf Y - X\beta}||^2 = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} ( y_i - x_{i}\beta)^2$

Kemungkinan Maksimum

Menggunakan model di atas, kita dapat mengatur kemungkinan data diberikan parameter sebagai: $\beta$

L. (Y | X, β) = \prod_{saya = 1}^{n} f (y_{saya} | x_{saya}, β)

$L(Y|X,\beta) = \prod_{i=1}^{n} f(y_i|x_i,\beta)$

di mana adalah pdf dari distribusi normal dengan mean 0 dan varians . Memasukkannya ke: $f(y_i|x_i,\beta)$ $\sigma^2$

L. (Y | X, β) = \prod_{saya = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(y_{saya} - x_{saya} β)^{2}}{2 σ^{2}}}

$L(Y|X,\beta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_i - x_i\beta)^2}{2\sigma^2}}$

Sekarang umumnya ketika berhadapan dengan kemungkinan secara matematis lebih mudah untuk mengambil log sebelum melanjutkan (produk menjadi jumlah, eksponensial hilang), jadi mari kita lakukan itu.

catatan L. (Y | X, β) = \sum_{saya = 1}^{n} catatan (\frac{1}{\sqrt{2 π σ^{2}}}) - \frac{(y_{saya} - x_{saya} β)^{2}}{2 σ^{2}}

$\log L(Y|X,\beta) = \sum_{i=1}^{n} \log(\frac{1}{\sqrt{2\pi\sigma^2}}) -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Karena kami menginginkan estimasi kemungkinan maksimum, kami ingin menemukan maksimum persamaan di atas, berkenaan dengan . Istilah pertama tidak memengaruhi estimasi kami tentang , jadi kami dapat mengabaikannya: $\beta$ $\beta$

{\hat{β}}_{M. L. E} = \underset{β}{argmax} \sum_{saya = 1}^{n} - \frac{(y_{saya} - x_{saya} β)^{2}}{2 σ^{2}}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmax}}} \sum_{i=1}^{n} -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Perhatikan bahwa penyebutnya adalah konstan sehubungan dengan . Akhirnya, perhatikan bahwa ada tanda negatif di depan jumlah tersebut. Jadi menemukan maksimum angka negatif adalah seperti menemukan minimumnya tanpa negatif. Dengan kata lain: $\beta$

{\hat{β}}_{M. L. E} = \underset{β}{Argmin} \sum_{saya = 1}^{n} (y_{saya} - x_{saya} β)^{2} = {\hat{β}}_{L. S}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} (y_i - x_i\beta)^2 = \widehat{\beta}_{LS}$

Ingat bahwa agar ini berfungsi, kami harus membuat asumsi model tertentu (normalitas istilah kesalahan, 0 mean, varians konstan). Ini membuat kuadrat terkecil setara dengan MLE dalam kondisi tertentu. Lihat di sini dan di sini untuk diskusi lebih lanjut.

Untuk kelengkapan, perhatikan bahwa solusinya dapat ditulis sebagai:

β = (X^{T} X)^{- 1} X^{T} y

${\bf \beta = (X^TX)^{-1}X^Ty}$

— ilanman
sumber