Kesetaraan antara kuadrat terkecil dan MLE dalam model Gaussian

Saya baru belajar Mesin, dan saya sedang mencoba mempelajarinya sendiri. Baru-baru ini saya membaca beberapa catatan kuliah dan memiliki pertanyaan mendasar.

Slide 13 mengatakan bahwa "Estimasi Least Square sama dengan Estimasi Kemungkinan Maksimum dalam model Gaussian". Sepertinya itu adalah sesuatu yang sederhana, tetapi saya tidak dapat melihat ini. Bisakah seseorang tolong jelaskan apa yang terjadi di sini? Saya tertarik melihat Matematika.

Saya nanti akan mencoba melihat sudut pandang probabilistik dari regresi Ridge dan Lasso juga, jadi jika ada saran yang akan membantu saya, itu akan sangat dihargai juga.

regression bayesian least-squares

— Andy
sumber

Fungsi objektif di bagian bawah hal. 13 hanyalah kelipatan konstan ( ) dari fungsi objektif di bagian bawah hal. 10. MLE meminimalkan yang pertama sedangkan kuadrat terkecil meminimalkan yang terakhir, QED.

n

$n$

— whuber

@whuber: Terima kasih atas jawaban Anda. Nah yang ingin saya ketahui adalah bagaimana MLE melakukan minimalisasi.

— Andy

Apakah maksud Anda mekanika atau secara konseptual?

— whuber

@whuber: Keduanya! Jika saya bisa melihat Matematika itu, itu akan membantu juga.

— Andy

Tautan rusak; kurangnya referensi lengkap dan lebih banyak konteks untuk kutipan membuatnya sulit untuk hanya menghapus referensi atau mencari sumber alternatif untuk itu. Apakah slide 13 tautan ini cukup? --- cs.cmu.edu/~epxing/Class/10701-10s/recitation/recitation3.pdf

— Glen_b -Reinstate Monica

Dalam model

$Y = X \beta + \epsilon$

di mana , kemungkinan loglikatif untuk sampel subjek adalah (hingga konstanta aditif) $\epsilon \sim N(0,\sigma^{2})$ $Y|X$ $n$

\frac{- n}{2} \log (σ^{2}) - \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2}

$\frac{-n}{2} \log(\sigma^{2}) - \frac{1}{2 \sigma^{2}} \sum_{i=1}^{n} (y_{i}-x_{i} \beta)^{2}$

dipandang sebagai fungsi hanya , maximizer adalah persis apa yang diminimalkan $\beta$

\sum_{saya = 1}^{n} (y_{saya} - x_{saya} β)^{2}

$\sum_{i=1}^{n} (y_{i}-x_{i} \beta)^{2}$

apakah ini membuat kesetaraan jelas?

— Makro
sumber

Inilah tepatnya yang ada dalam slide yang disebut dalam OP

— whuber

Ya saya melihat itu tetapi mereka tidak benar-benar menulis log Gaussian-kemungkinan pada halaman 13 yang, setelah melakukan itu, membuat jelas bahwa argmaxnya sama dengan argumen kriteria OLS, jadi saya pikir ini adalah tambahan yang berharga.

— Makro

poin bagus: slide agak samar dengan detailnya.

— whuber

Anda telah belajar bahwa, jika Anda tahu kesalahan biasanya terdistribusi di sekitar garis regresi maka estimator kuadrat terkecil adalah "optimal" dalam arti tertentu, selain dengan sewenang-wenang menyatakan bahwa "kuadrat terkecil" adalah yang terbaik. Mengenai regresi ridge, solusi ini setara (jika Anda adalah bayesian) untuk estimator kuadrat terkecil ketika prior Gaussian ditempatkan pada . Dalam dunia frequentist, itu setara dengan kuadrat terkecil yang dihukum. Koefisien regresi logistik bukanlah solusi untuk masalah kuadrat terkecil, sehingga tidak akan analog.

β

$\beta$

L_{2}

$L_{2}$

— Makro

Konstanta tambahan adalahn/2 log(2 *pi)

— SmallChess