Stabilitas numerik dan overfitting dalam beberapa hal terkait tetapi berbeda masalah.
Masalah OLS klasik:
Pertimbangkan masalah kuadrat terkecil klasik:
memperkecil( lebih dari b )( y - Xb )T( y - Xb )
Solusinya adalah klasik . Gagasannya adalah bahwa dengan hukum sejumlah besar:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
Karenanya estimasi OLS juga menyatu dengan . (Dalam istilah aljabar linier, ini adalah proyeksi linear variabel acak ke rentang linear variabel acak .) E[xx']-1E[xy]yx1,x2,...,xkb^E[xx′]−1E[xy]yx1,x2,…,xk
Masalah?
Secara mekanis, apa yang salah? Apa masalah yang mungkin terjadi?
- Untuk sampel kecil, perkiraan sampel kami dari dan mungkin buruk.E [ x y ]E[xx′]E[xy]
- Jika kolom adalah collinear (baik karena collinearity yang melekat atau ukuran sampel kecil), masalahnya akan memiliki rangkaian solusi! Solusinya mungkin tidak unik.
X
- Ini terjadi jika adalah kekurangan peringkat.E[xx′]
- Ini juga terjadi jika kekurangan peringkat karena ukuran sampel yang kecil relatif terhadap jumlah masalah regressor.X′X
Masalah (1) dapat menyebabkan overfitting ketika perkiraan mulai mencerminkan pola dalam sampel yang tidak ada dalam populasi yang mendasarinya. Perkiraan tersebut mungkin mencerminkan pola dalam dan yang sebenarnya tidak ada di dan 1b^11nX′XE[xx′]E[xy]1nX′yE[xx′]E[xy]
Masalah (2) berarti solusi tidak unik. Bayangkan kita mencoba memperkirakan harga sepatu individual tetapi sepasang sepatu selalu dijual bersama. Ini adalah masalah yang keliru, tetapi katakanlah kita tetap melakukannya. Kita mungkin percaya bahwa harga sepatu kiri ditambah harga sepatu kanan sama dengan $ 50, tetapi bagaimana kita bisa menghasilkan harga individual? Apakah menetapkan harga sepatu kiri dan harga sepatu kanan ok? Bagaimana kita bisa memilih dari semua kemungkinan?p r = 5pl=45pr=5
Memperkenalkan penalti :L2
Sekarang pertimbangkan:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
Ini dapat membantu kami dengan kedua jenis masalah tersebut. The penalti mendorong perkiraan kami menuju nol. Ini berfungsi secara efektif sebagai Bayesian sebelum distribusi nilai koefisien berpusat di sekitar . Itu membantu dengan overfitting. Perkiraan kami akan mencerminkan data dan keyakinan awal kami bahwa hampir nol.b 0 bL2b0b
$ 50 L 2 p l = p r = 25L2 regularisasi juga selalu kita temukan solusi unik untuk masalah yang keliru. Jika kita tahu harga total sepatu kiri dan kanan menjadi , solusi yang juga meminimalkan norma adalah memilih .$50L2pl=pr=25
Apakah ini sihir? Tidak. Peraturan tidak sama dengan menambahkan data yang benar-benar memungkinkan kita untuk menjawab pertanyaan. regularisasi dalam beberapa hal mengadopsi pandangan bahwa jika Anda kekurangan data, pilih perkiraan lebih dekat ke . 0L20