Regresi linear / classifier benar-benar bisa overfit jika digunakan tanpa perawatan yang tepat.
Ini contoh kecil. Mari kita buat dua vektor, yang pertama hanya koin membalik acak:5000
set.seed(154)
N <- 5000
y <- rbinom(N, 1, .5)
Vektor kedua adalah pengamatan, masing-masing secara acak ditugaskan ke salah satu dari kelas acak:5000500
N.classes <- 500
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))
Seharusnya tidak ada hubungan antara flips y
kami dan kelas acak kami rand.class
, mereka ditentukan sepenuhnya secara independen.
Namun, jika kita mencoba untuk memprediksi flip acak dengan kelas acak menggunakan regresi logistik (pengklasifikasi linier), itu pasti berpikir ada hubungan
M <- glm(y ~ rand.class, family="binomial")
hist(coef(M), breaks=50)
Nilai sebenarnya dari setiap koefisien ini adalah nol. Tapi seperti yang Anda lihat, kami memiliki penyebaran yang cukup. Klasifikasi linier ini sangat cocok.
Catatan: Ekstrem dalam histogram ini, di mana koefisien telah berkeliaran ke−1515y == 1
y == 0
15
"overfitting" tampaknya tidak didefinisikan secara formal. Mengapa demikian?
Overfitting paling baik dipahami dalam konteks kelas model yang memiliki beberapa parameter kompleksitas. Dalam hal ini, sebuah model dapat dikatakan overfit ketika mengurangi kompleksitas sedikit menghasilkan harapan yang lebih baik dari kinerja sampel.
Akan sangat sulit untuk secara tepat mendefinisikan konsep dalam model yang independen. Sebuah model tunggal pas, Anda perlu sesuatu untuk membandingkannya agar lebih atau kurang pas. Dalam contoh saya di atas, perbandingan ini dengan kebenaran, tetapi Anda biasanya tidak tahu kebenarannya, karena itu modelnya!
Tidak akankah suatu jarak mengukur antara pelatihan dan kinerja set tes memungkinkan formalisasi seperti itu?
Ada konsep seperti itu, itu disebut optimisme. Itu didefinisikan oleh:
ω=Etest−Etrain
E
Ini tidak cukup pada esensi dari overfitting, karena kinerja pada set tes bisa sedikit lebih buruk daripada kereta, meskipun model kompleksitas yang lebih tinggi mengurangi keduanya .