Masalah klasifikasi teks cenderung memiliki dimensi yang cukup tinggi (banyak fitur), dan masalah dimensi tinggi cenderung terpisah secara linear (karena Anda dapat memisahkan titik d + 1 dalam ruang dimensi d dengan classifier linier, terlepas dari bagaimana titik tersebut diberi label). Jadi pengklasifikasi linier, apakah regresi ridge atau SVM dengan kernel linier, cenderung baik. Dalam kedua kasus, parameter ridge atau C untuk SVM (seperti tdc menyebutkan +1) mengendalikan kompleksitas classifier dan membantu menghindari pemasangan yang berlebihan dengan memisahkan pola masing-masing kelas dengan margin yang besar (yaitu permukaan keputusan melewati tengah celah antara dua koleksi poin). Namun untuk mendapatkan kinerja yang baik, parameter ridge / regularisasi perlu disetel dengan benar (saya menggunakan validasi silang tinggalkan-satu-keluar karena murah).
Namun, alasan regresi ridge berfungsi dengan baik adalah bahwa metode non-linear terlalu kuat dan sulit untuk menghindari pemasangan berlebihan. Mungkin ada classifier non-linear yang memberikan kinerja generalisasi yang lebih baik daripada model linier terbaik, tetapi terlalu sulit untuk memperkirakan parameter-parameter tersebut menggunakan sampel hingga dari data pelatihan yang kami miliki. Dalam praktiknya, semakin sederhana modelnya, semakin sedikit masalah yang kita miliki dalam mengestimasi parameter, sehingga ada kecenderungan yang kurang pas, sehingga kita mendapatkan hasil yang lebih baik dalam praktik.
Masalah lain adalah pemilihan fitur, regresi ridge menghindari over-fitting dengan mengatur bobot agar tetap kecil, dan pemilihan model lurus ke depan karena Anda hanya perlu memilih nilai parameter regresi tunggal. Jika Anda mencoba untuk menghindari pemasangan berlebihan dengan memilih set fitur yang optimal, maka pemilihan model menjadi sulit karena ada derajat kebebasan (semacam) untuk setiap fitur, yang memungkinkan untuk menyesuaikan kriteria pemilihan fitur dan Anda berakhir dengan serangkaian fitur yang optimal untuk sampel data khusus ini, tetapi memberikan kinerja generalisasi yang buruk. Jadi tidak melakukan pemilihan fitur dan menggunakan regularisasi sering dapat memberikan kinerja prediksi yang lebih baik.
Saya sering menggunakan Bagging (membentuk komite model yang dilatih pada sampel bootstraped dari set pelatihan) dengan model ridge-regression, yang sering memberikan peningkatan dalam kinerja, dan karena semua model linier Anda dapat menggabungkan mereka untuk membentuk model linier tunggal , jadi tidak ada kinerja yang beroperasi.