Ya, Regularisasi dapat digunakan dalam semua metode linier, termasuk regresi dan klasifikasi. Saya ingin menunjukkan kepada Anda bahwa tidak ada terlalu banyak perbedaan antara regresi dan klasifikasi: satu-satunya perbedaan adalah fungsi kerugian.
Secara khusus, ada tiga komponen utama dari metode linier, Fungsi Rugi, Regularisasi, Algoritma . Di mana fungsi kerugian ditambah regularisasi adalah fungsi objektif dalam masalah dalam bentuk optimasi dan algoritma adalah cara untuk menyelesaikannya (fungsi objektif adalah cembung, kita tidak akan membahas dalam posting ini).
Dalam pengaturan fungsi kerugian, kita dapat memiliki kerugian yang berbeda dalam kasus regresi dan klasifikasi. Misalnya, kuadrat terkecil dan kehilangan deviasi absolut terkecil dapat digunakan untuk regresi. Dan representasi matematika mereka adalah dan. (Fungsi didefinisikan pada dua skalar, adalah nilai kebenaran dasar dan adalah nilai prediksi.)L(y^,y)=(y^−y)2L(y^,y)=|y^−y|L(⋅)yy^
Di sisi lain, kehilangan logistik dan kehilangan engsel dapat digunakan untuk klasifikasi. Representasi matematika mereka adalah dan . (Di sini, adalah label kebenaran dasar dalam dan diprediksi "skor". Definisi sedikit tidak biasa, silakan lihat bagian komentar.)L(y^,y)=log(1+exp(−y^y))L(y^,y)=(1−y^y)+y{−1,1}y^y^
Dalam pengaturan regularisasi, Anda menyebutkan tentang regularisasi L1 dan L2, ada juga bentuk lain, yang tidak akan dibahas dalam posting ini.
Oleh karena itu, pada level tinggi metode linear adalah
minimizew ∑x,yL(w⊤x,y)+λh(w)
Jika Anda mengganti fungsi Kehilangan dari pengaturan regresi ke kehilangan logistik, Anda mendapatkan regresi logistik dengan regularisasi.
Misalnya, dalam regresi ridge, masalah optimasinya adalah
minimizew ∑x,y(w⊤x−y)2+λw⊤w
Jika Anda mengganti fungsi kerugian dengan kehilangan logistik, masalahnya menjadi
minimizew ∑x,ylog(1+exp(−w⊤x⋅y))+λw⊤w
Di sini Anda memiliki regresi logistik dengan regularisasi L2.
Begini tampilannya dalam kumpulan data biner mainan yang disintesis. Gambar kiri adalah data dengan model linier (batas keputusan). Angka yang tepat adalah kontur fungsi tujuan (sumbu x dan y mewakili nilai untuk 2 parameter.). Set data dihasilkan dari dua Gaussian, dan kami menyesuaikan model regresi logistik tanpa intersep, sehingga hanya ada dua parameter yang dapat kami visualisasikan dalam sub-gambar kanan.
Garis biru adalah regresi logistik tanpa regularisasi dan garis hitam adalah regresi logistik dengan regularisasi L2. Titik biru dan hitam dalam gambar kanan adalah parameter optimal untuk fungsi objektif.
Dalam percobaan ini, kami menetapkan , sehingga Anda dapat melihat dua koefisien mendekati . Selain itu, dari kontur, kita dapat mengamati istilah regularisasi didominasi dan seluruh fungsinya seperti mangkuk kuadratik.λ0
Berikut adalah contoh lain dengan regularisasi L1.
Perhatikan bahwa, tujuan dari percobaan ini adalah mencoba menunjukkan bagaimana regularisasi bekerja dalam regresi logistik, tetapi model yang diregulasi tidak lebih baik.
Berikut adalah beberapa animasi tentang regularisasi L1 dan L2 dan bagaimana hal itu mempengaruhi tujuan kerugian logistik. Dalam setiap frame, judulnya menyarankan tipe regularisasi dan , plot adalah kontur fungsi objektif (kehilangan logistik + regularisasi). Kami meningkatkan parameter regularisasi di setiap frame dan solusi optimal akan menyusut menjadi frame demi frame.λλ0
Beberapa komentar notasi. dan adalah vektor kolom, adalah skalar. Jadi model linier . Jika kita ingin memasukkan istilah intersep, kita dapat menambahkan sebagai kolom pada data.wxyy^=f(x)=w⊤x1
Dalam pengaturan regresi, adalah bilangan real dan dalam pengaturan klasifikasi .yy∈{−1,1}
Perhatikan bahwa ini sedikit aneh untuk definisi dalam pengaturan klasifikasi. Karena kebanyakan orang menggunakan untuk mewakili nilai prediksi . Dalam kasus kami, adalah bilangan real, tetapi tidak dalam . Kami menggunakan definisi karena kita dapat menyederhanakan notasi pada hilangnya logistik dan kehilangan engsel.y^=w⊤xy^yy^=w⊤x{−1,1}y^
Juga perhatikan bahwa, dalam beberapa sistem notasi lain, , bentuk fungsi kehilangan logistik akan berbeda.y∈{0,1}
Kode dapat ditemukan di jawaban saya yang lain di sini.
Apakah ada penjelasan intuitif mengapa regresi logistik tidak akan berfungsi untuk kasus pemisahan sempurna? Dan mengapa menambahkan regularisasi akan memperbaikinya?