Apakah regularisasi jaring elastis selalu lebih disukai daripada Lasso & Ridge karena tampaknya mengatasi kelemahan dari metode ini? Apa intuisi dan apa matematika di balik jaring elastis?
Apakah regularisasi jaring elastis selalu lebih disukai daripada Lasso & Ridge karena tampaknya mengatasi kelemahan dari metode ini? Apa intuisi dan apa matematika di balik jaring elastis?
Jawaban:
Ya, jaring elastis selalu lebih disukai daripada laso & regresi ridge karena mengatasi keterbatasan kedua metode, sementara juga memasukkan masing-masing sebagai kasus khusus. Jadi jika solusi ridge atau laso memang, yang terbaik, maka setiap rutin pemilihan model yang baik akan mengidentifikasi itu sebagai bagian dari proses pemodelan.
Komentar untuk posting saya telah menunjukkan bahwa keuntungan dari jaring elastis tidak memenuhi syarat. Saya bertahan dalam keyakinan saya bahwa generalisasi regresi jaring elastis masih lebih baik daripada regularisasi atau sendiri. Secara khusus, saya berpikir bahwa poin pertentangan antara saya dan orang lain secara langsung terkait dengan asumsi apa yang ingin kami buat tentang proses pemodelan. Di hadapan pengetahuan yang kuat tentang data yang mendasarinya, beberapa metode akan lebih disukai daripada yang lain. Namun, preferensi saya untuk jaring elastis berakar pada skeptisisme saya bahwa seseorang akan dengan yakin tahu bahwa atau adalah model yang sebenarnya.
Ini agak melingkar. Maafkan saya jika ini agak fasih, tetapi jika Anda tahu bahwa LASSO (punggungan) adalah solusi terbaik, maka Anda tidak akan bertanya pada diri sendiri bagaimana cara memodelkannya dengan tepat; Anda hanya akan cocok dengan model LASSO (ridge). Jika Anda benar - benar yakin bahwa jawaban yang benar adalah regresi LASSO (ridge), maka Anda jelas yakin bahwa tidak ada alasan untuk membuang waktu memasang jaring elastis. Tetapi jika Anda sedikit kurang yakin apakah LASSO (ridge) adalah cara yang benar untuk melanjutkan, saya percaya masuk akal untuk memperkirakan model yang lebih fleksibel, dan mengevaluasi seberapa kuat data mendukung keyakinan sebelumnya.
Ini juga benar, tetapi saya pikir itu melingkar untuk alasan yang sama: jika Anda telah memperkirakan solusi optimal dan menemukan bahwa maka itulah model yang didukung data. Di satu sisi, ya, model perkiraan Anda bukan model yang sebenarnya, tetapi saya harus bertanya-tanya bagaimana orang akan tahu bahwa model yang sebenarnya adalah (atau ) sebelum estimasi model apa pun. Mungkin ada domain tempat Anda memiliki pengetahuan sebelumnya, tetapi pekerjaan profesional saya bukan salah satunya.
Ini hanya relevan jika Anda memiliki keterbatasan waktu / komputer; kalau tidak, itu hanya gangguan. GLMNET adalah algoritma standar emas untuk memperkirakan solusi jaring elastis. Pengguna memasok beberapa nilai alpha, dan menggunakan properti path dari solusi regularisasi untuk dengan cepat memperkirakan keluarga model untuk berbagai nilai dari besarnya hukuman , dan seringkali dapat memperkirakan keluarga solusi ini lebih cepat daripada memperkirakan hanya satu solusi untuk nilai spesifik . Jadi, ya, menggunakan GLMNET tidak membuat Anda ke domain menggunakan metode gaya grid (beralih pada beberapa nilai dan biarkan GLMNET mencoba berbagai s), tapi itu cukup cepat.
Ini benar, tetapi pada langkah di mana seseorang merenungkan metode mana yang digunakan, orang tidak akan tahu mana jaring elastis, punggungan atau LASSO adalah yang terbaik. Jika salah satu alasan bahwa solusi terbaik harus LASSO atau regresi ridge, maka kita berada dalam domain klaim (1). Jika kita masih ragu mana yang terbaik, maka kita dapat menguji solusi LASSO, ridge dan elastis, dan membuat pilihan model akhir pada saat itu (atau, jika Anda seorang akademisi, cukup tulis makalah Anda tentang ketiganya ). Situasi ketidakpastian sebelumnya ini akan menempatkan kita dalam domain klaim (2), di mana model sebenarnya adalah LASSO / ridge tetapi kami tidak mengetahuinya sebelumnya, dan kami tidak sengaja memilih model yang salah karena hyperparameters yang diidentifikasi dengan buruk, atau jaring elastis sebenarnya adalah solusi terbaik.
Validasi model yang tepat adalah bagian integral dari setiap perusahaan pembelajaran mesin. Validasi model biasanya merupakan langkah yang mahal juga, jadi orang akan berusaha untuk meminimalkan inefisiensi di sini - jika salah satu inefisiensi tersebut sia-sia mencoba nilai-nilai yang diketahui sia-sia, maka satu saran mungkin untuk melakukannya. Ya, tentu saja lakukan itu, jika Anda merasa nyaman dengan pernyataan kuat yang Anda buat tentang bagaimana data Anda disusun - tetapi kami kembali ke wilayah klaim (1) dan klaim (2).
Saya sangat menyarankan membaca literatur tentang metode ini, dimulai dengan kertas asli di jaring elastis. Makalah ini mengembangkan intuisi dan matematika, dan sangat mudah dibaca. Mereproduksi di sini hanya akan merugikan penjelasan penulis. Tetapi ringkasan tingkat tinggi adalah bahwa jaring elastis merupakan jumlah cembung dari punggungan dan penalti laso, sehingga fungsi objektif untuk model kesalahan Gaussian terlihat seperti
untuk
Hui Zou dan Trevor Hastie. " Pengaturan dan pemilihan variabel melalui jaring elastis ." Statistik JR. Soc., Vol 67 (2005), Bagian 2., hlm. 301-320.
Richard Hardy menunjukkan bahwa ini dikembangkan secara lebih rinci dalam Hastie et al. "Unsur Pembelajaran Statistik" bab 3 dan 18.
Ini adalah pertanyaan yang diajukan kepada saya di komentar:
Izinkan saya menyarankan satu argumen lebih lanjut terhadap sudut pandang Anda bahwa jaring elastis secara seragam lebih baik daripada laso atau punggungan saja. Bayangkan bahwa kita menambahkan penalti lain ke fungsi biaya bersih elastis, misalnya biaya , dengan hyperparameter . Saya tidak berpikir ada banyak penelitian tentang itu, tapi saya berani bertaruh Anda bahwa jika Anda melakukan pencarian validasi silang pada kotak parameter 3d, maka Anda akan mendapatkan sebagai nilai optimal. Jika demikian, akan Anda kemudian berpendapat bahwa itu adalah selalu ide yang baik untuk menyertakan biaya juga.
Saya menghargai bahwa semangat pertanyaannya adalah "Jika itu seperti yang Anda klaim dan dua hukuman itu baik, mengapa tidak menambahkan yang lain?" Tapi saya pikir jawabannya terletak pada mengapa kita mengatur di tempat pertama.
regularisasi cenderung menghasilkan solusi jarang, tetapi juga cenderung untuk memilih fitur yang paling sangat berkorelasi dengan hasil dan nol sisanya. Selain itu, dalam kumpulan data dengan pengamatan, ia dapat memilih paling banyak fitur. Regularisasi cocok untuk menangani masalah-masalah keliru yang dihasilkan dari fitur-fitur yang sangat berkorelasi. Dalam kumpulan data dengan fitur , regularisasi dapat digunakan untuk mengidentifikasi model secara unik dalam kasus .
Mengesampingkan salah satu dari masalah ini, model yang diregulasi masih dapat mengungguli model ML karena sifat susut estimator bersifat "pesimistis" dan menarik koefisien ke arah 0.
Tetapi saya tidak mengetahui sifat statistik untuk regularisasi . Dalam masalah yang saya kerjakan, kita biasanya menghadapi kedua masalah: dimasukkannya fitur yang berkorelasi buruk (hipotesis yang tidak didukung oleh data), dan fitur co-linear.
Memang, ada alasan kuat bahwa hukuman dan pada parameter adalah satu-satunya yang biasanya digunakan.
Dalam Mengapa kita hanya melihat regularisasi dan tetapi tidak pada norma lainnya? L 2, @whuber menawarkan komentar ini:
Saya belum menyelidiki pertanyaan ini secara khusus, tetapi pengalaman dengan situasi yang serupa menunjukkan mungkin ada jawaban kualitatif yang bagus: semua norma yang dapat dibedakan kedua pada titik asal akan setara secara lokal satu sama lain, di mana norma adalah standar . Semua norma lain tidak akan dapat dibedakan pada asal dan secara kualitatif mereproduksi perilaku mereka. Itu mencakup keseluruhan. Akibatnya, kombinasi linear dari norma dan mendekati setiap norma ke urutan kedua di titik asal - dan inilah yang paling penting dalam regresi tanpa menghilangkan residu.
Jadi kita dapat secara efektif mencakup berbagai opsi yang mungkin dapat disediakan oleh norma sebagai kombinasi dari norma dan - semua tanpa memerlukan penyetelan hyperparameter tambahan.
Saya biasanya setuju dengan jawaban @ Scorax, tetapi saya ingin menambahkan beberapa kualifikasi.
Mengatakan bahwa "jaring elastis selalu lebih disukai daripada laso & regresi ridge" mungkin sedikit terlalu kuat. Dalam sampel kecil atau menengah, jaring elastis tidak boleh memilih LASSO murni atau larutan punggungan murni bahkan jika yang pertama atau yang terakhir sebenarnya adalah yang relevan. Mengingat pengetahuan sebelumnya yang kuat, masuk akal untuk memilih LASSO atau punggungan di tempat jaring elastis. Namun, dengan tidak adanya pengetahuan sebelumnya, jaring elastis harus menjadi solusi yang lebih disukai.
Selain itu, jaring elastis secara komputasi lebih mahal daripada LASSO atau punggungan karena bobot relatif LASSO versus punggungan harus dipilih menggunakan validasi silang. Jika kisi-kisi nilai alfa yang masuk akal adalah [0,1] dengan ukuran langkah 0,1, itu berarti jaring elastis kira-kira 11 kali lebih mahal secara komputasi daripada LASSO atau punggungan. (Karena LASSO dan ridge tidak memiliki kompleksitas komputasi yang sama, hasilnya hanyalah tebakan kasar.)