Kisi kehalusan dan setelan berlebihan saat menyetem

Saya bertanya-tanya tentang

kehalusan kisi optimal dan
apa hubungan antara kehalusan kisi-kisi dan overfitting

dalam metode regularisasi seperti LASSO, regresi ridge atau jaring elastis.

Misalkan saya ingin mencocokkan model regresi menggunakan LASSO dengan sampel 500 pengamatan (saya tidak punya data; ini hanya sebuah contoh). Misalkan saya punya
(A) grid dengan 100 berbeda $\lambda$ nilai dalam rentang antara $\lambda_{min}$ dan $\lambda_{max}$
(B) kotak dengan 1000 berbeda $\lambda$ nilai dalam rentang yang sama, di
mana $\lambda$ adalah parameter yang mengendalikan tingkat hukuman.

Pertanyaan:

Bisakah saya mengatakan sesuatu tentang kecenderungan untuk mengenakan (A) versus (B) ?
Bisakah saya menentukan kehalusan kisi optimal? Bagaimana?

— Richard Hardy
sumber

Bisakah saya mengatakan sesuatu tentang kecenderungan untuk mengenakan (A) versus (B)?

Asalkan kedua kisi-kisi mencakup rentang yang cukup, kehalusan kisi tidak benar-benar ada hubungannya dengan overfitting dalam masalah ini (meskipun kisi kasar mungkin kurang baik jika melompati interval yang menguntungkan). Ini bukan seolah-olah menguji terlalu banyak nilai yang entah bagaimana akan mengubah seperti apa bentuk out-of-sample. * Dalam kasus ini regresi dihukum, kami pasti ingin mengoptimalkan fungsi kemungkinan hukuman kami untuk nilai $\lambda$ , dan tidak masalah berapa banyak nilai $\lambda$ kami menguji, karena kinerja out-of-sample untuk set data tetap dan partisi tetap sepenuhnya deterministik. Lebih tepatnya, metrik out-of-sample sama sekali tidak diubah oleh berapa banyak nilai $\lambda$ Anda menguji. Grid kasar mungkin berarti Anda melewatkan minimum absolut dalam metrik out-of-sample Anda, tetapi menemukan minimum absolut mungkin tidak diinginkan di tempat pertama karena hyperparameters cenderung diperkirakan dengan buruk, dan properti sampel terbatas berarti bahwa data keterbatasan akan menjadi sumber kebisingan dalam estimasi yang akan membanjiri sedikit perubahan dalam jarak antara titik-titik grid yang berdekatan: kesalahan standar estimasi Anda akan cenderung membanjiri perbedaan dalam kehalusan grid.

Jika Anda benar-benar khawatir bahwa metrik kinerja out-of-sample mungkin terlalu optimis, Anda bisa mengadopsi 1 aturan kesalahan standar, yang memilih model paling teratur dalam 1 kesalahan standar minimum. Dengan begitu, Anda menjadi sedikit lebih konservatif dan memilih model yang tidak terlalu rumit.

Bisakah saya menentukan kehalusan kisi optimal? Bagaimana?

Algoritma LARS tidak secara apriori menentukan nilai dari $\lambda$ untuk memeriksa; agak, $\lambda$ diubah terus menerus dan algoritma memeriksa nilai $\lambda$ yang koefisiennya bergerak dari 0 ke nilai bukan nol. Nilai-nilai tersebut $\lambda$ di mana koefisien baru bukan nol dipertahankan, dengan pengamatan bahwa jalur koefisien sebagian linier dalam kasus laso, sehingga tidak ada kehilangan informasi dengan hanya menyimpan simpul dalam kasus itu. LARS hanya bekerja ketika jalur koefisien linier, meskipun. Penalti ridge tidak pernah menyusutkan koefisien menjadi tepat nol, sehingga semua jalur koefisien Anda mulus dan selalu tidak nol; demikian juga regresi jaring elastis (tidak termasuk kasus regresi jaring elastis yang juga merupakan regresi laso).

Tetapi kebanyakan orang menggunakan GLMNET karena seringkali lebih cepat. Dalam hal menentukan grid apa $\lambda$ untuk mencari, saya sarankan membaca artikel GLMNET "Jalur Regularisasi untuk Model Linear Umum melalui Koordinat Keturunan" oleh Jerome Friedman, Trevor Hastie, dan Rob Tibshirani. Di dalamnya, mereka mengembangkan algoritma yang sangat efisien untuk memperkirakan regresi ridge, laso dan net elastis. Algoritma memeriksa nilai $\lambda_\text{max}$ untuk itu $\beta$ adalah vektor nol, dan kemudian mengidentifikasi nilai minimum $\lambda_\text{min}$ tergantung pada $\lambda_\text{max}$ . Akhirnya, mereka menghasilkan urutan nilai antara keduanya secara seragam pada skala log. Kotak ini cukup untuk sebagian besar tujuan, meskipun tidak menghilangkan properti yang Anda akan tahu persis ketika koefisien diperkirakan pada nilai bukan nol. Awal yang hangat digunakan untuk memberikan solusi lebih cepat, dan mendukung banyak GLM umum.

* Anda mungkin berpikir tentang ini dari perspektif jaringan saraf tiruan, di mana penghentian awal kadang-kadang digunakan untuk menyelesaikan regularisasi, tapi itu masalah yang sama sekali tidak terkait (yaitu, bahwa algoritma optimasi dicegah dari mencapai yang optimal, jadi modelnya adalah dipaksa menjadi kurang kompleks).

— Sycorax berkata Reinstate Monica
sumber

Saya tidak berpikir Anda benar dalam deskripsi bagaimana glmnet memilih pengguna lambdas777. Lihat bagian 2.5 di koran, di mana mereka membahas pilihan lambda minimum dan maksimum, dan mereka di antaranya. Anda mungkin berpikir tentang LARS, yang memang melakukan apa yang Anda gambarkan, tetapi saya tidak percaya telah digeneralisasi untuk memasukkan hukuman punggung bukit.

— Matthew Drury

@MatthewDrury Bah. Kamu benar. Saya sedang memikirkan LARS.

— Sycorax berkata Reinstate Monica

Saya telah membaca beberapa materi terkait dan mungkin kertas itu juga, tetapi berikut ini tidak sepenuhnya meyakinkan bagi saya: Akhirnya, mereka menghasilkan urutan nilai antara keduanya secara seragam pada skala log. Adakah pembenaran yang menunjukkan bahwa ini adalah pilihan yang optimal? Juga, bagaimana mereka memilih kehalusan kisi? Saya tidak ingat pernah membaca penjelasan yang bagus.

— Richard Hardy

Saya telah mengamati dalam semua kegunaan glmnet bahwa perubahan kemungkinan log antara titik-titik kisi berturut-turut selalu didominasi oleh kesalahan std-estimasi dari estimasi tersebut. Jadi kisi standar cukup baik sehingga informasi apa pun yang diperoleh dari resolusi yang meningkat akan didominasi oleh ketidakpastian dalam estimasi lambda.

— Matthew Drury

@amoeba Kasing ukuran sampel kecil akan dibanjiri oleh varians dalam CV estiamtes: any

λ

$\lambda$ di sekitar minimum pada dasarnya akan sama. Inilah sebabnya mengapa tidak ada hasil nyata untuk meningkatkan kehalusan kisi. Juga

λ

$\lambda$ lintasan biasanya kurva yang bagus, sehingga meningkatkan kehalusan kisi hanya akan mengisi ruang di antara estamtes. Dalam contoh yang saya lihat, kurva respons tidak secara dramatis mengayun ke atas dan ke bawah, terutama tidak dalam beberapa interval yang baik.

— Sycorax berkata Reinstate Monica