Dapatkah regularisasi bermanfaat jika kita hanya tertarik pada pemodelan, bukan pada peramalan?

Dapatkah regularisasi bermanfaat jika kita hanya tertarik dalam memperkirakan (dan menafsirkan) parameter model, bukan dalam peramalan atau prediksi?

Saya melihat bagaimana regularisasi / validasi silang sangat berguna jika tujuan Anda adalah membuat perkiraan yang baik tentang data baru. Tetapi bagaimana jika Anda melakukan ekonomi tradisional dan semua yang Anda pedulikan adalah memperkirakan ? Dapatkah validasi silang juga bermanfaat dalam konteks itu? Kesulitan konseptual yang saya perjuangkan adalah bahwa kita benar-benar dapat menghitung pada data uji, tetapi kita tidak pernah dapat menghitung karena true menurut definisi tidak pernah diamati. (Anggap sebagai asumsi bahwa bahkan ada benar , yaitu kita tahu keluarga model dari mana data dihasilkan.) $\beta$ $\mathcal{L}\left(Y, \hat{Y}\right)$ $\mathcal{L}\left(\beta, \hat{\beta}\right)$ $\beta$ $\beta$

Misalkan kerugian Anda adalah . Anda menghadapi pertukaran bias-varians, kan? Jadi, secara teori, Anda mungkin lebih baik melakukan beberapa regularisasi. Tetapi bagaimana Anda bisa memilih parameter regularisasi Anda? $\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert$

Saya akan senang melihat contoh numerik sederhana dari model regresi linier, dengan koefisien $\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k)$ , di mana fungsi kerugian peneliti adalah misalnya $\lVert \beta - \hat{\beta} \rVert$ , atau bahkan hanya $(\beta_1 - \hat{\beta}_1)^2$ . Bagaimana, dalam praktiknya, seseorang dapat menggunakan validasi silang untuk meningkatkan kerugian yang diharapkan dalam contoh-contoh itu?

Sunting : DJohnson mengarahkan saya ke https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , yang relevan dengan pertanyaan ini. Penulis menulis itu

Teknik pembelajaran mesin ... memberikan cara yang disiplin untuk memprediksi $\hat{Y}$ mana yang (i) menggunakan data itu sendiri untuk memutuskan bagaimana membuat trade-off bias-varians dan (ii) memungkinkan pencarian lebih dari sekumpulan yang sangat kaya variabel dan bentuk fungsional. Tapi semuanya harus dibayar: orang harus selalu ingat bahwa karena mereka disetel untuk $\hat{Y}$ mereka tidak (tanpa banyak asumsi lain) memberikan jaminan yang sangat berguna untuk $\hat{\beta}$ .

Makalah lain yang relevan, sekali lagi terima kasih kepada DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Makalah ini membahas pertanyaan yang saya perjuangkan di atas:

Sebuah ... tantangan mendasar untuk menerapkan metode pembelajaran mesin seperti pohon regresi di luar rak untuk masalah inferensi kausal adalah bahwa pendekatan regularisasi berdasarkan cross-validasi biasanya bergantung pada pengamatan "kebenaran dasar," yaitu, hasil aktual dalam sampel validasi silang. Namun, jika tujuan kami adalah untuk meminimalkan rata-rata kesalahan kuadrat dari efek pengobatan, kami menemukan apa yang [11] sebut sebagai "masalah mendasar dari inferensi kausal": efek kausal tidak diamati untuk setiap unit individu, dan jadi kami tidak secara langsung memiliki kebenaran dasar. Kami mengatasinya dengan mengusulkan pendekatan untuk membangun estimasi yang tidak bias dari kesalahan rata-rata kuadrat dari efek kausal dari perawatan.

— Adrian
sumber

Validasi silang hanyalah satu metode dalam data mining dan toolkit pembelajaran mesin. ML semakin banyak digunakan di bidang Ekonomi - lihat situs web Susan Athey di Stanford (dia seorang akademisi yang tertarik pada integrasi teknik ML ke dalam ekonomi) atau makalah ini Masalah Kebijakan Prediksi oleh Kleinberg, dkk., Dalam versi ungated di sini: cs. cornell.edu/home/kleinber/aer15-prediction.pdf

— Mike Hunter

Tolong, teman-teman, ambigu: ML untuk banyak orang menyarankan pembelajaran mesin dan banyak orang lainnya menyarankan kemungkinan maksimum. (Definisi: Anda berada di sisi pembelajaran mesin pagar jika ML secara otomatis menerjemahkan dirinya kepada Anda sebagai pembelajaran mesin.)

— Nick Cox

@ Akksal pengalaman saya adalah ekonometrik tradisional, seperti yang diajarkan kepada mahasiswa sarjana dan pascasarjana, pada dasarnya tidak memberikan perhatian pada validasi silang. Lihatlah Hayashi, yang merupakan buku teks klasik. Tentu, mungkin validasi silang dan pertukaran bias-varians disebutkan dalam kursus khusus tentang perkiraan, tetapi tidak dalam kursus inti bahwa semua siswa mulai dengan. Apakah itu terdengar benar bagi Anda?

— Adrian

@Adrian Saya melihat orang-orang memberikan suara untuk menutup pertanyaan ini terlalu luas. Mungkin memang demikian, tetapi seperti yang saya lihat, Anda pada dasarnya bertanya: "Bisakah CV membantu jika kita hanya tertarik pada pemodelan, bukan pada peramalan?" - jika saya mengerti Anda dengan benar, pertanyaan Anda dapat dengan mudah diedit dan disederhanakan, sehingga lebih jelas dan tentu saja tidak terlalu luas (bahkan menarik!).

— Tim

@Adrian jadi pertanyaan yang sangat menarik! Saya khawatir Anda membuatnya sangat rumit dan referensi ke ekonometrik tidak penting di sini (karena sama dengan daerah lain di mana metode statistik digunakan). Saya akan mendorong Anda untuk mengedit pertanyaan Anda untuk menyederhanakannya.

— Tim

Ya, saat kami ingin estimasi varians rendah yang bias. Saya sangat suka posting gung di sini. Masalah apa yang diselesaikan metode penyusutan? Tolong izinkan saya untuk menempelkan gambar gung di sini ...

masukkan deskripsi gambar di sini Jika Anda memeriksa plot gung yang dibuat, Anda akan mengetahui mengapa kami membutuhkan regularisasi / susut. Pada awalnya, saya merasa aneh mengapa kita membutuhkan estimasi yang bias? Tetapi melihat angka itu, saya menyadari, memiliki model varian rendah memiliki banyak keuntungan: misalnya, itu lebih "stabil" dalam penggunaan produksi.

— Haitao Du
sumber

Ya, tetapi bagaimana kita memilih parameter regularisasi? Ketika tujuannya adalah untuk meminimalkan kesalahan prediksi, kita dapat menggunakan set validasi. Bagaimana kita dapat menggunakan set validasi jika kita tidak pernah mengamati parameter model yang sebenarnya?

— Adrian

Lihat kutipan tentang "masalah mendasar inferensi kausal" di bagian bawah pertanyaan saya.

— Adrian

Dapatkah validasi silang bermanfaat jika kita hanya tertarik pada pemodelan (mis. Memperkirakan parameter), bukan dalam memperkirakan?

Ya bisa. Sebagai contoh, beberapa hari yang lalu saya menggunakan estimasi pentingnya parameter melalui Pohon Keputusan. Setiap kali saya membangun pohon, saya memeriksa kesalahan validasi silang. Saya mencoba untuk mengurangi kesalahan sebanyak yang saya bisa, maka saya akan pergi ke langkah selanjutnya memperkirakan pentingnya parameter. Ada kemungkinan bahwa jika pohon pertama yang Anda buat sangat buruk dan Anda tidak memeriksa kesalahan, Anda akan memiliki jawaban yang kurang akurat (jika tidak salah).

Alasan utama saya percaya adalah karena banyaknya jumlah variabel kontrol yang dimiliki masing-masing teknik. Bahkan sedikit perubahan dalam satu variabel kontrol akan memberikan hasil yang berbeda.

Bagaimana cara meningkatkan model Anda setelah Anda memeriksa kesalahan validasi silang? Yah, itu tergantung pada model Anda. Mudah-mudahan, setelah mencoba beberapa kali Anda akan mendapatkan beberapa gagasan tentang variabel kontrol yang paling penting dan dapat memanipulasi mereka untuk menemukan kesalahan yang rendah.

— PeyM87
sumber