Dapatkah regularisasi bermanfaat jika kita hanya tertarik dalam memperkirakan (dan menafsirkan) parameter model, bukan dalam peramalan atau prediksi?
Saya melihat bagaimana regularisasi / validasi silang sangat berguna jika tujuan Anda adalah membuat perkiraan yang baik tentang data baru. Tetapi bagaimana jika Anda melakukan ekonomi tradisional dan semua yang Anda pedulikan adalah memperkirakan ? Dapatkah validasi silang juga bermanfaat dalam konteks itu? Kesulitan konseptual yang saya perjuangkan adalah bahwa kita benar-benar dapat menghitung pada data uji, tetapi kita tidak pernah dapat menghitung karena true menurut definisi tidak pernah diamati. (Anggap sebagai asumsi bahwa bahkan ada benar , yaitu kita tahu keluarga model dari mana data dihasilkan.)L ( Y , Y ) L ( β , β ) β β
Misalkan kerugian Anda adalah . Anda menghadapi pertukaran bias-varians, kan? Jadi, secara teori, Anda mungkin lebih baik melakukan beberapa regularisasi. Tetapi bagaimana Anda bisa memilih parameter regularisasi Anda?
Saya akan senang melihat contoh numerik sederhana dari model regresi linier, dengan koefisien , di mana fungsi kerugian peneliti adalah misalnya , atau bahkan hanya . Bagaimana, dalam praktiknya, seseorang dapat menggunakan validasi silang untuk meningkatkan kerugian yang diharapkan dalam contoh-contoh itu?
Sunting : DJohnson mengarahkan saya ke https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , yang relevan dengan pertanyaan ini. Penulis menulis itu
Teknik pembelajaran mesin ... memberikan cara yang disiplin untuk memprediksi mana } yang (i) menggunakan data itu sendiri untuk memutuskan bagaimana membuat trade-off bias-varians dan (ii) memungkinkan pencarian lebih dari sekumpulan yang sangat kaya variabel dan bentuk fungsional. Tapi semuanya harus dibayar: orang harus selalu ingat bahwa karena mereka disetel untuk mereka tidak (tanpa banyak asumsi lain) memberikan jaminan yang sangat berguna untuk .
Makalah lain yang relevan, sekali lagi terima kasih kepada DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Makalah ini membahas pertanyaan yang saya perjuangkan di atas:
Sebuah ... tantangan mendasar untuk menerapkan metode pembelajaran mesin seperti pohon regresi di luar rak untuk masalah inferensi kausal adalah bahwa pendekatan regularisasi berdasarkan cross-validasi biasanya bergantung pada pengamatan "kebenaran dasar," yaitu, hasil aktual dalam sampel validasi silang. Namun, jika tujuan kami adalah untuk meminimalkan rata-rata kesalahan kuadrat dari efek pengobatan, kami menemukan apa yang [11] sebut sebagai "masalah mendasar dari inferensi kausal": efek kausal tidak diamati untuk setiap unit individu, dan jadi kami tidak secara langsung memiliki kebenaran dasar. Kami mengatasinya dengan mengusulkan pendekatan untuk membangun estimasi yang tidak bias dari kesalahan rata-rata kuadrat dari efek kausal dari perawatan.