Saya menggunakan paket R yang dihukum untuk mendapatkan estimasi koefisien yang menyusut untuk dataset di mana saya memiliki banyak prediktor dan sedikit pengetahuan tentang yang mana yang penting. Setelah saya memilih parameter tuning L1 dan L2 dan saya puas dengan koefisien saya, apakah ada cara yang baik secara statistik untuk merangkum model yang sesuai dengan sesuatu seperti R-squared?
Selanjutnya, saya tertarik untuk menguji signifikansi keseluruhan model (yaitu apakah R² = 0, atau melakukan semua = 0).
Saya sudah membaca jawaban pada pertanyaan serupa yang diajukan di sini , tetapi tidak cukup menjawab pertanyaan saya. Ada tutorial yang sangat baik tentang paket R yang saya gunakan di sini , dan penulis Jelle Goeman memiliki catatan berikut di akhir tutorial mengenai interval kepercayaan dari model regresi yang dihukum:
Merupakan pertanyaan yang sangat wajar untuk meminta kesalahan standar koefisien regresi atau jumlah perkiraan lainnya. Pada prinsipnya kesalahan standar seperti itu dapat dengan mudah dihitung, misalnya menggunakan bootstrap.
Meski begitu, paket ini sengaja tidak menyediakannya. Alasan untuk ini adalah bahwa kesalahan standar tidak terlalu berarti untuk estimasi yang sangat bias seperti yang timbul dari metode estimasi yang dihukum. Estimasi hukuman adalah prosedur yang mengurangi varians estimator dengan memperkenalkan bias substansial. Bias dari masing-masing estimator karena itu merupakan komponen utama dari kesalahan kuadrat rata-rata, sedangkan variansnya hanya berkontribusi sedikit.
Sayangnya, dalam sebagian besar aplikasi regresi yang dihukum tidak mungkin untuk mendapatkan estimasi bias yang cukup tepat. Setiap perhitungan berbasis bootstrap hanya dapat memberikan penilaian terhadap varian estimasi. Perkiraan bias yang dapat dipercaya hanya tersedia jika estimasi bias yang dapat diandalkan tersedia, yang biasanya tidak terjadi dalam situasi di mana estimasi hukuman digunakan.
Oleh karena itu, melaporkan kesalahan standar dari perkiraan hukuman hanya menceritakan sebagian dari cerita. Ini dapat memberikan kesan yang keliru tentang ketepatan tinggi, benar-benar mengabaikan ketidakakuratan yang disebabkan oleh bias. Tentu saja merupakan kesalahan untuk membuat pernyataan kepercayaan yang hanya didasarkan pada penilaian varian estimasi, seperti yang dilakukan interval kepercayaan berbasis bootstrap.