Saya memiliki dataset dengan sekitar 5.000 fitur / kovariat yang sering berkorelasi dan respons biner. Data itu diberikan kepada saya, saya tidak mengumpulkannya. Saya menggunakan Lasso dan meningkatkan gradien untuk membangun model. Saya menggunakan iterasi, validasi cross bersarang. Saya melaporkan 40 koefisien terbesar (absolut) Lasso dan 40 fitur terpenting dalam gradien boosted tree (tidak ada yang istimewa tentang 40; sepertinya hanya sejumlah informasi yang masuk akal). Saya juga melaporkan varian jumlah ini pada lipatan dan iterasi CV.
Saya agak merenungkan fitur "penting", tidak membuat pernyataan tentang nilai-p atau hubungan sebab akibat atau apa pun, tetapi sebaliknya mempertimbangkan proses ini semacam --- meskipun tidak sempurna dan semacam acak --- wawasan tentang beberapa fenomena.
Dengan asumsi saya telah melakukan semua ini dengan benar (mis., Menjalankan validasi silang dengan benar, diskalakan untuk laso), apakah pendekatan ini masuk akal? Apakah ada masalah dengan, misalnya, pengujian hipotesis berganda, analisis post hoc, penemuan palsu? Atau masalah lain?
Objektif
Memprediksi kemungkinan kejadian buruk
- Yang terpenting, perkirakan probabilitas secara akurat
- Lebih kecil - sebagai pemeriksaan kewarasan, tetapi juga untuk mungkin mengungkapkan beberapa prediktor baru yang dapat diselidiki lebih lanjut, periksa koefisien dan kepentingan seperti yang disebutkan di atas.
Konsumen
- Peneliti tertarik untuk memprediksi peristiwa ini dan orang-orang yang akhirnya harus memperbaiki acara jika itu terjadi
Apa yang saya ingin mereka dapatkan darinya
Beri mereka kemampuan untuk memprediksi acara, jika mereka ingin mengulangi proses pemodelan, seperti yang dijelaskan, dengan data mereka sendiri.
Jelaskan beberapa prediksi yang tidak terduga. Misalnya, mungkin ternyata sesuatu yang sama sekali tidak terduga adalah prediktor terbaik. Oleh karena itu, para pemodel di tempat lain mungkin memberikan pertimbangan yang lebih serius kepada prediktor tersebut.