Dimensi tinggi, data berkorelasi dan fitur / kovariat teratas ditemukan; pengujian hipotesis berganda?

Saya memiliki dataset dengan sekitar 5.000 fitur / kovariat yang sering berkorelasi dan respons biner. Data itu diberikan kepada saya, saya tidak mengumpulkannya. Saya menggunakan Lasso dan meningkatkan gradien untuk membangun model. Saya menggunakan iterasi, validasi cross bersarang. Saya melaporkan 40 koefisien terbesar (absolut) Lasso dan 40 fitur terpenting dalam gradien boosted tree (tidak ada yang istimewa tentang 40; sepertinya hanya sejumlah informasi yang masuk akal). Saya juga melaporkan varian jumlah ini pada lipatan dan iterasi CV.

Saya agak merenungkan fitur "penting", tidak membuat pernyataan tentang nilai-p atau hubungan sebab akibat atau apa pun, tetapi sebaliknya mempertimbangkan proses ini semacam --- meskipun tidak sempurna dan semacam acak --- wawasan tentang beberapa fenomena.

Dengan asumsi saya telah melakukan semua ini dengan benar (mis., Menjalankan validasi silang dengan benar, diskalakan untuk laso), apakah pendekatan ini masuk akal? Apakah ada masalah dengan, misalnya, pengujian hipotesis berganda, analisis post hoc, penemuan palsu? Atau masalah lain?

Objektif

Memprediksi kemungkinan kejadian buruk

Yang terpenting, perkirakan probabilitas secara akurat
Lebih kecil - sebagai pemeriksaan kewarasan, tetapi juga untuk mungkin mengungkapkan beberapa prediktor baru yang dapat diselidiki lebih lanjut, periksa koefisien dan kepentingan seperti yang disebutkan di atas.

Konsumen

Peneliti tertarik untuk memprediksi peristiwa ini dan orang-orang yang akhirnya harus memperbaiki acara jika itu terjadi

Apa yang saya ingin mereka dapatkan darinya

Beri mereka kemampuan untuk memprediksi acara, jika mereka ingin mengulangi proses pemodelan, seperti yang dijelaskan, dengan data mereka sendiri.
Jelaskan beberapa prediksi yang tidak terduga. Misalnya, mungkin ternyata sesuatu yang sama sekali tidak terduga adalah prediktor terbaik. Oleh karena itu, para pemodel di tempat lain mungkin memberikan pertimbangan yang lebih serius kepada prediktor tersebut.

— pengguna0
sumber

Akan bermanfaat untuk mengetahui apa maksudnya di sini. Anda melakukan hal-hal ini, mengapa? Siapa konsumen, dan apa yang Anda inginkan dari analisis?

— Matthew Drury

Tidak ada masalah dengan keakuratan prediksi. Ketidakpastian dalam prediksi Anda diestimasi dengan baik oleh crossvalidation. Mungkin ada satu peringatan bahwa jika Anda menguji banyak pengaturan parameter, maka Anda melebih-lebihkan keakuratannya, jadi Anda harus menggunakan set validasi untuk memperkirakan keakuratan model akhir Anda. Selain itu, data Anda harus mewakili data yang akan Anda prediksi.

Jelas bagi Anda, dan harus jelas bagi pembaca, bahwa prediktor Anda bukan penyebab efeknya, mereka hanya prediktor yang membuat prediksi yang baik, dan bekerja dengan baik secara empiris. Meskipun saya sepenuhnya setuju dengan kehati-hatian Anda, menyimpulkan sebab-akibat dari data pengamatan adalah masalah dalam hal apa pun. Hal-hal seperti signifikansi dan semacamnya adalah konsep "valid" dalam studi yang dirancang dengan baik, terkontrol, dan di luar itu semuanya hanyalah alat yang Anda, dan orang lain, harus tafsirkan secara bijak dan hati-hati. Mungkin ada penyebab umum, efek palsu, masking, dan hal-hal lain yang terjadi dalam regresi linier normal dengan interval kepercayaan yang dilaporkan, serta dalam model laso, serta dalam model pohon yang dikuatkan dengan gradien.

— Gijs
sumber