Misalkan Anda menganalisis kumpulan data besar dengan jumlah milyaran pengamatan per hari, di mana setiap pengamatan memiliki beberapa ribu variabel yang mungkin jarang dan variabel numerik dan kategororial yang berlebihan. Katakanlah ada satu masalah regresi, satu masalah klasifikasi biner yang tidak seimbang, dan satu tugas "mencari tahu prediktor mana yang paling penting." Pemikiran saya untuk bagaimana mendekati masalah adalah:
Cocokkan beberapa model prediksi pada sub-sampel data yang lebih besar dan lebih besar secara acak hingga:
Memasang dan memvalidasi silang model menjadi sulit secara komputasi (misalnya, laptop saya lambat, R kehabisan memori, dll.), ATAU
Pelatihan dan uji RMSE atau nilai presisi / recall stabil.
Jika kesalahan pelatihan dan pengujian tidak stabil (1.), gunakan model yang lebih sederhana dan / atau laksanakan versi multicore atau multinode dari model dan mulai kembali dari awal.
Jika kesalahan pelatihan dan tes stabil (2.):
Jika (yaitu, saya masih dapat menjalankan algoritma pada karena belum terlalu besar), cobalah untuk meningkatkan kinerja dengan memperluas ruang fitur atau menggunakan model yang lebih kompleks dan memulai kembali dari awal.
Jika 'besar' dan menjalankan analisis lebih lanjut adalah mahal, analisis variabel pentingnya dan akhiri.
Saya berencana untuk menggunakan paket seperti biglm
, speedglm
, multicore
, dan ff
di R awalnya, dan kemudian menggunakan algoritma yang lebih rumit dan / atau multinode (pada EC2) yang diperlukan.
Apakah ini terdengar seperti pendekatan yang masuk akal, dan jika demikian, apakah Anda memiliki saran atau saran khusus? Jika tidak, apa yang akan Anda coba sebagai ganti set data ukuran ini?