Ketika Anda memiliki kumpulan data yang begitu besar, Anda dapat bermain dengan salah satu teknik pemodelan statistik dan pembelajaran mesin dan itu sangat dianjurkan. Seperti yang lain telah menyarankan saya juga akan merekomendasikan untuk mengambil beberapa juta sampel acak dari data dan bermain dengannya. Karena ini adalah masalah klasifikasi saya akan mengikuti teknik klasifikasi sederhana terlebih dahulu dan kemudian melanjutkan dengan yang lebih kompleks nanti. Regresi logistik bagus untuk memulai.
Saya ingin menambahkan bahwa model generatif juga harus dicoba. Klasifikasi Naif Bayes adalah salah satu pengklasifikasi probabilistik yang paling sederhana dan mengungguli banyak metode kompleks seperti mesin vektor dukungan pada banyak tugas. Anda dapat melihat ini pelaksanaan sederhana NB dan ini link untuk perbandingan NB untuk regresi logistik.
Seseorang dapat membangun classifier Naif bayes (NB) sebagai model dasar dan kemudian pergi untuk teknik pembelajaran mesin seperti Support Vector Machines (SVM) atau multilayer perceptrons (MLP). Sebuah trade off di sini adalah bahwa NB secara komputasi lebih murah daripada MLP sehingga diinginkan kinerja yang lebih baik dari MLP.
Datang ke pertanyaan Anda: Pembelajaran mendalam dan peningkatan pohon gradien adalah teknik yang sangat kuat yang dapat memodelkan segala jenis hubungan dalam data. Tetapi bagaimana jika dalam kasus Anda regresi logistik sederhana atau NB memberikan akurasi yang diinginkan. Jadi selalu lebih baik untuk mencoba teknik-teknik sederhana terlebih dahulu dan memiliki kinerja dasar. Maka seseorang dapat pergi untuk model yang kompleks dan membandingkannya dengan baseline.