Untuk pemodelan prediktif, apakah kita perlu memusatkan perhatian pada diri kita dengan konsep statistik seperti efek acak dan tidak independennya pengamatan (tindakan berulang)? Sebagai contoh....
Saya memiliki data dari 5 kampanye pengiriman langsung (terjadi selama setahun) dengan berbagai atribut dan tanda untuk pembelian. Idealnya, saya akan menggunakan semua data ini dikombinasikan untuk membangun model untuk pembelian atribut pelanggan yang diberikan pada saat kampanye. Alasannya adalah bahwa peristiwa pembelian jarang terjadi dan saya ingin menggunakan informasi sebanyak mungkin. Ada kemungkinan bahwa pelanggan tertentu dapat berada di mana saja dari 1 hingga 5 kampanye - artinya tidak ada independensi di antara catatan tersebut.
Apakah ini penting saat menggunakan:
1) Pendekatan pembelajaran mesin (mis. Pohon, MLP, SVM)
2) Pendekatan statistik (regresi logistik)?
**ADD:**
Pemikiran saya tentang pemodelan prediktif adalah jika model itu berhasil, gunakan saja Sehingga saya tidak pernah benar-benar mempertimbangkan pentingnya asumsi. Memikirkan kasus yang saya jelaskan di atas membuat saya bertanya-tanya.
Ambil algoritma pembelajaran mesin seperti a MLP and SVM
. Ini digunakan dengan sukses untuk memodelkan peristiwa biner seperti contoh saya di atas tetapi juga data deret waktu yang jelas berkorelasi. Namun, banyak menggunakan fungsi kerugian yang kemungkinan dan diturunkan dengan asumsi kesalahan itu benar. Sebagai contoh, gradien boosted tree dalam R gbm
menggunakan fungsi deviance loss yang diturunkan dari binomial ( Halaman 10 ).