Secara tradisional kami menggunakan model campuran untuk memodelkan data longitudinal, yaitu data seperti:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
kita dapat mengasumsikan intersep atau lereng acak untuk orang yang berbeda. Namun pertanyaan yang saya coba selesaikan akan melibatkan kumpulan data yang sangat besar (jutaan orang, pengamatan harian 1 bulan, yaitu setiap orang akan memiliki 30 pengamatan), saat ini saya tidak tahu apakah ada paket yang bisa melakukan tingkat data ini.
Saya memiliki akses ke percikan / mahout, tetapi mereka tidak menawarkan model campuran, pertanyaan saya adalah, adakah di sana saya dapat memodifikasi data saya sehingga saya dapat menggunakan RandomForest atau SVM untuk memodelkan dataset ini?
Adakah teknik rekayasa fitur yang dapat saya manfaatkan sehingga dapat membantu RF / SVM untuk memperhitungkan korelasi-otomatis?
Terimakasih banyak!
Beberapa metode potensial tetapi saya tidak mampu menyediakan waktu untuk menulisnya menjadi percikan
Bagaimana saya bisa memasukkan efek acak ke dalam randomForest