Saya sedang membangun model prediktif yang memperkirakan probabilitas keberhasilan siswa di akhir semester. Saya secara khusus tertarik pada apakah siswa berhasil atau gagal, di mana kesuksesan biasanya didefinisikan sebagai menyelesaikan kursus dan mencapai 70% atau lebih poin dari total poin yang mungkin.
Ketika saya menggunakan model, estimasi probabilitas keberhasilan perlu diperbarui melalui waktu karena lebih banyak informasi tersedia - idealnya segera setelah sesuatu terjadi, seperti ketika seorang siswa mengajukan tugas atau mendapat nilai satu. Pembaruan ini kedengarannya seperti Bayesian bagi saya, tetapi mengingat pelatihan saya dalam statistik pendidikan, itu sedikit di luar zona kenyamanan saya.
Sejauh ini saya telah menggunakan regresi logistik (sebenarnya laso) dengan kumpulan data historis yang berisi snapshot berbasis minggu. Kumpulan data ini memiliki korelasi pengamatan, karena setiap siswa memiliki pengamatan; pengamatan untuk satu siswa berkorelasi. Saya tidak secara khusus memodelkan korelasi dalam pengamatan mingguan siswa tertentu. Saya percaya bahwa saya hanya perlu mempertimbangkan bahwa dalam pengaturan inferensial karena kesalahan standar akan terlalu kecil. Saya pikir - tetapi tidak yakin tentang hal ini - bahwa satu-satunya masalah yang timbul dari pengamatan yang berkorelasi adalah bahwa saya harus berhati-hati ketika melakukan cross-validate untuk menjaga pengamatan yang terkelompok dalam satu subset data, sehingga saya tidak mendapatkan tingkat kesalahan out-of-sample rendah artifisial berdasarkan membuat prediksi tentang seseorang yang telah dilihat model.
Saya menggunakan paket glmnet R untuk melakukan laso dengan model logistik untuk menghasilkan probabilitas keberhasilan / kegagalan dan untuk secara otomatis memilih prediktor untuk kursus tertentu. Saya telah menggunakan variabel minggu sebagai faktor, berinteraksi dengan semua prediktor lainnya. Saya tidak berpikir ini berbeda secara umum dari hanya memperkirakan masing-masing model berbasis minggu kecuali bahwa itu memberikan beberapa ide tentang bagaimana mungkin ada beberapa model umum yang berlaku selama jangka waktu yang disesuaikan melalui berbagai faktor penyesuaian risiko pada minggu yang berbeda.
Pertanyaan utama saya adalah ini: Apakah ada cara yang lebih baik untuk memperbarui probabilitas klasifikasi dari waktu ke waktu daripada hanya membagi data yang ditetapkan ke dalam snapshot mingguan (atau berbasis interval lainnya), memperkenalkan variabel faktor periode waktu yang berinteraksi dengan setiap fitur lainnya, dan menggunakan fitur kumulatif (poin kumulatif didapat, hari kumulatif di kelas, dll)?
Pertanyaan kedua saya adalah: apakah saya kehilangan sesuatu yang penting di sini tentang pemodelan prediktif dengan pengamatan berkorelasi?
Pertanyaan ketiga saya adalah: bagaimana saya bisa menggeneralisasi ini menjadi pembaruan waktu nyata, mengingat saya melakukan snapshot mingguan? Saya berencana untuk hanya memasukkan variabel untuk interval mingguan saat ini, tetapi ini tampaknya tidak menyenangkan bagi saya.
FYI, saya terlatih dalam statistik pendidikan terapan tetapi memiliki latar belakang dalam statistik matematika sejak dulu. Saya dapat melakukan sesuatu yang lebih canggih jika itu masuk akal tetapi saya perlu dijelaskan dengan istilah yang relatif mudah diakses.