Saya telah bekerja dengan kumpulan data besar belakangan ini dan menemukan banyak makalah metode streaming. Untuk beberapa nama:
- Ikuti-the-Regularized-Leader dan Mirror Descent: Teorema Kesetaraan dan Regularisasi L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Streamed Learning: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal Estimasi sub-GrAdient SOlver untuk SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- atau di sini: Dapatkah SVM melakukan stream belajar satu contoh pada suatu waktu?
- Streaming Hutan Acak ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Namun, saya tidak dapat menemukan dokumentasi tentang bagaimana mereka membandingkan satu sama lain. Setiap artikel yang saya baca tampaknya menjalankan percobaan pada kumpulan data yang berbeda.
Saya tahu tentang sofia-ml, vowpal wabbit, tetapi mereka tampaknya menerapkan metode yang sangat sedikit, dibandingkan dengan sejumlah besar metode yang ada!
Apakah algoritma yang kurang umum tidak cukup performan? Apakah ada makalah yang mencoba meninjau metode sebanyak mungkin?