Pembelajaran streaming yang canggih

Saya telah bekerja dengan kumpulan data besar belakangan ini dan menemukan banyak makalah metode streaming. Untuk beberapa nama:

Ikuti-the-Regularized-Leader dan Mirror Descent: Teorema Kesetaraan dan Regularisasi L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
Streamed Learning: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
Pegasos: Primal Estimasi sub-GrAdient SOlver untuk SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
atau di sini: Dapatkah SVM melakukan stream belajar satu contoh pada suatu waktu?
Streaming Hutan Acak ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )

Namun, saya tidak dapat menemukan dokumentasi tentang bagaimana mereka membandingkan satu sama lain. Setiap artikel yang saya baca tampaknya menjalankan percobaan pada kumpulan data yang berbeda.

Saya tahu tentang sofia-ml, vowpal wabbit, tetapi mereka tampaknya menerapkan metode yang sangat sedikit, dibandingkan dengan sejumlah besar metode yang ada!

Apakah algoritma yang kurang umum tidak cukup performan? Apakah ada makalah yang mencoba meninjau metode sebanyak mungkin?

— RUser4512
sumber

Jika tidak ada, Anda harus menulisnya sendiri :)

— Chris C

Anda mengerti bahwa orang-orang di dunia akademis harus menulis makalah / membuat algoritma baru, dan mereka akan mencari set data yang paling baik digunakan untuk algoritme mereka. Saya akan merekomendasikan Anda hanya memastikan Anda memahami bagaimana satu perpustakaan seperti vowpal-wabbit berjalan (yaitu semua parameter dll).

— seanv507

Itu justru sebaliknya! Saya mengerti bahwa orang memilih set data terbaik dan umumnya relatif diam tentang bagaimana mereka memvalidasi silang algoritma (baik metode mereka dan metode yang bersaing). Saya lebih suka mencari versi streaming dari jmlr.org/papers/volume15/delgado14a/delgado14a.pdf

— RUser4512

Sangat suka kertas JMLR yang Anda tautkan. Saya sendiri jadi tidak tahu perbandingan yang serupa untuk algoritma streaming. Mungkin karena streaming lebih bersifat niche dan juga karena sementara itu sudah sulit untuk membandingkan pengklasifikasi untuk dataset statis, bahkan lebih rumit untuk membuat perbandingan yang adil untuk streaming data.

— stats0007

Meskipun ini tidak secara khusus menjawab pertanyaan Anda, dua sumber daya terkait adalah: Mengevaluasi Algoritma yang Belajar dari Aliran Data oleh Gama et al., Yang membahas teknik evaluasi, dan MOA (Massive Online Analysis) , kerangka kerja sumber terbuka untuk penambangan aliran data yang menggabungkan kemampuan untuk mengevaluasi kinerja.

— user77876

Sejauh ini yang saya ketahui, survei ketat terhadap beberapa algoritma yang mirip dengan kertas Delgado yang Anda tautkan, tetapi ada upaya untuk mengumpulkan hasil untuk keluarga algoritma.

Berikut adalah beberapa sumber yang saya temukan berguna (penafian: Saya menerbitkan di daerah, sehingga kemungkinan saya bias dalam pilihan saya):

Sebuah survei tentang Ensemble Learning untuk Klasifikasi Aliran Data (Survei)
Pembelajaran Online dan Optimalisasi Cembung Online (Laporan Teknis)
Pembelajaran Mesin Online dalam Arus Data Besar (Survei)
Pembelajaran Mesin untuk Aliran Data (Buku)
Algoritma untuk Belajar Pohon Regresi dan Ensemble pada Evolving Data Streams (Tesis PhD)
Belajar di bawah Drift Konsep: Tinjauan (Survei)
Pembelajaran Online Optimal dan Adaptif (Tesis PhD)
Pembelajaran Adaptif dan Penambangan untuk Aliran Data dan Pola yang Sering (Tesis PhD)

Beberapa paket perangkat lunak:

Saya dapat menambahkan lebih banyak info dan sumber jika diperlukan. Seperti yang dikatakan orang lain, lapangan dapat menggunakan survei yang komprehensif.

— Bar
sumber