Pada dasarnya, ada dua cara umum untuk belajar melawan kumpulan data besar (ketika Anda dihadapkan pada batasan waktu / ruang):
- Kecurangan :) - gunakan hanya subset "dikelola" untuk pelatihan. Hilangnya keakuratan dapat diabaikan karena hukum pengembalian yang semakin menurun - kinerja prediktif dari model tersebut seringkali mendatar jauh sebelum semua data pelatihan dimasukkan ke dalamnya.
- Komputasi paralel - memecah masalah menjadi bagian-bagian yang lebih kecil dan menyelesaikan masing-masing pada mesin / prosesor yang terpisah. Anda memerlukan versi paralel dari algoritme, tetapi kabar baiknya adalah banyak algoritma umum yang paralel secara alami: tetangga terdekat, pohon keputusan, dll.
Apakah ada metode lain? Apakah ada aturan praktis kapan harus menggunakan masing-masing? Apa kelemahan dari setiap pendekatan?