Pendekatan saat belajar dari kumpulan data besar?


10

Pada dasarnya, ada dua cara umum untuk belajar melawan kumpulan data besar (ketika Anda dihadapkan pada batasan waktu / ruang):

  1. Kecurangan :) - gunakan hanya subset "dikelola" untuk pelatihan. Hilangnya keakuratan dapat diabaikan karena hukum pengembalian yang semakin menurun - kinerja prediktif dari model tersebut seringkali mendatar jauh sebelum semua data pelatihan dimasukkan ke dalamnya.
  2. Komputasi paralel - memecah masalah menjadi bagian-bagian yang lebih kecil dan menyelesaikan masing-masing pada mesin / prosesor yang terpisah. Anda memerlukan versi paralel dari algoritme, tetapi kabar baiknya adalah banyak algoritma umum yang paralel secara alami: tetangga terdekat, pohon keputusan, dll.

Apakah ada metode lain? Apakah ada aturan praktis kapan harus menggunakan masing-masing? Apa kelemahan dari setiap pendekatan?

Jawaban:


10

Stream Mining adalah satu jawaban. Itu juga disebut:

  • Penambangan Aliran Data
  • Pembelajaran online
  • Pembelajaran Online Masif

    Alih-alih menempatkan semua data yang diatur dalam memori dan pelatihan darinya. Mereka menempatkan potongan-potongan itu di memori dan melatih classifier / cluster dari aliran potongan ini. Lihat tautan berikut.

  • Data_stream_mining dari wikipedia.

  • MOA: Analisis Online Masif

  • Mining of Datasets Massive Book , Dari Stanford University. Menggunakan MapReduce sebagai alat.

  • Video di videolectures.net. Cari video serupa ada di situs itu.


setuju, kotak peralatan MOA akan menjadi tempat yang baik untuk memulai
tdc

7

Alih-alih menggunakan hanya satu himpunan bagian, Anda bisa menggunakan beberapa himpunan bagian seperti dalam pembelajaran mini-batch (mis. Penurunan gradien stokastik). Dengan cara ini Anda masih akan menggunakan semua data Anda.


Aha itu poin yang bagus - saya mengklarifikasi pertanyaannya. Saya tertarik pada sebuah skenario ketika Anda dihadapkan dengan batasan waktu / ruang dan "tidak mampu" belajar mini-batch.
andreister

1

Ensemble seperti mengantongi atau memadukan - tidak ada data yang terbuang, masalah secara otomatis menjadi paralel paralel dan mungkin ada keakuratan / penguatan yang signifikan.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.