Saya akan lulus dari Master saya dan telah belajar tentang pembelajaran mesin serta melakukan proyek penelitian dengannya. Saya bertanya-tanya tentang praktik terbaik di industri saat melakukan tugas pembelajaran mesin dengan Kumpulan Data Besar (seperti 100-an GB atau TB). Menghargai jika sesama ilmuwan data dapat berbagi pengalaman mereka. Ini pertanyaan saya:
- Tentunya, dataset yang sangat besar membutuhkan waktu lebih lama untuk dilatih (bisa berhari-hari atau berminggu-minggu). Sering kali kita perlu melatih berbagai model (SVM, Neural Network, dll.) Untuk membandingkan dan menemukan model kinerja yang lebih baik. Saya curiga, dalam proyek industri, kami ingin hasilnya secepat mungkin tetapi menghasilkan kinerja terbaik. Apakah ada tips untuk mengurangi waktu pelatihan & pengujian? Jika Anda merekomendasikan untuk menyetel ulang dataset, saya akan tertarik untuk mempelajari cara terbaik untuk mengatur ulang dataset untuk mencakup semua atau sebagian besar skenario dari dataset.
- Kami tahu bahwa melakukan validasi silang lebih baik karena dapat mengurangi pemasangan berlebihan. Namun, validasi silang juga membutuhkan waktu untuk melatih dan model yang dilatih dengan validasi silang tidak dapat diimplementasikan secara langsung (berbicara dari pengalaman python sklearn: Saya perlu melatih model dengan dataset lagi setelah pengujian validasi silang untuk diterapkan). Apakah Anda biasanya melakukan validasi silang dalam proyek big data Anda atau bertahan dengan uji kereta api?
Hargai umpan baliknya.