Saya mengerjakan banyak pemodelan statistik, seperti Hidden Markov Models dan Gaussian Mixture Models. Saya melihat bahwa melatih model-model yang baik dalam setiap kasus ini membutuhkan sejumlah besar (> 20.000 kalimat untuk HMM) data yang diambil dari lingkungan yang sama dengan penggunaan akhir. Pertanyaanku adalah:
- Apakah ada konsep data pelatihan "cukup" dalam literatur? Berapa banyak data pelatihan yang "cukup baik"?
- Bagaimana saya bisa menghitung berapa banyak kalimat yang diperlukan untuk model "baik" (yang memberikan akurasi pengakuan yang baik (> 80%)) untuk dilatih?
- Bagaimana saya tahu jika model telah dilatih dengan benar? Akankah koefisien dalam model mulai menunjukkan fluktuasi acak? Jika demikian, bagaimana cara membedakan fluktuasi acak dan perubahan nyata karena pembaruan model?
Silakan retag pertanyaan ini seandainya dibutuhkan lebih banyak tag.