Saya telah bekerja pada pembelajaran mesin dan bioinformatika untuk sementara waktu, dan hari ini saya berbicara dengan seorang kolega tentang masalah umum utama dari penambangan data.
Rekan saya (yang ahli dalam pembelajaran mesin) mengatakan bahwa, menurut pendapatnya, aspek praktis yang paling penting dari pembelajaran mesin adalah bagaimana memahami apakah Anda telah mengumpulkan cukup data untuk melatih model pembelajaran mesin Anda .
Pernyataan ini mengejutkan saya, karena saya tidak pernah terlalu mementingkan aspek ini ...
Saya kemudian mencari lebih banyak informasi di internet, dan saya menemukan posting ini di pelaporan FastML.com sebagai aturan praktis bahwa Anda memerlukan sekitar 10 kali lebih banyak contoh data karena ada fitur .
Dua pertanyaan:
1 - Apakah masalah ini benar-benar relevan dalam pembelajaran mesin?
2 - Apakah aturan 10 kali berfungsi? Apakah ada sumber lain yang relevan untuk tema ini?