Katakanlah Model dilatih pada tanggal menggunakan data berlabel yang tersedia, dibagi menjadi pelatihan dan uji yaitu , . Model ini kemudian digunakan dalam produksi dan membuat prediksi pada data baru yang masuk. Beberapa hari berlalu, dan ada banyak data berlabel yang dikumpulkan di antaranya dan hari, sebut saja . Dalam pendekatan saya saat ini, saya mengambil sampel acak dari (ambil mis. split 80/20),
Begitu, dari = (data baru digunakan untuk menyempurnakan model yang ada saat ini ) dari = (data baru ditambahkan ke )
Proses fine-tuning ini diulang seiring berjalannya waktu.
Dengan melakukan ini saya mendapatkan set tes yang terus berkembang, serta saya mencegah pelatihan ulang seluruh model (pada dasarnya saya dapat membuang data lama seperti model telah belajar dari itu). Model baru yang dihasilkan hanyalah versi lama dari model lama.
Saya punya beberapa pertanyaan, mengenai pendekatan ini:
- Apakah ada kelemahan yang jelas dalam melakukan ini?
- Apakah model tersebut perlu dilatih ulang sepenuhnya (melupakan semua yang telah dipelajari sebelumnya, dan melatih model dengan kereta baru / split tes) setelah beberapa waktu atau dapatkah pendekatan yang saya jelaskan di atas berlanjut tanpa batas waktu?
- Apa yang harus menjadi kondisi untuk menukar model yang digunakan sekarang dengan model yang baru disesuaikan?