Anda harus berpisah sebelum pra-pemrosesan atau imputasi.
Pembagian antara pelatihan dan set tes adalah upaya untuk mereplikasi situasi di mana Anda memiliki informasi masa lalu dan sedang membangun model yang akan Anda uji pada informasi yang belum diketahui di masa mendatang: set pelatihan menggantikan masa lalu dan set tes mengambil tempat masa depan, sehingga Anda hanya bisa menguji model terlatih Anda sekali.
Dengan mengingat analogi masa lalu / masa depan, ini berarti apa pun yang Anda lakukan untuk melakukan pra-proses atau memproses data Anda, seperti memasukkan nilai-nilai yang hilang, yang harus Anda lakukan pada pelatihan yang ditetapkan saja. Anda kemudian dapat mengingat apa yang Anda lakukan pada set pelatihan Anda jika set tes Anda juga perlu pra-pemrosesan atau imputasi, sehingga Anda melakukannya dengan cara yang sama pada kedua set.
Ditambahkan dari komentar: jika Anda menggunakan data uji untuk mempengaruhi data pelatihan, maka data uji digunakan untuk membangun model Anda, sehingga tidak lagi menjadi data uji dan tidak akan memberikan uji yang adil terhadap model Anda. Anda berisiko overfitting, dan itu untuk mencegah ini bahwa Anda memisahkan data tes di tempat pertama