Menerapkan EDA pada data uji adalah salah.
Pelatihan adalah proses melihat jawaban yang benar untuk menciptakan model terbaik. Proses ini tidak hanya terbatas pada menjalankan kode pada data pelatihan. Menggunakan informasi dari EDA untuk memutuskan model mana yang akan digunakan, untuk mengubah parameter, dan sebagainya adalah bagian dari proses pelatihan dan karenanya tidak boleh diizinkan mengakses data uji. Jadi jujur pada diri sendiri, gunakan data uji hanya untuk memeriksa kinerja model Anda.
Juga, jika Anda menyadari bahwa model tidak berkinerja baik selama pengujian dan kemudian Anda kembali menyesuaikan model Anda, maka itu juga tidak baik. Alih-alih, bagi data pelatihan Anda menjadi dua. Gunakan satu untuk pelatihan dan lainnya untuk menguji dan mengubah model Anda. Lihat Apa perbedaan antara set tes dan set validasi?