Dari sudut pandang saya, pertanyaan ini cocok untuk jawaban dua langkah. Bagian pertama, sebut saja soft preprocessing , dapat dianggap sebagai penggunaan berbagai algoritma penambangan data untuk preproses data sedemikian rupa sehingga membuatnya cocok untuk analisis lebih lanjut. Perhatikan bahwa ini bisa menjadi analisis itu sendiri, jika tujuannya cukup sederhana untuk ditangani dalam satu tembakan.
Bagian kedua, preprocessing keras , sebenarnya datang sebelum proses lain, dan dapat diambil sebagai penggunaan alat atau skrip sederhana untuk membersihkan data, memilih konten tertentu untuk diproses. Untuk masalah ini, POSIX memberi kami seperangkat alat ajaib yang luar biasa, yang dapat digunakan untuk menyusun skrip preprocessing yang ringkas - dan sangat kuat.
Misalnya, untuk orang yang berurusan dengan data yang berasal dari situs web sosial (twitter, facebook, ...), pengambilan data biasanya menghasilkan file dengan format yang sangat spesifik - meskipun tidak selalu terstruktur dengan baik, karena mungkin berisi bidang yang hilang, dan sebagainya . Untuk kasus ini, awk
skrip sederhana dapat membersihkan data, menghasilkan file input yang valid untuk diproses nanti. Dari set sihir, salah satu mungkin juga menunjukkan grep
, sed
, cut
, join
, paste
, sort
, dan seluruh banyak alat-alat lain.
Dalam kasus sederhana, file sumber memiliki terlalu banyak seluk-beluk, mungkin juga perlu untuk menghasilkan kumpulan metode untuk membersihkan data. Dalam kasus seperti itu, biasanya lebih baik menggunakan bahasa scripting (selain yang shell), seperti Python, Ruby, dan Perl. Ini memungkinkan untuk membangun API untuk memilih data spesifik dengan cara yang sangat mudah dan dapat digunakan kembali. API semacam itu terkadang dipublikasikan oleh penulisnya, seperti IMDbPY , Stack Exchange API , dan banyak lainnya.
Jadi, menjawab pertanyaan: apakah ada praktik terbaik? Biasanya tergantung pada tugas Anda. Jika Anda akan selalu berurusan dengan format data yang sama, biasanya yang terbaik adalah menulis skrip terorganisir untuk memprosesnya; sedangkan, jika Anda hanya memerlukan pembersihan sederhana dan cepat pada beberapa dataset, mengandalkan alat POSIX untuk skrip shell ringkas yang akan melakukan keseluruhan pekerjaan lebih cepat daripada skrip Python, atau lebih. Karena pembersihan tergantung pada dataset dan pada tujuan Anda, sulit untuk melakukan semuanya. Namun, ada banyak API yang menempatkan Anda di tengah jalan dengan masalah.