Ada hal-hal dasar yang dapat Anda lakukan dengan set data apa pun:
- Validasi nilai (Toleransi panjang string, tipe data, topeng pemformatan, keberadaan bidang yang diperlukan, dll.)
- Rentang kebenaran (Apakah data yang tampaknya benar ini berada dalam rentang nilai yang diharapkan)
- Pemrosesan awal (Jika saya mencoba menganalisis data ini, dapatkah saya melakukan dasar-dasarnya tanpa mengalami kesalahan)
- Pelaporan awal (menjalankan laporan terhadap kumpulan data dan memastikan bahwa ia lulus tes kewarasan)
- Mendefinisikan nol vs kosong vs nol vs Salah untuk kolom data yang diberikan
- Mengidentifikasi data yang tidak pada tempatnya (nilai numerik berbeda secara dramatis dari nilai lain dalam kumpulan data, nilai string yang terlihat seperti salah eja, dll.)
- Menghilangkan atau memperbaiki data yang keliru
Memahami data untuk mengidentifikasi kesalahan adalah permainan bola yang sepenuhnya berbeda, dan ini sangat penting.
Misalnya, Anda dapat memiliki aturan yang mengatakan nomor seri harus ada dalam kumpulan data yang diberikan dan nomor seri harus alfanumerik dengan panjang string maksimum 255 dan panjang string minimum 5.
Melihat data, Anda mungkin menemukan satu nomor seri tertentu dibaca "PLEASE ENTER SERIAL"
itu valid, tetapi salah.
Itu agak jelas, tetapi katakan Anda sedang memproses data stok dan Anda memiliki kisaran harga untuk 1000 saham yang di bawah satu dolar. Banyak orang tidak akan tahu bahwa harga saham yang sangat rendah tidak valid di bursa tertentu dan benar-benar berlaku untuk yang lain. Anda perlu pengetahuan tentang data Anda untuk memahami jika apa yang Anda lihat bermasalah atau tidak.
Di dunia nyata, Anda tidak selalu memiliki kemewahan dalam memahami data secara intim.
Cara saya menghindari masalah adalah dengan memanfaatkan orang-orang di sekitar saya. Untuk kumpulan data kecil, saya dapat meminta seseorang untuk meninjau data secara keseluruhan. Untuk yang besar, menarik satu set sampel acak dan meminta seseorang untuk melakukan pemeriksaan kewarasan pada data lebih tepat.
Lebih lanjut, mempertanyakan sumber data dan seberapa baik sumber data itu bisa dipercaya sangat penting. Saya sering memiliki banyak sumber data yang saling bertentangan dan kami membuat aturan untuk menentukan "sumber kebenaran". Terkadang satu set data memiliki data hebat dalam aspek tertentu, tetapi set data lainnya lebih kuat di area lain.
Data yang dimasukkan secara manual biasanya adalah yang paling saya skeptis tentangnya, tetapi dalam beberapa kasus ini lebih kuat daripada apa pun yang dapat diperoleh melalui otomatisasi.