Ini membantu untuk memahami bagaimana data direkam.
Biarkan saya berbagi cerita . Dahulu kala, banyak set data disimpan hanya dalam bentuk fading hardcopy. Pada masa-masa kelam itu saya membuat kontrak dengan sebuah organisasi (dengan silsilah dan ukuran besar; banyak dari Anda mungkin memiliki sahamnya) untuk mengomputerisasi sekitar 10 ^ 5 catatan data pemantauan lingkungan di salah satu pabriknya. Untuk melakukan ini, saya pribadi menandai rak laporan laboratorium (untuk menunjukkan di mana data itu berada), membuat formulir entri data, dan dikontrak dengan agen temporer untuk melek hurufpekerja mengetik data ke dalam formulir. (Ya, Anda harus membayar ekstra untuk orang yang bisa membaca.) Karena nilai dan sensitivitas data, saya melakukan proses ini secara paralel dengan dua pekerja sekaligus (yang biasanya berubah dari hari ke hari). Butuh beberapa minggu. Saya menulis perangkat lunak untuk membandingkan dua set entri, secara sistematis mengidentifikasi dan memperbaiki semua kesalahan yang muncul.
Anak laki-laki ada kesalahan! Apa yang salah? Cara yang baik untuk menggambarkan dan mengukur kesalahan adalah pada tingkat catatan dasar , yang dalam situasi ini adalah deskripsi hasil analisis tunggal (konsentrasi beberapa bahan kimia, sering) untuk sampel tertentu yang diperoleh pada titik pemantauan tertentu pada suatu tanggal tertentu. Dalam membandingkan dua set data, saya menemukan:
Kesalahan kelalaian : satu dataset akan menyertakan catatan, yang lain tidak. Ini biasanya terjadi karena (a) satu atau dua baris akan diabaikan di bagian bawah halaman atau (b) seluruh halaman akan dilewati.
Kesalahan jelas kelalaian yang benar-benar kesalahan entri data. Catatan diidentifikasi oleh nama titik pemantauan, tanggal, dan "analit" (biasanya nama kimia). Jika salah satu dari ini memiliki kesalahan ketik, itu tidak akan cocok dengan catatan lain yang terkait dengannya. Akibatnya, catatan yang benar menghilang dan catatan yang salah muncul.
Duplikasi palsu . Hasil yang sama dapat muncul dalam berbagai sumber, ditranskrip beberapa kali, dan tampaknya merupakan tindakan berulang yang benar ketika tidak. Duplikat mudah untuk dideteksi, tetapi memutuskan apakah itu salah tergantung pada mengetahui apakah duplikat akan muncul di dataset. Terkadang Anda tidak bisa tahu.
Kesalahan entri data Frank . Yang "baik" mudah ditangkap karena mereka mengubah jenis datum: menggunakan huruf "O" untuk digit "0", misalnya, mengubah angka menjadi bukan-angka. Kesalahan baik lainnya mengubah nilainya sehingga dapat dideteksi dengan uji statistik. (Dalam satu kasus, digit utama dalam "1.000.010 mg / Kg" terputus, meninggalkan nilai 10. Itu adalah perubahan besar ketika Anda berbicara tentang konsentrasi pestisida!) Kesalahan buruk sulit ditangkap karena mereka berubah nilai menjadi satu yang cocok (semacam) dengan sisa data, seperti mengetik "80" untuk "50". (Kesalahan semacam ini terjadi pada perangkat lunak OCR sepanjang waktu.)
Transposisi . Nilai yang benar dapat dimasukkan tetapi dikaitkan dengan kunci rekaman yang salah. Ini berbahaya, karena karakteristik statistik global dari dataset mungkin tetap tidak berubah, tetapi perbedaan palsu dapat dibuat antar kelompok. Mungkin hanya mekanisme seperti double-entry yang mampu mendeteksi kesalahan ini.
Setelah Anda mengetahui kesalahan ini dan mengetahui, atau memiliki teori, bagaimana hal itu terjadi, Anda dapat menulis skrip untuk mengendalikan set data Anda tentang kemungkinan adanya kesalahan tersebut dan menandai mereka untuk perhatian lebih lanjut. Anda tidak selalu dapat menyelesaikannya, tetapi setidaknya Anda dapat menyertakan bidang "komentar" atau "tanda kualitas" untuk menemani data selama analisis mereka nanti.
Sejak saat itu saya telah memperhatikan masalah kualitas data dan memiliki lebih banyak peluang untuk melakukan pemeriksaan komprehensif terhadap data statistik besar. Tidak ada yang sempurna; mereka semua mendapat manfaat dari pemeriksaan kualitas. Beberapa prinsip yang telah saya kembangkan selama bertahun-tahun untuk melakukan ini termasuk
Kapan pun memungkinkan, buat redundansi dalam entri data dan prosedur transkripsi data: checksum, total, entri berulang: apa pun untuk mendukung pemeriksaan internal otomatis atas konsistensi.
Jika mungkin, buat dan manfaatkan basis data lain yang menggambarkan seperti apa data itu: yaitu, metadata yang bisa dibaca komputer. Misalnya, dalam eksperimen obat Anda mungkin tahu sebelumnya bahwa setiap pasien akan terlihat tiga kali. Ini memungkinkan Anda untuk membuat database dengan semua catatan yang benar dan pengidentifikasi mereka dengan nilai yang hanya menunggu untuk diisi. Isi dengan data yang diberikan kepada Anda dan kemudian periksa duplikat, kelalaian, dan data tak terduga.
Selalu menormalkan data Anda (khususnya, masukkan ke dalam setidaknya bentuk normal keempat ), terlepas dari bagaimana Anda berencana untuk memformat dataset untuk analisis. Ini memaksa Anda untuk membuat tabel dari setiap entitas yang berbeda secara konseptual yang Anda modelkan. (Dalam kasus lingkungan, ini akan mencakup tabel lokasi pemantauan, sampel, bahan kimia (sifat, rentang tipikal, dll.), Tes sampel tersebut (tes biasanya mencakup serangkaian bahan kimia), dan hasil individual dari tes tersebut. Dengan melakukan itu, Anda membuat banyak pemeriksaan efektif kualitas dan konsistensi data dan mengidentifikasi banyak nilai yang berpotensi hilang atau duplikat atau tidak konsisten.
Upaya ini (yang membutuhkan keterampilan pemrosesan data yang baik tetapi langsung) sangat efektif. Jika Anda bercita-cita untuk menganalisis kumpulan data yang besar atau kompleks dan tidak memiliki pengetahuan yang baik tentang database relasional dan teorinya, tambahkan itu ke daftar hal-hal yang harus dipelajari sesegera mungkin. Itu akan membayar dividen sepanjang karir Anda.
Selalu lakukan sebanyak mungkin pemeriksaan "bodoh" yang Anda bisa . Ini adalah verifikasi otomatis dari hal-hal yang jelas sehingga tanggal jatuh ke dalam periode yang diharapkan, jumlah pasien (atau bahan kimia atau apa pun) selalu bertambah dengan benar, bahwa nilai selalu masuk akal (misalnya, pH harus antara 0 dan 14 dan mungkin dalam kisaran yang jauh lebih sempit untuk, katakanlah, pembacaan pH darah), dll. Di sinilah keahlian domain dapat menjadi yang paling membantu: ahli statistik dapat dengan berani mengajukan pertanyaan bodoh dari para ahli dan mengeksploitasi jawaban untuk memeriksa data.
Tentu saja, banyak yang bisa dikatakan - pokok bahasan itu layak buku - tetapi ini cukup untuk merangsang gagasan.