Seperti yang dapat diharapkan dari Hadley, artikelnya berisi definisi data rapi yang bagus dan saya setuju dengan hampir semua yang ada di artikelnya dan percaya itu tidak hanya berlaku untuk "profesional data". Namun, beberapa poin yang ia buat relatif mudah untuk diperbaiki (misalnya, dengan paket yang ia tulis) jika beberapa masalah yang lebih mendasar dihindari. Sebagian besar masalah ini adalah hasil dari penggunaan Excel secara luas. Excel adalah alat yang berharga dan memiliki kelebihan, tetapi beberapa fasilitasnya menimbulkan masalah bagi analis data.
Beberapa poin (dari pengalaman saya):
- Beberapa orang menyukai spreadsheet berwarna-warni dan menggunakan banyak opsi pemformatan. Ini semua baik-baik saja, jika itu membantu mereka mengatur data mereka dan menyiapkan tabel untuk presentasi. Namun, berbahaya jika warna sel benar-benar menyandikan data. Sangat mudah kehilangan data ini dan sangat sulit untuk mendapatkan data seperti itu diimpor ke dalam perangkat lunak statistik (misalnya, lihat pertanyaan ini di Stack Overflow).
- Kadang-kadang saya mendapatkan beberapa data yang diformat dengan baik (setelah saya memberi tahu orang-orang bagaimana mempersiapkannya), tetapi meskipun meminta mereka untuk menggunakan kolom khusus atau file terpisah untuk komentar, mereka memutuskan untuk memberikan komentar di kolom nilai. Saya tidak hanya perlu berurusan dengan kolom ini dengan cara khusus ketika mengimpor data, tetapi masalah utamanya adalah bahwa saya perlu menelusuri semua tabel untuk melihat komentar seperti itu (yang biasanya tidak saya lakukan). Ini menjadi lebih buruk jika mereka menggunakan fasilitas komentar Excel.
- Spreadsheet dengan beberapa tabel di dalamnya, beberapa baris tajuk atau sel yang terhubung menghasilkan pekerjaan manual untuk menyiapkannya untuk diimpor dalam perangkat lunak statistik. Analis data yang baik biasanya tidak menikmati pekerjaan manual semacam ini.
- Tidak pernah menyembunyikan kolom di Excel. Jika tidak diperlukan, hapus saja. Jika dibutuhkan, tunjukkan.
- xls dan turunannya bukan format file yang cocok untuk bertukar data dengan orang lain atau mengarsipkannya. Rumus diperbarui ketika file dibuka dan versi Excel yang berbeda mungkin menangani file secara berbeda. Saya merekomendasikan file CSV sederhana sebagai gantinya, karena hampir semua perangkat lunak terkait data dapat mengimpor itu (bahkan Excel) dan dapat diharapkan bahwa itu tidak akan segera berubah. Namun, perlu diketahui bahwa Excel membulatkan ke angka yang terlihat saat menyimpan ke CSV (dengan demikian membuang presisi).
- Jika Anda ingin membuat hidup lebih mudah bagi orang lain, patuhi prinsip-prinsip yang diberikan dalam artikel Hadley. Memiliki kolom nilai untuk setiap variabel dan kolom faktor yang menentukan strata.
Mungkin ada beberapa poin tambahan yang tidak terlintas di pikiran saya.