Ketika saya mengerjakan proyek analisis data, saya sering menyimpan data dalam file data koma atau dibatasi-tab (CSV, TSV). Sementara data sering termasuk dalam sistem manajemen basis data khusus. Untuk banyak aplikasi saya, ini akan menjadi hal yang berlebihan.
Saya dapat mengedit file CSV dan TSV di Excel (atau mungkin program Spreadsheet lain). Ini memiliki manfaat:
- spreadsheet membuatnya mudah untuk memasukkan data
Ada juga beberapa masalah:
- Bekerja dengan file CSV dan TSV mengarah ke berbagai pesan peringatan tentang berbagai fitur yang hilang dan bagaimana hanya lembar aktif yang akan disimpan dan sebagainya. Dengan demikian, itu menjengkelkan jika Anda hanya ingin membuka file dan membuat sedikit perubahan.
- Itu banyak konversi "seharusnya cerdas". Misalnya, jika Anda memasukkan 12/3, itu akan berpikir bahwa Anda ingin memasukkan tanggal. PEMBARUAN: Saya seharusnya menyebutkan bahwa contoh tanggal hanyalah salah satu dari banyak contoh; sebagian besar masalah tampaknya terkait dengan konversi yang tidak tepat. Secara khusus, bidang teks yang terlihat seperti angka atau tanggal menyebabkan masalah.
Atau, saya bisa bekerja secara langsung dengan file teks dalam editor teks standar. Ini memastikan bahwa apa yang saya masukkan adalah apa yang dicatat. Namun itu adalah cara yang sangat canggung untuk memasukkan data (kolom tidak berbaris; sulit untuk memasukkan data hanya ke banyak sel; dll.).
Pertanyaan
- Apa strategi yang baik untuk bekerja dengan file data CSV atau TSV? yaitu, strategi apa yang membuatnya mudah untuk memasukkan dan memanipulasi data sembari memastikan bahwa apa yang Anda masukkan benar-benar ditafsirkan dengan benar?