Dalam pertanyaan sebelumnya saya bertanya tentang alat untuk mengedit file CSV .
Gavin ditautkan dengan komentar pada R Help oleh Duncan Murdoch yang menyarankan bahwa Format Pertukaran Data adalah cara yang lebih andal untuk menyimpan data daripada CSV.
Untuk beberapa aplikasi, sistem manajemen basis data khusus diperlukan. Namun, untuk proyek analisis data skala kecil, sesuatu yang lebih ringan tampaknya lebih cocok.
Pertimbangkan kriteria berikut untuk mengevaluasi format file:
- reliabile : data yang dimasukkan harus sesuai dengan apa yang telah dimasukkan; data harus terbuka secara konsisten dalam perangkat lunak yang berbeda;
- sederhana : alangkah baiknya jika format file mudah dimengerti dan idealnya dapat dibaca dengan editor teks sederhana; seharusnya mudah untuk menulis program sederhana untuk membaca dan menulis format.
- open : formatnya harus terbuka
- interoperable : format file harus didukung oleh banyak sistem
Saya menemukan format nilai tab dan koma yang gagal pada kriteria reliabilitas. Meskipun saya kira saya bisa menyalahkan program impor dan ekspor daripada format file. Saya sering menemukan diri saya harus membuat sedikit penyesuaian pada opsi
read.table
untuk mencegah beberapa karakter aneh dari melanggar memuat frame data.
Pertanyaan
- Format file mana yang paling memenuhi kebutuhan ini?
- Apakah Format Interchange Data alternatif yang lebih baik? atau apakah ia memiliki masalah sendiri?
- Apakah ada format lain yang lebih disukai?
- Apakah saya mengevaluasi TSV dan CSV secara tidak adil? Apakah ada serangkaian tips sederhana untuk bekerja dengan file seperti itu yang membuat format file lebih dapat diandalkan?
write.DIF()
sehingga itu adalah jalan satu arah yang saya khawatirkan.