Saya kenal seseorang yang mengerjakan proyek yang melibatkan menelan file data tanpa memperhatikan kolom atau tipe data. Tugasnya adalah mengambil file dengan sejumlah kolom dan berbagai tipe data serta statistik ringkasan keluaran pada data numerik.
Namun, ia tidak yakin bagaimana cara menetapkan tipe data secara dinamis untuk data berbasis angka tertentu. Sebagai contoh:
CITY
Albuquerque
Boston
Chicago
Ini jelas bukan data numerik dan akan disimpan sebagai teks. Namun,
ZIP
80221
60653
25525
tidak ditandai dengan jelas sebagai kategori. Perangkat lunaknya akan menetapkan kode ZIP sebagai statistik ringkasan numerik dan output untuknya, yang tidak masuk akal untuk data semacam itu.
Beberapa ide yang kami miliki adalah:
- Jika sebuah kolom adalah semua bilangan bulat, beri label sebagai kategori. Ini jelas tidak akan berhasil, tapi itu ide.
- Jika kolom memiliki kurang dari n nilai unik dan numerik, beri label kategori. Ini mungkin lebih dekat, tetapi mungkin masih ada masalah dengan data numerik yang gagal.
- Menyimpan daftar data numerik umum yang seharusnya benar-benar kategorikal dan membandingkan header kolom dengan daftar ini untuk kecocokan. Misalnya, apa pun dengan "ZIP" di dalamnya akan bersifat kategoris.
Naluri saya memberi tahu saya bahwa tidak ada cara untuk secara akurat menetapkan data numerik sebagai kategorikal atau numerik, tetapi mengharapkan saran. Setiap wawasan yang Anda miliki sangat dihargai.