Saat ini saya bekerja sebagai ilmuwan data di perusahaan ritel (pekerjaan pertama saya sebagai DS, jadi pertanyaan ini mungkin merupakan hasil dari kurangnya pengalaman saya). Mereka memiliki tumpukan besar proyek-proyek sains data yang sangat penting yang akan memiliki dampak positif yang besar jika diterapkan. Tapi.
Jalur pipa data tidak ada di dalam perusahaan, prosedur standar adalah bagi mereka untuk memberikan saya gigabytes file TXT setiap kali saya membutuhkan informasi. Pikirkan file-file ini sebagai log tabular transaksi yang disimpan dalam notasi dan struktur misterius. Tidak ada seluruh informasi yang terkandung dalam satu sumber data tunggal, dan mereka tidak dapat memberi saya akses ke database ERP mereka karena "alasan keamanan".
Analisis data awal untuk proyek paling sederhana membutuhkan perselisihan data yang brutal dan menyiksa. Lebih dari 80% dari waktu yang dihabiskan proyek adalah saya mencoba mengurai file-file ini dan memotong sumber data untuk membangun dataset yang layak. Ini bukan masalah hanya menangani data yang hilang atau preprocessing itu, ini tentang pekerjaan yang diperlukan untuk membangun data yang dapat ditangani di tempat pertama ( dipecahkan oleh dba atau rekayasa data, bukan ilmu data? ).
1) Terasa seperti sebagian besar pekerjaan tidak terkait dengan ilmu data sama sekali. Apakah ini akurat?
2) Saya tahu ini bukan perusahaan yang digerakkan oleh data dengan departemen teknik data tingkat tinggi, tetapi menurut pendapat saya bahwa untuk membangun masa depan yang berkelanjutan dari proyek-proyek ilmu data, diperlukan tingkat aksesibilitas data minimum . Apakah aku salah?
3) Apakah jenis pengaturan ini umum untuk perusahaan dengan kebutuhan ilmu data yang serius?