Istilahnya samar-samar karena mereka baru
Berada di tengah pencarian pekerjaan di bidang 'ilmu data', saya pikir ada dua hal yang terjadi di sini. Pertama, pekerjaan itu baru, dan tidak ada definisi pasti dari berbagai istilah, jadi tidak ada kesepakatan yang umum tentang pencocokan persyaratan dengan deskripsi pekerjaan. Bandingkan ini dengan 'pengembang web' atau 'pengembang back-end.' Ini adalah dua pekerjaan serupa yang telah disepakati dengan baik dan deskripsi yang berbeda.
Kedua, banyak orang yang melakukan posting pekerjaan dan wawancara awal tidak tahu apa yang mereka rekrut. Hal ini terutama berlaku dalam kasus perusahaan kecil hingga menengah yang mempekerjakan perekrut untuk mencari pelamar. Ini adalah perantara yang memposting deskripsi pekerjaan di CareerBuilder atau forum apa pun. Ini bukan untuk mengatakan bahwa banyak dari mereka tidak tahu barang-barang mereka, banyak dari mereka cukup berpengetahuan tentang perusahaan yang mereka wakili dan persyaratan tempat kerja. Tapi, tanpa syarat yang jelas untuk menggambarkan pekerjaan spesifik yang berbeda, jabatan pekerjaan samar sering hasilnya.
Ada tiga divisi umum bidang ini
Dalam pengalaman saya, ada tiga divisi umum 'ruang kerja' ilmu data.
Yang pertama adalah pengembangan teknik matematika dan komputasi yang memungkinkan ilmu data. Ini mencakup hal-hal seperti penelitian statistik dalam metode pembelajaran mesin baru, penerapan metode ini, dan pembangunan infrastruktur komputasi untuk menggunakan metode ini di dunia nyata. Ini adalah divisi yang paling jauh terpisah dari pelanggan, dan divisi terkecil. Banyak dari pekerjaan ini dilakukan oleh akademisi atau peneliti di perusahaan besar (Google, Facebook, dll). Ini untuk hal-hal seperti mengembangkan Google TensorFlow, jaring saraf SPSS IBM, atau apa pun basis data grafik besar berikutnya.
Divisi kedua menggunakan alat yang mendasarinya untuk membuat paket aplikasi khusus untuk melakukan analisis data apa pun yang perlu dilakukan. Orang disewa untuk menggunakan Python atau R atau apa pun untuk membangun kemampuan analisis pada beberapa set data. Banyak dari pekerjaan ini, dalam pengalaman saya, melibatkan melakukan 'pencucian data,' mengubah data mentah dalam bentuk apa pun menjadi sesuatu yang dapat digunakan. Sebagian besar dari pekerjaan ini adalah database; mencari tahu bagaimana cara menyimpan data dengan cara yang dapat diakses dalam timeline apa pun yang Anda butuhkan. Pekerjaan ini tidak terlalu banyak mengambil alat, tetapi menggunakan database, statistik, dan perpustakaan analisis grafis yang ada untuk menghasilkan beberapa hasil.
Divisi ketiga menghasilkan analisis dari data yang baru terorganisir dan dapat diakses. Ini adalah sisi yang paling menghadap pelanggan, tergantung pada organisasi Anda. Anda harus menghasilkan analisis yang dapat digunakan para pemimpin bisnis untuk membuat keputusan. Ini akan menjadi yang paling tidak teknis dari tiga divisi; banyak pekerjaan adalah hibrida antara divisi kedua dan ketiga pada saat ini, karena ilmu data masih dalam tahap awal. Tetapi di masa depan, saya sangat curiga bahwa akan ada pembagian yang lebih bersih antara dua pekerjaan ini, dengan orang-orang memenangkan pekerjaan kedua yang membutuhkan pendidikan teknis, ilmu komputer atau statistik, dan pekerjaan ketiga ini hanya membutuhkan pendidikan umum.
Secara umum, ketiganya bisa menggambarkan diri mereka sebagai 'ilmuwan data', tetapi hanya dua yang pertama yang bisa menggambarkan diri mereka sebagai 'insinyur pembelajaran mesin'.
Kesimpulan
Untuk saat ini, Anda harus mencari tahu sendiri apa yang dibutuhkan oleh setiap pekerjaan. Pekerjaan saya saat ini mempekerjakan saya sebagai 'analis,' untuk melakukan beberapa hal pembelajaran mesin. Tetapi ketika kami mulai bekerja, menjadi jelas bahwa basis data perusahaan tidak memadai, dan sekarang mungkin 90% dari waktu saya dihabiskan untuk mengerjakan database. Paparan pembelajaran mesin saya sekarang hanya menjalankan hal-hal dengan cepat melalui paket scikit-learning apa pun yang tampaknya paling sesuai, dan memotret file csv ke analis divisi ketiga untuk membuat presentasi powerpoint bagi pelanggan.
Lapangan dalam fluks. Banyak organisasi mencoba untuk menambahkan data pengambilan keputusan ilmu pengetahuan ke dalam proses mereka, tetapi tanpa mengetahui dengan jelas apa artinya. Ini bukan kesalahan mereka, cukup sulit untuk memprediksi masa depan, dan konsekuensi dari teknologi baru tidak pernah sangat jelas. Sampai lapangan lebih mapan, banyak pekerjaan itu sendiri akan menjadi samar-samar seperti istilah yang digunakan untuk menggambarkannya.
Data scientist
Kedengarannya seperti sebutan dengan sedikit kejelasan tentang apa pekerjaan yang sebenarnya akan, sementaramachine learning engineer
lebih spesifik. Dalam kasus pertama, perusahaan Anda akan memberi Anda target dan Anda perlu mencari tahu pendekatan apa (pembelajaran mesin, pemrosesan gambar, jaringan saraf, logika fuzzy, dll) yang akan Anda gunakan. Dalam kasus kedua, perusahaan Anda telah mempersempit pendekatan apa yang harus digunakan.