Berapa banyak dari pertengkaran data adalah pekerjaan ilmuwan data?

44

Saat ini saya bekerja sebagai ilmuwan data di perusahaan ritel (pekerjaan pertama saya sebagai DS, jadi pertanyaan ini mungkin merupakan hasil dari kurangnya pengalaman saya). Mereka memiliki tumpukan besar proyek-proyek sains data yang sangat penting yang akan memiliki dampak positif yang besar jika diterapkan. Tapi.

Jalur pipa data tidak ada di dalam perusahaan, prosedur standar adalah bagi mereka untuk memberikan saya gigabytes file TXT setiap kali saya membutuhkan informasi. Pikirkan file-file ini sebagai log tabular transaksi yang disimpan dalam notasi dan struktur misterius. Tidak ada seluruh informasi yang terkandung dalam satu sumber data tunggal, dan mereka tidak dapat memberi saya akses ke database ERP mereka karena "alasan keamanan".

Analisis data awal untuk proyek paling sederhana membutuhkan perselisihan data yang brutal dan menyiksa. Lebih dari 80% dari waktu yang dihabiskan proyek adalah saya mencoba mengurai file-file ini dan memotong sumber data untuk membangun dataset yang layak. Ini bukan masalah hanya menangani data yang hilang atau preprocessing itu, ini tentang pekerjaan yang diperlukan untuk membangun data yang dapat ditangani di tempat pertama ( dipecahkan oleh dba atau rekayasa data, bukan ilmu data? ).

1) Terasa seperti sebagian besar pekerjaan tidak terkait dengan ilmu data sama sekali. Apakah ini akurat?

2) Saya tahu ini bukan perusahaan yang digerakkan oleh data dengan departemen teknik data tingkat tinggi, tetapi menurut pendapat saya bahwa untuk membangun masa depan yang berkelanjutan dari proyek-proyek ilmu data, diperlukan tingkat aksesibilitas data minimum . Apakah aku salah?

3) Apakah jenis pengaturan ini umum untuk perusahaan dengan kebutuhan ilmu data yang serius?

data-wrangling

— Victor Valente
sumber

Apakah Anda menentukan format yang Anda inginkan informasinya? Dan beri mereka petunjuk tentang bagaimana mereka bisa melakukan ini dengan ERP mereka?

— Jonnor

@ jonnor Tentu saja. Saya sudah bekerja di sini selama hampir dua tahun sekarang, dan sejak hari pertama saya menjelaskan bagaimana kita bisa membangun platform yang lebih baik untuk aksesibilitas data. Ada resistensi kuat untuk mengubah apa yang telah dilakukan perusahaan selama 30 tahun.

— Victor Valente

13

Mulailah melacak jam Anda dan mengonversinya menjadi biaya seberapa banyak mereka membuang-buang waktu Anda untuk mengubah TXT kembali ke format yang dapat digunakan. Saya berani bertaruh Anda begitu mereka memiliki angka $, mereka bisa menyelesaikannya.

— Nelson

Jika itu merupakan beban waktu Anda, Anda bisa memasang iklan di luar itu.

— Sarkoma

Saya merasa bingung bahwa sebuah perusahaan akan menyewa Data Scientist dan masih tahan terhadap perubahan. Anda harus menunjukkan kepada mereka jumlah waktu yang terbuang dan bahaya menyimpan data ke dalam file TXT panjang tanpa keamanan nyata di sekitarnya

— Pedro Henrique Monforte

27

Terasa seperti sebagian besar pekerjaan tidak terkait dengan ilmu data sama sekali. Apakah ini akurat?

Iya
Saya tahu ini bukan perusahaan yang digerakkan oleh data dengan departemen teknik data tingkat tinggi, tetapi pendapat saya bahwa ilmu data memerlukan tingkat minimum aksesibilitas data. Apakah aku salah?

Anda tidak salah, tetapi itulah realitas kehidupan nyata.
Apakah jenis pengaturan ini umum untuk perusahaan dengan kebutuhan ilmu data yang serius?

Iya

Dari sudut pandang teknis, Anda perlu melihat ke dalam solusi ETL yang dapat membuat hidup Anda lebih mudah. Terkadang satu alat bisa jauh lebih cepat daripada yang lain untuk membaca data tertentu. Misalnya readxl R adalah urutan kesalahan lebih cepat dari panda python dalam membaca file xlsx; Anda bisa menggunakan R untuk mengimpor file, lalu menyimpannya ke format Python-friendly (parket, SQL, dll). Saya tahu Anda tidak bekerja pada file xlsx dan saya tidak tahu jika Anda menggunakan Python - itu hanya sebuah contoh.

Dari sudut pandang praktis, dua hal:

Pertama-tama, pahami apa yang secara teknis memungkinkan. Dalam banyak kasus, orang-orang yang memberi tahu Anda adalah orang yang buta huruf TI yang khawatir tentang pertimbangan bisnis atau kepatuhan, tetapi tidak memiliki konsep tentang apa yang layak dan tidak layak dari sudut pandang TI. Cobalah untuk berbicara dengan DBA atau kepada siapa pun yang mengelola infrastruktur data. Memahami apa yang secara teknis memungkinkan. LALU, barulah, cobalah mencari kompromi. Misalnya mereka tidak akan memberi Anda akses ke sistem mereka, tetapi saya kira ada database di belakangnya? Mungkin mereka dapat mengekstraksi data ke beberapa format lain? Mungkin mereka bisa mengekstraksi pernyataan SQL yang mendefinisikan tipe data dll?
Orang-orang bisnis lebih mungkin membantu Anda jika Anda dapat membuktikan bahwa itu adalah kepentingan MEREKA. Jika mereka bahkan tidak percaya pada apa yang Anda lakukan, keberuntungan sulit ...

— PythonGuest
sumber

2

Poin luar biasa tentang menemukan / membangun solusi ETL. Hanya perlu menambahkan: pilih pengaturan yang Anda sukai dan dapat dengan mudah membaca / debug. Pada tahap awal tugas otomatisasi, ini bahkan lebih penting daripada menemukan alat pengambilan data tercepat. Jika itu adalah gigs dari teks, kemungkinan akan sering berjalan dalam semalam, dan kelancaran Anda dengan alat / kerangka / bahasa dapat membuat perbedaan antara bangun untuk data yang baik atau sesuatu yang harus Anda mulai lagi. Hanya satu do-over dapat menghapus manfaat efisiensi. Lebih baik menjadi stabil dengan bug lebih sedikit daripada pergi cepat dan tersandung.

— Jason

2

Benar. Tetapi, juga, jangan terlalu mengoptimalkan. Pilih prioritas Anda dengan bijak. Jika mengimpor data hanya satu kali, jangan menghabiskan waktu berhari-hari untuk mencari cara mengurangi waktu impor dari 2 jam menjadi 30 menit. Dll

— PythonGuest

39

Ini adalah situasi yang banyak blog, perusahaan, dan makalah akui sebagai sesuatu yang nyata dalam banyak kasus.

Dalam makalah ini Data Wrangling for Big Data: Tantangan dan Peluang , ada kutipan tentang hal itu

data yang dihabiskan para ilmuwan dari 50 persen hingga 80 persen dari waktu mereka

mengumpulkan dan menyiapkan data digital yang sulit diatur.

Juga, Anda dapat membaca sumber kutipan itu dalam artikel ini dari The New York Times, Untuk Ilmuwan Big-Data, 'Janitor Work' Adalah Rintangan Kunci untuk Wawasan

Sayangnya, dunia nyata tidak seperti Kaggle. Anda tidak mendapatkan file CSV atau Excel yang Anda bisa memulai Eksplorasi Data dengan sedikit pembersihan. Anda perlu menemukan data dalam format yang tidak sesuai dengan kebutuhan Anda.

Apa yang dapat Anda lakukan adalah memanfaatkan data lama sebanyak yang Anda bisa dan mencoba menyesuaikan penyimpanan data baru dalam proses yang akan memudahkan Anda (atau kolega di masa depan) untuk bekerja dengannya.

— Tasos
sumber

Artikel Forbes mengklaim angka 80% yang sama .

— Jesse Amano

4

Forbes seharusnya tidak disebutkan di mana-mana dengan kata-kata "ilmu data".

— gented

50-80% berdasarkan (kutipan) "wawancara dan perkiraan ahli"

— oW_

3

@gented komentar berdasarkan opini tentang survei berbasis pendapat dalam artikel berbasis pendapat ditempatkan pada jawaban berdasarkan pendapat untuk pertanyaan berbasis pendapat. Siapa yang mengira Anda akan menemukan ini di "Data Science" SE?

— Keeta

25

Terasa seperti sebagian besar pekerjaan tidak terkait dengan ilmu data sama sekali. Apakah ini akurat?

Ini adalah kenyataan dari setiap proyek ilmu data. Google benar-benar mengukurnya dan menerbitkan sebuah makalah "Utang Teknis Tersembunyi dalam Sistem Pembelajaran Mesin" https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

Hasil tulisan mencerminkan pengalaman saya juga. Sebagian besar waktu dihabiskan untuk memperoleh, membersihkan, dan memproses data.

— Shamit Verma
sumber

7

Terasa seperti sebagian besar pekerjaan tidak terkait dengan ilmu data sama sekali. Apakah ini akurat?

Perselisihan data paling jelas dalam deskripsi pekerjaan Data Scientist. Pada tingkat tertentu Anda harus memahami proses pembuatan data untuk menggunakannya untuk mendorong solusi. Tentu, seseorang yang berspesialisasi dalam ETL bisa melakukannya lebih cepat / lebih efisien, tetapi diberi kesedihan data tidak jarang di dunia nyata. Jika Anda tidak menyukai aspek ilmu data ini, mungkin ada peluang untuk bekerja lebih dekat dengan sumber daya TI untuk mendapatkan data yang bersumber dengan benar ke dalam gudang yang Anda miliki aksesnya. Atau, Anda dapat menemukan pekerjaan yang sudah memiliki data dengan urutan yang lebih baik.
Saya tahu ini bukan perusahaan yang digerakkan oleh data dengan departemen teknik data tingkat tinggi, tetapi pendapat saya bahwa ilmu data memerlukan tingkat minimum aksesibilitas data. Apakah aku salah?

Saya pikir level minimum adalah file txt. Jika Anda memiliki akses ke data melalui file teks, Anda harus memiliki akses ke data dalam database (tekan kembali ini dengan atasan).
Apakah jenis pengaturan ini umum untuk perusahaan dengan kebutuhan ilmu data yang serius?

Iya. Anda adalah data SCIENTIST; kamu ahlinya. Ini adalah bagian dari pekerjaan Anda untuk mendidik orang lain tentang ketidakefisienan struktur data saat ini dan bagaimana Anda dapat membantu. Data yang tidak dapat digunakan tidak membantu siapa pun. Anda memiliki peluang untuk menjadikan segala sesuatu lebih baik dan membentuk masa depan perusahaan.

— Underminer
sumber

6

Sebagai pemula baru lain dalam Ilmu Data, saya hanya dapat menambahkan bahwa saya tidak berpikir Anda pengalaman itu unik, tim saya sekitar 10 tampaknya belum melakukan DS dalam lebih dari setahun (satu proyek kecil yang menempati 2 dari tim). Ini karena janji akan adanya saluran pipa yang efektif yang sedang dikerjakan tim, tetapi masih belum cukup memberikan data. Rupanya retensi telah cukup buruk di masa lalu dan ada janji terus menerus dari lingkungan MS Azure suci-grail untuk proyek DS masa depan.

Jadi untuk menjawab:

1) Ya benar-benar akurat

2) Tidak, Anda benar, tetapi ini adalah perjuangan berat untuk mendapatkan akses ke data yang Anda inginkan (jika ada).

3) Saya yakin ada perusahaan di luar sana yang lebih baik daripada yang lain. Jika Anda tidak tahan di perusahaan Anda saat ini, 2 tahun adalah waktu yang layak, mulailah mencari hal-hal yang lebih terang (hati-hati bagaimana Anda mengutarakan keinginan Anda untuk meninggalkan pekerjaan Anda saat ini, sesuatu seperti "mencari pekerjaan dengan lebih dinamis tim "akan terdengar lebih baik daripada" perusahaan lama saya tidak akan memberi saya data ").

— Oliver Houston
sumber

5

Jika Anda melihat ini dari perspektif "ini bukan pekerjaan saya, jadi mengapa saya harus melakukannya" maka itu adalah masalah umum yang cukup umum dan tidak spesifik untuk ilmu data. Pada akhirnya, tugas Anda adalah melakukan apa pun yang diperintahkan bos kepada Anda, tetapi dalam praktiknya ada sedikit alasan bagi bos untuk bersikap diktator tentang hal ini dan biasanya mereka dapat dibujuk. Atau setidaknya mereka akan memberi Anda penjelasan yang tulus tentang mengapa harus seperti itu. Tetapi sejauh menarik bagi otoritas, tidak ada definisi resmi "Ilmu Data" yang mengatakan Anda hanya bisa melakukan paling banyak pembersihan data X%. Otoritasnya adalah siapa pun yang membayar Anda, asalkan mereka memiliki hak hukum untuk berhenti membayar Anda.

Anda juga bisa melihatnya dari sudut pandang lain: Apakah ini waktu Anda yang baik? Sepertinya Anda mengambil pekerjaan untuk melakukan beberapa tugas (yang Anda maksud dengan "ilmu data") tetapi Anda harus melakukan hal lain (yang Anda sebut "pertengkaran data"). Uraian pekerjaan dan perasaan pribadi agak tidak penting di sini karena ada sesuatu yang lebih relevan: Perusahaan mungkin membayar Anda sejumlah uang untuk melakukan sesuatu yang hanya dapat Anda lakukan (ilmu data). Tapi itu membuat Anda melakukan hal-hal lain sebagai gantinya, yang bisa dilakukan oleh orang lain yang merupakan kombinasi lebih mampu, lebih termotivasi atau lebih murah. Jika perselisihan data dapat dilakukan oleh seseorang yang berpenghasilan setengah dari Anda, maka tidak masuk akal untuk membayar Anda dua kali lipat untuk melakukan hal yang sama. Jika itu bisa dilakukan lebih cepatoleh seseorang yang membayar gaji yang sama, logika yang sama berlaku. Oleh karena itu adalah pemborosan sumber daya (terutama uang) untuk membuat perusahaan memberikan tugas ini kepada Anda. Dari sudut pandang ini, Anda mungkin merasa jauh lebih mudah untuk membuat atasan Anda melihat sisi-sisi Anda.

Tentu saja, pada akhirnya, seseorang harus melakukan perselisihan data. Mungkin cara termurah, tercepat, termudah untuk melakukannya - orang terbaik untuk pekerjaan itu, adalah Anda. Dalam hal ini, Anda agak kurang beruntung. Anda dapat mencoba mengklaim itu bukan bagian dari kontrak Anda, tetapi apa peluang mereka cukup naif untuk memasukkan sesuatu yang spesifik dalam kontrak?

— Whelibeiren
sumber

3

Mungkin secara sederhana:

Saat membuat variabel dan angka binning, apakah Anda akan melakukan itu secara membabi buta, atau setelah menganalisis data Anda?
Ketika rekan kerja meninjau temuan Anda, jika mereka memiliki pertanyaan tentang bit data tertentu, apakah itu memalukan Anda untuk tidak mengetahuinya?

Anda perlu bekerja dengan dan memahami data Anda - yang mencakup hal-hal sederhana dari memperbaiki ketidakkonsistenan (NULLs, string kosong, "-") hingga memahami bagaimana sepotong data berubah dari dikumpulkan hingga ditampilkan. Memprosesnya termasuk mengetahui bagian-bagian informasi yang sama, jadi itu sebagian pekerjaan yang harus Anda lakukan.

Sekarang, sepertinya perusahaan ini dapat mengambil manfaat dari pengaturan semacam MySQL (atau sejenisnya) gratis untuk menyimpan data Anda. Mencoba menjadi fleksibel ketika Anda merancang kode perselisihan Anda juga merupakan ide yang bagus - memiliki set data antara data yang diproses saya pikir akan berguna jika Anda diizinkan (dan tidak dapat melakukannya di MySQL).

Tapi tentu saja Anda masih mengatur semuanya dari awal. Ini bukan proses yang mudah, tetapi "pengalaman belajar" ini setidaknya baik untuk dimasukkan ke dalam CV Anda.

— David M
sumber

3

1) Terasa seperti sebagian besar pekerjaan tidak terkait dengan ilmu data sama sekali. Apakah ini akurat? Menurut pendapat saya, Ilmu Data tidak dapat menarik diri dari perselisihan data. Tetapi, seperti yang Anda katakan, pertanyaan akan muncul tentang berapa persen Perselisihan Data diperlukan untuk dilakukan oleh Ilmuwan Data. Itu tergantung pada bandwidth Organisasi dan minat orang dalam melakukan pekerjaan seperti itu. Dalam pengalaman saya 15 hingga 16 tahun sebagai DS, saya selalu menghabiskan sekitar 60% hingga 70% dalam aktivitas perselisihan data dan menghabiskan maksimal 15% waktu dalam analisis nyata. jadi terima teleponmu.

2) Saya tahu ini bukan perusahaan yang digerakkan oleh data dengan departemen teknik data tingkat tinggi, tetapi pendapat saya bahwa ilmu data membutuhkan tingkat aksesibilitas data yang minimum. Apakah aku salah? Sekali lagi itu tergantung pada kebijakan keamanan organisasi. Mereka tidak dapat menyerahkan segalanya kepada Anda dan mereka memiliki masalah keamanan mereka sendiri untuk mengungkapkan data kepada seseorang yang merupakan karyawan sementara (maaf menggunakan kata-kata ini :-()

3) Apakah jenis pengaturan ini umum untuk perusahaan dengan kebutuhan ilmu data yang serius? Saya merasa perusahaan seperti ini paling membutuhkan perhatian dari Data Scientists untuk membuat perasaan bahwa pemodelan berbasis data adalah masa depan untuk mempertahankan bisnis mereka. :-)

Saya telah memberikan masukan saya dalam memikirkan bisnis alih-alih poin teknis. :-) Semoga saya jelas dalam pilihan kata-kata saya.

— pengguna70920
sumber

3

Dalam ceramahnya "Big Data adalah empat masalah yang berbeda", pemenang penghargaan Turing Michael Stonebraker menyebutkan masalah khusus ini sebagai masalah besar ( video , slide )

Dia mengatakan bahwa ada sejumlah masalah terbuka di bidang ini: Ingest, Transform (misalnya euro / dolar), Bersih (mis-99 / Null), pemetaan Skema (misalnya upah / gaji), konsolidasi Entitas (mis. Mike Stonebraker / Michael Stonebreaker)

Ada sejumlah perusahaan / produk yang mencoba menyelesaikan masalah ini seperti Tamr, Alteryx, Trifacta, Paxata, Google Refine yang bekerja untuk menyelesaikan masalah ini.

Sampai daerah ini matang, banyak pekerjaan data ilmuwan memang akan menjadi perselisihan data.

— hojusaram
sumber