Setelah baru-baru ini lulus dari program PhD saya di bidang statistik, saya selama beberapa bulan terakhir mulai mencari pekerjaan di bidang statistik. Hampir setiap perusahaan yang saya anggap memiliki lowongan pekerjaan dengan judul pekerjaan " Data Scientist ". Bahkan, rasanya seperti sudah lama berlalu adalah hari-hari melihat jabatan pekerjaan Statistik Ilmuwan atau Ahli Statistik . Apakah menjadi seorang ilmuwan data benar-benar menggantikan apa yang menjadi ahli statistik atau apakah judul-judul itu sama dengan yang saya tanyakan?
Yah, sebagian besar kualifikasi untuk pekerjaan terasa seperti hal-hal yang akan memenuhi syarat di bawah judul ahli statistik. Sebagian besar pekerjaan menginginkan gelar PhD dalam statistik ( ), desain eksperimental pemahaman yang paling dibutuhkan ( ✓ ), regresi linier dan anova ( ✓ ), model linear umum ( ✓ ), dan metode multivariat lainnya seperti PCA ( ✓ ), serta pengetahuan dalam lingkungan komputasi statistik seperti R atau SAS ( ✓ ). Kedengarannya seperti ilmuwan data sebenarnya hanya nama kode untuk ahli statistik.
Namun, setiap wawancara saya mulai dengan pertanyaan: "Jadi, apakah Anda terbiasa dengan algoritma pembelajaran mesin?" Lebih sering daripada tidak, saya menemukan diri saya harus mencoba dan menjawab pertanyaan tentang data besar, komputasi kinerja tinggi, dan topik pada jaringan saraf, CART, mesin vektor dukungan, meningkatkan pohon, model tanpa pengawasan, dll. Tentu saya meyakinkan diri saya bahwa ini semua pertanyaan statistik di hati, tetapi pada akhir setiap wawancara saya tidak bisa membantu tetapi meninggalkan perasaan seperti saya semakin sedikit tahu tentang apa itu data ilmuwan.
Saya seorang ahli statistik, tetapi apakah saya seorang ilmuwan data? Saya mengerjakan masalah ilmiah jadi saya harus menjadi ilmuwan! Dan saya juga bekerja dengan data, jadi saya harus menjadi ilmuwan data! Dan menurut Wikipedia, sebagian besar akademisi akan setuju dengan saya ( https://en.wikipedia.org/wiki/Data_science , dll.)
Meskipun penggunaan istilah "ilmu data" telah meledak di lingkungan bisnis, banyak akademisi dan jurnalis tidak melihat perbedaan antara ilmu data dan statistik.
Tetapi jika saya melakukan semua wawancara kerja ini untuk posisi ilmuwan data, mengapa rasanya mereka tidak pernah menanyakan pertanyaan statistik kepada saya?
Baik setelah wawancara terakhir saya, saya memang ingin ada ilmuwan yang baik dan saya mencari data untuk menyelesaikan masalah ini (hei, bagaimanapun juga, saya adalah ilmuwan data). Namun, setelah banyak pencarian Google yang tak terhitung kemudian, saya berakhir tepat di mana saya mulai merasa seolah-olah saya sekali lagi bergulat dengan definisi apa itu seorang ilmuwan data. Saya tidak tahu apa sebenarnya data ilmuwan karena ada begitu banyak definisi tentang itu, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) tapi sepertinya semua orang mengatakan saya ingin menjadi:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- dll .... daftarnya terus berlanjut.
Nah pada akhirnya, yang saya temukan adalah "apa itu ilmuwan data" adalah pertanyaan yang sangat sulit dijawab. Heck, ada dua bulan penuh di Amstat di mana mereka mencurahkan waktu untuk mencoba menjawab pertanyaan ini:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Nah untuk saat ini, saya harus menjadi ahli statistik yang seksi untuk menjadi ilmuwan data, tetapi mudah-mudahan komunitas yang divalidasi silang mungkin dapat menjelaskan dan membantu saya memahami apa artinya menjadi seorang ilmuwan data. Bukankah semua ahli statistik ahli data?
(Edit / Perbarui)
Saya pikir ini bisa meningkatkan pembicaraan. Saya baru saja menerima email dari American Statistics Association tentang lowongan kerja dengan Microsoft untuk mencari Data Scientist. Berikut tautannya: Posisi Ilmuwan Data . Saya pikir ini menarik karena peran posisi mengenai banyak sifat khusus yang telah kita bicarakan, tetapi saya pikir banyak dari mereka memerlukan latar belakang yang sangat ketat dalam statistik, serta bertentangan dengan banyak jawaban yang diposting di bawah ini. Jika tautannya mati, berikut adalah kualitas yang dicari Microsoft dalam ilmuwan data:
Persyaratan dan Keterampilan Pekerjaan Inti:
Pengalaman Domain Bisnis menggunakan Analytics
- Harus memiliki pengalaman di beberapa domain bisnis yang relevan dalam pemanfaatan keterampilan berpikir kritis untuk membuat konsep masalah bisnis yang kompleks dan solusi mereka menggunakan analitik canggih dalam set data bisnis dunia nyata skala besar
- Kandidat harus dapat menjalankan proyek analitik secara mandiri dan membantu klien internal kami memahami temuan dan menerjemahkannya ke dalam tindakan untuk memberi manfaat bagi bisnis mereka.
Pemodelan Prediktif
- Pengalaman lintas industri dalam pemodelan prediktif
- Definisi masalah bisnis dan pemodelan konseptual dengan klien untuk memperoleh hubungan penting dan untuk menentukan ruang lingkup sistem
Statistik / Ekonometrika
- Analisis data eksplorasi untuk data terus menerus dan kategorikal
- Spesifikasi dan estimasi persamaan model struktural untuk perusahaan dan perilaku konsumen, biaya produksi, permintaan faktor, pilihan diskrit, dan hubungan teknologi lainnya sesuai kebutuhan
- Teknik statistik canggih untuk menganalisis data kontinu dan kategorikal
- Analisis deret waktu dan implementasi model peramalan
- Pengetahuan dan pengalaman dalam bekerja dengan berbagai masalah variabel
- Kemampuan untuk menilai kebenaran model dan melakukan tes diagnostik
- Kemampuan untuk menginterpretasikan statistik atau model ekonomi
- Pengetahuan dan pengalaman dalam membangun simulasi peristiwa diskrit, dan model simulasi dinamis
Manajemen data
- Keakraban dengan penggunaan T-SQL dan analisis untuk transformasi data dan penerapan teknik analisis data eksplorasi untuk set data dunia nyata yang sangat besar
- Perhatian terhadap integritas data termasuk redudansi data, akurasi data, nilai-nilai abnormal atau ekstrem, interaksi data dan nilai-nilai yang hilang.
Keterampilan Komunikasi dan Kolaborasi
- Bekerja secara mandiri dan dapat bekerja dengan tim proyek virtual yang akan meneliti solusi inovatif untuk mengatasi masalah bisnis
- Berkolaborasi dengan mitra, menerapkan keterampilan berpikir kritis, dan mendorong proyek analitik dari ujung ke ujung
- Keahlian komunikasi yang unggul, baik lisan maupun tulisan
- Visualisasi hasil analitik dalam bentuk yang dapat dikonsumsi oleh beragam pemangku kepentingan
Paket Perangkat Lunak
- Paket perangkat lunak Statistik / Ekonometrik lanjutan: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Eksplorasi, visualisasi, dan manajemen data: T-SQL, Excel, PowerBI, dan alat yang setara
Kualifikasi:
- Dibutuhkan minimal 5+ tahun pengalaman terkait
- Gelar pascasarjana di bidang kuantitatif diinginkan.