Biarkan saya pertama-tama mengklarifikasi bahwa saya memulai perjalanan saya ke ilmu data dari sudut pandang programmer dan basis data pengembang. Saya bukan ahli ilmu data 10 tahun atau dewa statistik. Namun, saya melakukan pekerjaan ilmuwan data dan kumpulan data besar untuk perusahaan yang bekerja dengan klien yang agak besar di seluruh dunia.
Dari pengalaman saya, ilmuwan data menggunakan alat apa pun yang mereka butuhkan untuk menyelesaikan pekerjaan. Excel, R, SAS, Python, dan lainnya semuanya adalah alat dalam kotak peralatan untuk ilmuwan data yang baik. Yang terbaik dapat menggunakan berbagai alat untuk menganalisis dan mengolah data.
Oleh karena itu, jika Anda menemukan diri Anda membandingkan R dengan Python, maka kemungkinan Anda melakukan semuanya salah di dunia ilmu data. Ilmuwan data yang baik menggunakan keduanya ketika masuk akal untuk menggunakan salah satu dari yang lain. Ini juga berlaku untuk Excel.
Saya pikir agak sulit untuk menemukan orang yang akan memiliki pengalaman dalam banyak alat dan bahasa yang berbeda sementara hebat dalam segala hal. Saya juga berpikir itu akan sulit untuk menemukan data ilmuwan secara khusus yang tidak hanya dapat memprogram algoritma yang kompleks tetapi juga tahu bagaimana menggunakannya dari sudut pandang statistik juga.
Sebagian besar ilmuwan data yang bekerja sama dengan saya memiliki 2 rasa. Mereka yang bisa memprogram dan mereka yang tidak bisa. Saya jarang bekerja dengan ilmuwan data yang dapat menarik data dengan Python, memanipulasinya dengan sesuatu seperti Pandas, memasukkan model ke data dalam R dan kemudian menyajikannya kepada manajemen di akhir minggu.
Maksudku, aku tahu mereka ada. Saya telah membaca banyak blog sains data dari orang-orang yang mengembangkan scrappers web, mendorongnya ke Hadoop, menariknya kembali dengan Python, memprogram hal-hal kompleks dan menjalankannya melalui R untuk mem-boot. Mereka ada. Mereka diluar sana. Saya hanya belum menemukan terlalu banyak yang bisa melakukan semua itu. Mungkin hanya daerah saya saja?
Jadi, apakah itu berarti hanya mengkhususkan pada satu hal yang buruk? Tidak. Banyak teman saya yang berspesialisasi hanya dalam satu bahasa utama dan membunuhnya. Saya tahu banyak orang data yang hanya tahu R dan membunuhnya. Saya juga tahu banyak orang yang hanya menggunakan Excel untuk menganalisis data karena itulah satu-satunya yang dapat dibuka dan digunakan oleh sebagian besar ilmuwan non-data (terutama di perusahaan B2B). Pertanyaan yang harus Anda jawab adalah apakah hal ini adalah SATU hal yang Anda butuhkan untuk posisi ini? Dan yang paling penting, dapatkah mereka mempelajari hal-hal baru?
PS
Ilmu Data tidak hanya terbatas pada "DATA BESAR" atau NoSQL.