Orang yang berbeda menggunakan alat yang berbeda untuk hal yang berbeda. Istilah seperti Ilmu Data adalah generik karena suatu alasan. Seorang ilmuwan data dapat menghabiskan seluruh karir tanpa harus mempelajari alat tertentu seperti hadoop. Hadoop banyak digunakan, tetapi bukan satu-satunya platform yang mampu mengelola dan memanipulasi data, bahkan data skala besar.
Saya akan mengatakan bahwa seorang ilmuwan data harus terbiasa dengan konsep-konsep seperti MapReduce, sistem terdistribusi, sistem file terdistribusi, dan sejenisnya, tetapi saya tidak akan menilai seseorang karena tidak mengetahui tentang hal-hal seperti itu.
Ini ladang besar. Ada lautan pengetahuan dan kebanyakan orang mampu belajar dan menjadi ahli dalam satu tetes. Kunci untuk menjadi seorang ilmuwan adalah memiliki keinginan untuk belajar dan motivasi untuk mengetahui apa yang belum Anda ketahui.
Sebagai contoh: Saya bisa memberikan kepada orang yang tepat seratus file CSV terstruktur yang berisi informasi tentang kinerja kelas dalam satu kelas tertentu selama satu dekade. Seorang ilmuwan data akan dapat menghabiskan waktu satu tahun untuk mengumpulkan wawasan dari data tanpa perlu menyebarkan komputasi ke berbagai mesin. Anda dapat menerapkan algoritma pembelajaran mesin, menganalisanya menggunakan visualisasi, menggabungkannya dengan data eksternal tentang wilayah, susunan etnis, perubahan lingkungan dari waktu ke waktu, informasi politik, pola cuaca, dll. Semua itu akan menjadi "ilmu data" menurut pendapat saya . Mungkin diperlukan sesuatu seperti hadoop untuk menguji dan menerapkan apa pun yang Anda pelajari ke data yang terdiri dari seluruh negara siswa, bukan hanya ruang kelas, tetapi langkah terakhir itu tidak serta-merta membuat seseorang menjadi ilmuwan data.