Tentang apa ini?
Mengetahui tentang teknik mirip dengan mengenal binatang di kebun binatang - Anda dapat memberi nama, menggambarkan sifat-sifatnya, mungkin mengidentifikasi mereka di alam liar.
Memahami kapan harus menggunakannya, merumuskan, membangun, menguji, dan menggunakan model matematika yang berfungsi dalam area aplikasi sambil menghindari jebakan --- ini adalah keterampilan yang membedakan, menurut pendapat saya.
Penekanannya harus pada sains , menerapkan pendekatan sistematis, ilmiah untuk masalah bisnis, industri, dan komersial. Tapi ini membutuhkan keterampilan yang lebih luas daripada data mining & pembelajaran mesin, seperti yang dikemukakan Robin Bloor secara persuasif dalam "A Data Science Rant" .
Jadi apa yang bisa dilakukan?
Area aplikasi : pelajari tentang berbagai area aplikasi yang dekat dengan minat Anda, atau area perusahaan Anda. Area ini sering kurang penting daripada memahami bagaimana model itu dibangun dan bagaimana itu digunakan untuk menambah nilai pada area itu. Model-model yang berhasil dalam satu area seringkali dapat ditransplantasikan dan diterapkan ke area berbeda yang bekerja dengan cara yang sama.
Kompetisi : coba situs kompetisi penambangan data Kaggle , lebih baik bergabung dengan tim lain. (Kaggle: platform untuk kompetisi pemodelan prediktif. Perusahaan, pemerintah, dan peneliti menyajikan kumpulan data dan masalah dan ilmuwan data terbaik dunia berlomba untuk menghasilkan solusi terbaik.)
Fundamental : Ada empat: (1) landasan yang kuat dalam statistik, (2) keterampilan pemrograman yang cukup baik, (3) memahami bagaimana menyusun kueri data yang kompleks, (4) membangun model data. Jika ada yang lemah, maka itu adalah tempat yang penting untuk memulai.
Beberapa kutipan dalam hal ini:
“Saya belajar sejak dini perbedaan antara mengetahui nama sesuatu dan mengetahui sesuatu. Anda dapat mengetahui nama burung di semua bahasa di dunia, tetapi ketika Anda selesai, Anda tidak akan tahu apa-apa tentang burung itu ... Jadi mari kita lihat burung itu dan lihat apa yang dilakukannya - itu apa yang diperhitungkan. '' - Richard Feynman, "The Making of a Scientist", h14 di What Do You Care What Other People Think, 1988
Ingat:
`` Kombinasi keterampilan yang diperlukan untuk melaksanakan proyek-proyek ilmu [ilmu data] bisnis ini jarang berada dalam satu orang. Seseorang memang bisa mendapatkan pengetahuan luas dalam tiga bidang: (i) apa yang dilakukan bisnis, (ii) cara menggunakan statistik, dan (iii) bagaimana mengelola data dan aliran data. Jika demikian, ia memang bisa mengklaim sebagai ilmuwan bisnis (alias, "ilmuwan data") di sektor tertentu. Tetapi orang-orang seperti itu hampir sama langka dengan gigi ayam. '' - Robin Bloor, A Data Science Rant , Agu 2013, Inside Analysis
Dan akhirnya:
`` Peta ini Bukan Wilayah. '' - Alfred Korzybski, 1933, Sains & Sanitas.
Sebagian besar masalah nyata yang diterapkan tidak dapat diakses hanya dari `` peta ''. Untuk melakukan hal-hal praktis dengan pemodelan matematika kita harus mau menjadi kotor dengan detail, seluk-beluk, dan pengecualian. Tidak ada yang bisa menggantikan untuk mengetahui wilayah itu secara langsung.