Saya seorang programmer, bagaimana cara saya masuk ke bidang Ilmu Data?


13

Pertama-tama istilah ini terdengar sangat tidak jelas.

Omong-omong..Saya seorang programmer perangkat lunak. Salah satu bahasa yang saya dapat kode adalah Python. Berbicara tentang Data Saya dapat menggunakan SQL dan dapat melakukan Pengikisan Data. Apa yang saya ketahui sejauh ini setelah membaca begitu banyak artikel bahwa Ilmu Data adalah tentang yang baik di:

1- Statistik

2- Aljabar

3 - Analisis Data

4- Visualisasi.

5- Mesin Pembelajaran.

Apa yang saya ketahui sejauh ini:

1- Pemrograman Python 2- Memotong data dengan Python

Dapatkah Anda para ahli membimbing saya atau menyarankan peta jalan untuk memoles teori dan praktis? Saya telah memberikan kerangka waktu sekitar 8 bulan untuk diri saya sendiri.


Harap spesifik tentang apa yang ingin Anda "masuki". Tidak hanya bidang, tetapi juga pada tingkat apa. Misalnya - "penambang teks medis profesional" atau "pemeriksa semesta astrofisika amatir"
Pete

Saya bersedia menjadi sesuatu yang bisa berfungsi sebagai konsultan atau karyawan yang bisa menjadi kontak bagi perusahaan untuk menggali data mereka dan mendapatkan wawasan tentang hal itu.
Volatil3

(1) Kursus Ng Andrew tentang Pembelajaran Mesin; (2) Kursus Yaser Abu-Mostafa tentang Belajar dari Data; Keduanya dapat diakses (waktu tidak termasuk) dan akan memberi Anda tingkat pemahaman yang baik.
Vladislavs Dovgalecs


Istilah Ilmu Data sangat luas. Mungkin Anda bisa memikirkan jenis pekerjaan apa yang Anda inginkan, dan di perusahaan mana Anda ingin bekerja, melihat persyaratan dan tanggung jawab mereka. Maka Anda akan tahu jika pekerjaan memenuhi harapan Anda dan kesenjangan kemampuan Anda. Berikut persyaratan ilmuwan data di GOOGLE. ! [Persyaratan Ilmuwan Data dari Google ] ( i.stack.imgur.com/5KSN6.png )
Octoparse

Jawaban:


18

Kurang fokus pada memperoleh keterampilan dan lebih banyak pada mendapatkan pengalaman. Cobalah untuk benar-benar menyelesaikan beberapa masalah dan memposting pekerjaan Anda di github. Anda akan belajar lebih banyak dalam proses dan dapat menunjukkan pengetahuan dan pengalaman kepada pengusaha, yang jauh lebih berharga daripada memiliki pemahaman yang mendalam tentang suatu topik atau teori.

Ilmu Data adalah bidang yang cukup banyak hari ini, jadi saya tidak yakin jenis pekerjaan apa yang ingin Anda lakukan secara spesifik, tetapi dengan asumsi bahwa pembelajaran mesin adalah komponen darinya maka kaggle.com adalah tempat yang baik untuk memulai. Dalam hal tujuan, jika Anda dapat bekerja dengan data dalam panda / numpy / scipy, membuat model dalam sci-kit, belajar dan membuat beberapa grafik cantik di seaborn, ggplot atau bahkan matplotlib maka Anda tidak akan kesulitan mendapatkan pekerjaan dari perspektif keterampilan - terutama jika Anda memiliki sampel kode dan contoh untuk menunjukkan kemampuan Anda. Jika Anda buntu maka stackexchange akan memiliki jawaban atau Anda dapat memposting pertanyaan dan Anda akan memiliki jawaban segera. Setelah Anda melakukan pekerjaan untuk mencari nafkah maka Anda akan belajar lebih banyak lagi, kemungkinan dari seorang anggota tim senior yang membimbing Anda.

Semoga berhasil.


7

Saya suka kursus Berkeley tentang Ilmu Data, akan memberikan dasar dan selera yang baik untuk Ilmu Data, Setelah pindah ke udacity dan coursera dan banyak lagi sumber daya. Jadi, jika Anda memiliki keterampilan Pemrograman daripada akan membutuhkan matematika dan stat dan banyak visualisasi. Juga akan bagus untuk membiasakan diri dengan IPython karena sangat penting untuk melihat setiap langkah (memvisualisasikan) bagaimana kinerjanya daripada menulis seluruh skrip dan tes setelahnya (anaconda mudah dipasang dan bekerja dengan). Kursus terdaftar di bawah ini: bcourses.berkeley.edu/courses/1267848/wiki juga stat saya menemukan kursus gratis yang bagus dari SAS: Statistik 1: Pengantar ANOVA, Regresi, dan dukungan Regresi Logistik.sas.com/edu/schedules.html ? ctry = us & id = 1979

Memulai dengan ML akan merekomendasikan: www.kaggle.com/c/titanic/details/getting-started-with-python

di sebelah kiri juga untuk Excel menggunakan tabel Pivot dan R. DataCamp telah merilis tutorial tentang cara menggunakan R. Setelah Anda menyelesaikan langkah-langkah ini, lebih banyak kompetisi dalam mendapatkan pengalaman di kaggle (baru-baru ini dirilis satu untuk Klasifikasi Kejahatan San Francisco) dan akhirnya tutorial video menakjubkan dari www.dataschool.io

semoga membantu ...


Terima kasih atas jawaban anda. Bagaimana Anda belajar?
Volatil3

1
Buku, tutorial online, dan banyak sekali kode terkait dengan bermain dengan data. Coba kaggle.com dan coba melalui kompetisi. Sangat bagus dalam mulai belajar ML.
n1tk

dan pada akhirnya mencoba menemukan komunitas ilmuwan data dan berpartisipasi dalam proyek, Anda akan mendapatkan banyak pengalaman yang dibagikan dalam proyek yang tidak bisa diajarkan buku mana pun.
n1tk

Tapi saya tidak pandai teori seperti statistik, Matematika, dll. Saya mempelajarinya di Uni hari
Volatil3

Dalam kasus khusus saya, saya mempertimbangkan kembali ke sekolah dan pindah ke program Ph.D dalam Analisis dan Ilmu Data ... membutuhkan kalkulus 1,2, aljabar Linear, aljabar linear numerik, SAS, R, matematika untuk data besar, teori grafik dan banyak lagi ...
n1tk

4

Tidak setuju dengan David, seorang ilmuwan data sejati adalah ahli statistik terapan yang mengkode dan tahu bagaimana menggunakan algoritma pembelajaran mesin untuk alasan yang tepat. Statistik adalah basis dari semua ilmu data. Ini adalah "kue" per se. Yang lainnya hanyalah lapisan gula.

Pertanyaannya adalah seperti apa data ilmuwan yang Anda inginkan? Apakah Anda ingin menjadi master subjek (pengetahuan tentang bagaimana, mengapa, kapan dan kapan tidak menerapkan algoritma atau teknik) atau Script Kaggle Kiddie menggunakan Scipy dan berpikir bahwa ia adalah Ilmuwan Data?

1 - Statistik

2- Yang lainnya


2
Tidak yakin saya mengerti apa yang Anda katakan. Saya tidak pernah mengatakan bahwa mengetahui "statistik terapan" tidak penting - saya hanya membuat perbedaan bahwa mendapatkan pengalaman menerapkan metode lebih penting daripada mendapatkan pengetahuan teoritis tentang metode itu sendiri.
David

1
David, itulah titik pertengkaran saya. Tanpa memiliki pengetahuan teoretis tentang metode itu sendiri, kita hanyalah skrip kiddies. Pengalaman itu penting, tetapi itu adalah produk sampingan dari pengetahuan teoretis, bukan sebaliknya.
Model Markov Tersembunyi

2
Tidak. Ada perbedaan besar antara pengalaman terapan dan pengetahuan teoretis, seringkali perbedaan antara apa yang diperoleh di industri vs di kelas. Sebagai contoh, itu lebih berharga untuk mengetahui bagaimana memverifikasi secara efektif bahwa model belum overfit menggunakan metode yang diterapkan seperti validasi silang daripada mengetahui dasar-dasar teoritis regularisasi. Selain itu, tolong berhenti menyebutkan "skrip kidies" - tidak ada yang menganjurkan menggunakan fungsi satu klik-untuk-kirim yang baru dan mengerikan.
David

1
Jika apa yang Anda katakan itu benar, lalu mengapa perusahaan lebih memilih gelar PhD dan orang-orang dengan gelar Master daripada orang-orang dengan gelar sarjana? Itu karena mereka memiliki pengetahuan teoritis tentang teknik yang menggerakkan algoritma. Mereka adalah pembangun mesin per se. Pengetahuan teoretis adalah pengetahuan yang lebih dalam. Kaggle adalah holding tank untuk skrip kiddies.
Hidden Markov Model

1
Sementara saya dapat melihat poin yang Anda berdua coba buat, saya pikir itu mungkin di luar konteks. Pertanyaan aslinya adalah 'bagaimana seorang programmer dapat beralih ke pekerjaan dalam ilmu data?' Jika jawabannya adalah 'jatuhkan semuanya, habiskan beberapa tahun untuk mendapatkan gelar Ph.D dalam statistik, kemudian lakukan beberapa proyek sendiri dan kemudian mulai menerapkan', itu adalah hambatan yang cukup berat dan Anda mungkin juga memberitahu mereka untuk tidak repot-repot secara praktis merasakan. Sebaliknya, mengingat jumlah Statistik PHD (atau bahkan Master) dan jumlah orang yang mencari, pengusaha dapat mempertimbangkan orang-orang yang dapat menunjukkan pengalaman tanpa gelar.
chrisfs

4

Jika Anda ingin menjadi orang yang praktis dengan pengetahuan sejati, mulailah dengan matematika (kalkulus, probabilitas + stat, aljabar lelinear). Pada setiap langkah coba terapkan semuanya dengan pemrograman, python bagus untuk ini. Ketika Anda mendapatkan dasar yang baik, bermainlah dengan data nyata dan pecahkan masalah

Kursus. Aljabar linier - edx Laff atau pengkodean matriks Stat - edx stat 2x Barkley Calculus - baca ... sederhana


2

David punya poin bagus, saya sarankan Anda fokus pada apa pun yang membuat Anda lebih tertarik. Ini satu-satunya cara untuk berhasil dalam setiap jenis usaha. Jika Anda ingin membangun sesuatu yang keren, mulailah dengan itu. Jika Anda ingin membaca buku itu bagus juga. Titik awal tidak masalah. Beberapa hari ke depan Anda akan memiliki pemahaman yang lebih baik tentang apa yang Anda inginkan dan harus Anda lakukan selanjutnya.


1

Ilmu Data sangat luas, ada banyak jalan yang berbeda untuk masuk ke dalamnya. Biasanya dibagi menjadi 4 atau 5 jenis berbeda misalnya:

masukkan deskripsi gambar di sini

Anda dapat melihat dari pos lain dalam topik ini orang-orang yang berasal dari latar belakang Statistik Terapan (menerapkan algoritma yang tepat), latar belakang Pemrograman (berpartisipasi dalam Kaggle), dan lainnya menerapkannya pada latar belakang bisnis

Perusahaan yang cerdas dapat merujuk pada orang yang memiringkan pemrograman sebagai "Insinyur Data". Perusahaan besar juga menggunakan masing-masing jenis untuk tim ilmu data mereka, sehingga menunjukkan keterampilan berbentuk T yang baik akan menjadi hal yang baik.


0

Jika Anda seorang programmer, Anda bisa mulai dengan classifier Decision Tree, fokus pada pemahaman matematika di balik Entropy dan Information-Gain. Sangat penting untuk memahami bahwa ML hanya tentang kompresi data.

Saya sangat tidak setuju dengan beberapa jawaban lain tentang nilai kursus praktis. Yang paling berharga untuk ML adalah matematika: teori bilangan, aljabar linier, dan teori probabilitas.

Jika Anda tidak fokus pada matematika, satu-satunya hal yang akan Anda pelajari adalah, bagaimana menggunakan perpustakaan untuk melakukan sihir, itu bukan pembelajaran mesin dan bukan ilmu pengetahuan sama sekali.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.