Bagaimana belajar mandiri ilmu data? [Tutup]


16

Saya seorang pengembang web otodidak dan tertarik untuk mengajar diri saya sendiri ilmu data, tapi saya tidak yakin bagaimana memulainya. Secara khusus, saya bertanya-tanya:

  1. Apa bidang yang ada dalam ilmu data? (mis. Kecerdasan Buatan, pembelajaran mesin, analisis data, dll.)
  2. Apakah ada kelas online yang dapat direkomendasikan?
  3. Apakah ada proyek yang tersedia di luar sana yang bisa saya praktikkan (misalnya, kumpulan data terbuka).
  4. Apakah ada sertifikasi yang dapat saya ajukan atau selesaikan?

Jawaban:


15

Selamat datang di situs, Martin! Itu pertanyaan yang cukup luas, jadi Anda mungkin akan mendapatkan berbagai jawaban. Inilah pendapat saya.

  1. Ilmu Data adalah bidang interdisipliner yang umumnya dianggap menggabungkan statistik klasik, pembelajaran mesin, dan ilmu komputer (sekali lagi, ini tergantung pada siapa yang Anda tanyakan, tetapi yang lain mungkin termasuk intelijen bisnis di sini, dan kemungkinan visualisasi informasi atau penemuan pengetahuan juga; misalnya, artikel wikipedia tentang ilmu data ). Ilmuwan data yang baik juga terampil dalam mengambil karakteristik domain-spesifik dari domain di mana mereka bekerja, juga. Sebagai contoh, seorang ilmuwan data yang bekerja pada analitik untuk catatan rumah sakit jauh lebih efektif jika mereka memiliki latar belakang dalam Informatika Biomedis.
  2. Ada banyak opsi di sini, tergantung pada jenis analitik yang Anda minati. Kursus coursera Andrew Ng adalah sumber pertama yang disebutkan oleh sebagian besar orang , dan memang demikian. Jika Anda tertarik belajar mesin, itu adalah tempat awal yang bagus. Jika Anda ingin eksplorasi mendalam tentang matematika yang terlibat, The Elements of Statistics Learning dari Tibshirani adalah teks yang sangat bagus, tetapi cukup canggih. Ada banyak kursus online yang tersedia di coursera selain Ng's, tetapi Anda harus memilihnya dengan pikiran untuk jenis analitik yang ingin Anda fokuskan, dan / atau domain tempat Anda berencana untuk bekerja.
  3. Kaggle . Mulailah dengan kaggle, jika Anda ingin mempelajari beberapa masalah analitik dunia nyata. Tergantung pada tingkat keahlian Anda, mungkin lebih baik untuk memulai dari yang lebih sederhana. Project Euler adalah sumber yang bagus untuk masalah latihan satu kali yang masih saya gunakan sebagai pekerjaan pemanasan.
  4. Sekali lagi, ini mungkin tergantung pada domain tempat Anda ingin bekerja. Namun, saya tahu Coursera menawarkan sertifikat sains data, jika Anda menyelesaikan serangkaian kursus terkait sains data. Ini mungkin tempat yang bagus untuk memulai.

Semoga berhasil! Jika Anda memiliki pertanyaan spesifik lainnya, jangan ragu untuk bertanya kepada saya di komentar, dan saya akan melakukan yang terbaik untuk membantu!


1
Kembali ke ini, tentu saja Andrew Ng adalah sulit . Saya seharusnya menyebutkan saya tidak kuat dalam matematika. Saya pernah mendengar bahwa kursus Ilmu Data lainnya ini sedikit lebih mudah untuk mempelajari seluk beluknya. Bagaimana menurut anda?
Martin

5

Saya seorang ilmuwan data otodidak, dan saya akan mencoba yang terbaik untuk menjelaskan kepada Anda bagaimana cara melakukannya.


Apa bidang yang ada dalam ilmu data? (mis. Kecerdasan Buatan, pembelajaran mesin, analisis data, dll.)

Ilmu Data adalah domain yang sangat luas. Ini tentang ilmu data. Jadi, bidang apa pun yang menggunakan data untuk mengambil keputusan berada di bawah domain ini. Beberapa bidang meliputi:

  • AI
  • Pengenalan Pola dan Analisis
  • Bio-statistik
  • Pembelajaran Statistik
  • Pembelajaran mesin
  • Estetika Data (atau visualisasi data)
  • Jurnalisme Data

Apakah ada kelas online yang dapat direkomendasikan?

Saya telah menjawab pertanyaan serupa . Jadi saya kutip di sini:

Mulailah dengan kursus Pembelajaran Mesin Coursera . Itu melakukan pekerjaan yang sangat baik dalam memperkenalkan siswa ke domain Machine Learning dan membantu Anda meletakkan dasar yang kuat dalam konsep.

Seandainya Anda merasa matematika sedikit terbodoh dalam kursus itu, Anda bisa mengambil kursus ini , diajar oleh profesor yang sama dan lebih intensif matematika dari yang sebelumnya.

Sekarang, Anda akan memiliki intuisi yang jelas tentang konsep dasar Machine Learning. Sekarang, ambil kursus ini , yang bisa dikatakan sebagai tindak lanjut atau tambahan untuk kursus Andrew Ng.

Sumber daya dari IAPR ini memiliki catatan mendalam tentang banyak konsep ML seperti cross-validation, regularisasi, dll.

Anda juga dapat melihat daftar sumber daya luar biasa yang dikompilasi dalam sebuah blog di Quora.

Sekarang, untuk menyelami konsep-konsep lanjutan dari jaringan saraf dan pembelajaran mendalam, Anda dapat menggunakan buku gratis ini .

Akhirnya, gratis e-book: Unsur statistik Learning adalah sebuah buku yang indah untuk pemula di ML atau Belajar statistik.

Selain itu, periksa repositori referensi ilmu data ini oleh Quora .


Apakah ada proyek yang tersedia di luar sana yang bisa saya praktikkan (misalnya, kumpulan data terbuka).

Saya sudah mulai melakukan proyek dengan dataset terbuka India. Namun, saya akan merekomendasikan Anda untuk memeriksa diskusi yang luar biasa ini di sini , dan setelah melakukan proyek-proyek itu, Anda dapat mulai dengan Kaggle.


Apakah ada sertifikasi yang dapat saya ajukan atau selesaikan?

Menurut pendapat saya, tidak ada sertifikasi sains data . Ya, ada banyak sertifikasi Big Data di luar sana, tapi saya tidak melihat mereka benar-benar berguna bagi ilmuwan data pemula, jadi saya sarankan Anda untuk tidak mengejar mereka setidaknya sampai Anda cukup percaya diri dengan kemampuan ML dan data Anda.


1

Saya merekomendasikan mulai dari spesialisasi Coursera dalam ilmu data. Spesialisasi sains data oleh Johns Hopkins adalah spesialisasi berjalan tertua. Saya tidak merekomendasikan buku dan kaggle. Mereka hanya membingungkan Anda pada awalnya. Perlu diingat bahwa pengkodean adalah bagian termudah dari ilmu data dan Anda harus belajar banyak. Untuk mendapatkan ide tentang bidang ini , Diagram Venn ini adalah awal yang baik.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.