Ilmu data tanpa pengetahuan tentang topik tertentu, apakah layak mengejar sebagai karier? [Tutup]


15

Saya berbicara dengan seseorang baru-baru ini dan menyebutkan minat saya dalam analisis data dan yang saya maksudkan untuk mempelajari keterampilan dan alat yang diperlukan. Mereka menyarankan kepada saya bahwa meskipun sangat bagus untuk mempelajari alat-alat dan membangun keterampilan, tidak ada gunanya melakukannya kecuali saya memiliki pengetahuan khusus dalam bidang tertentu.

Mereka pada dasarnya menyimpulkan bahwa saya hanya akan seperti seorang pembangun dengan setumpuk alat yang dapat membangun beberapa kotak kayu dan mungkin membangun hal-hal yang lebih baik (kabin, lemari dll.), Tetapi tanpa pengetahuan dalam bidang tertentu saya tidak akan pernah menjadi pembangun orang akan datang untuk produk tertentu.

Adakah yang menemukan ini atau mendapat masukan tentang apa yang harus dilakukan? Tampaknya jika memang benar seseorang harus mempelajari aspek ilmu data hal-hal dan kemudian belajar bidang baru hanya untuk menjadi khusus.


Meskipun pertanyaan Anda valid, ini bukan tempat yang tepat untuk itu. Pertanyaan terkait karir dianggap di luar topik di sini.
sheldonkreger

Tidak jelas apa yang Anda tanyakan - apakah lebih baik mempelajari alat atau mengumpulkan pengetahuan domain? mungkin terlalu terbuka dan berbasis opini untuk StackExchange.
Sean Owen

Jawaban:


43

Drew Conway menerbitkan Data Science Venn Diagram , yang dengan sepenuh hati saya setujui:

Diagram Venn Ilmu Data

Di satu sisi, Anda harus benar-benar membaca postingnya. Di sisi lain, saya dapat menawarkan pengalaman saya sendiri: keahlian materi pelajaran saya (yang saya sukai lebih baik sebagai istilah daripada "Keahlian Substantif", karena Anda harus benar-benar juga memiliki "Keahlian Substantif" dalam matematika / statistik dan peretasan) ada di bisnis ritel, matematika / statistik saya adalah peramalan dan statistik inferensial, dan keterampilan peretasan saya terletak pada R.

Dari sudut pandang ini, saya dapat berbicara dengan dan memahami pengecer, dan seseorang yang tidak memiliki setidaknya pengetahuan yang lewat tentang bidang ini harus menghadapi kurva pembelajaran yang curam dalam proyek dengan pengecer. Sebagai pertunjukan sampingan, saya melakukan statistik psikologi, dan persis sama di sana. Dan bahkan dengan sedikit pengetahuan tentang bagian peretasan / matematika / statistik dari diagram, saya akan kesulitan untuk mempercepat, katakanlah, penilaian kredit atau bidang subjek baru lainnya.

Setelah Anda memiliki sejumlah matematika / statistik dan keterampilan hacking, itu jauh lebih baik untuk memperoleh landasan dalam satu atau lebih mata pelajaran dari dalam menambahkan belum bahasa pemrograman lain untuk keterampilan hacking, atau belumalgoritma pembelajaran mesin lain untuk portofolio matematika / statistik Anda. Lagi pula, setelah Anda memiliki landasan matematika / statistik / peretasan yang solid, Anda dapat jika perlu mempelajari alat baru seperti itu dari web atau dari buku teks dalam periode waktu yang relatif singkat. Tetapi keahlian materi pelajaran, di sisi lain, Anda kemungkinan tidak akan dapat belajar dari awal jika Anda memulai dari nol. Dan klien lebih suka bekerja dengan beberapa ilmuwan data A yang memahami bidang spesifik mereka daripada dengan ilmuwan data lain B yang pertama-tama perlu mempelajari dasar-dasar - bahkan jika B lebih baik dalam matematika / statistik / peretasan.

Tentu saja, semua ini juga berarti bahwa Anda tidak akan pernah menjadi ahli dalam salah satu dari ketiga bidang ini. Tapi itu baik-baik saja, karena Anda adalah seorang ilmuwan data, bukan seorang programmer atau ahli statistik atau ahli materi pelajaran. Akan selalu ada orang di tiga lingkaran terpisah yang dapat Anda pelajari. Yang merupakan bagian dari apa yang saya sukai tentang ilmu data.


EDIT: Beberapa saat dan beberapa pemikiran kemudian, saya ingin memperbarui posting ini dengan versi diagram yang baru. Saya masih berpikir bahwa Keterampilan Peretasan, Matematika & Pengetahuan Statistik dan Keahlian Substantif (disingkat menjadi "Pemrograman", "Statistik" dan "Bisnis" untuk keterbacaan) adalah penting ... tetapi saya pikir peran Komunikasi juga penting. Semua wawasan yang Anda peroleh dengan memanfaatkan peretasan, statistik, dan keahlian bisnis Anda tidak akan membuat perbedaan kecuali Anda dapat mengomunikasikannya kepada orang-orang yang mungkin tidak memiliki perpaduan pengetahuan yang unik. Anda mungkin perlu menjelaskan wawasan statistik Anda kepada seorang manajer bisnis yang perlu diyakinkan untuk menghabiskan uang atau mengubah proses. Atau kepada seorang programmer yang tidak berpikir secara statistik.

Jadi di sini adalah diagram Venn ilmu data baru, yang juga mencakup komunikasi sebagai salah satu bahan yang sangat diperlukan. Saya telah memberi label area dengan cara yang seharusnya menjamin nyala api maksimum, sementara mudah diingat.

Mengomentari.

diagram Venn ilmu data baru

Kode R:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()

1
Saya dibawa ke sini oleh posting blog referensi diagram Anda yang diperbarui. Saya pikir ini adalah peningkatan besar pada versi Conway yang asli, meskipun saya tidak bisa melewati gagasan - tersirat oleh ukuran tumpang tindih - bahwa Prof Statistik adalah seseorang dengan keahlian yang sama dalam statistik dan komunikasi.
Robert de Graaf

1

Tentu kamu bisa. Perusahaan menuntut ilmuwan data. Berhati-hatilah karena mereka semua mengartikan istilah ini secara berbeda. Bergantung pada perusahaan, Anda mungkin diminta melakukan apa pun mulai dari statistik hingga menulis kode produksi. Salah satu dari mereka adalah pekerjaan penuh waktu dan Anda harus siap untuk keduanya, jadi meminta pengetahuan khusus yang mendalam di atas itu tidak masuk akal, menurut saya, dan perusahaan yang saya ajak bicara menekankan dua bidang lainnya ( khususnya pemrograman). Namun, saya merasa terbantu dengan jenis-jenis masalah yang mungkin Anda hadapi. Bergantung pada sektornya, itu bisa berupa deteksi anomali, rekomendasi / personalisasi, prediksi, catatan hubungan, dll. Ini adalah hal-hal yang dapat Anda pelajari sebagai contoh pada waktu yang sama dengan matematika dan pemrograman.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.