Drew Conway menerbitkan Data Science Venn Diagram , yang dengan sepenuh hati saya setujui:
Di satu sisi, Anda harus benar-benar membaca postingnya. Di sisi lain, saya dapat menawarkan pengalaman saya sendiri: keahlian materi pelajaran saya (yang saya sukai lebih baik sebagai istilah daripada "Keahlian Substantif", karena Anda harus benar-benar juga memiliki "Keahlian Substantif" dalam matematika / statistik dan peretasan) ada di bisnis ritel, matematika / statistik saya adalah peramalan dan statistik inferensial, dan keterampilan peretasan saya terletak pada R.
Dari sudut pandang ini, saya dapat berbicara dengan dan memahami pengecer, dan seseorang yang tidak memiliki setidaknya pengetahuan yang lewat tentang bidang ini harus menghadapi kurva pembelajaran yang curam dalam proyek dengan pengecer. Sebagai pertunjukan sampingan, saya melakukan statistik psikologi, dan persis sama di sana. Dan bahkan dengan sedikit pengetahuan tentang bagian peretasan / matematika / statistik dari diagram, saya akan kesulitan untuk mempercepat, katakanlah, penilaian kredit atau bidang subjek baru lainnya.
Setelah Anda memiliki sejumlah matematika / statistik dan keterampilan hacking, itu jauh lebih baik untuk memperoleh landasan dalam satu atau lebih mata pelajaran dari dalam menambahkan belum bahasa pemrograman lain untuk keterampilan hacking, atau belumalgoritma pembelajaran mesin lain untuk portofolio matematika / statistik Anda. Lagi pula, setelah Anda memiliki landasan matematika / statistik / peretasan yang solid, Anda dapat jika perlu mempelajari alat baru seperti itu dari web atau dari buku teks dalam periode waktu yang relatif singkat. Tetapi keahlian materi pelajaran, di sisi lain, Anda kemungkinan tidak akan dapat belajar dari awal jika Anda memulai dari nol. Dan klien lebih suka bekerja dengan beberapa ilmuwan data A yang memahami bidang spesifik mereka daripada dengan ilmuwan data lain B yang pertama-tama perlu mempelajari dasar-dasar - bahkan jika B lebih baik dalam matematika / statistik / peretasan.
Tentu saja, semua ini juga berarti bahwa Anda tidak akan pernah menjadi ahli dalam salah satu dari ketiga bidang ini. Tapi itu baik-baik saja, karena Anda adalah seorang ilmuwan data, bukan seorang programmer atau ahli statistik atau ahli materi pelajaran. Akan selalu ada orang di tiga lingkaran terpisah yang dapat Anda pelajari. Yang merupakan bagian dari apa yang saya sukai tentang ilmu data.
EDIT: Beberapa saat dan beberapa pemikiran kemudian, saya ingin memperbarui posting ini dengan versi diagram yang baru. Saya masih berpikir bahwa Keterampilan Peretasan, Matematika & Pengetahuan Statistik dan Keahlian Substantif (disingkat menjadi "Pemrograman", "Statistik" dan "Bisnis" untuk keterbacaan) adalah penting ... tetapi saya pikir peran Komunikasi juga penting. Semua wawasan yang Anda peroleh dengan memanfaatkan peretasan, statistik, dan keahlian bisnis Anda tidak akan membuat perbedaan kecuali Anda dapat mengomunikasikannya kepada orang-orang yang mungkin tidak memiliki perpaduan pengetahuan yang unik. Anda mungkin perlu menjelaskan wawasan statistik Anda kepada seorang manajer bisnis yang perlu diyakinkan untuk menghabiskan uang atau mengubah proses. Atau kepada seorang programmer yang tidak berpikir secara statistik.
Jadi di sini adalah diagram Venn ilmu data baru, yang juga mencakup komunikasi sebagai salah satu bahan yang sangat diperlukan. Saya telah memberi label area dengan cara yang seharusnya menjamin nyala api maksimum, sementara mudah diingat.
Mengomentari.
Kode R:
draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
tt <- seq(0,2*pi,length.out=1000)
foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)
png("Venn.png",width=600,height=600)
opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)
name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
name(8,62,"Communi-\ncation",cex=1.5,pos=3)
name(30,78,"Statistics",cex=1.5)
name(70,78,"Programming",cex=1.5)
name(92,62,"Business",cex=1.5,pos=3)
name(10,45,"Hot\nAir")
name(90,45,"The\nAccountant")
name(33,65,"The\nData\nNerd")
name(67,65,"The\nHacker")
name(27,50,"The\nStats\nProf")
name(73,50,"The\nIT\nGuy")
name(50,55,"R\nCore\nTeam")
name(38,38,"The\nGood\nConsultant")
name(62,38,"Drew\nConway's\nData\nScientist")
name(50,24,"The\nperfect\nData\nScientist!")
name(31,18,"Comp\nSci\nProf")
name(69,18,"The\nNumber\nCruncher")
name(42,11,"Head\nof IT")
name(58,11,"Ana-\nlyst")
name(50,5,"The\nSalesperson")
par(opar)
dev.off()