Apakah Excel cukup untuk ilmu data?


10

Saya sedang dalam proses mempersiapkan untuk mengajar kursus pengantar tentang ilmu data menggunakan bahasa pemrograman R. Audiens saya adalah mahasiswa sarjana jurusan mata pelajaran bisnis. Sarjana bisnis yang khas tidak memiliki pengalaman pemrograman komputer, tetapi telah mengambil beberapa kelas yang menggunakan Excel.

Secara pribadi, saya sangat nyaman dengan R (atau bahasa pemrograman lain) karena saya mengambil jurusan ilmu komputer. Namun, saya merasa bahwa banyak siswa saya akan merasa khawatir belajar bahasa pemrograman karena mungkin terasa sulit bagi mereka.

Saya memiliki sedikit keakraban dengan Excel, dan itu adalah keyakinan saya bahwa sementara Excel dapat berguna untuk ilmu data sederhana, perlu bagi siswa untuk belajar bahasa pemrograman yang serius untuk ilmu data (misalnya, R atau Python). Bagaimana saya meyakinkan diri sendiri dan para siswa bahwa Excel tidak cukup untuk siswa bisnis yang serius mempelajari ilmu data, dan bahwa mereka perlu mempelajari beberapa pemrograman?

Diedit dalam menanggapi komentar

Berikut adalah beberapa topik yang akan saya bahas:

  • Pemrosesan data dan pembersihan data
  • Cara memanipulasi tabel data, mis. Pilih subset baris (filter), tambahkan variabel baru (mutasi), sortir baris berdasarkan kolom
  • SQL bergabung menggunakan paket dplyr
  • Cara menggambar plot (plot sebar, plot bar, histogram, dll.) Menggunakan paket ggplot2
  • Cara memperkirakan dan menafsirkan model statistik seperti regresi linier, regresi logistik, pohon klasifikasi, dan tetangga terdekat k

Karena saya tidak mengenal Excel dengan baik, saya tidak tahu apakah semua tugas ini dapat dilakukan dengan mudah di Excel.


Tanpa mengetahui apa yang ada di silabus Anda, pertanyaan ini tidak dapat dijawab. Karena itu, Anda harus melihat Power Pivot / Model Data di Excel. Anda dapat dengan mudah menangani kumpulan data multi-gigabyte dengan jutaan baris di Excel hari ini, dan ini cepat.
Gayus

@ Gayus saya menambahkan beberapa detail tentang apa yang ingin saya ajarkan dalam kursus
I Like to Code

Poin Anda 1-4 didukung dengan baik oleh Model Data support.office.com/en-us/article/… - untuk poin 5 saya akan menyarankan tingkat gratis AzureML studio.azureml.net
Gayus

AzureML juga bekerja dengan R btw
Gaius

4
Tentang poin terakhir Anda - lihat buku "Data Smart" oleh John Foreman - amazon.com/Data-Smart-Science-Transform-Information/dp/…
Gregory Demin

Jawaban:


8

Pertama-tama periksa pos ini . Ini memiliki banyak alasan mengapa Excel lebih rendah daripada solusi lain, mengenai tugas-tugas ilmu data. Excel juga tidak bisa menangani kumpulan data besar (ratusan ribu catatan - belum lagi data sekitar Big Data ), data gambar dan suara.

Excel baik untuk tugas-tugas sederhana tentang spreadsheet; itu lebih menekankan pada presentasi dan kemudahan penggunaan , sementara memiliki dukungan minimal untuk benar-benar menganalisis data. Kecuali jika semua yang ingin Anda lakukan adalah menghitung ukuran statistik sederhana (rata-rata, rata-rata, dll) atau membangun model yang sangat sederhana (misalnya regresi linier), Excel tidak efisien. Karena itu, 99% pekerjaan yang harus dihadapi perusahaan terkait data cukup sederhana untuk dikelola melalui Excel.

Namun Ilmu Data terutama berkaitan dengan regresi, klasifikasi dan model kompleks yang unggul tidak siap untuk menangani! Jika siswa Anda ingin melihat ilmu data, Anda perlu mengajari mereka alat yang akan berguna bagi mereka (R, python, dll.). Bahasa-bahasa ini juga memiliki perpustakaan dengan banyak model bawaan untuk "bermain dengan".

Alasan lain yang sangat besar saya akan pergi dengan opsi terakhir adalah bahwa mereka open source . Saya pribadi merasa bahwa perangkat lunak open source harus lebih disukai dari sudut pandang pendidikan untuk solusi berpemilik (ini juga mengapa saya menyarankan python dan R lebih dari Matlab)!


Saya setuju dengan semua hal di atas, tetapi dia mengatakan mereka jurusan bisnis. Mengapa tidak mengajarkan R tetapi juga memastikan untuk menunjukkan plugin R / Excel?
CalZ

1
"Excel juga tidak bisa menangani kumpulan data besar (ratusan ribu catatan" <- ya itu bisa, mudah. ​​Dan itu bisa bertindak sebagai klien untuk back-end yang serius seperti AzureML dan PowerBI. Saya bukan penggemar Excel " "sangat banyak tetapi itu membuat saya bingung untuk melihat orang-orang yang seharusnya" didorong data "yang bahkan tidak tahu alat dasar.
Gayus

1
Bagaimana jika itu adalah satu juta baris dataset ditambah ribuan kolom, pada mesin "dasar" yang sama (16 gb domba jantan, i7 ecc), solusi mana yang akan membukanya lebih cepat? Saya tidak mencoba merendahkan Excel, hanya rasa ingin tahu yang jujur. Terlalu pengetahuan saya, saya bahkan tidak bisa membuka dataset tersebut di Excel. RStudio membacanya tanpa masalah di PC yang sama.
RLave

7

Saya baru saja selesai dengan Magister Analisis Bisnis dan dihadapkan dengan masalah yang sama yang Anda gambarkan. Untungnya saya adalah orang teknis dan mampu mengajar diri saya sendiri R dan Python, tetapi saya terjebak mengajar seluruh kelas bagaimana menggunakan R dan Python. Kelas yang saya gunakan yang menggunakan R / Python cacat oleh kurangnya pemahaman teknis oleh siswa dan terlalu banyak waktu yang dihabiskan untuk membahas bagaimana cara hanya membuka R / Python. Kelas-kelas yang menempuh rute lain kurang memuaskan dan tidak terlalu praktis. Saya ingin melakukan proyek kelas sesuatu yang akhirnya tidak dapat dilakukan di Excel karena keterbatasannya tetapi guru tidak mau menerima alat lain.

Ini mungkin bukan sesuatu yang dapat Anda lakukan segera tetapi saya akan sangat menyarankan Anda mencoba dan meminta departemen untuk memerlukan kursus pemrograman sebelum mengambil kursus Anda. Ilmu Data dan Analisis Bisnis IMHO harus jalur lintas disiplin yang membutuhkan sedikit Ilmu Komputer, tetapi sampai program matang dan sistem universitas menjadi lebih baik itu mungkin tidak terjadi untuk sementara waktu.


Anda menyebutkan bahwa Anda "ingin melakukan proyek kelas sesuatu yang akhirnya tidak dapat dilakukan di Excel karena keterbatasannya." Apa yang Anda coba lakukan yang tidak bisa dilakukan di Excel?
Saya Suka Kode

3

Saya pikir Anda perlu mengajari mereka bahasa Ilmu Data populer seperti Python atau R. Excel tidak akan membantu mereka dalam pekerjaan nyata, dan tidak praktis untuk tujuan ilmu data. Saya mungkin akan mengatakan Python akan menjadi yang paling berharga bagi mereka dalam jangka panjang, dan dengan paket seperti scikit-pelajari regresi dan klasifikasi Anda dapat ditunjukkan dalam sangat sedikit baris kode yang dapat mereka baca dan pahami dengan lebih mudah. Tidak selalu mudah untuk memahami apa yang dilakukan R hanya dengan membacanya.

Saran lain: Jangan buang waktu memaksa siswa Anda untuk membuat IDE dan mengunduh paket yang diperlukan, jika Anda menggunakan python, buat lingkungan virtual untuk mereka dengan semua paket yang diperlukan, dan buat IDE seperti pycharm (mereka bisa dapatkan ini dan sebagian besar IDE lainnya di bawah lisensi siswa / akademik) di mana kemudian dapat mengembangkan dan menjalankan kode mereka melalui UI daripada konsol yang mereka anggap menakutkan dan membingungkan. Jika Anda menuruni rute R maka pastikan Anda memiliki IDE seperti RStudio yang diatur untuk mereka dan pastikan semua menyertakan dan menginstal paket baik dimasukkan dalam kode contoh Anda atau dijelaskan sepenuhnya.


"Excel tidak akan membantu mereka dalam pekerjaan nyata" itu pasti jika itu yang digunakan semua rekan mereka. Apa pekerjaan nyata dalam pengalaman Anda yang tidak menggunakan Excel?
Gayus

3
Peran Ilmu Data apa pun yang bekerja dengan sejumlah besar data, termasuk saya. Pekerjaan DS mana yang menurut Anda akan menggunakan Excel sebagai alat utama mereka, karena minat?
Dan Carter

Saya melihat dari profil Anda bahwa Anda seorang pelajar? Oh Ini adalah siswa bisnis yang mengambil satu kursus di DS. Dalam pekerjaan bisnis mereka, mereka benar-benar akan menggunakan Excel sebagai alat utama mereka.
Gayus

1
Tentu, Anda benar mereka akan cenderung menggunakan Excel dalam peran tipe bisnis, namun seperti yang dikatakan OP: mereka telah mengambil kursus yang membahas Excel. Pasangan ini dengan fakta bahwa Excel tidak memadai untuk industri atau akademik Ilmu Data dan jelas bahwa mengajar mereka 'Excel untuk Ilmu Data' tidak akan membantu mereka dalam pekerjaan nyata, seperti yang saya katakan. Anda tidak dapat mengajar pria (atau wanita) untuk memancing, dengan mengajar mereka berbicara bahasa Prancis.
Dan Carter

Jadi bagaimana jika mereka sudah mengikuti kursus di Excel? Jangan perlakukan orang-orang bodoh yang tidak bisa belajar R. Kami tidak berbicara dengan Haskell atau LISP di sini!
Emre

2

Bagaimana saya meyakinkan diri sendiri dan para siswa bahwa Excel tidak cukup untuk siswa bisnis yang serius mempelajari ilmu data

Buat di R data.frame besar (beberapa juta baris dan ratusan kolom), simpan sebagai .xlsx.

Tunjukkan pada mereka perbedaan waktu dalam memuatnya dengan R, dan di Excel pada mesin yang sama. Bandingkan operasi statistik dasar antara keduanya pada dataset yang sama, bahkan plot.

Poin no. 2-4 pada daftar Anda juga dapat dilakukan di Excel, cukup BANYAK yang lebih menyakitkan, tunjukkan pada mereka beberapa contoh seberapa banyak yang sederhana (dan lebih cepat) difilter dengan dplyr, dibandingkan dengan Excel dasar, lagi pada dataset besar yang akan disorot perbedaan.

Poin bonus jika Anda dapat membuat dataset yang membuat crash PC Anda dengan Excel going.

Juga, saya akan menekankan bagian "bebas untuk digunakan" dari R (atau Python). Misalnya, dibandingkan dengan SAS, jika Anda hanya ingin mencoba satu solusi (yaitu beberapa jenis cluster), Anda memuat pustaka, dan mencobanya, tidak perlu membayar lebih, hanya untuk mencoba.

Bagi saya itulah keindahannya, Anda dapat mencoba secara gratis apa pun yang Anda butuhkan, dan sering kali itu adalah kunci dalam DS, bayangkan jika Anda harus membayar untuk setiap perpustakaan yang Anda instal.


1

Excel dan Ilmu Data - terdengar sangat aneh bagi saya. Mungkin Excel dan 'Analisis Data'.

Bagaimanapun, saya pikir kompromi yang baik antara Excel dan R adalah: KNIME ( http://www.knime.org/knime-analytics-platform ). Gratis di desktop dan jauh lebih mudah untuk memulai. Anda dapat mengimpor / mengekspor ke Excel tetapi juga menggunakan R, Python atau Java jika ~ 1.000 node kehilangan beberapa fungsi yang Anda butuhkan. Karena alur kerja dibuat secara visual, itu juga jauh lebih mudah untuk menunjukkannya kepada seseorang yang tidak tahu bahasa pemrograman - yang merupakan keuntungan di beberapa perusahaan.


0

Saya pikir masalahnya adalah Anda mencoba meyakinkan siswa Anda bahwa dengan mengikuti kelas Anda, mereka dapat melakukan ilmu data yang serupa dengan tingkat ilmu data modern, yaitu hal-hal mewah seperti pemrosesan gambar, pengenalan wajah. Anda sering mendengar perkataan ini, "dengan mengikuti kelas ini, Anda akan ..." Apa yang perlu Anda ajarkan kepada mereka adalah kecintaan pada data dan keberanian untuk melihat melalui sekumpulan data, bermain-main dengan mereka untuk berharap membuat beberapa rasa keluar dari mereka. Saat mereka dapat melakukan itu, Anda dapat memanggil mereka ilmuwan data dan Anda harus merasa bangga dengan diri Anda karena sekarang memiliki generasi baru ilmuwan data. Setelah itu, jika mereka sangat serius tentang ilmu data, mereka dapat melanjutkan kursus intensif lainnya yang berhubungan dengan matematika, statistik, dan ilmu komputer (pengalaman pemrograman seperti yang Anda katakan). Saya berada dalam situasi yang mirip dengan siswa Anda. Saya tidak memiliki latar belakang CS tetapi ingin membobol ilmu data dan AI dengan mengambil beberapa kelas online dengan janji-janji mewah. Saya akhirnya menghabiskan banyak uang namun merasa frustrasi luar biasa (oh, saya perlu mengambil kelas ini untuk mengetahui algoritma ini, oh mereka berbicara tentang jaringan saraf sekarang jadi saya harus mendaftar untuk kelas lain, dll.) TL ; DR. Alat hanya menyumbang 1% dari masalah yang Anda miliki. Dengan latar belakang Anda, Anda seharusnya tidak memiliki masalah dalam mencari tahu tugas-tugas di atas dalam Excel dalam seminggu. oh mereka berbicara tentang jaringan saraf sekarang jadi saya harus mendaftar untuk kelas lain, dll.) TL; DR. Alat hanya menyumbang 1% dari masalah yang Anda miliki. Dengan latar belakang Anda, Anda seharusnya tidak memiliki masalah dalam mencari tahu tugas-tugas di atas dalam Excel dalam seminggu. oh mereka berbicara tentang jaringan saraf sekarang jadi saya harus mendaftar untuk kelas lain, dll.) TL; DR. Alat hanya menyumbang 1% dari masalah yang Anda miliki. Dengan latar belakang Anda, Anda seharusnya tidak memiliki masalah dalam mencari tahu tugas-tugas di atas dalam Excel dalam seminggu.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.