Perangkat lunak untuk eksplorasi data yang mudah namun kuat


20

Dalam upaya saya untuk memerangi kekacauan spreadsheet, saya sering evangelis dalam mendorong alat yang lebih kuat seperti perangkat lunak statistik yang benar (R, Stata, dan sejenisnya). Baru-baru ini, saya ditantang pada pandangan ini oleh seseorang yang menyatakan bahwa mereka tidak akan belajar memprogram. Saya ingin memberi mereka alat analisis data yang tidak memerlukan pemrograman (tetapi idealnya yang akan diperluas ke pemrograman jika mereka memutuskan untuk mencelupkan kaki ke dalam air nanti). Paket apa yang tersedia untuk eksplorasi data yang dapat saya rekomendasikan dengan wajah lurus?


5
@ gsk3 - pertanyaan menarik. Saya akan menebak bahwa "programaphobe" ini tidak harus berurusan dengan spreadsheet yang rumit? mungkin dia ingin menghidupkan ideologi mereka dan secara sukarela melakukan kerja keras dengan spreadsheet sendiri? :)
probabilityislogic

@probabilityislogic: "programaphobe" tidak menangani mereka begitu mereka menimbulkan masalah, tetapi memiliki banyak trik untuk menangani hasilnya. Saya sudah mencoba argumen anti-spreadsheet klasik tetapi tidak berhasil (ya, ada yang berhasil, karena mereka mau mempertimbangkan gaya solusi ini!).
Ari B. Friedman

@ gsk3 - ah ha, jadi ini bukan program yang menjadi masalah, tapi orang ini tidak akan lagi menjadi "ahli" dan harus mulai dari bawah?
probabilityislogic

2
@probabilityislog - Saya pikir biaya hangus adalah bagian besar dari masalah ini, ya. Sebagian dari biaya-biaya itu tidak diragukan lagi bersifat sosial, dan beberapa di antaranya adalah kerugian waktu dan efisiensi sementara mereka mempelajari cara baru dalam melakukan sesuatu.
Ari B. Friedman

3
Saya pikir komik ini mungkin merupakan representasi situasi yang tepat. Jika orang yang Anda referensikan tidak dapat diprogram, ini mungkin pilihan yang terlalu kuat untuk dilawan. Strategi yang lebih baik mungkin untuk menunjukkan kekurangan analisis berbasis spreadsheet. Coba misalnya dalam file Excel baru untuk memasukkan nilai dan11116 dan jumlah mereka (ini berfungsi di Excel 2007). Kemudian jelaskan bahwa tidak ada paket statistik yang menghargai diri sendiri yang akan memberikan kesalahan serupa tanpa peringatan dan kerja keras dari itu. 114
mpiktas

Jawaban:


7

Saya memprogram dengan Python untuk 95% pekerjaan saya dan sisanya di R atau MATLAB atau IDL / PV-WAVE (dan segera SAS). Tapi, saya berada di lingkungan di mana waktu-ke-hasil sering merupakan pendorong besar analisis yang dipilih dan jadi saya sering menggunakan alat point-and-klik juga. Dalam pengalaman saya, tidak ada alat GUI tunggal, kuat, fleksibel untuk melakukan analitik, seperti tidak ada satu bahasa. Saya biasanya mengumpulkan koleksi perangkat lunak gratis dan komersial berikut

Saya belum pernah menggunakan JMP, Stata, Statistica, dll, tetapi saya ingin.

Menggunakan alat-alat ini melibatkan mempelajari GUI yang berbeda dan beberapa abstraksi pemodelan, yang merupakan rasa sakit pada saat itu tetapi mari saya dapatkan hasil ad hoc lebih cepat nanti. Saya berada di kapal yang sama dengan OP karena sementara sebagian besar orang yang bekerja dengan saya benar-benar pintar, mereka tidak peduli untuk belajar bahasa, atau beberapa GUI dan terminologi khusus aplikasi. Jadi, saya telah mengundurkan diri untuk menerima bahwa Excel mengendalikan 90% analisis di dunia bisnis. Oleh karena itu, saya ingin menggunakan hal-hal seperti pyinex untuk memungkinkan saya memberikan analisis yang lebih baik ke lapisan presentasi Excel yang sama seperti yang diharapkan oleh sebagian besar rekan kerja saya.

UPDATE: Melanjutkan tema Do-modelling-with-programming-but-make-Excel-the-presentation-layer, saya baru saja menemukan situs web pria ini yang menawarkan grafis gaya Tufte untuk disematkan dalam sel Excel. Cukup luar biasa dan gratis!


1
Saya akan mengatakan bahwa JMP cukup baik. Bahkan jika seseorang sangat mahir dalam R, ada kalanya JMP adalah cara yang lebih cepat untuk menavigasi dan menganalisis data.
Iterator

8

Sejauh menyangkut analisis data eksplorasi (mungkin interaktif), saya akan menyarankan untuk melihat pada:

  • Weka , awalnya menargetkan aplikasi data mining, tetapi dapat digunakan untuk ringkasan data.
  • Mondrian , untuk visualisasi data interaktif.
  • KNIME , yang bergantung pada gagasan membangun aliran data dan kompatibel dengan Weka dan R.

Ketiganya menerima data dalam arffatau csvformat.

Dalam pandangan saya, Stata tidak membutuhkan begitu banyak keahlian pemrograman. Ini bahkan merupakan bagian dari daya tariknya, pada kenyataannya: Sebagian besar analisis dasar dapat dilakukan dengan tindakan pengguna titik-dan-klik, dengan kotak dialog untuk menyesuaikan parameter tertentu, misalnya, untuk prediksi dalam model linier. Hal yang sama berlaku, meskipun pada tingkat lebih rendah, ke R ketika Anda menggunakan GUI eksternal seperti Rcmdr , Deducer, dll. Seperti yang dikatakan oleh @ gsk3.


+1 untuk Stata. Anda dapat melakukan semua dasar-dasarnya melalui point-n-klik, tetapi itu juga memuntahkan perintah yang dihasilkan point-n-klik sehingga Anda dapat mempelajari / memodifikasinya. Ini juga seperti spreadsheet dalam cara Anda berinteraksi dengan data, meskipun Anda tentu saja tidak memasukkan rumus ke dalam sel.
Wayne

8

Beberapa orang berpikir pemrograman hanya dengan memasukkan pernyataan baris perintah. Pada titik itu, mungkin Anda sedikit tersesat dalam menyemangati mereka. Namun, jika mereka sudah menggunakan spreadsheet maka mereka harus memasukkan formula. Ini mirip dengan pernyataan perintah baris. Jika mereka benar-benar berarti mereka tidak ingin melakukan pemrograman dalam arti analisis logis dan otomatis maka Anda dapat memberi tahu mereka bahwa mereka masih dapat melakukan analisis dalam R atau Stata tanpa pemrograman sama sekali.

Jika mereka dapat melakukan statistik di spreadsheet ... semua yang ingin mereka lakukan ... maka semua analisis statistik yang ingin mereka selesaikan dapat dilakukan tanpa 'pemrograman' di R atau Stata juga. Mereka dapat mengatur dan mengatur data dalam spreadsheet dan kemudian hanya mengekspornya sebagai teks. Kemudian analisis dilakukan tanpa pemrograman sama sekali.

Begitulah cara saya kadang-kadang melakukan intro ke R. Tidak diperlukan pemrograman untuk melakukan analisis data yang dapat Anda lakukan dalam spreadsheet.

Jika Anda membuat mereka ketagihan dengan cara itu maka cukup masukkan ikan secara perlahan ... :) Dalam beberapa tahun, pujilah mereka betapa hebatnya mereka menjadi programmer.

Anda mungkin juga ingin menunjukkan dokumen ini kepada kolega Anda atau setidaknya membacanya sendiri untuk mendapatkan poin Anda dengan lebih baik.


1
Poin yang bagus, tetapi ada beberapa peringatan di sini: Excel memiliki tips alat yang muncul ketika memasukkan formula dalam sel dan membuatnya lebih mudah untuk "memprogram" tugas-tugas sederhana. Juga, kemungkinan orang di sebelah Anda dapat membantu jika Anda buntu karena ada banyak pengguna kekuatan Excel. Dan, Excel telah diinstal. Meyakinkan seseorang untuk mencoba R melibatkan membantu mereka mengaturnya dan belajar bagaimana memanfaatkan perangkat lunak open source (dan forum mana yang harus dicari, mana dari sekian banyak paket bootstrap yang harus digunakan, dll). Pemrograman dalam beberapa hal adalah bagian yang mudah. Ekosistemnya yang paling sulit.
Josh Hemann

Juga tidak ada masalah pemformatan nyata di Excel ... Dalam R terkadang satu paket menggunakan xts, satu lagi data.frame ... ini berantakan untuk seorang pemula, itu benar
RockScience

fRed, saya setuju bahwa mungkin ada masalah dalam pemformatan data tetapi perlu diingat bahwa tanggapan saya memenuhi syarat sebagai analisis yang sudah bisa dilakukan dalam spreadsheet. Itu tidak banyak analisis bervariasi dan umumnya akan berada di bawah satu format data.
John

Ada sedikit lebih banyak overhead dalam "pemrograman" dengan R daripada dengan Excel, dan ini adalah hal-hal yang membuat pengguna gila. Jika R memiliki GUI kedudukan tertinggi yang mirip dengan Pivot Table, mungkin. Tetapi sampai saat itu ...
Ralph Winters

8

Saya akan memberikan nada di sini untuk JMP. Saya punya beberapa alasan mengapa ini adalah alat eksplorasi data non-pemrograman pilihan saya:

  1. Alat visualisasi yang sangat bagus. Plot tipe EDA yang lebih mendasar, sebagus R, dan jauh lebih mudah digunakan untuk menghasilkan sesuatu yang mendekati plot siap-publikasi. Ini juga memiliki beberapa alat visualisasi yang sangat fleksibel, sehingga Anda dapat memutar dan menekuk data Anda untuk mendapatkan cerita lengkap.
  2. Sangat kuat. Butuh waktu sampai saya ... tahun ke-4 sekolah pascasarjana untuk menemukan sesuatu yang tidak bisa dilakukan JMP langsung dari kotak. Itu tidak terlalu buruk.
  3. Skriptabilitas. Ini adalah hal besar bagi saya. Kelemahan utama GUI adalah sangat sulit untuk meniru apa yang Anda lakukan. JMP memungkinkan Anda untuk skrip GUI - dan menghasilkan skrip itu cukup titik dan klik.

+1 untuk JMP. Ini statistik dasar gui terbaik yang pernah saya gunakan.
Zach

1
Setuju (baik dengan poin # 1). Dalam beberapa hal, ini bahkan lebih baik daripada R untuk hal-hal EDA, dan dapat dimasukkan dengan baik ke dalam alur kerja yang berulang. Jika seseorang sudah bekerja tanpa R, maka JMP adalah cara yang masuk akal untuk bekerja tanpa menambahkan R. Karena itu juga dapat terhubung ke R, seorang programmer R dapat membuat alat yang kemudian dihubungkan ke JMP, memungkinkan pengguna Eloi, errr, untuk melanjutkan untuk percaya bahwa semuanya hanya pesolek.
Iterator

6

Saya dapat merekomendasikan Tableau sebagai alat yang baik untuk eksplorasi dan visualisasi data, hanya karena berbagai cara Anda dapat menjelajahi dan melihat data, hanya dengan menyeret dan menjatuhkan. Grafiknya cukup tajam dan Anda dapat dengan mudah menghasilkan ke PDF untuk keperluan presentasi. Jika mau, Anda dapat memperluasnya dengan beberapa "pemrograman". Saya secara teratur menggunakan alat ini bersama dengan "R" dan SAS dan mereka semua bekerja bersama dengan baik.


3

Seperti yang dikatakan John, eksplorasi data tidak memerlukan banyak pemrograman dalam R. Berikut adalah daftar perintah eksplorasi data yang dapat Anda berikan kepada orang-orang. (Saya baru saja membuat ini; Anda pasti bisa mengembangkannya.)

Mengekspor data dari paket apa pun yang ada. (Mengekspor data numerik tanpa tanda kutip adalah hal yang mudah.) Kemudian baca data dalam R.

ChickWeight=read.csv('chickweight.csv')

Buat meja.

table(ChickWeight$Diet)

Biarkan R menebak jenis grafik apa yang memberi Anda. Terkadang bekerja dengan sangat baik.

plot(ChickWeight)
plot(ChickWeight$weight)
plot(ChickWeight$weight~ChickWeight$Diet)

Sekelompok fungsi plot tertentu bekerja cukup sederhana pada variabel tunggal.

hist(ChickWeight$weight)

Mengambil himpunan bagian

plot(subset(ChickWeight,Diet=='2'))

Sintaks seperti SQL jika orang terbiasa dengan itu (lebih lanjut di sini )

library(sqldf)
plot(sqldf('select * from ChickWeight where Diet == "2"'))

PCA (Anda tentu saja memiliki lebih dari dua variabel.)

princomp(~ ChickWeight$weight + ChickWeight$Time)

3

Ini lebih merupakan ratapan daripada jawaban ...

Perangkat lunak terbaik yang pernah saya lihat untuk ini adalah Arc , yang dibangun di atas Xlisp-Stat. Ini adalah perangkat lunak yang luar biasa untuk eksplorasi data dengan banyak grafis interaktif yang terintegrasi, serta banyak kemampuan inferensi statistik. Menurut pendapat saya, tidak ada hal lain yang mendekati kemudahan penggunaannya untuk eksplorasi data dan kemampuan untuk memperluasnya lebih jauh dengan pemrograman Lisp. Menurut pendapat saya, interaktivitas dalam R baru saja mulai dapat digunakan dengan cara-cara seperti Arc, sepuluh tahun kemudian. Dan sejauh yang saya tahu, belum ada yang menggunakan kemampuan ini untuk membangun antarmuka interaktif yang sedekat Arc.

Sayangnya, itu tidak pernah benar-benar menarik perhatian sehingga pengembang sejak hampir semua beralih ke bekerja di R; ini terakhir diperbarui pada bulan Juli 2004. Versi PC dan Linux / Unix masih berfungsi dan mungkin patut dicoba, tergantung pada kebutuhan Anda; untuk Mac, pilihan terbaik adalah mencoba versi Linux / Unix di bawah X11, saya telah membuatnya bekerja pada beberapa sistem dengan cara itu. Versi Mac yang disebutkan di situs hanya berfungsi pada Mac "Klasik".

Saya juga akan menyebutkan secara singkat Mondrian , yang saya hanya coba sebentar, tetapi tampaknya memiliki interaktivitas grafis yang hebat untuk eksplorasi data, meskipun (seingat saya) tidak ada cara mudah untuk memperluas kemampuan atau melakukan inferensi statistik.


Belum pernah mendengar tentang Arc tetapi akan memeriksanya. Terima kasih.
Ari B. Friedman

1
(+1) Senang mendengar dari dunia Lisp lagi. Saya juga penggemar xlispstat (dan menghargai bahwa Luke Tierney begitu aktif dalam proyek R.)
chl

3

Sebuah sistem perangkat lunak baru yang terlihat menjanjikan untuk tujuan ini adalah Deducer , dibangun di atas R. Sayangnya, karena baru, saya menduga itu belum mencakup luasnya pertanyaan yang mungkin ditanyakan orang, tetapi tidak sesuai dengan kebutuhan. Kriteria air untuk memimpin orang menuju paket yang benar jika mereka memutuskan nanti.

Saya juga menggunakan JMP di masa lalu, yang memiliki interaktivitas yang bagus untuk itu. Saya khawatir beberapa antarmuka mungkin terlalu rumit untuk tujuan ini. Dan ini tidak bebas, yang membuat sulit bagi pengungsi spreadsheet potensial untuk mencoba sesuka hati.


Ada juga Rattle yang terlihat agak menjanjikan.


Mengenai JMP - Jika saya tidak salah, ada versi percobaan dan lisensi akademik yang masuk akal.
Iterator

3

Untuk mengeksplorasi data apa yang mengandung dan membersihkannya, Google Refine sebelumnya, sekarang Open Refine , adalah GUI yang cukup bagus. Ini jauh lebih kuat untuk persiapan dan pembersihan daripada sesuatu seperti Excel. Kemudian beralih ke sesuatu seperti R-Commander untuk analisis Anda.


2

Siapa pun yang menjawab R, atau semua itu "GUI" tidak membaca pertanyaan.

Ada program yang dirancang khusus untuk ini dan itu disebut JMP. Ya, itu mahal, meskipun memiliki uji coba gratis, dan sangat murah untuk mahasiswa atau staf perguruan tinggi (seperti $ 50 murah).

Ada juga RapidMiner, yang merupakan GUI berbasis alur kerja untuk penambangan data dan analisis statistik. Ini gratis dan open source.


1
@ Neil Mengapa begitu? OP menentukan "tetapi idealnya yang akan diperluas ke pemrograman ...". R telah dicolokkan di hampir semua perangkat lunak statistik komersial (mis. SPSS, JMP, Statistica) atau gratis (Knime, Rapidminer) dan Rserve dapat digunakan sebagai backend untuk berkomunikasi dengan R (misalnya, dengan perangkat lunak plink untuk studi genetik), dan digunakan untuk tujuan ini. Versi Free Trial JMP tidak memungkinkan Anda bekerja dengan dataset eksternal, apakah saya salah? (Menariknya, kita semua yang menjawab R, dan perangkat lunak alternatif ,
diturunkan peringkatnya

Saya suka R dan saya mendukungnya, tetapi orang-orang yang ingin mempelajari statistik / data dan tidak tahu bagaimana program benar-benar tidak dapat menggunakannya. dan saya telah bermain dengan semua guisnya dan mereka hanya mengerikan dibandingkan dengan jmp. Saya hanya menunggu hari ketika R mendapat gui seperti jmp, maka semua akan baik-baik saja di alam semesta.
Neil McGuigan

-1 untuk saran bahwa orang tidak membaca pertanyaan sebelum menjawab dan untuk tidak memberikan argumen nyata mengapa R lebih buruk daripada JMP atau RapidMiner. Perhatikan bahwa secara umum saya setuju bahwa R bukan jawaban untuk segalanya, tetapi topik ini agak bertentangan dengan potensi untuk menjadi sangat jahat. Karena itu downvote.
mpiktas

R itu hebat, tapi itu tidak mudah. Itulah yang dia minta dalam judul.
Neil McGuigan

@Neil, ya, tapi Anda bisa berargumen bahwa tidak ada yang namanya eksplorasi data yang mudah namun kuat.
mpiktas

1

Nah, alat khusus ini populer di industri saya (meskipun tidak khusus untuk industri berdasarkan desain): http://www.umetrics.com/simca

Ini memungkinkan Anda untuk melakukan analisis multivariat tipe variabel laten (PCA dan PLS), dan itu mencakup semua plot interpretasi / kalkulasi dan alat interogasi yang menyertainya seperti plot kontribusi, plot kepentingan variabel, perhitungan Q2 dll.

Ini sering digunakan pada dataset industri berdimensi tinggi (dan sering berkorelasi tinggi / collinear) di mana metode tipe OLS / MLR tidak cocok (mis. Info dari sensor sensor, info log, dll.).

Ini beroperasi di lingkungan GUI sepenuhnya, dan pengguna tidak harus menulis satu baris kode pun. Sayangnya itu tidak gratis, dan tidak dapat diperpanjang melalui pemrograman.


1

Menurut pendapat saya, jika Anda tidak membuat kode untuk tes sendiri, Anda cenderung mengalami kesalahan dan kesalahpahaman tentang hasil.

Saya pikir Anda harus merekomendasikan mereka untuk mempekerjakan ahli statistik yang memiliki keterampilan komputer.

Jika ingin selalu melakukan hal yang sama, maka memang Anda bisa menggunakan alat kecil (blackbox) yang akan melakukan hal-hal tersebut. Tapi saya tidak yakin ini masih disebut eksplorasi data.


1
Saya kurang lebih setuju dengan sentimen, tetapi saya tidak berpikir bahwa pandangan yang berpikiran tinggi ini benar-benar mungkin dalam banyak pengaturan.
Ari B. Friedman

1

Saya akan merekomendasikan paket R John Fox yang disebut komandan R:

http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/

Ini menciptakan antarmuka pengguna yang mirip dengan SPSS (atau sejenisnya) yang bagus untuk pemula dan tidak mengharuskan pengguna untuk memasukkan kode apa pun sama sekali. Itu semua dilakukan melalui kotak drop-down (Anda bahkan dapat meminimalkan konsol R saat bekerja).

Bagi saya, manfaat dari paket ini adalah Anda dapat memanfaatkan semua kemampuan komputasi R yang hebat sambil memiliki antarmuka pengguna yang sepenuhnya operasional untuk pemula.


1

Alat lain yang bermanfaat, meskipun hanya untuk Windows, adalah Spotfire - Saya merasa cukup berguna untuk dengan cepat melihat berbagai histogram dan plot pencar untuk variabel tunggal dan berpasangan. Alat penelitian yang membantu Anda membuat peringkat variabel tunggal dan juga pasangan berdasarkan statistik sederhana - Hierarchical Clustering Explorer dari HCIL. Ini bagus untuk menemukan variabel / pasangan variabel yang paling menarik.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.