Sebagai pengguna antusias R, bash, Python, asciidoc, (La) TeX, sofwtare open source atau alat un * x lainnya, saya tidak dapat memberikan jawaban yang objektif. Selain itu, karena saya sering berdebat menentang penggunaan MS Excel atau spreadsheet dalam bentuk apa pun (well, Anda melihat data Anda, atau bagian dari itu, tetapi apa lagi?), Saya tidak akan berkontribusi secara positif pada debat. Saya bukan satu-satunya, misalnya
- Kecanduan Spreadsheet , dari P. Burns.
- Presisi dan akurasi MS Excel , sebuah posting di milis 2004 R
- L. Knusel, Tentang keakuratan distribusi statistik dalam Microsoft Excel 97 , Statistik Komputasi & Analisis Data, 26: 375-377, 1998. ( pdf )
- BD McCullough & B. Wilson, Tentang keakuratan prosedur statistik dalam Microsoft Excel 2000 dan Excel XP , Statistik Komputasi & Analisis Data , 40: 713-721, 2002.
- M. Altman, J. Gill & MP McDonald, Masalah Numerik dalam Komputasi Statistik untuk Ilmuwan Sosial , Wiley, 2004. [misalnya, hal. 12-14]
Seorang kolega saya kehilangan semua makro karena kurangnya kompatibilitas ke belakang, dll. Kolega lain mencoba untuk mengimpor data genetika (sekitar 700 subjek di-genotipe pada 800.000 spidol, 120 Mo), hanya untuk "melihat mereka". Excel gagal, Notepad menyerah juga ... Saya dapat "melihat mereka" dengan vi, dan dengan cepat memformat ulang data dengan beberapa skrip sed / awk atau perl. Jadi saya pikir ada beberapa level yang perlu dipertimbangkan ketika membahas tentang kegunaan spreadsheet. Entah Anda bekerja pada set data kecil, dan hanya ingin menerapkan hal-hal statistik dasar dan mungkin baik-baik saja. Kemudian, terserah Anda untuk mempercayai hasil, atau Anda selalu dapat meminta kode sumber, tetapi mungkin akan lebih mudah untuk melakukan tes cepat dari semua prosedur sebaris dengan tolok ukur NIST. Saya tidak berpikir itu sesuai dengan cara yang baik untuk melakukan statistik hanya karena ini bukan perangkat lunak statistik yang benar (IMHO), meskipun sebagai pembaruan dari daftar yang disebutkan di atas, versi yang lebih baru dari MS Excel tampaknya telah menunjukkan peningkatan dalam akurasi untuk analisis statistik, lihat Keeling dan Pavur, Studi perbandingan keandalan sembilan paket perangkat lunak statistik ( CSDA 2007 51: 3811).
Namun, sekitar satu kertas dari 10 atau 20 (dalam biomedis, psikologi, psikiatri) termasuk grafik yang dibuat dengan Excel, kadang-kadang tanpa menghilangkan latar belakang abu-abu, garis hitam horizontal atau legenda otomatis (Andrew Gelman dan Hadley Wickham tentu saja sama bahagianya dengan saya ketika melihatnya). Tetapi lebih umum, itu cenderung menjadi "perangkat lunak" yang paling banyak digunakan menurut jajak pendapat baru - baru ini di FlowingData, yang mengingatkan saya pada pembicaraan lama Brian Ripley (yang ikut menulis paket MASS R, dan menulis buku yang bagus tentang pengenalan pola , diantara yang lain):
Jangan menipu diri sendiri: perangkat lunak yang paling banyak digunakan untuk statistik adalah Excel (B. Ripley via Jan De Leeuw), http://www.stats.ox.ac.uk/ ~ ripley/RSS2002.pdf
Sekarang, jika Anda merasa itu memberi Anda cara cepat dan mudah untuk menyelesaikan statistik Anda, mengapa tidak? Masalahnya adalah masih ada hal-hal yang tidak dapat dilakukan (atau setidaknya, ini agak rumit) di lingkungan seperti itu. Saya memikirkan bootstrap, permutasi, analisis data eksplorasi multivarian, untuk beberapa nama. Kecuali Anda sangat mahir dalam VBA (yang bukan scripting atau bahasa pemrograman), saya cenderung berpikir bahwa bahkan operasi kecil pada data lebih baik ditangani di bawah R (atau Matlab, atau Python, memberikan Anda mendapatkan alat yang tepat untuk menangani dengan misalnya yang disebut data.frame). Di atas semua itu, saya pikir Excel tidak mempromosikan praktik yang sangat baik untuk analis data (tetapi juga berlaku untuk "cliquodrome" apa pun, lihat diskusi tentang Medstats tentang perlunya memelihara catatan pemrosesan data,Mendokumentasikan analisis dan pengeditan data ), dan saya menemukan posting ini tentang Statistik Praktis yang relatif menggambarkan beberapa perangkap Excel. Namun, ini berlaku untuk Excel, saya tidak tahu bagaimana ini diterjemahkan ke GDocs.
Tentang berbagi pekerjaan Anda, saya cenderung berpikir bahwa Github (atau Gist untuk kode sumber) atau Dropbox (meskipun EULA mungkin membuat beberapa orang enggan) adalah pilihan yang sangat baik (revisi riwayat, manajemen hibah jika diperlukan, dll.). Saya tidak bisa mendorong penggunaan perangkat lunak yang pada dasarnya menyimpan data Anda dalam format biner. Saya tahu itu dapat diimpor dalam R, Matlab, Stata, SPSS, tetapi menurut saya:
- data secara definitif harus dalam format teks, yang dapat dibaca oleh perangkat lunak statistik lain;
- analisis harus dapat direproduksi, artinya Anda harus menyediakan naskah lengkap untuk analisis Anda dan harus dijalankan (kami mendekati kasus ideal di dekat sini ...) pada sistem operasi lain kapan saja;
- perangkat lunak statistik Anda sendiri harus menerapkan algoritma yang diakui dan harus ada cara mudah untuk memperbaruinya untuk mencerminkan praktik terbaik saat ini dalam pemodelan statistik;
- sistem berbagi yang Anda pilih harus mencakup versi dan fasilitas kolaboratif.
Itu dia.