Saya akan berkomentar @suncoolsu kedua: Dimensi kumpulan data Anda bukan satu-satunya kriteria yang harus mengarahkan Anda ke perangkat lunak tertentu. Misalnya, jika Anda hanya berencana untuk melakukan pengelompokan tanpa pengawasan atau menggunakan PCA, ada beberapa alat khusus yang menangani kumpulan data besar, seperti yang biasa ditemui dalam studi genom.
Sekarang, R (64 bit) menangani data yang besar cukup baik, dan Anda masih memiliki pilihan untuk menggunakan penyimpanan disk, bukan akses RAM, tapi lihat CRAN Tugas View High-Performance dan Paralel Computing dengan R . Standar GLM akan dengan mudah mengakomodasi 20.000 obs. (tapi lihat juga speedglm ) dalam waktu yang wajar, seperti yang ditunjukkan di bawah ini:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Untuk memberikan ilustrasi yang lebih konkret, saya menggunakan R untuk memproses dan menganalisis data genetik besar (800 individu x 800k SNP , di mana model statistik utama adalah GLM bertingkat dengan beberapa kovariat (2 menit); yang dimungkinkan berkat R dan efisien Kode C tersedia dalam paket snpMatrix (sebagai perbandingan, model yang sama membutuhkan waktu sekitar 8 menit menggunakan perangkat lunak C ++ khusus ( plink ). Saya juga bekerja pada studi klinis (12k pasien x 50 variabel yang menarik) dan R sesuai kebutuhan saya Akhirnya, sejauh yang saya tahu, paket lme4 adalah satu-satunya perangkat lunak yang memungkinkan untuk menyesuaikan model efek campuran dengan set data yang tidak seimbang dan besar (seperti halnya dalam penilaian pendidikan skala besar).
Stata / SE adalah perangkat lunak lain yang dapat menangani kumpulan data besar . SAS dan SPSS adalah perangkat lunak berbasis file, sehingga mereka akan menangani volume data yang besar. Tinjauan perbandingan perangkat lunak untuk datamining tersedia di Alat Penambangan Data: Yang Mana yang Terbaik untuk CRM . Untuk visualisasi, ada juga banyak pilihan; mungkin awal yang baik adalah Grafik dari dataset besar: memvisualisasikan sejuta ( ditinjau dalam JSS oleh P Murrell), dan semua utas terkait di situs ini.