R sebagai alternatif SAS untuk data besar


8

Saya tahu bahwa R tidak terlalu membantu untuk menganalisis dataset besar mengingat R memuat semua data dalam memori sedangkan sesuatu seperti SAS melakukan analisis sekuensial. Yang mengatakan, ada paket seperti bigmemory yang memungkinkan pengguna untuk melakukan analisis data besar (analisis statistik) lebih efisien di R.

Saya ingin tahu, terlepas dari semua informasi teoretis, apakah ada yang menggunakan / menggunakan R untuk menganalisis kumpulan data besar di lingkungan perusahaan dan apa masalah khas yang bisa muncul. Dengan dataset besar saya mengacu pada dataset yang berukuran ~ 200 GB. Juga, setiap pemikiran tentang contoh kehidupan nyata dari migrasi dari SAS ke R dalam kasus penggunaan seperti itu akan sangat membantu.


1
R 3.0 (yang merupakan rilis saat ini) dapat mengakses array besar. Pada mesin 64 bit harus dapat mengatasi memori sebanyak itu jika Anda memiliki sebanyak itu.
Glen_b -Reinstate Monica

Ada beberapa paket untuk menambah memori, seperti ffdan bigmemory. @ Glen_b, apakah menurut Anda R baru (dengan mesin 64 bit) akan bersaing dengan SAS (dalam hal ukuran set data yang mungkin)?
Stéphane Laurent

@ StéphaneLaurent SAS menggunakan pendekatan berbeda yang berarti tidak terbatas pada memori yang dapat dialamatkan (pendekatan ini tidak benar-benar mungkin untuk R karena fleksibilitasnya), jadi batasnya tidak akan sama ... tapi saya tidak benar-benar tahu apa batas SAS.
Glen_b -Reinstate Monica

Jawaban:


4

Saya telah melakukan pekerjaan pada set data yang sangat besar di R, dan tidak punya masalah.

Ada beberapa pendekatan yang berhasil, tetapi paradigma dasar saya adalah bahwa saya menemukan cara untuk memproses data "secara berurutan". Jelas SAS memiliki kendala memori dasar yang sama jika Anda menggunakannya di mesin yang sama, menggunakan R hanya sedikit lebih DIY.

Dalam setiap kasus yang pernah saya temui saya baik melakukan analisis pada beberapa jenis ringkasan data, atau saya melakukan analisis pada potongan data dan kemudian merangkum hasilnya. Apa pun itu mudah dicapai dalam R.

Cukup mudah untuk membuat ringkasan jika Anda memiliki data terstruktur dengan cara tertentu (benar-benar dengan cara apa pun). Hadoop adalah alat terkemuka untuk membuat ringkasan, tetapi mudah untuk melakukan pemrosesan batch pada file Data R, dan jika data Anda akan sesuai pada perangkat penyimpanan lokal Anda, itu juga lebih cepat untuk memproses batch dengan cara itu (dalam hal waktu pemrosesan dan waktu pengembangan).

Analisis batch Anda juga cukup mudah dengan menggunakan chunk juga menggunakan proses pemikiran yang sama.

Jika Anda benar-benar ingin melakukan model linear langsung pada set data raksasa, maka saya pikir bigmory adalah jawaban Anda, seperti yang disarankan oleh Stéphane Laurent.

Saya tidak benar-benar berpikir ada satu "jawaban" untuk "bagaimana Anda menangani kendala memori" atau "pindah ke platform baru", tetapi ini adalah dua sen saya yang panjang lebar.


3

Saya tidak memiliki bagian analitik revolusioner tetapi ada blog tentang hal ini

http://www.r-bloggers.com/allstate-compares-sas-hadoop-and-r-for-big-data-insurance-models/

Menggunakan hadoop (komputasi terdistribusi) untuk memecahkan masalah memori ini.


1
Harap berikan informasi lebih lanjut. Jika tautan tidak berfungsi lagi, jawabannya tetap harus membantu.
Sven Hohenstein

Saya tidak berpikir "solusi" mereka adalah Hadoop (80 core Hadoop dua kali lebih lambat dari SAS 16-core), tetapi kedengarannya seperti LSF ( en.wikipedia.org/wiki/Platform_LSF ) kira-kira sama.
Darren Cook
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.