Siapa yang menggunakan paket R dengan multicore, SNOW atau CUDA untuk komputasi yang intensif sumber daya?


16

Siapa di antara Anda di forum ini yang menggunakan "> R dengan multicore , paket salju , atau CUDA , jadi untuk kalkulasi lanjutan yang membutuhkan lebih banyak daya daripada CPU workstation? Di perangkat keras mana Anda menghitung skrip ini? Di rumah / kantor atau apakah Anda memiliki akses pusat data di suatu tempat?

Latar belakang pertanyaan-pertanyaan ini adalah sebagai berikut: Saya sedang menulis M.Sc. tesis tentang R dan Komputasi Kinerja Tinggi dan memerlukan pengetahuan yang kuat tentang siapa yang benar-benar menggunakan R. Saya membaca bahwa R memiliki 1 juta pengguna pada tahun 2008, tetapi itu kurang lebih satu-satunya statistik pengguna yang dapat saya temukan pada topik ini - jadi saya harap Anda jawaban!

Hormat saya Heinrich


Kemungkinan pertanyaan terkait, stats.stackexchange.com/questions/825/… .
chl

Jawaban:


6

Saya adalah seorang ahli biologi yang memodelkan efek variasi iklim antar-tahunan terhadap dinamika populasi beberapa spesies yang bermigrasi. Kumpulan data saya sangat besar (data intensif spasial) jadi saya menjalankan kode R menggunakan multicoreserver Amazon EC2. Jika tugas saya sangat intensif sumber daya, saya akan memilih contoh Memori Besar Empat Kali Lipat Ekstra Besar yang dilengkapi dengan 26 unit CPU, 8 core, dan 68G RAM. Dalam hal ini saya biasanya menjalankan 4-6 skrip secara bersamaan, yang masing-masing bekerja melalui kumpulan data yang cukup besar. Untuk tugas yang lebih kecil, saya memilih server dengan 4-6 core dan sekitar 20 gigs RAM.

Saya meluncurkan instance ini (biasanya spot instance karena mereka lebih murah tetapi dapat menghentikan kapan saja tingkat saat ini melebihi apa yang saya pilih untuk membayar), jalankan skrip selama beberapa jam, dan kemudian hentikan instance setelah skrip saya selesai. Adapun gambar mesin (Amazon Machine Image), saya mengambil seseorang menginstal Ubuntu, memperbarui R, menginstal paket saya, dan menyimpannya sebagai AMI pribadi saya di ruang penyimpanan S3 saya.

Mesin pribadi saya adalah macbook pro dualcore dan memiliki kesulitan forking panggilan multicore. Jangan ragu untuk mengirim email jika Anda memiliki pertanyaan lain.


Bisakah Anda memberi tahu berapa ukuran kumpulan data Anda.
suncoolsu

Tentu. Kumpulan data yang saat ini saya kerjakan adalah ~ 14 gigs
Maiasaura

4

Karena Anda bertanya, saya menggunakan paket foreach dengan backend multicore . Saya menggunakannya untuk membagi beban kerja paralel memalukan di beberapa core pada satu kotak Nehalem dengan banyak RAM. Ini bekerja cukup baik untuk tugas yang ada.


Terima kasih atas jawaban anda! Apakah Anda melakukan perhitungan untuk pekerjaan / penelitian akademis Anda atau untuk proyek sendiri pada PC sendiri?
Heinrich

Ini dilakukan dalam pengaturan komersial. Untuk tugas ini, saya menggunakan kotak Intel tunggal dengan 32GB RAM dan disk RAID (kesulitan utama adalah banyak data, sedangkan pemrosesan itu sendiri tidak terlalu menuntut komputasi.)
NPE

Baiklah @aix, seberapa sering Anda melakukan perhitungan ini. Apakah Anda menjalankan kotak sepanjang hari atau lebih menganggur?
Heinrich

Pertanyaan cepat ke @NPE: di sistem apa Anda menyimpan data? apakah Anda menggunakan database back-end?
nassimhddd

3

Saya bekerja di akademi dan saya menggunakan multicore untuk beberapa tolok ukur yang berat dari algoritma pembelajaran mesin, kebanyakan di Sun Constellation berdasarkan Opteron kami dan beberapa kluster yang lebih kecil; itu juga masalah paralel yang agak memalukan sehingga peran utama multicore adalah untuk menyebarkan komputasi melalui node tanpa penggandaan penggunaan memori.


Kami di sini di Hamburg selalu memiliki masalah bahwa waktu tunggu untuk pusat data akademik sangat panjang. apakah itu sama untukmu?
Heinrich

@ Heinrich Saya bekerja untuk semacam pusat data akademik, jadi saya tidak punya masalah seperti itu (-; Serius, di Warsawa persediaan waktu CPU ilmiah lebih besar dari permintaan, jadi saya percaya cukup mudah untuk mendapatkan hibah. Dan Saya pikir Anda harus mencoba D-Grid atau EGEE, pengalaman saya adalah bahwa grid pada umumnya sangat kurang digunakan.

Oh Itu menarik. Anda tahu Dow dalam bisnis apa R digunakan dalam perluasan ini?
Heinrich

2

Saya menggunakan salju dan salju untuk paralelisasi saja pada cluster HPC dan CUDA untuk pemrosesan paralel data yang halus. Saya di Epidemiologi melakukan pemodelan penularan penyakit. Jadi saya menggunakan keduanya.


Terima kasih atas info Anda. Apa yang Anda maksud dengan kursus paralelisasi?
Heinrich

Paralelisasi mata kuliah akan menjadi sesuatu seperti jalan independen dari perubahan MCMC., Yaitu chuck yang sangat besar yang dapat dijalankan secara paralel tanpa menyinkronkan utas. Contoh dari butiran halus menghitung kemungkinan di mana perhitungan dapat dilakukan pada titik data secara independen.
Andrew Redd
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.