MapReduce : Kerangka komputasi terdistribusi kesalahan-toleran. MapReduce memungkinkan Anda untuk mengoperasikan data dalam jumlah besar - dengan banyak pekerjaan yang dilakukan untuk mencegah kegagalan karena perangkat keras. MapReduce adalah pilihan yang buruk untuk menghitung hasil dengan cepat karena lambat. (Pekerjaan MapReduce biasanya dilakukan dalam urutan menit atau jam, bukan mikrodetik)
Pekerjaan MapReduce mengambil file (atau beberapa penyimpanan data) sebagai input dan menulis file hasil. Jika Anda ingin hasil ini tersedia untuk suatu aplikasi, Anda bertanggung jawab untuk meletakkan data ini di tempat yang dapat diakses. Ini kemungkinan lambat, dan akan ada jeda antara nilai-nilai yang dapat Anda tampilkan, dan nilai-nilai yang mewakili sistem Anda dalam keadaan saat ini.
Perbedaan penting untuk dibuat ketika mempertimbangkan menggunakan MapReduce dalam membangun sistem realtime adalah melatih model Anda, dan menerapkan model Anda. Jika Anda merasa parameter model Anda tidak berubah dengan cepat, Anda bisa memasangnya dengan MapReduce, dan kemudian memiliki mekanisme untuk mengakses parameter pra-pas ini ketika Anda ingin menerapkan model Anda.
Storm : Sistem komputasi streaming real-time. Storm adalah kerangka kerja online, yang berarti, dalam hal ini, layanan yang berinteraksi dengan aplikasi yang sedang berjalan. Berbeda dengan MapReduce, ia menerima potongan kecil data (bukan seluruh file) saat diproses dalam aplikasi Anda. Anda menentukan DAG operasi untuk dilakukan pada data. Kasus penggunaan yang umum dan sederhana untuk Storm adalah melacak penghitung, dan menggunakan informasi itu untuk mengisi dasbor waktu nyata.
Storm tidak ada hubungannya dengan data Anda. Di sini, streaming adalah cara lain untuk mengatakan menjaga informasi yang Anda pedulikan dan membuang sisanya. Pada kenyataannya, Anda mungkin memiliki lapisan ketekunan dalam aplikasi Anda yang telah mencatat data, dan karenanya ini merupakan pemisahan yang baik dan dapat dibenarkan.
Jika Anda ingin tahu lebih banyak ...
Jika Anda ingin mempelajari lebih lanjut tentang sistem waktu-nyata yang sesuai dengan parameter MR dan menerapkan model dengan cara yang berbeda di sini adalah slide untuk ceramah yang saya berikan untuk membuat mesin rekomendasi waktu-nyata pada HBase.
Makalah yang sangat bagus yang menggabungkan penghitungan waktu nyata dan kegigihan dengan cara yang menarik adalah Personalisasi Berita Google: Penyaringan Kolaboratif Scalable Online
Perkawinan menarik MR dan Storm lainnya adalah SummingBird . Summingbird memungkinkan Anda untuk menentukan operasi analisis data yang dapat diterapkan melalui Storm atau MR.