Saya mencoba memahami bagaimana semua komponen "data besar" bermain bersama dalam kasus penggunaan dunia nyata, misalnya hadoop, monogodb / nosql, storm, kafka, ... Saya tahu bahwa ini adalah cukup banyak alat yang digunakan untuk berbagai jenis, tetapi saya ingin mengetahui lebih banyak tentang interaksi mereka dalam aplikasi, misalnya mesin pembelajaran untuk aplikasi, webapp, toko online.
Saya memiliki pengunjung / sesi, data transaksi dll dan menyimpannya; tetapi jika saya ingin membuat rekomendasi dengan cepat, saya tidak dapat menjalankan peta lambat / mengurangi pekerjaan untuk itu pada beberapa basis data besar log yang saya miliki. Di mana saya bisa belajar lebih banyak tentang aspek infrastruktur? Saya pikir saya bisa menggunakan sebagian besar alat sendiri, tetapi menghubungkannya satu sama lain tampaknya menjadi seni tersendiri.
Apakah ada contoh / kasus penggunaan publik dll tersedia? Saya mengerti bahwa masing-masing pipa sangat bergantung pada use case dan pengguna, tetapi hanya contoh mungkin akan sangat berguna bagi saya.