Mencari misalnya tumpukan infrastruktur / alur kerja / pipa


14

Saya mencoba memahami bagaimana semua komponen "data besar" bermain bersama dalam kasus penggunaan dunia nyata, misalnya hadoop, monogodb / nosql, storm, kafka, ... Saya tahu bahwa ini adalah cukup banyak alat yang digunakan untuk berbagai jenis, tetapi saya ingin mengetahui lebih banyak tentang interaksi mereka dalam aplikasi, misalnya mesin pembelajaran untuk aplikasi, webapp, toko online.

Saya memiliki pengunjung / sesi, data transaksi dll dan menyimpannya; tetapi jika saya ingin membuat rekomendasi dengan cepat, saya tidak dapat menjalankan peta lambat / mengurangi pekerjaan untuk itu pada beberapa basis data besar log yang saya miliki. Di mana saya bisa belajar lebih banyak tentang aspek infrastruktur? Saya pikir saya bisa menggunakan sebagian besar alat sendiri, tetapi menghubungkannya satu sama lain tampaknya menjadi seni tersendiri.

Apakah ada contoh / kasus penggunaan publik dll tersedia? Saya mengerti bahwa masing-masing pipa sangat bergantung pada use case dan pengguna, tetapi hanya contoh mungkin akan sangat berguna bagi saya.


Apakah Anda membuat riset tentang ini? Ada banyak video youtube dan presentasi slideshare yang menggambarkan berbagai arsitektur
Stanpol

1
Hai Stanpol, terima kasih atas tanggapan Anda - Saya melakukan beberapa pencarian awal dan tidak benar-benar menemukan apa pun selain AWS dan hal-hal cloudera - mungkin jika Anda dapat memberi saya beberapa istilah pencarian yang menjanjikan, saya akan dengan senang hati mengambilnya dari sana.
chrshmmmr

Jawaban:


14

Untuk memahami berbagai cara pembelajaran mesin dapat diintegrasikan ke dalam aplikasi produksi, saya pikir akan berguna untuk melihat proyek open source dan tulisan / posting blog dari perusahaan yang menggambarkan infrastruktur mereka.

Tema umum yang dimiliki sistem ini adalah pemisahan pelatihan model dari aplikasi model. Dalam sistem produksi, aplikasi model harus cepat, dalam urutan 100-an ms, tetapi ada lebih banyak kebebasan dalam seberapa sering parameter model yang dipasang (atau setara) perlu diperbarui.

Orang-orang menggunakan berbagai solusi untuk pelatihan dan penyebaran model:


7

Salah satu penjelasan yang paling terperinci dan jelas tentang pengaturan pipa analitik yang kompleks adalah dari orang-orang di Twitch .
Mereka memberikan motivasi terinci dari masing-masing pilihan arsitektur untuk pengumpulan, transportasi, koordinasi, pemrosesan, penyimpanan, dan pencarian data mereka.
Bacaan yang menarik! Temukan di sini dan di sini .


Itu cukup luar biasa, persis apa yang saya cari! Terima kasih banyak :)
chrshmmmr

@ chrshmmmr Sama-sama Jangan lupa untuk mengangkat / menandai sebagai diterima jika ini membantu!
tchakravarty

3
Tautan-tautan ini tampaknya memang sangat berguna, tetapi sekali lagi, mereka adalah tautan, dan saya kira kita harus berusaha untuk menjaga jawaban yang independen dari stabilitas sumber luar. Jadi, alangkah baiknya jika Anda dapat menambahkan sekitar dua atau tiga menit, misalnya, diagram dari tautan ini , mempostingnya bersama dengan deskripsi singkat. Sesuatu di baris: "Misalnya, ini adalah alur kerja dari ... sistem. <img>. Info lebih lanjut dapat ditemukan di <link>."
Rubens

1
@ Ruben Saya akan mengusulkan edit sedikit. fgnu: Akan melakukannya, hanya perlu sedikit lebih banyak reputasi untuk benar-benar meningkatkan jawaban, tetapi saya pasti akan menghargai kontribusi Anda :)
chrshmmmr

@ Ruben Itu tidak lebih dari mereproduksi informasi di tautan. Saya akan melakukannya jika ada sesuatu yang saya rasa akan menambah penjelasan yang sudah diberikan di sana.
tchakravarty


1

Bab 1 Ilmu Data Praktis dengan R ( http://www.manning.com/zumel/ ) memiliki gangguan besar dalam proses ilmu data, termasuk peran tim dan bagaimana kaitannya dengan tugas tertentu. Buku ini mengikuti model-model yang ditetapkan dalam bab ini dengan mereferensikan tahap / personel yang mana dari tugas ini atau itu yang akan dilakukan oleh.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.