Mencari misalnya tumpukan infrastruktur / alur kerja / pipa

14

Saya mencoba memahami bagaimana semua komponen "data besar" bermain bersama dalam kasus penggunaan dunia nyata, misalnya hadoop, monogodb / nosql, storm, kafka, ... Saya tahu bahwa ini adalah cukup banyak alat yang digunakan untuk berbagai jenis, tetapi saya ingin mengetahui lebih banyak tentang interaksi mereka dalam aplikasi, misalnya mesin pembelajaran untuk aplikasi, webapp, toko online.

Saya memiliki pengunjung / sesi, data transaksi dll dan menyimpannya; tetapi jika saya ingin membuat rekomendasi dengan cepat, saya tidak dapat menjalankan peta lambat / mengurangi pekerjaan untuk itu pada beberapa basis data besar log yang saya miliki. Di mana saya bisa belajar lebih banyak tentang aspek infrastruktur? Saya pikir saya bisa menggunakan sebagian besar alat sendiri, tetapi menghubungkannya satu sama lain tampaknya menjadi seni tersendiri.

Apakah ada contoh / kasus penggunaan publik dll tersedia? Saya mengerti bahwa masing-masing pipa sangat bergantung pada use case dan pengguna, tetapi hanya contoh mungkin akan sangat berguna bagi saya.

— chrshmmmr
sumber

Apakah Anda membuat riset tentang ini? Ada banyak video youtube dan presentasi slideshare yang menggambarkan berbagai arsitektur

— Stanpol

1

Hai Stanpol, terima kasih atas tanggapan Anda - Saya melakukan beberapa pencarian awal dan tidak benar-benar menemukan apa pun selain AWS dan hal-hal cloudera - mungkin jika Anda dapat memberi saya beberapa istilah pencarian yang menjanjikan, saya akan dengan senang hati mengambilnya dari sana.

— chrshmmmr

14

Untuk memahami berbagai cara pembelajaran mesin dapat diintegrasikan ke dalam aplikasi produksi, saya pikir akan berguna untuk melihat proyek open source dan tulisan / posting blog dari perusahaan yang menggambarkan infrastruktur mereka.

Tema umum yang dimiliki sistem ini adalah pemisahan pelatihan model dari aplikasi model. Dalam sistem produksi, aplikasi model harus cepat, dalam urutan 100-an ms, tetapi ada lebih banyak kebebasan dalam seberapa sering parameter model yang dipasang (atau setara) perlu diperbarui.

Orang-orang menggunakan berbagai solusi untuk pelatihan dan penyebaran model:

Bangun model, lalu ekspor dan gunakan dengan PMML
- AirBnB menjelaskan pelatihan model mereka dalam R / Python dan penyebaran model PMML melalui OpenScoring.
- Pola adalah proyek yang terkait dengan Cascading yang dapat mengkonsumsi PMML dan menggunakan model prediksi.
Bangun model di MapReduce dan akses nilai dalam sistem khusus
- Conjecture adalah proyek sumber terbuka dari Etsy yang memungkinkan untuk pelatihan model dengan Scalding , pembungkus scala yang lebih mudah digunakan di sekitar MapReduce, dan penyebaran melalui Php.
- Kiji adalah proyek open source dari WibiData yang memungkinkan untuk penilaian model waktu nyata (aplikasi) serta fungsi untuk mempertahankan data pengguna dan model pelatihan pada data tersebut melalui Scalding.
Gunakan sistem online yang memungkinkan untuk terus memperbarui parameter model.
- Google merilis sebuah makalah yang bagus tentang penyaringan kolaboratif online yang mereka terapkan untuk menangani rekomendasi dalam Berita Google.

— j_houg
sumber

7

Salah satu penjelasan yang paling terperinci dan jelas tentang pengaturan pipa analitik yang kompleks adalah dari orang-orang di Twitch .
Mereka memberikan motivasi terinci dari masing-masing pilihan arsitektur untuk pengumpulan, transportasi, koordinasi, pemrosesan, penyimpanan, dan pencarian data mereka.
Bacaan yang menarik! Temukan di sini dan di sini .

— tchakravarty
sumber

Itu cukup luar biasa, persis apa yang saya cari! Terima kasih banyak :)

— chrshmmmr

@ chrshmmmr Sama-sama Jangan lupa untuk mengangkat / menandai sebagai diterima jika ini membantu!

— tchakravarty

3

Tautan-tautan ini tampaknya memang sangat berguna, tetapi sekali lagi, mereka adalah tautan, dan saya kira kita harus berusaha untuk menjaga jawaban yang independen dari stabilitas sumber luar. Jadi, alangkah baiknya jika Anda dapat menambahkan sekitar dua atau tiga menit, misalnya, diagram dari tautan ini , mempostingnya bersama dengan deskripsi singkat. Sesuatu di baris: "Misalnya, ini adalah alur kerja dari ... sistem. <img>. Info lebih lanjut dapat ditemukan di <link>."

— Rubens

1

@ Ruben Saya akan mengusulkan edit sedikit. fgnu: Akan melakukannya, hanya perlu sedikit lebih banyak reputasi untuk benar-benar meningkatkan jawaban, tetapi saya pasti akan menghargai kontribusi Anda :)

— chrshmmmr

@ Ruben Itu tidak lebih dari mereproduksi informasi di tautan. Saya akan melakukannya jika ada sesuatu yang saya rasa akan menambah penjelasan yang sudah diberikan di sana.

— tchakravarty

3

Airbnb dan Etsy keduanya baru-baru ini memposting informasi terperinci tentang alur kerja mereka.

— Angka tiga
sumber

1

Bab 1 Ilmu Data Praktis dengan R ( http://www.manning.com/zumel/ ) memiliki gangguan besar dalam proses ilmu data, termasuk peran tim dan bagaimana kaitannya dengan tugas tertentu. Buku ini mengikuti model-model yang ditetapkan dalam bab ini dengan mereferensikan tahap / personel yang mana dari tugas ini atau itu yang akan dilakukan oleh.

— d8aninja
sumber