Bekerja pada apa yang sering disebut proyek "data menengah", saya dapat memparalelkan kode saya (kebanyakan untuk pemodelan dan prediksi dalam Python) pada sistem tunggal di mana saja dari 4 hingga 32 core. Sekarang saya sedang mencari peningkatan skala pada EC2 (mungkin dengan StarCluster / IPython, tetapi terbuka untuk saran lain juga), dan telah bingung dengan cara merekonsiliasi distribusi pekerjaan lintas core pada instance vs instance pada sebuah cluster.
Apakah bahkan praktis untuk memparalelkan antar instance dan lintas core pada setiap instance? Jika demikian, adakah yang bisa memberikan ikhtisar cepat dari pro + kontra menjalankan banyak instance dengan masing-masing beberapa core vs beberapa instance dengan banyak core? Apakah ada aturan praktis untuk memilih rasio instance yang tepat untuk core per instance?
Bandwidth dan RAM adalah masalah non-sepele dalam proyek saya, tetapi mudah dikenali ketika itu adalah kemacetan dan penyesuaian kembali. Jauh lebih sulit, saya bayangkan, untuk membandingkan campuran inti yang tepat untuk contoh tanpa pengujian berulang, dan proyek saya terlalu bervariasi untuk setiap pengujian tunggal untuk diterapkan pada semua keadaan. Terima kasih sebelumnya, dan jika saya baru saja gagal menggunakan google ini, jangan ragu untuk mengarahkan saya ke jawaban yang tepat di tempat lain!