Mempertimbangkan kriteria lain, saya pikir dalam beberapa kasus menggunakan Python mungkin jauh lebih unggul daripada R untuk Big Data. Saya tahu luasnya penggunaan R dalam materi pendidikan sains data dan perpustakaan analisis data yang baik tersedia untuk itu, tetapi kadang-kadang hanya bergantung pada tim.
Dalam pengalaman saya, bagi orang yang sudah terbiasa dengan pemrograman, menggunakan Python memberikan lebih banyak fleksibilitas dan dorongan produktivitas dibandingkan dengan bahasa seperti R, yang tidak dirancang dengan baik dan kuat dibandingkan dengan Python dalam hal bahasa pemrograman. Sebagai bukti, dalam kursus penambangan data di universitas saya, tugas akhir terbaik ditulis dengan Python, meskipun yang lain memiliki akses ke perpustakaan analisis data R yang kaya. Artinya, kadang-kadang produktivitas keseluruhan (mempertimbangkan bahan pembelajaran, dokumentasi, dll.) Untuk Python mungkin lebih baik daripada R bahkan dalam kurangnya perpustakaan analisis data tujuan khusus untuk Python. Juga, ada beberapa artikel bagus yang menjelaskan kecepatan cepat Python dalam ilmu data: Python Displacing R dan Rich Scientific Data Structures in Python yang mungkin segera mengisi celah perpustakaan yang tersedia untuk R.
Alasan penting lainnya untuk tidak menggunakan R adalah ketika bekerja dengan masalah Big Data dunia nyata, bertentangan dengan masalah akademis saja, ada banyak kebutuhan untuk alat dan teknik lain, seperti penguraian data, pembersihan, visualisasi, scrapping web, dan banyak lainnya yang jauh lebih mudah menggunakan bahasa pemrograman tujuan umum. Ini mungkin mengapa bahasa default yang digunakan dalam banyak kursus Hadoop (termasuk kursus online Udacity ) adalah Python.
Sunting:
Baru-baru ini DARPA juga menginvestasikan $ 3 juta untuk membantu mendanai pemrosesan data dan kemampuan visualisasi Python untuk pekerjaan big data, yang jelas merupakan tanda masa depan Python dalam Big Data. ( detail )