Setiap pemrosesan basis data kecil dapat dengan mudah ditangani oleh skrip Python / Perl / ..., yang menggunakan pustaka dan / atau bahkan utilitas dari bahasa itu sendiri. Namun, ketika datang ke kinerja, orang cenderung menjangkau bahasa C / C ++ / tingkat rendah. Kemungkinan menyesuaikan kode dengan kebutuhan tampaknya menjadi apa yang membuat bahasa ini begitu menarik untuk BigData - baik itu mengenai manajemen memori, paralelisme, akses disk, atau bahkan optimasi tingkat rendah (melalui perakitan konstruksi pada level C / C ++).
Tentu saja set manfaat seperti itu tidak akan datang tanpa biaya: menulis kode, dan kadang-kadang bahkan menciptakan kembali roda , bisa sangat mahal / melelahkan. Meskipun ada banyak perpustakaan yang tersedia, orang cenderung untuk menulis kode sendiri setiap kali mereka perlu memberikan kinerja. Apa yang menonaktifkan pernyataan kinerja dari menggunakan perpustakaan saat memproses basis data besar?
Misalnya, perhatikan perusahaan yang secara terus-menerus merayapi laman web dan mem-parsing data yang dikumpulkan. Untuk setiap jendela geser, algoritma penambangan data yang berbeda dijalankan pada data yang diekstraksi. Mengapa pengembang harus menggunakan pustaka / kerangka kerja yang tersedia (baik itu untuk perayapan, pemrosesan teks, dan penggalian data)? Menggunakan hal-hal yang sudah diimplementasikan tidak hanya akan meringankan beban pengkodean seluruh proses, tetapi juga akan menghemat banyak waktu.
Dalam satu tembakan :
- apa yang membuat menulis kode sendiri menjadi jaminan kinerja?
- mengapa berisiko mengandalkan kerangka / perpustakaan ketika Anda harus memastikan kinerja tinggi?