Salah satu contoh utama yang digunakan untuk mendemonstrasikan kekuatan MapReduce adalah tolok ukur Terasort . Saya kesulitan memahami dasar-dasar algoritme pengurutan yang digunakan di lingkungan MapReduce.
Bagi saya, pengurutan hanya melibatkan penentuan posisi relatif suatu elemen dalam hubungannya dengan semua elemen lainnya. Jadi penyortiran melibatkan membandingkan "segala sesuatu" dengan "semuanya". Algoritme pengurutan rata-rata Anda (cepat, gelembung, ...) melakukannya dengan cara yang cerdas.
Dalam pikiran saya, membagi dataset menjadi banyak bagian berarti Anda dapat mengurutkan satu bagian dan kemudian Anda masih harus mengintegrasikan bagian-bagian ini ke dalam dataset yang diurutkan sepenuhnya 'lengkap'. Mengingat kumpulan data terabyte yang didistribusikan ke ribuan sistem, saya berharap ini menjadi tugas yang sangat besar.
Jadi bagaimana ini benar-benar dilakukan? Bagaimana cara kerja algoritma pengurutan MapReduce?
Terima kasih telah membantu saya memahami.