Seperti yang ditunjukkan oleh Jimmy Lin dan Chris Dyer pada bab pertama dalam buku mereka tentang Penambangan Teks Data-Intensif dengan MapReduce , pada skala data besar, kinerja berbagai algoritma bertemu sehingga perbedaan kinerja hampir hilang. Ini berarti bahwa mengingat kumpulan data yang cukup besar, algoritma yang ingin Anda gunakan adalah salah satu yang secara komputasi lebih murah. Hanya pada skala data yang lebih kecil bahwa perbedaan kinerja antara algoritma penting.
Yang sedang berkata, buku mereka (ditautkan di atas) dan Penambangan Kumpulan Besar oleh Anand Rajaraman, Jure Leskovec, dan Jeffrey D. Ullman mungkin adalah dua buku yang ingin Anda periksa juga, terutama karena mereka berkaitan langsung dengan MapReduce untuk keperluan penambangan data.