Seperti yang Anda catat dengan benar, hari ini "data besar" adalah sesuatu yang semua orang ingin katakan mereka miliki, yang memerlukan kelonggaran tertentu dalam cara orang mendefinisikan istilah. Namun secara umum, saya katakan Anda pasti berurusan dengan data besar jika skalanya sedemikian rupa sehingga tidak layak lagi untuk mengelola dengan teknologi yang lebih tradisional seperti RDBMS, setidaknya tanpa melengkapi mereka dengan teknologi data besar seperti Hadoop.
Seberapa besar data Anda sebenarnya untuk itu menjadi kasus masih bisa diperdebatkan. Berikut adalah posting blog (agak provokatif) yang mengklaim bahwa itu tidak benar-benar terjadi untuk kurang dari 5 TB data. (Untuk lebih jelasnya, ini tidak mengklaim "Kurang dari 5 TB bukan data besar", tetapi hanya "Kurang dari 5 TB tidak cukup besar sehingga Anda memerlukan Hadoop".)
Tetapi bahkan pada dataset yang lebih kecil, teknologi data besar seperti Hadoop dapat memiliki keuntungan lain, termasuk cocok untuk operasi batch, bermain dengan baik dengan data yang tidak terstruktur (serta data yang strukturnya tidak diketahui sebelumnya atau dapat berubah), skalabilitas horizontal ( melakukan penskalaan dengan menambahkan lebih banyak node alih-alih menambah server yang ada), dan (sebagai salah satu komentator pada catatan posting terkait di atas) kemampuan untuk mengintegrasikan pemrosesan data Anda dengan set data eksternal (pikirkan pengurangan peta di mana mapper melakukan panggilan ke server lain). Teknologi lain yang terkait dengan data besar, seperti basis data NoSql, menekankan kinerja yang cepat dan ketersediaan yang konsisten ketika berhadapan dengan set data yang besar, juga mampu menangani data semi-tidak terstruktur dan untuk skala secara horizontal.
Tentu saja, RDBMS tradisional memiliki kelebihannya sendiri termasuk jaminan ACID (Atomicity, Consistency, Isolasi, Durability) dan kinerja yang lebih baik untuk operasi tertentu, serta menjadi lebih terstandarisasi, lebih matang, dan (untuk banyak pengguna) lebih akrab. Jadi, bahkan untuk data "besar" yang tak terbantahkan, mungkin masuk akal untuk memuat setidaknya sebagian data Anda ke dalam database SQL tradisional dan menggunakannya bersamaan dengan teknologi data besar.
Jadi, definisi yang lebih murah hati adalah bahwa Anda memiliki data besar selama itu cukup besar sehingga teknologi data besar memberikan nilai tambah bagi Anda. Tetapi seperti yang Anda lihat, itu tidak hanya bergantung pada ukuran data Anda, tetapi juga pada bagaimana Anda ingin bekerja dengannya dan persyaratan seperti apa yang Anda miliki dalam hal fleksibilitas, konsistensi, dan kinerja. Bagaimana Anda menggunakan data Anda lebih relevan dengan pertanyaan dari apa yang Anda menggunakannya untuk (misalnya data mining). Yang mengatakan, menggunakan seperti penambangan data dan pembelajaran mesin lebih mungkin untuk menghasilkan hasil yang berguna jika Anda memiliki set data yang cukup besar untuk bekerja dengannya.