Atau lebih tepatnya "apakah itu"? Big Data menjadikan statistik dan pengetahuan yang relevan menjadi lebih penting tetapi tampaknya tidak mendukung Teori Sampling.
Saya telah melihat hype ini di sekitar 'Big Data' dan saya bertanya-tanya bahwa "mengapa" saya ingin menganalisis semuanya ? Apakah tidak ada alasan untuk "Teori Pengambilan Sampel" untuk dirancang / diterapkan / ditemukan / ditemukan? Saya tidak mengerti maksud menganalisis seluruh 'populasi' dataset. Hanya karena Anda dapat melakukannya bukan berarti Anda harus melakukannya (Kebodohan adalah hak istimewa tetapi Anda tidak boleh menyalahgunakannya :)
Jadi pertanyaan saya adalah ini: Apakah relevan secara statistik untuk menganalisis seluruh kumpulan data? Yang terbaik yang bisa Anda lakukan adalah meminimalkan kesalahan jika Anda melakukan sampling. Tetapi apakah biaya meminimalkan kesalahan itu benar-benar layak? Apakah "nilai informasi" benar-benar sepadan dengan usaha, biaya waktu, dll. Yang digunakan untuk menganalisis data besar melalui komputer paralel masif?
Bahkan jika seseorang menganalisis seluruh populasi, hasilnya masih akan menjadi tebakan terbaik dengan probabilitas yang lebih tinggi untuk menjadi benar. Mungkin sedikit lebih tinggi daripada pengambilan sampel (atau akankah lebih banyak?) Apakah wawasan yang diperoleh dari menganalisis populasi vs menganalisis sampel sangat berbeda?
Atau haruskah kita menerimanya sebagai "waktu telah berubah"? Pengambilan sampel sebagai aktivitas dapat menjadi kurang penting mengingat kekuatan komputasi yang cukup :)
Catatan: Saya tidak mencoba memulai debat tetapi mencari jawaban untuk memahami mengapa data besar melakukan apa (misal menganalisis semuanya) dan mengabaikan teori pengambilan sampel (atau tidak?)