"Data besar" ada di mana-mana di media. Semua orang mengatakan bahwa "big data" adalah hal besar untuk 2012, misalnya jajak pendapat KDNuggets tentang topik hangat untuk 2012 . Namun, saya memiliki keprihatinan yang mendalam di sini. Dengan data besar, semua orang tampaknya senang hanya untuk mengeluarkan apa pun . Tetapi bukankah kita melanggar semua prinsip statistik klasik seperti pengujian hipotesis dan pengambilan sampel representatif?
Selama kita hanya membuat prediksi tentang kumpulan data yang sama, ini akan baik-baik saja. Jadi jika saya menggunakan data Twitter untuk memprediksi perilaku pengguna Twitter, itu mungkin tidak apa-apa. Namun, menggunakan data Twitter untuk memprediksi misalnya Pemilu benar-benar mengabaikan fakta bahwa pengguna Twitter bukan sampel yang representatif untuk seluruh populasi. Plus, sebagian besar metode sebenarnya tidak akan dapat membedakan antara suasana "akar rumput" yang sebenarnya dan kampanye. Dan twitter penuh dengan kampanye. Jadi ketika menganalisis Twitter, Anda dengan cepat berakhir hanya dengan mengukur kampanye dan bot. (Lihat misalnya "Yahoo Memprediksi Pemenang Politik Amerika"yang penuh dengan bashing polling dan "analisis sentimen jauh lebih baik". Mereka memperkirakan "Romney memiliki lebih dari 90 persen kemungkinan memenangkan nominasi, dan memenangkan primer Carolina Selatan" (ia memiliki 28%, sementara Gingrich memiliki 40% pada primer ini).
Apakah Anda tahu data besar lainnya gagal ? Saya ingat kira-kira bahwa satu ilmuwan memperkirakan Anda tidak dapat mempertahankan lebih dari 150 persahabatan. Dia sebenarnya hanya menemukan batas topi di friendster ...
Mengenai data twitter, atau sebenarnya "data besar" apa pun yang dikumpulkan dari web, saya percaya bahwa seringkali orang bahkan memperkenalkan bias tambahan dengan cara mereka mengumpulkan data mereka. Sedikit yang memiliki semua Twitter. Mereka akan memiliki subset tertentu yang mereka jelajahi, dan ini hanyalah satu lagi bias dalam set data mereka.
Memisahkan data ke dalam set uji atau untuk melakukan validasi silang sepertinya tidak banyak membantu. Set lainnya akan memiliki bias yang sama. Dan untuk data besar, saya perlu "mengompres" informasi saya sedemikian rupa sehingga saya agak tidak cocok.
Baru-baru ini saya mendengar lelucon ini, dengan ilmuwan data besar yang menemukan ada sekitar 6 jenis kelamin di dunia ... dan saya dapat membayangkan hal ini terjadi ... "Pria, Wanita, Orc, Furry, Ya dan Tidak".
Jadi metode apa yang kita miliki untuk mendapatkan kembali validitas statistik ke dalam analisis, khususnya ketika mencoba untuk memprediksi sesuatu di luar dataset "data besar"?