Apakah pengambilan sampel relevan pada saat 'data besar'?

54

Atau lebih tepatnya "apakah itu"? Big Data menjadikan statistik dan pengetahuan yang relevan menjadi lebih penting tetapi tampaknya tidak mendukung Teori Sampling.

Saya telah melihat hype ini di sekitar 'Big Data' dan saya bertanya-tanya bahwa "mengapa" saya ingin menganalisis semuanya ? Apakah tidak ada alasan untuk "Teori Pengambilan Sampel" untuk dirancang / diterapkan / ditemukan / ditemukan? Saya tidak mengerti maksud menganalisis seluruh 'populasi' dataset. Hanya karena Anda dapat melakukannya bukan berarti Anda harus melakukannya (Kebodohan adalah hak istimewa tetapi Anda tidak boleh menyalahgunakannya :)

Jadi pertanyaan saya adalah ini: Apakah relevan secara statistik untuk menganalisis seluruh kumpulan data? Yang terbaik yang bisa Anda lakukan adalah meminimalkan kesalahan jika Anda melakukan sampling. Tetapi apakah biaya meminimalkan kesalahan itu benar-benar layak? Apakah "nilai informasi" benar-benar sepadan dengan usaha, biaya waktu, dll. Yang digunakan untuk menganalisis data besar melalui komputer paralel masif?

Bahkan jika seseorang menganalisis seluruh populasi, hasilnya masih akan menjadi tebakan terbaik dengan probabilitas yang lebih tinggi untuk menjadi benar. Mungkin sedikit lebih tinggi daripada pengambilan sampel (atau akankah lebih banyak?) Apakah wawasan yang diperoleh dari menganalisis populasi vs menganalisis sampel sangat berbeda?

Atau haruskah kita menerimanya sebagai "waktu telah berubah"? Pengambilan sampel sebagai aktivitas dapat menjadi kurang penting mengingat kekuatan komputasi yang cukup :)

Catatan: Saya tidak mencoba memulai debat tetapi mencari jawaban untuk memahami mengapa data besar melakukan apa (misal menganalisis semuanya) dan mengabaikan teori pengambilan sampel (atau tidak?)

sampling data-mining large-data

— PhD
sumber

1

Lihat juga: stats.stackexchange.com/q/22502/7828 - cara menggambar kesimpulan yang valid dari data besar.

— Anony-Mousse

2

(+1 dulu) Saya selalu menikmati membaca pertanyaan Anda yang mendalam. Mereka adalah aset nyata untuk situs ini.

— kardinal

1

@ cardinal - Saya sangat menghargai komentar Anda. Berarti banyak yang datang dari Anda.

— PhD

29

Singkatnya, ya . Saya percaya masih ada situasi yang jelas di mana pengambilan sampel sesuai, di dalam dan tanpa dunia "data besar", tetapi sifat data besar tentu saja akan mengubah pendekatan kami terhadap pengambilan sampel, dan kami akan menggunakan lebih banyak kumpulan data yang hampir melengkapi representasi yang mendasari populasi.

Mengenai pengambilan sampel: Bergantung pada keadaan, hampir selalu menjadi jelas jika pengambilan sampel adalah hal yang tepat untuk dilakukan. Pengambilan sampel bukanlah kegiatan yang bermanfaat secara inheren; itu hanya apa yang kita lakukan karena kita perlu melakukan pengorbanan pada biaya pelaksanaan pengumpulan data. Kami mencoba untuk mengkarakterisasi populasi dan perlu memilih metode yang tepat untuk mengumpulkan dan menganalisis data tentang populasi. Pengambilan sampel masuk akal ketika biaya marjinal dari metode pengumpulan data atau pemrosesan data tinggi. Berusaha menjangkau 100% populasi bukanlah penggunaan sumber daya yang baik dalam kasus itu, karena Anda seringkali lebih baik mengatasi hal-hal seperti bias non-respons daripada membuat sedikit peningkatan kesalahan pengambilan sampel secara acak.

Bagaimana perbedaan big data? "Data besar" menjawab banyak pertanyaan yang sama dengan yang kami miliki selama berabad-abad, tetapi yang "baru" adalah bahwa pengumpulan data terjadi karena proses yang dimediasi komputer, sehingga biaya marjinal pengumpulan data pada dasarnya nol. Ini secara dramatis mengurangi kebutuhan kita akan pengambilan sampel.

Kapan kita masih menggunakan sampling? Jika populasi "data besar" Anda adalah populasi yang tepat untuk masalah tersebut, maka Anda hanya akan menggunakan pengambilan sampel dalam beberapa kasus: kebutuhan untuk menjalankan grup eksperimental yang terpisah, atau jika volume data semata-mata terlalu besar untuk ditangkap dan diproses (banyak dari kita dapat menangani jutaan baris data dengan mudah saat ini, sehingga batas di sini semakin jauh keluar). Jika sepertinya saya menolak pertanyaan Anda, itu mungkin karena saya jarang mengalami situasi di mana volume data menjadi perhatian dalam tahap pengumpulan atau pemrosesan, meskipun saya tahu banyak yang memiliki

Situasi yang tampaknya sulit bagi saya adalah ketika populasi "data besar" Anda tidak dengan sempurna mewakili populasi target Anda, jadi pengorbanannya adalah lebih banyak apel untuk jeruk. Katakanlah Anda adalah perencana transportasi regional, dan Google telah menawarkan untuk memberi Anda akses ke log navigasi GPS Android untuk membantu Anda. Meskipun dataset tidak diragukan lagi akan menarik untuk digunakan, populasi mungkin akan secara sistematis bias terhadap masyarakat berpenghasilan rendah, pengguna transportasi umum, dan lansia. Dalam situasi seperti itu, buku harian perjalanan tradisional dikirim ke sampel rumah tangga acak, meskipun jumlahnya lebih mahal dan lebih kecil, masih bisa menjadi metode pengumpulan data yang unggul. Tapi, ini bukan hanya pertanyaan "pengambilan sampel vs data besar", itu

— Jonathan
sumber

22

Meskipun mungkin ada banyak Data Besar yang diproduksi oleh perangkat seluler dan semacamnya, ada sedikit data yang dapat digunakan di dalamnya. Jika Anda ingin memprediksi pola perjalanan perkotaan menggunakan foursquare, Anda mungkin tidak aktif dengan urutan besarnya dalam perkiraan arus. Lebih buruk lagi, Anda tidak akan tahu apakah Anda melebih-lebihkan atau meremehkan aliran ini. Anda bisa mendapatkan gambaran yang benar-benar akurat tentang pola perjalanan perkotaan dari pengguna maniak foursquare, tetapi kecuali semua orang diharuskan (1) untuk menjaga smartphone yang berfungsi, (2) untuk menjalankan aplikasi foursquare sepanjang waktu, dan (3) untuk mendaftar di di mana pun mereka menginap selama lebih dari 10 menit (yaitu, dapatkan Sensus elektronik; biarkan libertarian mengeluh tentang Google dan Facebook mengetahui segala sesuatu tentang Anda), data Anda akan mengandung bias yang tidak diketahui, dan Deweys elektronik Anda akan terus mengalahkan kata sebenarnya Truman (dapat diklik):

_{(sumber: whatisasurvey.info )}

Jika ada, saya berharap potongan sejarah ini akan terulang kembali, dan beberapa ramalan "bir + popok" besar yang dihasilkan dari Big Data akan dibatalkan oleh para peneliti menggunakan pendekatan pengambilan sampel yang lebih ketat. Hal ini mengejutkan bahwa survei berbasis probabilitas tetap akurat bahkan meskipun tingkat respons jatuh.

— Tugas
sumber

1

(+1) Tapi, bukankah pengguna stereotip foursquare akan menjadi antitesis dari paranoid . ;-)

— kardinal

1

Ya ... mungkin istilah yang buruk. Biarkan saya mengubahnya menjadi gila!

— Tugas

2

Data besar bukanlah penyebabnya. Begitulah cara menggunakannya. Ketika memiliki informasi dan diterapkan dengan tepat, itu bisa sangat membantu. Penambangan data tidak semuanya buruk.

— Michael Chernick

Poin bagus tentang penggunaan data besar untuk informasi lalu lintas. Karena perusahaan seperti Google dan Apple sudah melakukan ini, saya pikir ini adalah contoh yang bagus di mana (saat ini tersedia) data besar dapat gagal untuk beberapa pemirsa, dan saya mencoba untuk memasukkannya dalam jawaban saya juga.

— Jonathan

@Michael, kamu benar, tentu saja. Data ini sangat murah, tetapi cara-cara mendapatkan informasi yang dapat digunakan darinya tidak turun - jika ada, mereka naik, karena orang sekarang harus menyaring lebih banyak data untuk mendapatkan info yang berguna.

— Tugas

21

Kapan pun seseorang menerapkan teknik inferensi statistik, penting untuk memperjelas populasi yang ingin diambil kesimpulannya. Sekalipun data yang telah dikumpulkan sangat besar, data itu mungkin masih berhubungan hanya dengan sebagian kecil populasi, dan mungkin tidak terlalu mewakili keseluruhan.

Misalkan misalnya bahwa perusahaan yang beroperasi di industri tertentu telah mengumpulkan 'data besar' pada pelanggannya di negara tertentu. Jika ingin menggunakan data itu untuk menarik kesimpulan tentang pelanggan yang ada di negara itu, maka pengambilan sampel mungkin tidak terlalu relevan. Namun jika ingin menarik kesimpulan tentang populasi yang lebih besar - pelanggan potensial atau yang sudah ada, atau pelanggan di negara lain - maka menjadi penting untuk mempertimbangkan sejauh mana pelanggan tentang siapa data yang telah dikumpulkan mewakili - mungkin dalam pendapatan, usia , jenis kelamin, pendidikan, dll - dari populasi yang lebih besar.

Dimensi waktu juga perlu dipertimbangkan. Jika tujuannya adalah menggunakan inferensi statistik untuk mendukung prediksi, maka populasi harus dipahami meluas ke masa depan. Jika demikian, maka sekali lagi menjadi penting untuk mempertimbangkan apakah set data, seberapa besar, diperoleh dalam keadaan yang mewakili mereka yang mungkin memperoleh di masa depan.

— Adam Bailey
sumber

Selamat datang di situs kami, Adam! (Jika Anda check-in secara teratur, Anda bahkan akan menemukan peluang sesekali untuk melatih minat Anda pada geometri dan teori bilangan . :-)

— whuber

Poin bagus tentang perlunya mempertimbangkan populasi! Itu salah satu cara besar orang bisa malas tentang data besar.

— Jonathan

"Bahkan jika data yang telah dikumpulkan sangat besar, itu mungkin masih berhubungan hanya dengan sebagian kecil dari populasi, dan mungkin tidak terlalu mewakili keseluruhan." Saya pikir kalimat ini saja menjawab banyak pertanyaan.

— Bemipefe

13

Dari apa yang saya lihat tentang big data / ML menggila, berpikir tentang pengambilan sampel dan populasi dari mana sampel Anda diambil sama pentingnya dengan sebelumnya - tetapi berpikir tentang lebih sedikit.

Saya "mengaudit" kelas Stanford ML, dan sejauh ini kami telah membahas regresi dan jaringan saraf dengan sedikit menyebutkan inferensi populasi. Karena kelas ini telah diambil oleh orang-orang bernilai 6 angka, sekarang ada banyak orang di luar sana yang tahu bagaimana cara menyesuaikan data dengan sangat baik tanpa gagasan tentang sampel.

— Ari B. Friedman
sumber

3

Saya sangat setuju. Ketika mengamati kegemaran saat ini tentang Pembelajaran Mesin (kebanyakan praktisi dan programmer), Big Data dan "ilmu data", saya merasa sangat biasa bagi orang-orang untuk sepenuhnya mengabaikan pengambilan sampel, inferensi, pemahaman dan makna penalaran statistik dan untuk mengorbankannya untuk menerapkan secara membabi buta apa pun Algoritma adalah pinggul di atasnya. Anda bahkan dapat melihat bahwa dengan pertanyaan dan beberapa jawaban di sini, cross divalidasi. Itu sebabnya saya juga percaya itu sebagai hype yang akan segera menjadi usang atau meminjam epistemologi statistik dan dengan demikian menjadi cabang statistik (saya tetap melihatnya seperti itu).

— Momo

2

Jika kelas ML mirip dengan yang saya audit beberapa waktu lalu, ada asumsi teknis menyelinap tepat sebelum ketimpangan Hoeffding bahwa data pelatihan adalah sampel acak sempurna dari populasi. Sayangnya, ini hampir tidak pernah terjadi, setidaknya dalam pengalaman saya, dan dalam contoh penerapan teknik-teknik sepanjang kursus. Masih tidak demikian halnya ketika Anda menggunakan "data besar".

— Douglas Zare

12

Ya, pengambilan sampel relevan dan akan tetap relevan. Intinya adalah bahwa keakuratan estimasi statistik pada umumnya adalah fungsi dari ukuran sampel, bukan populasi yang ingin kita generalisasi. Jadi rata-rata atau proporsi rata-rata yang dihitung dari sampel 1.000 responden akan menghasilkan perkiraan akurasi tertentu (berkenaan dengan seluruh populasi dari mana kami sampel), terlepas dari ukuran populasi (atau "seberapa besar" " big data "are).

Karena itu: Ada masalah dan tantangan spesifik yang relevan dan harus disebutkan:

Mengambil sampel probabilitas yang baik tidak selalu mudah. Secara teoritis, setiap individu dalam populasi yang ingin kita generalisasikan (yang ingin kita simpulkan) harus memiliki probabilitas yang diketahui untuk dipilih; idealnya probabilitas itu harus sama (sampel probabilitas sama atau EPSEM - Equal Probability of Selection). Itu adalah pertimbangan penting dan seseorang harus memiliki pemahaman yang jelas tentang bagaimana proses pengambilan sampel akan menetapkan probabilitas seleksi kepada anggota populasi yang ingin digeneralisasi. Sebagai contoh, dapatkah seseorang berasal dari Twitter yang memberikan perkiraan akurat dari keseluruhan sentimen dalam populasi pada umumnya, termasuk orang-orang yang tidak memiliki akun twitter?
Data besar dapat berisi perincian dan informasi yang sangat kompleks; Dengan kata lain, masalahnya bukan sampling, tetapi segmentasi (mikro), mengeluarkan detail yang tepat untuk subset kecil pengamatan yang relevan. Di sini tantangannya bukanlah pengambilan sampel, tetapi untuk mengidentifikasi stratifikasi dan segmentasi spesifik dari data besar yang menghasilkan informasi yang dapat ditindaklanjuti paling akurat yang dapat diubah menjadi wawasan yang berharga.
Aturan umum lainnya dari pengukuran opini adalah bahwa kesalahan dan bias non-sampling biasanya jauh lebih besar daripada kesalahan sampling dan bias. Hanya karena Anda memproses seratus trilyun catatan responden yang menyatakan pendapat tidak membuat hasil lebih berguna jika Anda hanya memiliki data 1.000 orang subsampel, khususnya jika pertanyaan untuk survei masing-masing tidak ditulis dengan baik dan bias diinduksi.
Terkadang sampling diperlukan: Sebagai contoh, jika seseorang membangun model prediksi dari semua data, bagaimana seseorang memvalidasinya? Bagaimana kita membandingkan akurasi model yang berbeda? Ketika ada "data besar" (repositori data sangat besar) maka seseorang dapat membangun beberapa model dan skenario pemodelan untuk sampel yang berbeda, dan memvalidasinya (mencobanya) dalam sampel independen lainnya. Jika seseorang membangun satu model untuk semua data - bagaimana seseorang memvalidasinya?

Anda dapat melihat 'Revolusi Data Besar' kami di sini.

— Kyra Matzdorf
sumber

1

Selamat datang di situs kami, Kyra!

— Whuber

3

Banyak metode big data sebenarnya dirancang di sekitar pengambilan sampel.

Pertanyaannya harus lebih pada baris:

Bukankah kita seharusnya menggunakan sampling sistematis dengan data besar juga?

Banyak hal "data besar" masih cukup segar, dan terkadang naif. K-means misalnya dapat diparalelkan secara sepele, dan dengan demikian berfungsi untuk "big data" (Saya tidak akan berbicara tentang hasilnya, mereka tidak terlalu berarti; dan mungkin tidak jauh berbeda dengan yang diperoleh pada sampel!). Sejauh yang saya tahu inilah yang dilakukan implementasi k-means di Mahout.

Namun, penelitian melampaui paralelisasi naif (yang mungkin masih membutuhkan sejumlah besar iterasi) dan mencoba melakukan K-means dalam jumlah iterasi yang tetap . Contoh untuk ini:

Pengelompokan cepat menggunakan MapReduce
Ene, A. dan Im, S. dan Moseley, B.
Prosiding konferensi internasional ACM SIGKDD ke 17 tentang Penemuan Pengetahuan dan Penambangan Data, 2011

Dan coba tebak, pendekatan mereka sangat didasarkan pada pengambilan sampel .

Contoh berikutnya: Hutan keputusan . Itu pada dasarnya: untuk beberapa sampel dari set data, buatlah pohon keputusan masing-masing. Dapat lagi diparalelkan secara sepele: letakkan setiap sampel pada mesin yang terpisah. Dan lagi, ini adalah pendekatan berbasis sampel.

Jadi pengambilan sampel adalah salah satu bahan utama pendekatan big data!

Dan tidak ada yang salah dengan ini.

— Anony-Mousse
sumber

2

Validasi silang adalah contoh spesifik dari sub-sampling yang cukup penting dalam ML / data besar. Secara umum, data besar biasanya masih merupakan sampel dari suatu populasi, seperti yang disebutkan orang lain di sini.

Tapi, saya pikir OP mungkin secara khusus merujuk pada pengambilan sampel karena berlaku untuk eksperimen terkontrol, dibandingkan data pengamatan. Biasanya data besar dianggap sebagai yang terakhir, tetapi bagi saya setidaknya ada pengecualian. Saya akan memikirkan uji coba secara acak, pengujian A / B, dan bandit multiarmed dalam pengaturan e-commerce dan jejaring sosial sebagai contoh "pengambilan sampel dalam pengaturan data besar."

— Dave
sumber

1

Di area di mana Big Data mulai populer: Pencarian, Periklanan, Sistem Rekomendasi seperti Amazon, Netflix, ada insentif yang sangat besar untuk menjelajahi seluruh kumpulan data.

Tujuan dari sistem ini adalah untuk menyesuaikan rekomendasi / saran untuk setiap anggota populasi. Juga, jumlah atribut yang dipelajari sangat besar. Sistem analisis web rata-rata dapat mengukur rasio klik-tayang, "pelacakan termal" dari "area panas" di halaman, interaksi sosial, dll. Dan menimbang ini terhadap sejumlah besar tujuan yang telah ditentukan sebelumnya.

Lebih penting lagi, sebagian besar tempat di mana Big Data sekarang ada di mana-mana adalah aliran data "online" yaitu data terus ditambahkan / diperbarui. Merancang skema pengambilan sampel yang mencakup semua atribut ini tanpa bias yang melekat dan masih memberikan hasil yang menjanjikan (baca margin yang lebih baik) adalah sebuah tantangan.

Pengambilan sampel masih sangat relevan untuk survei, uji medis, pengujian A / B, jaminan kualitas.

Singkatnya, pengambilan sampel sangat berguna ketika populasi yang akan diteliti sangat besar dan Anda tertarik dengan sifat makroskopik populasi tersebut. Pengecekan 100% (Big Data) diperlukan untuk mengeksploitasi sifat mikroskopis sistem

Semoga ini membantu :)

— rrampage
sumber

Jadi apakah poin Anda bahwa mereka tidak ingin dapat menggeneralisasi di luar data yang mereka miliki dengan data yang belum mereka miliki? Atau mereka pikir sampel mereka sangat besar sehingga mereka tidak perlu khawatir tentang masalah itu? Atau bahwa parameter yang mendasarinya akan berubah dari waktu ke waktu, jadi tidak masalah asalkan terus diperbarui saat data baru masuk?

— gung - Reinstate Monica

@gung masalahnya bukan ukuran sampel, tetapi masalah menghasilkan sampel yang tidak bias untuk dataset yang memiliki sejumlah besar atribut. Dan generalisasi biasanya dilakukan oleh algoritma Machine Learning, dilatih pada sebagian dari kumpulan data. Aliran data online terus-menerus masuk membuat masalah pengambilan sampel sekunder karena pembaruan batch dapat digunakan untuk mengubah parameter.

— rrampage