Bagaimana cara membuat set sampel yang representatif dari dataset keseluruhan yang besar?

10

Apa teknik statistik untuk membuat set sampel, yang mewakili seluruh populasi (dengan tingkat kepercayaan yang diketahui)?

Juga,

Bagaimana cara memvalidasi, jika sampel cocok dengan keseluruhan dataset?
Apakah mungkin, tanpa mem-parsing seluruh dataset (yang bisa menjadi milyaran catatan)?

sampling sample-size validation

— Mohit Ranka
sumber

8

Jika Anda tidak ingin mem-parsing seluruh kumpulan data maka Anda mungkin tidak bisa menggunakan stratified sampling , jadi saya sarankan mengambil sampel acak sederhana yang besar . Dengan mengambil sampel acak , Anda memastikan bahwa sampel akan, secara rata-rata, mewakili seluruh dataset, dan ukuran statistik standar presisi seperti kesalahan standar dan interval kepercayaan akan memberi tahu Anda seberapa jauh nilai populasi yang diperkirakan oleh sampel Anda. menjadi, jadi tidak ada kebutuhan nyata untuk memvalidasi bahwa sampel mewakili populasi kecuali Anda memiliki beberapa kekhawatiran yang benar-benar diambil secara acak.

Berapa besar sampel acak sederhana? Nah, semakin besar sampel, perkiraan Anda akan lebih tepat. Karena Anda sudah memiliki data, perhitungan ukuran sampel konvensional tidak benar-benar berlaku - Anda juga dapat menggunakan sebanyak mungkin dataset Anda yang praktis untuk komputasi. Kecuali jika Anda berencana untuk melakukan beberapa analisis kompleks yang akan membuat waktu komputasi menjadi masalah, pendekatan sederhana adalah membuat sampel acak sederhana sebesar yang dapat dianalisis pada PC Anda tanpa mengarah ke paging. $2^{31}$

Maka masalah aritmatika sederhana untuk menghitung berapa banyak pengamatan yang Anda dapat sampel mengingat berapa banyak variabel yang Anda miliki untuk setiap pengamatan dan berapa banyak byte setiap variabel mengambil.

— onestop
sumber

Terima kasih atas jawaban anda. Saya kira saya sedang mencari sampel bertingkat. (Saya sedang mencari algoritma, yang tidak secara komputasi sangat mahal, karena tidak mem-parsing seluruh populasi, untuk membuat set yang representatif, bahkan tidak masuk akal. :-))

— Mohit Ranka

2

Pada pertanyaan kedua Anda yang pertama, Anda mungkin bertanya, "bagaimana data dimasukkan?" Jika Anda berpikir bahwa data dimasukkan dengan cara yang relatif sewenang-wenang (yaitu, terlepas dari karakteristik pengamatan Anda yang dapat diobservasi atau tidak dapat diamati yang mungkin memengaruhi analisis akhir Anda menggunakan data), maka Anda dapat mempertimbangkan 5 juta pertama, katakanlah, atau bagaimanapun. banyak yang membuat Anda nyaman bekerja, sebagai perwakilan dari sampel lengkap dan pilih secara acak dari grup ini untuk membuat sampel yang dapat Anda kerjakan.

Untuk membandingkan dua distribusi empiris, Anda dapat menggunakan qq-plot dan dua sampel Kolmogorov – Smirnov tes non-parametrik untuk perbedaan distribusi (lihat, misalnya, di sini: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). Dalam hal ini, Anda akan menguji distribusi masing-masing variabel dalam sampel Anda terhadap distribusi variabel itu dalam set data "lengkap" Anda (sekali lagi, bisa jadi hanya 5 juta pengamatan dari sampel lengkap Anda). Tes KS dapat menderita dari daya rendah (yaitu, sulit untuk menolak hipotesis nol tidak ada perbedaan antara kelompok-kelompok), tetapi, dengan banyak pengamatan, Anda harus baik-baik saja.

— Charlie
sumber