Pada pertanyaan kedua Anda yang pertama, Anda mungkin bertanya, "bagaimana data dimasukkan?" Jika Anda berpikir bahwa data dimasukkan dengan cara yang relatif sewenang-wenang (yaitu, terlepas dari karakteristik pengamatan Anda yang dapat diobservasi atau tidak dapat diamati yang mungkin memengaruhi analisis akhir Anda menggunakan data), maka Anda dapat mempertimbangkan 5 juta pertama, katakanlah, atau bagaimanapun. banyak yang membuat Anda nyaman bekerja, sebagai perwakilan dari sampel lengkap dan pilih secara acak dari grup ini untuk membuat sampel yang dapat Anda kerjakan.
Untuk membandingkan dua distribusi empiris, Anda dapat menggunakan qq-plot dan dua sampel Kolmogorov – Smirnov tes non-parametrik untuk perbedaan distribusi (lihat, misalnya, di sini: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). Dalam hal ini, Anda akan menguji distribusi masing-masing variabel dalam sampel Anda terhadap distribusi variabel itu dalam set data "lengkap" Anda (sekali lagi, bisa jadi hanya 5 juta pengamatan dari sampel lengkap Anda). Tes KS dapat menderita dari daya rendah (yaitu, sulit untuk menolak hipotesis nol tidak ada perbedaan antara kelompok-kelompok), tetapi, dengan banyak pengamatan, Anda harus baik-baik saja.