Saya cukup baru dalam hal statistik (beberapa program Uni tingkat pemula) dan ingin tahu tentang pengambilan sampel dari distribusi yang tidak diketahui. Khususnya, jika Anda tidak tahu tentang distribusi yang mendasarinya, apakah ada cara untuk "menjamin" bahwa Anda mendapatkan sampel yang representatif?
Contoh untuk mengilustrasikan: katakanlah Anda mencoba mencari tahu distribusi kekayaan global. Untuk setiap individu tertentu, Anda entah bagaimana dapat mengetahui kekayaan mereka yang sebenarnya; tetapi Anda tidak dapat "mencicipi" setiap orang di Bumi. Jadi, katakanlah Anda sampel n = 1000 orang secara acak.
Jika sampel Anda tidak termasuk Bill Gates, Anda mungkin berpikir tidak ada miliarder yang ada.
Jika sampel Anda termasuk Bill Gates, Anda mungkin berpikir miliarder lebih umum daripada yang sebenarnya.
Dalam kedua kasus itu, Anda tidak dapat benar-benar mengetahui seberapa umum atau jarang miliarder itu; Anda bahkan mungkin tidak dapat mengetahui apakah ada sama sekali.
Apakah ada mekanisme pengambilan sampel yang lebih baik untuk kasus seperti ini?
Bagaimana Anda memberi tahu apriori prosedur pengambilan sampel apa yang harus digunakan (dan berapa banyak sampel yang dibutuhkan)?
Tampak bagi saya bahwa Anda mungkin harus "mencicipi" persentase besar dari populasi untuk mengetahui, dengan apa pun yang mendekati kepastian yang masuk akal, seberapa umum atau jarang miliarder berada di planet ini, dan bahwa ini disebabkan oleh distribusi yang mendasarinya agak sulit. bekerja dengan.