Cara sampel ketika Anda tidak tahu distribusinya

9

Saya cukup baru dalam hal statistik (beberapa program Uni tingkat pemula) dan ingin tahu tentang pengambilan sampel dari distribusi yang tidak diketahui. Khususnya, jika Anda tidak tahu tentang distribusi yang mendasarinya, apakah ada cara untuk "menjamin" bahwa Anda mendapatkan sampel yang representatif?

Contoh untuk mengilustrasikan: katakanlah Anda mencoba mencari tahu distribusi kekayaan global. Untuk setiap individu tertentu, Anda entah bagaimana dapat mengetahui kekayaan mereka yang sebenarnya; tetapi Anda tidak dapat "mencicipi" setiap orang di Bumi. Jadi, katakanlah Anda sampel n = 1000 orang secara acak.

Jika sampel Anda tidak termasuk Bill Gates, Anda mungkin berpikir tidak ada miliarder yang ada.
Jika sampel Anda termasuk Bill Gates, Anda mungkin berpikir miliarder lebih umum daripada yang sebenarnya.

Dalam kedua kasus itu, Anda tidak dapat benar-benar mengetahui seberapa umum atau jarang miliarder itu; Anda bahkan mungkin tidak dapat mengetahui apakah ada sama sekali.

Apakah ada mekanisme pengambilan sampel yang lebih baik untuk kasus seperti ini?

Bagaimana Anda memberi tahu apriori prosedur pengambilan sampel apa yang harus digunakan (dan berapa banyak sampel yang dibutuhkan)?

Tampak bagi saya bahwa Anda mungkin harus "mencicipi" persentase besar dari populasi untuk mengetahui, dengan apa pun yang mendekati kepastian yang masuk akal, seberapa umum atau jarang miliarder berada di planet ini, dan bahwa ini disebabkan oleh distribusi yang mendasarinya agak sulit. bekerja dengan.

— syenmesh
sumber

1

Dalam kasus distribusi kekayaan, banyak yang akan bergantung pada tujuan sebenarnya. Jika misalnya tujuannya adalah untuk memperkirakan tingkat kekayaan yang akan menempatkan seseorang ke dalam 10% teratas, 20% teratas, dan seterusnya, maka tidak akan menjadi kritis apakah sampel tersebut termasuk miliarder atau tidak. Tetapi jika tujuannya adalah untuk memperkirakan proporsi kekayaan yang dimiliki secara total oleh 10% teratas, maka bagaimana pengambilan sampel menangani miliarder mungkin akan sangat penting. Poin umum di sini adalah apakah sampel representatif selalu relatif terhadap apa yang Anda coba lakukan.

— Adam Bailey

Betulkah? masalah terbuka, jawaban yang baik, masih perkiraan (kadang-kadang lebih baik, kadang-kadang lebih buruk). Ini adalah masalah terbuka, mungkin satu-satunya masalah statistik terbuka

— Nikos M.

9

Saya membantah klaim Anda bahwa "Dalam kedua kasus itu, Anda tidak dapat benar-benar mengetahui seberapa umum atau jarang miliarder itu". Biarkan menjadi fraksi miliarder yang tidak diketahui dalam populasi. Dengan seragam sebelum , distribusi posterior setelah undian yang ternyata memiliki 0 miliarder adalah distribusi Beta (1.1001), yang terlihat seperti ini: $f$ $f$ $f$ $1000$ p (f | b = 0)

Sedangkan distribusi posterior dari setelah menarik yang ternyata memiliki 1 miliarder adalah Beta (2,1000) distribusi, yang terlihat seperti ini: $f$ $1000$ p (f | b = 1)

Dalam kedua kasus, Anda bisa yakin bahwa . Anda mungkin berpikir itu tidak cukup tepat. Tetapi sebenarnya 0,01 cukup tepat untuk sampel ukuran 1000. Sebagian besar jumlah lain yang Anda perkirakan akan kurang tepat dari ini. Misalnya, fraksi laki-laki hanya dapat diperkirakan dalam kisaran ukuran 0,1. $f < 0.01$

— Tom Minka
sumber

7

Ada dua hal yang dapat Anda lakukan (secara terpisah atau dalam kombinasi)

Model ekornya

Salah satunya adalah memodelkan ekor distribusi menggunakan distribusi parametrik. Undang-undang kekuasaan dikenal cocok dengan distribusi kekayaan dengan baik, jadi Anda mencoba distribusi Pareto. Anda bisa menyesuaikan distribusi itu dengan kemungkinan maksimum, yaitu dengan mencari parameter yang paling mewakili sampel Anda. Atau lebih baik, Anda bisa meletakkan prior Bayesian pada parameter, dan menghitung posterior penuh.

Sayangnya, hukum daya sangat peka terhadap parameter, dan tanpa banyak titik data besar dalam sampel Anda, akan ada banyak ketidakpastian tentang eksponen. Perkiraan jumlah miliarder akan peka terhadap parameter ini, tetapi jauh lebih sedikit dari rata-rata kekayaan miliarder, sehingga situasinya tidak terlalu buruk.

Pentingnya pengambilan sampel

Yang lainnya adalah mengubah cara Anda mengumpulkan sampel. Misalkan Anda mencurigai (sebagaimana seharusnya) ada lebih banyak miliarder per kapita di Monako atau Zurich daripada di Mogadishiu. Jika Anda mengetahui populasi masing-masing kota ini, Anda bisa mengumpulkan sampel yang lebih besar di kota-kota tempat Anda berharap melihat lebih banyak miliarder, dan yang lebih kecil di kota-kota lain.

Jadi katakanlah Zurich memiliki 400.000 orang dan Mogadishu 1.400.000 dan kami ingin melakukan polling 9.000 orang. Kami tertarik di sini dalam jumlah miliarder, bukan miliarder.

Sampel yang tidak bias akan memilih 2.000 orang di Zurich dan 7.000 di Mogadishu. Namun, kami akan bias sampel dengan sampling tujuh kali lebih sering dari Zurich. Jadi kita akan "berpura-pura" bahwa Zurich memiliki 2.800.000 orang dan menyesuaikannya nanti. Ini berarti kami akan melakukan polling 6.000 orang di Zurich, bukannya 2.000 dan 4.000 di Mogadishu.

Katakanlah kita menghitung 21 jutawan dalam sampel Zurich kita, dan hanya 1 dalam sampel Mogadishu kita. Karena kami mengambil sampel 7 kali lipat dari Zurich, kami hanya akan menghitungnya sebagai 3 jutawan.

Prosedur ini akan mengurangi varian penaksir Anda. Ini juga dapat digunakan bersamaan dengan metode pertama, dalam hal ini Anda akan menyesuaikan untuk sampel penting ketika menyesuaikan distribusi parametrik.

— Arthur B.
sumber

6

Saya pikir metode pengambilan sampel yang baik didasarkan pada pengetahuan sebelumnya tentang sistem. Di bidang Anda, Anda memiliki pengetahuan tentang bias potensial yang mungkin mempengaruhi pengambilan sampel Anda. Jika Anda tidak memiliki pengetahuan itu, Anda bisa mendapatkannya dari literatur.

Dalam contoh Anda, Anda tahu bahwa ada milyarder dan mereka mungkin membiasakan sampel Anda. Jadi Anda dapat memutuskan untuk membuat stratifikasi pengambilan sampel berdasarkan tingkat pendidikan, negara, jenis pekerjaan, dll. Ada beberapa opsi.

Mari kita coba dengan contoh lain. Tujuan Anda adalah untuk menentukan kelimpahan spesies tikus di taman. Di taman ini, ada hutan dan padang rumput. Berdasarkan literatur, Anda tahu bahwa tikus lebih banyak di hutan daripada padang rumput. Jadi Anda membuat stratifikasi sampel Anda berdasarkan karakteristik ini. Ada prosedur pengambilan sampel lain yang mungkin, tetapi saya pikir informasi terbaik Anda akan berasal dari literatur yang ada.

Dan jika tidak ada literatur tentang bidang Anda? Mustahil, tetapi dalam konteks itu, saya akan melakukan pra-studi untuk melihat faktor-faktor apa yang perlu dipertimbangkan untuk pengambilan sampel.

— Emilie
sumber

2

Apakah sampel representatif atau tidak, tidak ada hubungannya dengan pengukuran sampel yang diamati. Sampel representatif jika setiap set unit pengamatan memiliki probabilitas yang sama untuk dipilih sebagai set lainnya dengan ukuran yang sama. Tentu saja ini sulit dilakukan kecuali Anda bisa mendapatkan enumerasi lengkap dari ruang sampel Anda. Dengan asumsi Anda bisa mendapatkan itu (dari data saluran sensus, misalnya), sampel acak sederhana akan representatif.

Tidak peduli bagaimana Anda mendapatkan sampel Anda, akan selalu ada setidaknya tiga sumber kesalahan untuk dipertimbangkan:

kesalahan pengambilan sampel: secara kebetulan Anda menyertakan Bill Gates dalam sampel representatif Anda. Metode statistik, terutama lebar interval kepercayaan, dll. Dirancang untuk menangani hal ini, asalkan Anda memiliki pengetahuan kasar tentang distribusi yang ada (mis. Normalitas, yang pasti tidak dimiliki oleh distribusi kekayaan).

Bias pengambilan sampel: Sampel tidak representatif. Contoh: Bill Gates memiliki nomor yang tidak terdaftar, jadi survei telepon Anda tidak akan pernah bisa menghubunginya (kecuali jika Anda menggunakan sesuatu seperti "panggilan angka-acak"). Ini adalah contoh ekstrem, tetapi bias pengambilan sampel sangat luas. Kejadian yang umum terjadi adalah mengambil sampel di tempat atau sampel kenyamanan: Anda mencicipi pelanggan restoran di restoran, apakah mereka menyukai tempat itu, seberapa sering mereka ada di sana, dan apakah mereka berencana untuk kembali. Pelanggan berulang jauh lebih mungkin untuk dijadikan sampel daripada pelanggan satu kali, dan sampel jenis ini dapat sangat bias dalam sikap mereka.

bias respon: Pengukuran itu sendiri tidak akurat. Hal ini dapat terjadi karena kesalahan fungsi meter hingga kebohongan efek kuantum (misalnya prinsip ketidakpastian Heisenberg).

— pengguna3697176
sumber

Jawaban ini memiliki saran yang bermanfaat dan mencakup dasar yang bagus. Saya ingin menyarankan bahwa karakterisasi "representatif" mungkin terlalu membatasi, karena itu mengecualikan bentuk-bentuk pengambilan sampel yang umum dan berguna (termasuk beberapa yang secara khusus disebutkan dalam jawaban lain) seperti pengambilan sampel bertingkat, pengambilan sampel penting, dan bentuk pengambilan sampel sistematis . Tidakkah cukup untuk membiarkan sampel itu representatif ketika peluang termasuk set unit pengamatan diketahui (dan karena itu dapat digunakan untuk menghasilkan estimasi yang tidak bias) tetapi tidak harus konstan untuk semua set ukuran tertentu?

— whuber

@whuber "Tidakkah cukup untuk membiarkan sampel itu representatif ketika peluang termasuk set unit pengamatan diketahui ...": Ini benar, dan saya harus mengedit jawaban saya untuk mengakui pengambilan sampel bertingkat dan pengambilan sampel penting. Namun, pengambilan sampel sistematis tidak pasti, dan saran yang diberikan dalam tautan dan di tempat lain sama sekali salah. Jika ada pola sistematis dalam data, titik awal acak tidak akan menghilangkan bias, yang perlu dilakukan hanyalah memastikan Anda tidak akan dapat menghitung bias.

— user3697176

mungkin jawaban terbaik sejauh ini (dalam arti mengarahkan langsung ke titik statistik)

— Nikos M.