Apakah "setiap orang berkemeja biru" adalah sampel sistematis?


17

Saya mengajar kelas statistik intro dan sedang meninjau jenis-jenis pengambilan sampel, termasuk pengambilan sampel sistematis di mana Anda mencicipi setiap individu atau objek.

Seorang siswa bertanya apakah pengambilan sampel setiap orang dengan karakteristik tertentu akan mencapai hal yang sama.

Sebagai contoh, akankah pengambilan sampel setiap orang dengan kaus biru cukup acak dan memberikan cukup representasi seluruh populasi? Setidaknya, jika Anda mengajukan pertanyaan selain "Kaos warna apa yang Anda sukai?" Perasaan saya tidak, tetapi saya bertanya-tanya apakah ada orang di sini yang memikirkan hal ini.


12
Tidak. Jika Anda tinggal di Glasgow, Skotlandia, maka sebagian besar orang yang mengenakan "kaos biru", mungkin akan menjadi pendukung Rangers . Anda akan kehilangan pendukung Celtic . Di Glasgow tim sepak bola akan menjadi wakil bagi agama.
csgillespie

1
@csgillespie Contoh luar biasa!
whuber

Juga, Anda mungkin mendapatkan lebih banyak anak laki-laki daripada anak perempuan karena dalam budaya barat biru dikaitkan dengan laki
Roland Kofler

T-shirt berwarna lebih mahal daripada T-shirt putih, dan tidak semua desain cocok untuk semua warna. Jadi, meskipun itu mungkin tampak tidak bersalah, bahkan di antara pemakai kaus Anda mungkin memilih orang yang lebih kaya, atau konsumen yang lebih impulsif, atau orang yang menyukai partai politik tertentu.
Douglas Zare

Ada juga hubungan antara usia dan pemakaian kaos, antara latar belakang budaya dan pemakaian kaos dan sebagainya.
Glen_b -Reinstate Monica

Jawaban:


22

Jawabannya, secara umum, untuk pertanyaan Anda adalah "tidak". Mendapatkan sampel acak dari suatu populasi (terutama manusia) sangat sulit dilakukan. Dengan mengkondisikan pada karakteristik tertentu, Anda secara definisi tidak mendapatkan sampel acak. Seberapa besar bias yang diperkenalkan ini adalah masalah lain.

Sebagai contoh yang agak absurd, Anda tidak akan ingin mencicipi dengan cara ini, katakanlah, pertandingan sepak bola antara Bears dan the Packers, bahkan jika populasi Anda adalah "penggemar sepak bola". (Penggemar beruang mungkin memiliki karakteristik yang berbeda dari penggemar sepak bola lainnya, bahkan ketika jumlah yang Anda tertarik mungkin tidak terkait langsung dengan sepak bola.)

Ada banyak contoh terkenal dari bias tersembunyi yang dihasilkan dari pengambilan sampel dengan cara ini. Misalnya, dalam pemilihan AS baru-baru ini di mana pemilihan telepon dilakukan, diyakini bahwa orang yang hanya memiliki telepon seluler dan tidak ada telepon rumah (mungkin secara dramatis) kurang terwakili dalam sampel. Karena orang-orang ini juga cenderung, pada umumnya, lebih muda dari mereka yang memiliki sambungan telepon rumah, sampel yang bias diperoleh. Lebih jauh, orang yang lebih muda memiliki keyakinan politik yang sangat berbeda dari populasi yang lebih tua. Jadi, ini adalah contoh sederhana dari kasus di mana, bahkan ketika sampel tidak sengaja dikondisikan pada karakteristik tertentu, itu masih terjadi seperti itu. Dan, meskipun polling tidak ada hubungannya dengan karakteristik pengkondisian baik (yaitu, apakah seseorang menggunakan jalur darat atau tidak), pengaruh karakteristik pengkondisian pada kesimpulan jajak pendapat adalah signifikan, baik secara statistik maupun praktis.


6

Selama distribusi karakteristik yang Anda gunakan untuk memilih unit ke dalam sampel adalah ortogonal dengan distribusi karakteristik populasi yang ingin Anda perkirakan, Anda dapat memperoleh estimasi yang tidak bias dari jumlah populasi dengan mengkondisikan pemilihannya. Sampel tidak sepenuhnya merupakan sampel acak . Tetapi orang cenderung mengabaikan bahwa sampel acak adalah baik karena variabel acak yang digunakan untuk memilih unit menjadi sampel adalah ortogonal dengan distribusi karakteristik populasi, bukan karena itu acak.

Pikirkan tentang menggambar secara acak dari Bernoulli dengan P (invlogit (x_i)) di mana x_i di [-inf, inf] adalah fitur unit i sedemikian sehingga Cov (x, y)! = 0, dan y adalah karakteristik populasi yang memiliki berarti Anda ingin memperkirakan. Sampel adalah "acak" dalam arti bahwa Anda mengacak sebelum memilih menjadi sampel. Tetapi sampel tidak menghasilkan estimasi rata-rata dari rata-rata populasi y.

Yang Anda butuhkan adalah mengkondisikan pemilihan menjadi sampel pada variabel yang sama baiknya dengan yang ditugaskan secara acak . Yaitu, itu ortogonal terhadap variabel yang menjadi dasar jumlah bunga. Pengacakan itu baik karena menjamin ortogonalitas, bukan karena pengacakan itu sendiri.


4
Ini benar, tetapi bagaimana Anda tahu itu ortogonal kecuali Anda memiliki sampel yang benar-benar acak?
Peter Flom - Pasang kembali Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.