Bagaimana jika sampel acak Anda jelas tidak representatif?


28

Bagaimana jika Anda mengambil sampel acak dan Anda dapat melihatnya jelas tidak representatif, seperti dalam pertanyaan terbaru . Misalnya, bagaimana jika distribusi populasi seharusnya simetris di sekitar 0 dan sampel yang Anda buat secara acak memiliki pengamatan positif dan negatif yang tidak seimbang, dan ketidakseimbangan itu signifikan secara statistik, di mana itu membuat Anda? Pernyataan masuk akal apa yang dapat Anda buat tentang populasi berdasarkan sampel yang bias? Apa tindakan yang masuk akal dalam situasi seperti itu? Apakah penting ketika dalam penelitian kami memperhatikan ketidakseimbangan ini?


2
Michael, masalah ini mungkin terjadi satu kali dalam 20, jika kita menggunakan signifikansi statistik sebagai metrik kami. Paling sering kita tidak tahu kapan kita secara acak memilih sampel yang tidak representatif karena kita tidak cukup tahu tentang populasi. Tetapi ketika kita tahu sesuatu tentang populasi, dan kita melihat anomali seperti itu, apa yang kita lakukan?
Joel W.

3
Ya, praktik yang paling benar adalah mendapatkan sampel acak yang cukup besar, seperti yang ditulis @MichaelChernick. Namun, salah satu profesor saya memberi tahu saya bahwa dia memverifikasi dengan simulasi Monte Carlo bahwa, ketika seorang peneliti harus meningkatkan ukuran sampel, tidaklah benar untuk hanya menambahkan kesatuan statistik ke sampel, tetapi seseorang harus mengulang pengambilan sampel. Jika tidak, statistik dapat menjadi bias (sekali lagi!).
this.is.not.a.nick

4
@Michael, saya tidak mengerti mengapa pernyataan Anda benar. Nilai p kurang dari 0,05 akan terjadi di bawah hipotesis nol 5% dari waktu terlepas dari ukuran sampel. Jadi bagaimana mungkin ukuran sampel yang lebih besar akan menyelesaikan masalah ini? Menurut saya, rekomendasi Anda secara implisit mengundang pembaca untuk mengacaukan ukuran dan kekuatan tes hipotesis.
Whuber

2
@Michael, apa maksudmu kita harus mengumpulkan lebih banyak data secara acak? Apakah kita berharap bahwa kita secara acak menarik sampel yang bias ke arah lain? Bagaimanapun, berapa banyak kasus tambahan yang harus kita tarik? Apakah Anda menyarankan kami menetapkan angka di awal atau menggunakan aturan penghentian? Jika aturan berhenti, seperti apa aturan itu? Akhirnya, bahkan jika sampel yang lebih besar tidak memiliki bias yang signifikan secara statistik, kita tahu itu terdiri dari dua sampel, satu dengan bias dan satu tanpa. Pernyataan masuk akal apa yang dapat Anda buat tentang populasi berdasarkan sampel yang sedemikian kompleks?
Joel W.

2
@Michael Kesimpulan alternatif adalah bahwa sampel yang sangat signifikan, sangat miring menunjukkan masalah dengan prosedur pengambilan sampel. Jika demikian, kurangnya simetri akan bertahan dalam sampel yang lebih besar.
whuber

Jawaban:


7

The jawaban yang diberikan oleh MLS (menggunakan pentingnya sampling) adalah hanya sebagai baik sebagai asumsi Anda dapat membuat tentang distribusi Anda. Kekuatan utama dari paradigma populasi sampel adalah bahwa ia non-parametrik, karena tidak membuat asumsi tentang distribusi data untuk membuat kesimpulan (valid) pada parameter populasi terbatas.

Pendekatan untuk mengoreksi ketidakseimbangan sampel disebut pasca-stratifikasi . Anda perlu memecah sampel menjadi kelas-kelas yang tidak tumpang tindih (post-strata), dan kemudian mengubah kelas-kelas ini sesuai dengan angka populasi yang diketahui. Jika populasi Anda diketahui memiliki median 0, maka Anda dapat mengulangi pengamatan positif dan negatif sehingga proporsi tertimbangnya menjadi 50-50: jika Anda memiliki SRS sial dengan 10 pengamatan negatif dan 20 pengamatan positif, Anda akan memberikan yang negatif berat 15/10 = 1,5 dan positif, 15/20 = 0,75.

Bentuk kalibrasi sampel yang lebih halus memang ada , di mana Anda dapat mengkalibrasi sampel Anda untuk memenuhi kendala yang lebih umum, seperti memiliki rata-rata variabel kontinu agar sama dengan nilai spesifik. Kendala simetri cukup sulit untuk dikerjakan, meskipun itu mungkin bisa dilakukan juga. Mungkin Jean Opsomer memiliki sesuatu dalam hal ini: dia telah melakukan banyak pekerjaan estimasi kernel untuk data survei.


Bagaimana post-stratifikasi dibandingkan, secara logis atau statistik, dengan hanya membuang sampel yang tidak seimbang dan menggambar sampel lain? (Kadang-kadang menggambar sampel adalah bagian padat karya dari penelitian, tetapi kadang-kadang itu dilakukan setelah Anda mengambil sampel yang padat karya dan menggambar sampel melibatkan usaha yang relatif kecil, seperti dalam banyak penelitian eksperimental.)
Joel W .

2
Saya tidak pernah berada dalam situasi di mana membuang data adalah jawaban terbaik, dan saya belum pernah melihatnya dibahas dalam buku statistik survei mana pun. Dalam sebagian besar statistik survei, mendapatkan data setidaknya lima kali lebih mahal daripada pemrosesan dan analisis data berikut ini (kecuali mungkin untuk beberapa survei web murah di mana pengumpulan datanya hampir gratis). Jika Anda berada di dunia eksperimental, maka Anda tidak boleh menandai "pengambilan sampel" posting Anda, dan sebagai gantinya menggunakan "desain eksperimen".
Tugas

Sampel acak dapat digunakan daripada bertingkat karena ada banyak cara yang mungkin untuk bertingkat dalam pengaturan dunia nyata. Dapat terjadi bahwa setelah memilih dua sampel acak untuk percobaan, Anda melihat beberapa ketidakseimbangan yang mencolok. Kemudian Anda terjebak di antara batu dan tempat yang sulit: hidup dengan ketidakseimbangan (misalnya, semua orang tua dalam satu kelompok, semua penutur non-pribumi dalam satu kelompok, semua doktor dalam satu kelompok, dll.), Atau menggambar sampel baru dan melemahkan hubungan antara apa yang telah Anda lakukan dan asumsi semua teknik statistik. Pasca stratifikasi tampaknya adalah tipe kedua.
Joel W.

2

Saya Anggota Junior di sini, tetapi saya akan mengatakan bahwa membuang dan memulai kembali selalu merupakan jawaban terbaik, jika Anda tahu bahwa sampel Anda secara signifikan tidak representatif, dan jika Anda memiliki gagasan tentang bagaimana pengambilan sampel yang tidak representatif muncul di tempat pertama dan bagaimana menghindarinya jika memungkinkan untuk yang kedua kalinya.

Apa gunanya mengambil sampel untuk kedua kalinya jika Anda mungkin akan berakhir di perahu yang sama?

Jika melakukan pengumpulan data lagi tidak masuk akal atau mahal, Anda harus bekerja dengan apa yang Anda miliki, berusaha untuk mengkompensasi ketidakterwakilan melalui stratifikasi, imputasi, pemodelan yang lebih menarik, atau apa pun. Anda perlu mencatat dengan jelas bahwa Anda memberi kompensasi dengan cara ini, mengapa menurut Anda itu perlu, dan mengapa menurut Anda itu berhasil. Kemudian kerjakan ketidakpastian yang muncul dari kompensasi Anda sepanjang jalan melalui analisis Anda. (Itu akan membuat kesimpulanmu kurang pasti, kan?)

Jika Anda tidak bisa melakukan itu, Anda harus menghentikan proyek sepenuhnya.


Bagaimana jika Anda tidak tahu mengapa sampel itu tidak representatif, apakah Anda masih dibenarkan membuangnya dan menggambar sampel acak yang baru? Jika tidak, mengapa tidak? Juga, katakanlah Anda membuang sampel pertama dan menggambar yang kedua, apakah statistik inferensial yang Anda dapat hitung berdasarkan sampel kedua dengan cara apa pun yang tidak pantas karena sampel pertama yang dibuang? Misalnya, jika Anda berlangganan untuk membuang sampel yang tidak representatif, apakah Anda mengubah distribusi sampling yang menjadi dasar tes statistik Anda? Jika demikian, apakah Anda membuatnya lebih mudah atau lebih sulit untuk menemukan signifikansi statistik?
Joel W.

@Wayne Ide bagus.
Subhash C. Davar

1

qpp , tetapi mereka terlihat salah: sampel masih tidak bias dan setiap adaptasi (seperti menghilangkan pencilan) kemungkinan akan menambah bias.

sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqsp
sp1ni=1np(xi)q(xi)f(xi).
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,

Anda mengatakan sampel tidak bias dan segala upaya untuk memperbaiki sampel akan menambah bias. Saya menyarankan agar proses pengumpulan sampel dilakukan tanpa bias tetapi, pada kenyataannya, sampel itu bias, mungkin berat sebelah. Apakah ada cara untuk mencoba memperbaiki bias besar yang diketahui yang mungkin diharapkan untuk memperkenalkan bias tambahan yang relatif sedikit?
Joel W.

1
Untuk sedikit membingungkan terminologi: Saya pikir bias sebagai properti dari ekspektasi variabel acak. Dengan kata lain, jika proses yang mengumpulkan data tidak bias, maka begitu pula sampelnya. Namun, sampel mungkin masih atipikal dan mengarah pada kesimpulan yang tidak diinginkan. Cara umum apa pun untuk memperbaikinya akan menyebabkan bias, karena Anda mengadaptasi prosedur pengambilan sampel (tidak bias). Mungkin pendekatan yang kurang bias adalah mengumpulkan dan menggunakan sampel baru. Pendekatan yang sedikit lebih bias akan menambahkan sampel baru ini ke yang lama, tetapi hasilnya mungkin kurang variabel karena Anda memiliki total sampel lebih banyak.
MLS

2
@ Joel W. Apa maksud Anda ketika Anda mengatakan sampel bias? Apakah ini perkiraan rata-rata berdasarkan sampel yang bias? Setiap perkiraan sampel akan berbeda dari rata-rata sebenarnya dan beberapa mungkin jauh. Ketika pengambilan sampel secara acak ini adalah karena varians tidak bias. Tidak benar untuk mengatakan sampel bias karena distribusi sampel diketahui jauh berbeda dari distribusi untuk populasi. Dalam sampel kecil banyak yang dapat terlihat tidak representatif karena satu dan lain alasan tetapi pengambilan sampel acak tidak bias.
Michael R. Chernick

1
@Michael, saya setuju bahwa kita harus mengenali dan hidup dengan varian acak ketika kita harus. Saya bertanya apa yang mungkin kita lakukan secara wajar ketika mendeteksi varian yang tidak diinginkan. Bagaimana jika sampel acak kami ternyata melibatkan terlalu banyak orang muda, atau terlalu banyak pekerja kerah biru, dll., Ketika kategori-kategori itu relevan dengan penelitian kami? Lebih jauh lagi, haruskah kita memeriksa sampel kita untuk melihat apakah mereka tidak seimbang dengan cara seperti itu? Dan apakah masalah jika kita perhatikan ini sebelum melakukan penelitian lebih lanjut dengan sampel atau setelah kita menginvestasikan sumber daya dalam melakukan penelitian dengan sampel?
Joel W.

1
Ketidakseimbangan kovariat sangat penting. Jika ada dalam sampel, model regresi dapat digunakan untuk menyesuaikannya. Vance Berger telah menulis buku tentang topik ini yang mungkin saya kutip sebelumnya di situs web ini. Berikut adalah tautan amazon ke deskripsi buku. amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/…
Michael R. Chernick
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.