Bagaimana saya bisa mensimulasikan sensus mikrodata untuk wilayah kecil menggunakan sampel mikrodata 1% pada skala besar dan statistik agregat pada skala area kecil?

Saya ingin melakukan analisis multivariat tingkat individu pada tingkat kecil agregasi geografis (distrik pengumpulan sensus Australia). Jelas, sensus tidak tersedia pada tingkat agregasi kecil ini untuk alasan privasi jadi saya sedang menyelidiki alternatif lain. Hampir semua variabel yang menarik bersifat kategorikal. Saya memiliki dua set data yang saya miliki:

Sampel sensus 1% tersedia pada tingkat agregasi spasial yang jauh lebih besar (area dengan populasi ~ 190.000 dan segregasi demografi yang luas spasial).
Tabel frekuensi untuk variabel yang saya minati pada level area kecil (500 area kecil, berarti pop = 385, sd = 319, median = 355).

Bagaimana saya bisa menggunakan dua set data ini untuk mensimulasikan distribusi populasi pada tingkat area kecil yang sedekat mungkin dengan populasi aktual area kecil?

Saya menghargai mungkin ada metode rutin untuk melakukan ini; jika demikian sebuah penunjuk ke buku teks atau artikel jurnal yang relevan akan sangat dihargai.

— fmark
sumber

kemungkinan terkait (Saya mengalami masalah serupa): stats.stackexchange.com/questions/14399/... Gibbs sampling mungkin yang diperlukan di sini.

— mzuba

Anda mungkin ingin mengajukan pertanyaan Anda pada milis SRMSNET dari American Statistics Association. Jika Anda berada di Australia, saya akan mendekati Ray Chambers - saya kira tidak ada yang tahu SAE lebih baik daripada dia di belahan bumi Selatan :).

— Tugas

Masalah ini berkaitan erat dengan "pemetaan dasymetric."

— Whuber

Saya setuju dengan @whuber, dan pemetaan dasymetric mungkin menarik untuk fmark mengingat materi pelajaran juga. Sayangnya, ini sebagian besar terpisah dari literatur inferensi ekologis yang saya kutip dalam jawaban saya (saya tidak ingin menimbun lebih banyak literatur lagi!)

— Andy W

Beberapa teknik pemetaan dasymetric telah mulai menggunakan data tambahan untuk mencoba menginterpolasi data ke area yang lebih kecil. Tujuan inferensi ekologis dan pemetaan dasymetric agak berbeda (agak analog dengan perbedaan antara prediksi / perkiraan dan inferensi). Saya akan menulis posting lain tentang sumber-sumber yang telah saya kumpulkan yang saya pikir akan menarik juga. Sayangnya saya tidak bisa memberikan nasihat yang lebih berguna daripada mengutip banyak literatur. Ini adalah topik kontemporer populer, dan mudah-mudahan Anda dapat berkontribusi padanya!

— Andy W

Jawaban:

Pemetaan Dasymetric terutama difokuskan pada interpolasi estimasi populasi ke area yang lebih kecil daripada yang tersedia dalam data yang disebarluaskan saat ini (lihat pertanyaan ini untuk sejumlah referensi berguna tentang topik) Seringkali ini dilakukan dengan hanya mengidentifikasi daerah (berdasarkan karakteristik tanah) di mana jelas tidak ada populasi, dan kemudian memperkirakan kembali kepadatan populasi (menghilangkan daerah tersebut). Contohnya adalah jika ada badan air di kota, yang lain mungkin jika Anda mengidentifikasi bidang tanah industri yang tidak dapat memiliki populasi perumahan. Pendekatan yang lebih baru untuk pemetaan dasymetric menggabungkan data tambahan lainnya dalam kerangka probabilistik untuk mengalokasikan perkiraan populasi (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011).

Sekarang mudah untuk melihat kaitannya dengan pertanyaan Anda. Anda ingin perkiraan populasi di wilayah kecil. Tapi, juga harus jelas bagaimana itu bisa gagal dari tujuan Anda. Anda tidak hanya menginginkan data populasi, tetapi juga karakteristik populasi tersebut. Salah satu istilah yang digunakan untuk menggambarkan situasi ini adalah perubahan masalah dukungan (Cressie, 1996; Gotway & Young, 2002). Meminjam dari literatur geostatistik di mana seseorang mencoba membuat prediksi karakteristik tertentu pada area yang luas dari sampel titik, karya terbaru telah berupaya untuk menginterpolasi data areal ke zona target yang berbeda. Sebagian besar karya Pierre Goovaerts berfokus pada metode kriging area-ke-titik seperti itu, sebuah artikel baru-baru ini di jurnal Geographical Analysis memiliki beberapa contoh metode yang diterapkan materi pelajaran yang berbeda (Haining et al., 2010), dan salah satu aplikasi favorit saya adalah dalam artikel ini (Young et al., 2009).

Apa yang saya kutip seharusnya tidak dipandang sebagai obat mujarab untuk masalah ini. Pada akhirnya banyak masalah yang sama dengan inferensi ekologis dan bias agregasi berlaku untuk tujuan interpolasi areal juga. Mungkin juga banyak hubungan antara data tingkat mikro hilang begitu saja dalam proses agregasi, dan teknik interpolasi semacam itu tidak akan dapat memulihkannya. Juga proses melalui mana data diinterpolasi secara empiris (melalui estimasi variograms dari data level agregat) seringkali cukup penuh dengan langkah-langkah ad-hoc yang seharusnya membuat proses dipertanyakan (Goovaerts, 2008).

Sayangnya, saya memposting ini dalam jawaban yang terpisah karena literatur inferensi ekologis dan literatur tentang pemetaan dasymetric dan area-to-point kriging adalah non-tumpang tindih. Meskipun literatur tentang kesimpulan ekologis memiliki banyak implikasi untuk teknik ini. Tidak hanya teknik interpolasi tunduk pada bias agregasi, tetapi teknik dasymetric cerdas (yang menggunakan data agregat untuk menyesuaikan model untuk memprediksi area yang lebih kecil) cenderung dicurigai bias bias. Pengetahuan tentang situasi di mana bias agregasi terjadi harus mencerahkan situasi di mana interpolasi areal dan pemetaan dasimetri sebagian besar akan gagal (terutama dalam hal mengidentifikasi korelasi antara variabel yang berbeda pada tingkat terpilah).

Kutipan

— Andy W
sumber

Terima kasih atas titik awal yang berguna ke dalam literatur kontemporer - saya tidak mengetahui metode dasimetri yang melakukan lebih dari kepadatan populasi reweight, jadi saya akan melihat ini dengan penuh semangat.

— fmark

Karya Gary King, khususnya bukunya "Solusi untuk Masalah Inferensi Ekologis" (dua bab pertama tersedia di sini ), akan menarik (serta perangkat lunak yang menyertainya yang ia gunakan untuk inferensi ekologis). King menunjukkan dalam bukunya bagaimana perkiraan model regresi menggunakan data agregat dapat ditingkatkan dengan memeriksa batas potensial pengelompokan tingkat yang lebih rendah berdasarkan pada data agregat yang tersedia. Fakta bahwa sebagian besar data Anda adalah pengelompokan kategorikal membuatnya dapat menerima teknik ini. (Meskipun jangan tertipu, itu bukan solusi yang mahakuasa seperti yang Anda harapkan diberi judul!) Lebih banyak karya saat ini ada, tetapi buku King adalah IMO tempat terbaik untuk memulai.

Kemungkinan lain adalah hanya untuk mewakili batas potensial dari data itu sendiri (dalam peta atau grafik). Jadi misalnya Anda mungkin memiliki distribusi jenis kelamin yang dilaporkan pada tingkat agregat (katakanlah 5.000 pria dan 5.000 wanita), dan Anda tahu tingkat agregat ini mencakup 2 unit area kecil populasi yang berbeda, 9.000 dan 1.000 individu. Anda kemudian dapat mewakili ini sebagai tabel kontingensi formulir;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000

Meskipun Anda tidak memiliki informasi dalam sel untuk agregasi level yang lebih rendah, dari total marginal kami dapat menyusun nilai potensial minimum atau maksimum untuk setiap sel. Jadi, dalam contoh ini Men X Unit1sel hanya dapat mengambil nilai di antara 4.000 dan 5.000 (Kapan saja distribusi marjinal lebih tidak merata, semakin kecil interval nilai yang mungkin diambil sel). Rupanya mendapatkan batas-batas tabel lebih sulit daripada yang saya perkirakan ( Dobra & Fienberg, 2000 ), tetapi tampaknya fungsi tersedia di eiPackperpustakaan di R ( Lau et al., 2007, hlm. 43 ).

Analisis multivariat dengan data tingkat agregat sulit, karena bias agregasi pasti terjadi dengan jenis data ini. (Singkatnya, saya hanya akan menggambarkan bias agregasi karena banyak proses menghasilkan data tingkat individu yang berbeda dapat menghasilkan asosiasi tingkat agregat) Serangkaian artikel di American Sociological Reviewpada tahun 1970-an adalah beberapa referensi favorit saya untuk topik (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974) meskipun sumber kanonik pada topik tersebut mungkin (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Saya benar-benar berpikir bahwa mewakili batasan potensial yang dapat diambil oleh data berpotensi menimbulkan hasutan, meskipun Anda benar-benar dihalangi oleh keterbatasan data agregat untuk melakukan analisis multivariat. Namun itu tidak menghentikan siapa pun untuk melakukannya dalam ilmu sosial (baik atau buruk!)

Perhatikan, (seperti yang dikatakan Charlie dalam komentar) bahwa "solusi" King telah menerima banyak kritik (Anselin & Cho, 2002; Freedman et al., 1998). Meskipun kritik-kritik ini tidak bisa dikatakan tentang matematika metode King, lebih-lebih dalam hal situasi di mana metode King masih gagal untuk menjelaskan bias agregasi (dan saya setuju dengan Freedman dan Anselin dalam situasi di mana data untuk ilmu-ilmu sosial masih diduga jauh lebih umum daripada yang memenuhi asumsi King). Ini adalah sebagian alasan mengapa saya menyarankan hanya memeriksa batas-batas (tidak ada yang salah dengan itu), tetapi membuat kesimpulan tentang korelasi tingkat individu dari data tersebut membutuhkan lebih banyak lompatan keyakinan yang pada akhirnya tidak dapat dibenarkan dalam kebanyakan situasi.

Kutipan

— Andy W
sumber

Perhatikan bahwa yang lain kritis terhadap pendekatan King terhadap masalah kekeliruan ekologis; David Freedman adalah contoh penting. Berikut adalah respons yang diberikan Freedman dan rekan penulisnya kepada buku King yang dikutip di atas: citeseerx.ist.psu.edu/viewdoc/... Tentu saja, King memiliki respons dan Freedman et al. memiliki respons terhadap respons terhadap respons ... Saya tidak tahu apa yang Anda coba lakukan dan data apa yang Anda miliki, tetapi saya umumnya sangat skeptis terhadap analisis tipe inferensi ekologis.

— Charlie

Ya @Charlie saya setuju (dan saya sangat menikmati pendapat Freedman tentang masalah ini secara umum). Itulah sebagian alasan saya menunjuk pada literatur umum tentang bias agregasi pada akhir posting saya. Saya tidak yakin apa yang Anda maksud dengan pernyataan "Saya tidak tahu apa yang Anda coba lakukan dan data apa yang Anda miliki, tetapi saya umumnya sangat skeptis terhadap analisis tipe inferensi tipe ekologis", apakah ini dalam salam untuk Raja dan Freedman keduanya mengeluh tentang tidak berbagi data?

— Andy W

@Andy, Apakah teknik ini sama dengan apa yang diketahui oleh para ekonom sebagai distribusi yang teridentifikasi sebagian ( springer.com/statistics/statribution+theory+and+methods/book/… )?

— Tugas

@Andy, Tidak, maaf atas ambiguitasnya. Saya sebenarnya berbicara dengan OP. Jika dia memiliki tabel frekuensi di area kecil dan ingin mendapatkan statistik di level area kecil, apa yang hilang? Saya kira dia pasti hanya memiliki margin, tetapi tidak isi sel, seperti yang Anda sarankan dalam posting Anda.

— Charlie

@StasK, saya tidak tahu. Saya akan memeriksa untuk melihat apakah King membuat referensi ke Manski akhir minggu ini ketika saya memiliki akses ke buku itu. Ada kemungkinan beberapa tumpang tindih yang diberikan inferensi ekologis disebutkan dalam abstrak. Sumber potensial lain (gratis) untuk mengeksplorasi hubungan antara keduanya adalah pembaca yang disunting King pada "Metode Baru dalam Inferensi Ekologis" ( diposting secara keseluruhan di situs webnya)

— Andy W

Saya tidak yakin jawaban yang jelas ada dalam literatur untuk ini, mengingat bahwa pencarian Google pada dasarnya memberikan tiga referensi yang dapat digunakan pada estimasi area kecil multivariat. Pfeffermann (2002) membahas variabel respon diskrit di bagian 4 makalah, tetapi ini akan menjadi model univariat. Tentu saja, dengan metode Bayesian hierarkis ( Rao 2003, Bab 10 ), Anda dapat melakukan segala jenis keajaiban, tetapi jika pada akhirnya Anda menemukan diri Anda hanya mereplikasi prior Anda (karena Anda memiliki sedikit data), ini akan menjadi mengerikan hasil latihan simulasi Anda. Selain itu, Rao hanya memperlakukan variabel kontinu.

Saya kira tantangan terbesar adalah dekomposisi dari matriks kovarian menjadi komponen antara dan di dalam area kecil. Dengan sampel 1%, Anda hanya akan memiliki 3 pengamatan dari SAE Anda, jadi mungkin sulit untuk mendapatkan estimasi yang stabil dari komponen dalam.

Jika saya berada di posisi Anda, saya akan mencoba ekstensi multivariat dari model Pfeffermann dengan efek acak multivariat dari area kecil. Anda memang mungkin berakhir dengan model Bayesian hirarkis untuk ini, jika tidak ada karya berbasis desain.

UPDATE (untuk menanggapi komentar Andy atas jawaban ini): metode bootstrap untuk estimasi area kecil ( Lahiri 2003 ) secara khusus menciptakan populasi yang masuk akal dari penelitian ini. Sementara fokus dari latihan bootstrap adalah untuk memperkirakan varians dari estimasi area kecil, prosedurnya harus menarik dan relevan dengan masalah yang diposting.

— Tugas
sumber

Saya tidak akan mengevaluasi status literatur berdasarkan pencarian google. Saya tidak yakin estimasi area kecil adalah apa yang penulis cari dalam contoh ini. Sejauh yang saya mengerti, bahwa literatur difokuskan pada pembuatan prediksi karakteristik di area kecil ( Kriegler & Berk, 2010 ), atau memperkirakan parameter dalam model multi-level berdasarkan jumlah sampel yang sedikit per unit agregat.

— Andy W

Saya tidak yakin estimasi area kecil adalah apa yang ingin saya lakukan. Seperti yang saya pahami, estimasi area kecil berusaha beralih dari beberapa sampel di area kecil ke agregat statistik ringkasan. Saya mencari yang sebaliknya (untuk beralih dari distribusi populasi area besar dan statistik ringkasan agregat area kecil ke populasi area simulasi kecil). Lahiri 2003 terlihat seperti titik awal yang baik di sini.

— fmark