Model untuk estimasi kepadatan populasi

Database (populasi, area, bentuk) dapat digunakan untuk memetakan kepadatan populasi dengan menetapkan nilai konstan populasi / area untuk setiap bentuk (yang merupakan poligon seperti blok Sensus, traktat, county, state, apa pun). Namun, populasi biasanya tidak terdistribusi secara seragam dalam poligonnya. Pemetaan Dasymetric adalah proses menyempurnakan estimasi kepadatan ini dengan menggunakan data tambahan. Ini adalah masalah penting dalam ilmu sosial seperti yang ditunjukkan oleh ulasan baru-baru ini .

Jadi, anggaplah bahwa kita telah menyediakan peta tambahan tutupan lahan (atau faktor diskrit lainnya). Dalam kasus yang paling sederhana, kita dapat menggunakan area yang jelas tidak bisa dihuni seperti waterbodies untuk menggambarkan di mana populasi tidak dan, dengan demikian, menugaskan semua populasi ke area yang tersisa. Lebih umum, masing-masing Sensus satuan $j$ diukir ke dalam $k$ bagian memiliki daerah permukaan $x_{ji}$ , $i = 1, 2, \ldots, k$ . Dataset kami karenanya ditambahkan ke daftar tupel

(y_{j}, x_{j 1}, x_{j 2}, \dots, x_{j k})

$(y_{j}, x_{j1}, x_{j2}, \ldots, x_{jk})$

di mana adalah penduduk (diasumsikan diukur tanpa kesalahan) di unit dan - meskipun hal ini tidak sepenuhnya kasus - kita bisa mengasumsikan setiap juga persis diukur. Dalam hal ini, tujuannya adalah untuk partisi masing-masing menjadi penjumlahan $y_{j}$ $j$ $x_{ji}$ $y_{j}$

y_{j} = z_{j 1} + z_{j 2} + \dots + z_{j k}

$y_j = z_{j1} + z_{j2} + \cdots + z_{jk}$

di mana setiap dan memperkirakan populasi dalam unit berada di kelas tutupan lahan . Estimasi harus tidak bias. Partisi ini memurnikan peta kepadatan populasi dengan menetapkan kepadatan ke persimpangan poligon Sensus dan kelas tutupan lahan . $z_{ji} \ge 0$ $z_{ji}$ $j$ $i$ $z_{ji}/x_{ji}$ $j^{\text{th}}$ $i^{\text{th}}$

Masalah ini berbeda dari pengaturan regresi standar dalam cara yang menonjol:

Partisi setiap harus tepat. $y_{j}$
Komponen setiap partisi harus non-negatif.
Tidak ada kesalahan dalam data apa pun: semua populasi menghitung dan semua area benar. $y_{j}$ $x_{ji}$

Ada banyak pendekatan untuk solusi, seperti metode " pemetaan dasymetric cerdas ", tetapi semua yang saya baca memiliki elemen ad hoc dan potensi yang jelas untuk bias. Saya mencari jawaban yang menyarankan metode statistik yang kreatif dan dapat ditelusuri secara komputasional. Aplikasi langsung menyangkut koleksi c. - Unit sensus rata-rata masing-masing 40 orang (walaupun sebagian besar memiliki 0 orang) dan sekitar selusin kelas tutupan lahan. $10^{5}$ $10^{6}$

modeling unbiased-estimator spatial

— whuber
sumber

Masalah pemformatan sekarang telah diperbaiki. Itu adalah bug.

— Rob Hyndman

@Rob Terima kasih, dan terima kasih kepada semua orang yang melihat ini: Saya melihat komentar Anda sebelum dihapus dan berterima kasih atas upaya Anda.

— whuber

Yang ini juga: P. A Zandbergen dan D. A Ignizio, “Perbandingan Teknik Pemetaan Dasymetric untuk Estimasi Populasi Area Kecil,” Kartografi dan Ilmu Informasi Geografis 37, no. 3 (2010): 199–214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/... Yang sepertinya memanggil untuk blending.

— fgregg

Makalah ini mungkin berguna: Hwahwan Kim dan Xiaobai Yao, "interpolasi Pycnophylactic ditinjau kembali: integrasi dengan metode pemetaan dasymetric," International Journal of Remote Sensing 31, no. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805

— fgregg

Anda tahu, pemetaan dasymetric pada akhirnya sebagai masalah inferensi ekologis. Karya terbaru K. Imai mungkin bisa membantu: pan.oxfordjournals.org/content/16/1/41.abstract

— fgregg

Jawaban:

Anda mungkin ingin memeriksa karya Mitchel Langford pada pemetaan dasymetric.

Dia membangun raster yang mewakili distribusi populasi Wales dan beberapa pendekatan metodologisnya mungkin berguna di sini.

Update: Anda mungkin juga kita lihat karya Jeremy Mennis (terutama ini dua artikel).

— Radek
sumber

Terima kasih. Pekerjaan itu menyediakan pointer ke web penelitian terbaru tentang pemetaan dasymetric.

— whuber

Pertanyaan menarik. Berikut adalah langkah tentatif untuk mendekati ini dari sudut statistik. Misalkan kita menemukan cara untuk menetapkan jumlah populasi untuk setiap area . Nyatakan hubungan ini sebagai berikut: $x_{ji}$

$z_{ji} = f(x_{ji},\beta)$

Jelas, bentuk fungsional apa pun yang kita berikan pada Akan menjadi pendekatan terbaik untuk hubungan nyata dan dengan demikian kebutuhan untuk memasukkan kesalahan ke dalam persamaan di atas. Dengan demikian, di atas menjadi: $f(.)$

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

dimana,

$\epsilon_{ji} \sim N(0,\sigma^2)$

Asumsi kesalahan distribusi pada istilah kesalahan adalah untuk tujuan ilustrasi. Jika perlu kami dapat mengubahnya sesuai kebutuhan.

However, we need an exact decomposition of $y_{ji}$ . Thus, we need to impose a constraint on the error terms and the function $f(.)$ as below:

$\sum_i{\epsilon_{ji}} = 0$

$\sum_i{f(x_{ji},\beta)} = y_j$

Denote the stacked vector of ${z_{ji}}$ by $z_j$ and the stacked deterministic terms of ${f(x_{ji},\beta)}$ by $f_j$ . Thus, we have:

$z_j \sim N(f_j,\sigma^2 I) I({f_j}' e = y_j) I((z_j-f_j)' e = 0)$

where,

$e$ is a vector of ones of appropriate dimension.

The first indicator constraint captures the idea that the sum of the deterministic terms should sum to $y_j$ and the second one captures the idea that the error residuals should sum to 0.

Model selection is trickier as we are decomposing the observed $y_j$ exactly. Perhaps, a way to approach model selection is to choose the model that yields the lowest error variance i.e., the one that yields the lowest estimate of $\sigma^2$ .

Edit 1

Thinking some more the above formulation can be simplified as it has more constraints than needed.

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

where,

$\epsilon_{ji} \sim N(0,\sigma^2)$

Denote the stacked vector of ${z_{ji}}$ by $z_j$ and the stacked deterministic terms of ${f(x_{ji},\beta)}$ by $f_j$ . Thus, we have:

$z_j \sim N(f_j,\sigma^2 I) I({z_j}' e = y_j)$

where,

$e$ is a vector of ones of appropriate dimension.

The constraint on $z_j$ ensures an exact decomposition.

@Srikant Thank you. I was thinking along similar lines when I posed the question and have since tested out a GLM (Poisson distribution with linear link) as well as some other models. Unfortunately, it now looks like any model based solely on land cover type and proportion will not work well: a sample of these data suggests that population patterns depend on a larger spatial context. At a minimum, then, we would need to include spatially lagged covariates in a linear model.

— whuber