Apa yang dapat Anda lakukan ketika Anda memiliki variabel prediktor yang didasarkan pada rata-rata grup dengan ukuran sampel yang berbeda?

Pertimbangkan masalah analisis data klasik di mana Anda memiliki hasil $Y_{i}$ dan bagaimana hal itu terkait dengan sejumlah prediktor . Jenis dasar aplikasi yang perlu diingat di sini adalah itu $X_{i1}, ..., X_{ip}$

$Y_{i}$ adalah beberapa hasil tingkat grup seperti tingkat kejahatan di kota $i$ .
Prediktor adalah karakteristik tingkat kelompok seperti fitur demografis kota $i$ .

Tujuan dasarnya adalah untuk menyesuaikan model regresi (mungkin dengan efek acak tetapi lupakan itu untuk saat ini):

E (Y_{i} | X_{i}) = β_{0} + β_{1} X_{i 1} + . . . + β_{p} X_{i p}

$E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip}$

Apakah beberapa kesulitan teknis muncul ketika satu (atau lebih) dari prediktor adalah hasil survei yang memiliki ukuran sampel yang berbeda untuk setiap unit? Sebagai contoh, anggaplah adalah skor ringkasan untuk kota yang merupakan respons rata-rata dari sampel individu dari kota tetapi ukuran sampel yang didasarkan pada rata-rata ini sangat berbeda: $X_{i1}$ $i$ $i$

\begin{array}{cc} C i t y & S a m p l e s i z e \\ 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ ⋮ & ⋮ \end{array}

$\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ \vdots & \vdots \\ \end{array}$

Karena variabel prediktor tidak semuanya memiliki arti yang sama, dalam arti tertentu, untuk masing-masing kota, saya khawatir bahwa mengkondisikan variabel-variabel ini dalam model regresi seolah-olah mereka semua "diciptakan sama" dapat menyebabkan beberapa kesimpulan yang menyesatkan.

Apakah ada nama untuk jenis masalah ini? Jika demikian, apakah ada penelitian tentang cara menangani ini?

Pemikiran saya adalah memperlakukannya sebagai variabel prediktor yang diukur dengan kesalahan dan melakukan sesuatu di sepanjang garis ini tetapi ada heteroskedastisitas dalam kesalahan pengukuran, sehingga akan sangat rumit. Saya bisa memikirkan hal ini dengan cara yang salah atau mungkin membuat ini lebih rumit daripada itu tetapi diskusi di sini akan membantu.

regression measurement-error errors-in-variables

— Makro
sumber

Ini disebut masalah "heteroscedastic kesalahan-dalam-variabel". (Frasa ini adalah target yang baik untuk pencarian Google.) Baru-baru ini (2007), Delaigle dan Meister mengusulkan penduga kepadatan kernel nonparametrik dalam artikel JASA . Sebuah abstrak tentang beberapa metode parametrik (metode momen dan MLE) menyarankan beberapa pendekatan tambahan: sciencedirect.com/science/article/pii/S1572312709000045 . (Saya tidak cukup akrab dengan penelitian ini untuk memberi Anda jawaban

— resmi

@whuber +1 untuk kedua komentar. Saya pikir "kesalahan-dalam-variabel" adalah kata kunci yang hilang yang saya cari. Jika tidak ada yang memberikan jawaban kuat di bawah ini yang bisa saya terima maka saya akan melihat literatur dan kembali memposting apa pun yang akhirnya saya lakukan sebagai jawaban.

— Makro

Jawaban:

Makalah "Model kesalahan-dalam-variabel struktural heteroskedastik dengan kesalahan persamaan" dapat diunduh di halaman penulis:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers

pada dasarnya Anda harus mempertimbangkan variabilitas kedua variabel untuk menghindari penaksir yang tidak konsisten, tes hipotesis yang tidak dapat diandalkan dan interval kepercayaan.

— Alexandre Patriota
sumber

$σ^2$ $X_i$ $σ^2/n_i$ $n_i$ $i$

— Michael R. Chernick
sumber

Itu tampaknya masuk akal meskipun saya berharap untuk tidak harus memodelkan kesalahan pengukuran sama sekali. Jika saya memang pergi ke arah itu, apa yang akan Anda gunakan untuk memperkirakan efek dari prediktor yang diukur dengan kesalahan? Saya telah menggunakan satu metode yang disebut SIMEX tetapi ini tampaknya tidak biasa dan saya bertanya-tanya apakah ada opsi lain.

— Makro

@ Macro Saya tidak terbiasa dengan perangkat lunak khusus untuk pemodelan regresi dengan fungsi varians untuk memperkirakan.

— Michael R. Chernick

Makro, sebagai patokan dalam regresi kesalahan-dalam-variabel homoseksual, jika kesalahan dalam IVs kecil dibandingkan dengan kesalahan dalam DV, Anda dapat dengan aman mengabaikan yang pertama dan menggunakan regresi biasa. Itu memberi Anda cara cepat dan sederhana untuk menentukan masalah.

— Whuber

@whuber, terima kasih - itu berguna. Tampaknya jika aturan praktis itu masuk akal maka masuk akal dalam kasus heteroskedastik untuk menggunakan "jika varians kesalahan terbesar dalam IVs kecil dibandingkan dengan varians kesalahan dalam DV, Anda dapat dengan aman mengabaikan masalahnya" akan menjadi aturan praktis yang merupakan kondisi yang sebenarnya dapat dipenuhi dalam data yang saya lihat.

— Makro

σ^{2} \approx 1

$\sigma^2 \approx 1$

\approx 1 / n

$\approx 1/n$

(.05, 1)

$(.05,1)$

Y_{i}

$Y_i$