Interpretasi variabel laten dari model linear umum (GLM)

Versi pendek:

Kita tahu bahwa regresi logistik dan regresi probit dapat diinterpretasikan sebagai melibatkan variabel laten kontinu yang didiskritisasi menurut beberapa ambang batas yang ditetapkan sebelum pengamatan. Apakah interpretasi variabel laten serupa tersedia untuk, katakanlah, regresi Poisson? Bagaimana dengan regresi Binomial (seperti logit atau probit) ketika ada lebih dari dua hasil yang terpisah? Pada tingkat paling umum, apakah ada cara untuk menafsirkan GLM dalam hal variabel laten?

Versi panjang:

Cara standar untuk memotivasi model probit untuk hasil biner (misalnya, dari Wikipedia ) adalah sebagai berikut. Kami memiliki tidak teramati / laten variabel hasil $Y$ yang biasanya didistribusikan, tergantung pada prediktor $X$ . Variabel laten ini mengalami proses ambang, sehingga hasil diskrit yang kita amati sebenarnya adalah $u=1$ jika , jika . Ini mengarah pada probabilitas diberikan untuk mengambil bentuk CDF Normal, dengan deviasi rata-rata dan fungsi ambang dan kemiringan regresi $Y \ge \gamma$ $u=0$ $Y < \gamma$ $u=1$ $X$ $\gamma$ $Y$ pada , masing-masing. Jadi model probit dimotivasi sebagai cara memperkirakan kemiringan dari regresi laten pada . $X$ $Y$ $X$

Ini diilustrasikan dalam plot di bawah ini, dari Thissen & Orlando (2001). Para penulis ini secara teknis membahas model ogive yang normal dari teori respon butir, yang terlihat cukup banyak seperti regresi probit untuk tujuan kita (catatan penulis menggunakan $\theta$ di tempat $X$ , dan probabilitas ditulis dengan $T$ bukannya biasa $P$ ).

Kita dapat menafsirkan regresi logistik dengan cara yang persis sama . Satu-satunya perbedaan adalah bahwa sekarang tidak teramati terus menerus mengikuti logistik distribusi, bukan distribusi normal, diberikan . Argumen teoretis tentang mengapa mungkin mengikuti distribusi logistik daripada distribusi normal agak kurang jelas ... tetapi karena kurva logistik yang dihasilkan terlihat pada dasarnya sama dengan CDF normal untuk tujuan praktis (setelah penyelamatan), bisa dibilang itu akan menang ' Dalam praktiknya, cenderung tidak terlalu berarti model mana yang Anda gunakan. Intinya adalah bahwa kedua model memiliki interpretasi variabel laten yang cukup mudah. $Y$ $X$ $Y$

Saya ingin tahu apakah kita dapat menerapkan interpretasi laten variabel yang tampak mirip (atau, neraka, berbeda) ke GLM lain - atau bahkan ke GLM mana pun .

Bahkan memperluas model di atas untuk memperhitungkan hasil Binomial dengan (yaitu, bukan hanya hasil Bernoulli) tidak sepenuhnya jelas bagi saya. Agaknya orang dapat melakukan ini dengan membayangkan bahwa alih-alih memiliki ambang tunggal , kami memiliki beberapa ambang batas (satu lebih sedikit dari jumlah hasil diskrit yang diamati). Tetapi kita perlu memaksakan beberapa batasan pada ambang, seperti itu mereka ditempatkan secara merata. Saya cukup yakin sesuatu seperti ini bisa berhasil, walaupun saya belum mengerjakan detailnya. $n>1$ $\gamma$

Pindah ke kasus regresi Poisson tampaknya kurang jelas bagi saya. Saya tidak yakin apakah gagasan ambang akan menjadi cara terbaik untuk memikirkan model dalam kasus ini. Saya juga tidak yakin distribusi seperti apa yang bisa kita bayangkan sebagai hasil laten.

Solusi yang paling diinginkan untuk ini akan menjadi cara umum menafsirkan setiap GLM dalam hal variabel laten dengan beberapa distribusi atau lainnya - bahkan jika solusi umum ini menyiratkan interpretasi variabel laten yang berbeda dari yang biasa untuk regresi logit / probit. Tentu saja, akan lebih keren jika metode umum setuju dengan interpretasi logit / probit yang biasa, tetapi juga diperluas secara alami ke GLM lain.

Tetapi bahkan jika interpretasi variabel laten seperti itu umumnya tidak tersedia dalam kasus GLM umum, saya juga ingin mendengar tentang interpretasi variabel laten dari kasus khusus seperti kasus Binomial dan Poisson yang saya sebutkan di atas.

Referensi

Thissen, D. & Orlando, M. (2001). Teori respons item untuk item yang dinilai dalam dua kategori. Dalam D. Thissen & Wainer, H. (Eds.), Tes Penilaian (hlm. 73-140). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.

Edit 2016-09-23

$\mu$ $Y$ $X$ $Y$ $\gamma$

— Jake Westfall
sumber

Bisakah kami ulangi pertanyaan Anda sebagai "untuk keluarga GLM apa yang sesuai dengan prediktor linier dengan parameter lokasi untuk beberapa distribusi berkelanjutan, dan model seleksi?" Untuk regresi Probit dan Logistik, prediktor linier adalah parameter lokasi distribusi Gaussian, dan Logistik. Model seleksi adalah ambang pada 0. (FWIW, saya tidak berpikir akan ada banyak yang lain - dan sebenarnya Probit / Logistik adalah keluarga yang sama, tetapi dengan fungsi tautan yang berbeda ...)

— Andrew M

@AndrewM Saya pikir reprasing mungkin bisa bekerja untuk GLM dengan hasil diskrit. Tapi saya ragu untuk mengurangi seluruh pertanyaan menjadi karena saya tidak bisa benar-benar melihat bagaimana model pemilihan lokasi + bisa bekerja untuk GLM dengan hasil yang berkelanjutan. Sehingga pengubahan ulang itu tampaknya hampir menghalangi jawaban untuk GLM tersebut

— Jake Westfall

Model kelas laten termasuk dalam kategori model campuran hingga. Satu cara langsung untuk memikirkan mereka adalah bahwa mereka adalah model pembelajaran yang diawasi yang, pada bagian belakangnya, memecah heterogenitas residual dari model menjadi kelompok. Logika dan partisi yang serupa dapat diterapkan pada heterogenitas yang melekat dalam residual dari model apa pun, termasuk GLM. Tentu saja, pendekatan untuk partisi ini mungkin merupakan pilihan nontrivial dan itu mungkin solusi kluge, tetapi bisa dibuat berfungsi.

— Mike Hunter

f (y_{i} | η_{i})

$f(y_i|\eta_i)$

g (θ_{i} | η_{i})

$g(\theta_i|\eta_i)$

f (y_{i} | η_{i}) = \int f (y_{i} | η_{i}, θ_{i}) g (θ_{i} | η_{i}) d θ_{i}

$f(y_i|\eta_i) = \int f(y_i|\eta_i, \theta_i) g(\theta_i|\eta_i) d\theta_i$

— Andrew M

Probit yang dipesan dapat memiliki interpretasi yang serupa. Lihat kertas Becker & Kennedy di ET.

— Dimitriy V. Masterov

Untuk model dengan lebih dari satu hasil diskrit, ada beberapa versi model logit (misalnya log kondisional, log multinomial, logit campuran, logit bersarang, ...). Lihat buku Kenneth Train tentang subjek: http://eml.berkeley.edu/books/choice2.html

$y$ $J$ $j$ $x_j$ $i$ $u_{ij} = x_j \beta + \varepsilon_{ij}$ $j$ $\varepsilon_{ij}$ $j$

Pr (y = j) = \frac{\exp (x_{j} β)}{\sum_{k = 1}^{J} \exp (x_{k} β)}

$\Pr(y=j) = \frac{\exp(x_j \beta)}{\sum_{k=1}^J \exp (x_k \beta)}$

$u_{ij}$ $\beta$

$u$

Perhatikan bahwa tidak ada parameter "ambang" di sini: sebagai gantinya, ketika satu utilitas menjadi lebih besar dari yang sebelumnya terbesar, maka konsumen akan beralih untuk memilih alternatif itu.

$x_j \beta$

— Superpronker
sumber