Apa perbedaan antara regresi linear yang ditransformasi-logit, regresi logistik, dan model campuran logistik?

10

Misalkan saya memiliki 10 siswa, yang masing-masing berusaha memecahkan 20 masalah matematika. Masalah diberi skor benar atau salah (dalam longdata) dan kinerja setiap siswa dapat diringkas dengan ukuran akurasi (dalam subjdata). Model 1, 2, dan 4 di bawah ini muncul untuk menghasilkan hasil yang berbeda, tetapi saya memahaminya melakukan hal yang sama. Mengapa mereka menghasilkan hasil yang berbeda? (Saya menyertakan model 3 untuk referensi.)

library(lme4)

set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

— pengguna20061
sumber

Saya juga mencoba regresi beta, tetapi mendapat kesalahan ... library(betareg) model5 = betareg(acc~scale(iq),subjdata)

— user20061

library(car)diperlukan, untuk fungsi logit.

— user20061

1

Ini dapat membantu Anda membaca dua jawaban saya untuk pertanyaan terkait: Perbedaan antara model logit dan probit (yang membahas fungsi tautan & GLiM secara umum - komentar di bagian akhir secara khusus membahas 1 & 3 Anda), & Perbedaan antara model linear umum & model campuran linier umum (yang membahas bagaimana 4 Anda berbeda dari 1 & 3).

— gung - Reinstate Monica

15

Model 1 dan 2 berbeda karena yang pertama mengubah respons & yang kedua mengubah nilai yang diharapkan.

Untuk Model 1 logit dari masing-masing respons adalah terdistribusi secara normal dengan artinya menjadi fungsi linier vektor prediktor & koefisien. & oleh karena itu Untuk Model 2 respons itu sendiri biasanya didistribusikan dengan logit yang berarti fungsi linear dari prediktor dan vektor koefisien

logit Y_{saya} \sim N (μ_{saya}, σ^{2})

$\newcommand{\logit}{\operatorname{logit}}\logit Y_i\sim\mathrm{N}\left(\mu_i,\sigma^2\right)$

μ_{saya} = x_{saya}^{'} β

$\mu_i=x_i'\beta$

Y_{saya} = {logit}^{- 1} (x_{saya}^{'} β + ε_{saya})

$Y_i=\logit^{-1}\left(x_i'\beta+\varepsilon_i\right)$

Y_{saya} \sim N (μ_{saya}, σ^{2})

$\newcommand{\logit}{\operatorname{logit}} Y_i\sim\mathrm{N}\left(\mu_i,\sigma^2\right)$

logit μ_{saya} = x_{saya} β

$\logit\mu_i=x_i\beta$ & karena itu

Y_{saya} = {logit}^{- 1} (x_{saya}^{'} β) + ε_{saya}

$Y_i=\logit^{-1}\left(x_i'\beta\right)+\varepsilon_i$

Jadi struktur varians akan berbeda. Bayangkan simulasi dari Model 2: varians akan independen dari nilai yang diharapkan; & Meskipun nilai yang diharapkan dari tanggapan akan antara 0 & 1, tanggapannya tidak semuanya.

Model campuran linier umum seperti Model 4 Anda berbeda lagi karena mengandung efek acak: lihat di sini & di sini .

— Scortchi - Reinstate Monica
sumber

Terima kasih banyak - ini sangat jelas membedakan model 1 dan model 2. Alasan Anda bahwa model 2 memprediksi beberapa skor akurasi (walaupun bukan nilai yang diharapkan) berada di luar [0,1] sangat membantu (dan mendiskualifikasi untuk tujuan saya) ). Saya percaya intuisi yang sama dapat digunakan terhadap model 1: kisaran kemungkinan skor akurasi yang diprediksi jatuh dalam (0,1) bukan [0,1]. Dengan jumlah pertanyaan yang terbatas, seorang model harus memprediksi beberapa skor akurasi menjadi 0 atau 1, dan distribusi binomial dapat melakukan hal itu.

— user20061

2

Catatan Anda biasanya harus sesuai dengan GLM binomial dengan tautan logit terhadap data mentah (Anda longdata), bukan proporsi seperti pada Model 3. Anda

— Scortchi - Reinstate Monica

7

+1 ke @Scortchi, yang telah memberikan jawaban yang sangat jelas dan ringkas. Saya ingin membuat beberapa poin yang saling melengkapi. Pertama, untuk model kedua Anda, Anda menentukan bahwa distribusi respons Anda adalah Gaussian (alias, normal). Ini pasti salah, karena setiap jawaban dinilai benar atau salah. Artinya, setiap jawaban adalah uji coba Bernoulli. Dengan demikian, distribusi respons Anda adalah Binomial. Ide ini juga tercermin secara akurat dalam kode Anda. Selanjutnya, probabilitas yang mengatur distribusi respons terdistribusi secara normal, sehingga tautannya harus sesuai, bukan logit. Terakhir, jika ini adalah situasi nyata, Anda harus memperhitungkan efek acak untuk kedua subjek dan pertanyaan, karena mereka sangat tidak mungkin identik. Cara Anda menghasilkan data ini, satu-satunya aspek yang relevan dari setiap orang adalah IQ mereka, yang telah Anda pertanggungjawabkan secara eksplisit. Dengan demikian, tidak ada yang tersisa yang perlu diperhitungkan oleh efek acak dalam model. Ini juga berlaku untuk pertanyaan, karena variasi acak dalam kesulitan pertanyaan bukan bagian dari proses menghasilkan data dalam kode Anda.

Saya tidak bermaksud melakukan nitpicking di sini. Saya menyadari bahwa pengaturan Anda hanya dirancang untuk memfasilitasi pertanyaan Anda, dan telah melayani tujuan itu; @Scortchi dapat menjawab pertanyaan Anda secara langsung, dengan sedikit keributan. Namun, saya menunjukkan hal-hal ini karena mereka menawarkan peluang tambahan untuk memahami situasi yang sedang Anda hadapi, dan karena Anda mungkin tidak menyadari bahwa kode Anda cocok dengan beberapa bagian dari alur cerita Anda tetapi tidak pada yang lain.

— gung - Pasang kembali Monica
sumber

Terima kasih atas pemikiran yang cermat tentang kode saya. Sebagai seseorang yang bekerja dengan data empiris, saya bangga mengatakan bahwa saya tidak memiliki keahlian dalam menghasilkan data palsu, dan itu ditampilkan di sini dalam kekurangan yang telah Anda identifikasi. Meskipun, tingkat pemahaman pemula saya juga mungkin mengungkapkan dirinya sendiri.

— user20061

Terima kasih gung, info tambahan itu bermanfaat dan membantu orang lain (setidaknya saya) memahami seluruh situasi sedikit lebih baik. Menangani pendekatan GLM itu sulit.

— Christopher Poile