Misalkan menunjukkan respons dan vektor prediktor (masing-masing) siswa i di sekolah jysaya j, xsaya jsayaj .
(1) Untuk data biner, saya pikir cara standar untuk melakukan dekomposisi varians analog dengan yang dilakukan untuk data kontinu adalah apa yang penulis sebut Metode D (saya akan mengomentari metode lain di bawah ini) di tautan Anda - membayangkan data biner sebagai timbul dari variabel kontinu yang mendasarinya yang diatur oleh model linear dan menguraikan varians pada skala laten itu. Alasannya adalah bahwa model logistik (dan GLM lainnya) secara alami muncul dengan cara ini -
Untuk melihat ini, tentukan y⋆saya j sedemikian rupa sehingga diatur oleh model campuran linier:
y⋆saya j= α + xsaya jβ + ηj+ εsaya j
di mana adalah koefisien regresi, η j ∼ N ( 0 , σ 2 ) adalah efek acak tingkat sekolah dan ε iα , βηj∼ N( 0 , σ2) adalah istilah varians residual dan memilikidistribusi logistikstandarεsaya j . Sekarang mari
yij=⎧⎩⎨⎪⎪10if y⋆ij≥0if y⋆ij<0
biarkan pij=P(yij=1|xij,ηj) sekarang, cukup menggunakan CDF logistik yang kita miliki
pij=1−P(y⋆ij<0|xij,ηj)=exp{−(α+xijβ+ηj)}1+exp{−(α+xijβ+ηj)}
sekarang mengambil transformasi logit dari kedua belah pihak, Anda miliki
log(pij1−pij)=α+xijβ+ηj
yang persis model efek campuran logistik. Jadi, model logistik setara dengan model variabel laten yang ditentukan di atas. Satu catatan penting:
- Skala tidak diidentifikasi karena, jika Anda adalah untuk skala itu turun tapi konstan s , itu hanya akan mengubah atas untukεijs
exp{−(α+xijβ+ηj)/s}1+exp{−(α+xijβ+ηj)/s}
s=1var(εij)=π2/3
Sekarang, jika Anda menggunakan model ini dan kemudian kuantitasnya
σ^2ησ^2η+π2/3
memperkirakan korelasi intraclass dari variabel laten yang mendasarinya . Catatan penting lainnya:
- εsaya j
σ^2ησ^2η+ 1
estimates the tetrachoric correlation between two randomly selected pupils in the same school, which were shown by Pearson (around 1900 I think) to be statistically identified when the underlying continuous data was normally distributed (this work actually showed these correlations were identified beyond the binary case to the multiple category case, where these correlations are termed polychoric correlations). For this reason, it may be preferable (and would be my recommenation) to use a probit model when the primary interest is in estimating the (tetrachoric) intraclass correlation of binary data.
Regarding the other methods mentioned in the paper you linked:
(A) I've never seen the linearization method, but one drawback I can see is that there's no indication of the approximation error incurred by this. In addition, if you're going to linearize the model (through a potentially crude approximation), why not just use a linear model in the first place (e.g. option (C), which I'll get to in a minute)? It would also be more complicated to present since the ICC would depend on xij.
(B) The simulation method is intuitively appealing to a statistician since it would give you an estimated variance decomposition on the original scale of the data but, depending on the audience, it may (i) be complicated to describe this in your "methods" section and (ii) may turn off a reviewer who was looking for something "more standard"
(C) Pretending the data is continuous is probably not a great idea, although it won't perform terribly if most of the probabilities are not too close to 0 or 1. But, doing this would almost certainly raise a red flag to a reviewer so I'd stay away.
Now finally,
(2) Jika efek tetap sangat berbeda di seluruh tahun, maka Anda benar untuk berpikir bahwa itu bisa sulit untuk membandingkan varians efek acak di seluruh tahun, karena mereka berpotensi pada skala yang berbeda (ini terkait dengan non-pengidentifikasian masalah penskalaan yang disebutkan di atas).
Jika Anda ingin menjaga efek tetap dari waktu ke waktu (namun, jika Anda melihat mereka berubah banyak dari waktu ke waktu, Anda mungkin tidak ingin melakukan itu) tetapi melihat perubahan dalam varian efek acak, Anda dapat menjelajahi efek ini menggunakan beberapa acak variabel slope dan dummy. Misalnya, jika Anda ingin melihat apakah ICC berbeda di tahun yang berbeda, Anda bisa membiarkannyasayak= 1 jika observasi dilakukan tahun k dan 0 sebaliknya dan kemudian modelkan prediktor linier Anda sebagai
α + xsaya jβ + η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6
this will give you a different ICCs each year but the same fixed effects. It may be tempting to just use a random slope in time, making your linear predictor
α+xijβ+η1+η2t
but I don't recommend this, since that will only allow your associations to increase over time, not decrease.