Partisi partisi dan perubahan longitudinal dalam korelasi dengan data biner


14

Saya menganalisis data pada 300.000 siswa di 175 sekolah dengan model efek linear campuran logistik (penyadapan acak). Setiap murid terjadi tepat sekali dan datanya merentang 6 tahun.

  1. Bagaimana cara memisahkan varians antara tingkat sekolah dan murid, dengan cara yang mirip dengan VPC / ICC untuk hasil yang berkelanjutan? Saya telah melihat artikel ini yang mengusulkan 4 metode, dimana A dan B tampak menarik bagi saya, tetapi saya ingin tahu apa kelebihan / kekurangan yang mungkin ada dalam menggunakan salah satu dari ini, dan tentu saja jika ada cara lain untuk melakukan Itu.

  2. Bagaimana saya bisa membandingkan varian residual tingkat sekolah dari tahun ke tahun (atau periode waktu lainnya)? Sejauh ini saya telah melakukan ini dengan membagi data berdasarkan tahun dan menjalankan model terhadap setiap tahun data tetapi saya pikir ini cacat karena: i) tidak ada alasan yang jelas mengapa saya harus dibagi dengan tahun ; dan ii) karena perkiraan efek tetap berbeda untuk setiap tahun, membandingkan efek acak dari tahun ke tahun mungkin tidak masuk akal (ini hanya intuisi saya akan lebih baik jika seseorang dapat menjelaskan ini secara lebih formal, jika itu benar).

CATATAN: Saya menulis kembali pertanyaan ini setelah diskusi dalam meta dengan whuber dan Macro


3
Saya pikir ini adalah peningkatan besar. Pertanyaannya sekarang sangat jelas. Saat ini saya tidak punya waktu untuk memberikan respons yang terorganisir dengan baik tetapi saya akan mengirim jawaban nanti.
Makro

3
Model efek campuran logistik sepertinya merupakan topik yang sangat canggih untuk sekolah menengah. Apakah mereka bagian dari silabus sekolah menengah Anda atau apakah Anda belajar secara mandiri?
mark999

4
@ mark999 Saya belajar secara mandiri. Sebenarnya saya mencoba membuktikan saudara saya salah yang mengatakan "tidak mungkin kamu bisa mengerti ini" . Dia melakukan gelar dalam statistik sehingga saya memiliki akses ke semua bukunya dll (ketika dia bersikap baik).
Joe King

Jawaban:


15

Misalkan menunjukkan respons dan vektor prediktor (masing-masing) siswa i di sekolah jysayaj,xsayajsayaj .

(1) Untuk data biner, saya pikir cara standar untuk melakukan dekomposisi varians analog dengan yang dilakukan untuk data kontinu adalah apa yang penulis sebut Metode D (saya akan mengomentari metode lain di bawah ini) di tautan Anda - membayangkan data biner sebagai timbul dari variabel kontinu yang mendasarinya yang diatur oleh model linear dan menguraikan varians pada skala laten itu. Alasannya adalah bahwa model logistik (dan GLM lainnya) secara alami muncul dengan cara ini -

Untuk melihat ini, tentukan ysayaj sedemikian rupa sehingga diatur oleh model campuran linier:

ysayaj=α+xsayajβ+ηj+εsayaj

di mana adalah koefisien regresi, η jN ( 0 , σ 2 ) adalah efek acak tingkat sekolah dan ε iα,βηjN(0,σ2) adalah istilah varians residual dan memilikidistribusi logistikstandarεsayaj . Sekarang mari

yij={1if   yij00if   yij<0

biarkan pij=P(yij=1|xij,ηj) sekarang, cukup menggunakan CDF logistik yang kita miliki

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

sekarang mengambil transformasi logit dari kedua belah pihak, Anda miliki

log(pij1pij)=α+xijβ+ηj

yang persis model efek campuran logistik. Jadi, model logistik setara dengan model variabel laten yang ditentukan di atas. Satu catatan penting:

  • Skala tidak diidentifikasi karena, jika Anda adalah untuk skala itu turun tapi konstan s , itu hanya akan mengubah atas untukεijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       
      s=1var(εij)=π2/3

Sekarang, jika Anda menggunakan model ini dan kemudian kuantitasnya

σ^η2σ^η2+π2/3

memperkirakan korelasi intraclass dari variabel laten yang mendasarinya . Catatan penting lainnya:

  • εsayaj
    σ^η2σ^η2+1
    estimates the tetrachoric correlation between two randomly selected pupils in the same school, which were shown by Pearson (around 1900 I think) to be statistically identified when the underlying continuous data was normally distributed (this work actually showed these correlations were identified beyond the binary case to the multiple category case, where these correlations are termed polychoric correlations). For this reason, it may be preferable (and would be my recommenation) to use a probit model when the primary interest is in estimating the (tetrachoric) intraclass correlation of binary data.

Regarding the other methods mentioned in the paper you linked:

  • (A) I've never seen the linearization method, but one drawback I can see is that there's no indication of the approximation error incurred by this. In addition, if you're going to linearize the model (through a potentially crude approximation), why not just use a linear model in the first place (e.g. option (C), which I'll get to in a minute)? It would also be more complicated to present since the ICC would depend on xij.

  • (B) The simulation method is intuitively appealing to a statistician since it would give you an estimated variance decomposition on the original scale of the data but, depending on the audience, it may (i) be complicated to describe this in your "methods" section and (ii) may turn off a reviewer who was looking for something "more standard"

  • (C) Pretending the data is continuous is probably not a great idea, although it won't perform terribly if most of the probabilities are not too close to 0 or 1. But, doing this would almost certainly raise a red flag to a reviewer so I'd stay away.

Now finally,

(2) Jika efek tetap sangat berbeda di seluruh tahun, maka Anda benar untuk berpikir bahwa itu bisa sulit untuk membandingkan varians efek acak di seluruh tahun, karena mereka berpotensi pada skala yang berbeda (ini terkait dengan non-pengidentifikasian masalah penskalaan yang disebutkan di atas).

Jika Anda ingin menjaga efek tetap dari waktu ke waktu (namun, jika Anda melihat mereka berubah banyak dari waktu ke waktu, Anda mungkin tidak ingin melakukan itu) tetapi melihat perubahan dalam varian efek acak, Anda dapat menjelajahi efek ini menggunakan beberapa acak variabel slope dan dummy. Misalnya, jika Anda ingin melihat apakah ICC berbeda di tahun yang berbeda, Anda bisa membiarkannyasayak=1 jika observasi dilakukan tahun k dan 0 sebaliknya dan kemudian modelkan prediktor linier Anda sebagai

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

this will give you a different ICCs each year but the same fixed effects. It may be tempting to just use a random slope in time, making your linear predictor

α+xijβ+η1+η2t

but I don't recommend this, since that will only allow your associations to increase over time, not decrease.


Please would you give me your comment to address the point in the linked article about this variance partitioning technique that says "This approach may be reasonable where the (0, 1) response is, say, derived from a truncation of an underlying continuum such as a pass/fail response based upon a continuous mark scale, but would seem to have less justification when the response is truly discrete, such as mortality or voting". In my case I am dealing with the incidence of bullying, which falls into the latter category, I think...
Joe King

@JoeKing, I would say that logistic/probit (and similar) regression models already assume that the data are generated from an underlying continuum, since the model can be shown to be equivalent to that. Therefore, if one is even using such models, then they must find that assumption to be defensible :)
Macro

1
@JoeKing, if you consider this answer definitive please consider accepting :)
Macro

I will indeed. At the moment I'm a bit uncertain about a few points and I'd like to come back to you after I've had a little time (couple of days) to read around a little, and look at the data some more, if you don't mind ?
Joe King

@JoeKing Of course - some new members are unaware, so I thought I'd point that out - it wasn't meant to place pressure you at all
Macro
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.