Jawaban singkatnya adalah dugaan Anda benar ketika dan hanya ketika ada korelasi intra kelas yang positif dalam data . Secara empiris, sebagian besar kumpulan data cluster menunjukkan korelasi intra kelas yang positif, yang berarti bahwa dalam praktiknya dugaan Anda biasanya benar. Tetapi jika korelasi intra-kelas adalah 0, maka dua kasus yang Anda sebutkan sama-sama informatif. Dan jika korelasi intra-kelas negatif , maka sebenarnya kurang informatif untuk mengambil lebih sedikit pengukuran pada lebih banyak subjek; kami benar-benar lebih suka (sejauh mengurangi varian estimasi parameter yang bersangkutan) untuk mengambil semua pengukuran kami pada satu subjek.
Secara statistik ada dua perspektif dari mana kita dapat berpikir tentang hal ini: a random-efek (atau campuran ) Model yang Anda sebutkan dalam pertanyaan Anda, atau model yang marginal , yang akhirnya menjadi sedikit lebih informatif di sini.
Model efek-acak (campuran)
Katakanlah kita memiliki satu set subjek yang masing-masing telah kita ukur m . Kemudian model efek-acak sederhana dari jnmj pengukuran dari subjek ke- mungkin
y i j = β + u i + e i j , di
mana β adalah intersep tetap, u i adalah efek subjek acak (dengan varian σ 2 u ), e i j adalah istilah tingkat kesalahan observasi (dengan varian σ 2 esaya
ysaya j= β+ usaya+ esaya j,
βkamusayaσ2kamuesaya jσ2e), dan dua istilah acak terakhir bersifat independen.
Dalam model ini mewakili mean populasi, dan dengan dataset yang seimbang (yaitu, jumlah pengukuran yang sama dari masing-masing subjek), estimasi terbaik kami hanyalah mean sampel. Jadi jika kita mengambil "lebih banyak informasi" berarti varians yang lebih kecil untuk perkiraan ini, maka pada dasarnya kita ingin tahu bagaimana varians mean sampel tergantung pada n dan m . Dengan sedikit aljabar kita bisa
menghitung var itu ( 1βnm
Meneliti ungkapan ini, kita dapat melihat bahwasetiap kali ada varians subjek(yaitu,σ2u>0), meningkatkan jumlah subjek (n) akan membuat kedua istilah ini lebih kecil, sekaligus meningkatkan jumlah pengukuran per subjek (m) hanya akan membuat periode kedua lebih kecil. (Untuk implikasi praktis dari ini untuk merancang proyek replikasi multi-situs, lihatposting blog ini yang saya tulis beberapa waktu lalu.)
var ( 1n m∑saya∑jysaya j)= var (1n m∑saya∑jβ+ usaya+ esaya j)= 1n2m2var ( Âsaya∑jkamusaya+ ∑saya∑jesaya j)= 1n2m2( m2∑sayavar ( kamusaya) + ∑saya∑jvar ( esaya j) )= 1n2m2( n m2σ2kamu+ n m σ2e)= σ2kamun+ σ2en m.
σ2kamu> 0nm
Sekarang Anda ingin tahu apa yang terjadi ketika kita menambah atau mengurangi atau n sambil mempertahankan jumlah pengamatan secara konstan. Jadi untuk itu kita anggap n m sebagai konstanta, sehingga seluruh ekspresi varian hanya tampak seperti
σ 2 umnn m
yang sekecil mungkin ketikanadalah sebesar mungkin (hingga maksimumn=nm, dalam hal inim=1, artinya kita mengambil satu pengukuran tunggal dari setiap subjek).
σ2kamun+ konstan ,
nn = n mm = 1
Jawaban singkat saya merujuk pada korelasi intra-kelas, jadi di mana itu cocok? Dalam model efek-acak sederhana ini korelasi intra-kelas adalah
(sketsa derivasi disini). Jadi kita dapat menulis persamaan varians di atas sebagai
var(1
ρ = σ2kamuσ2kamu+ σ2e
ini tidak benar-benar menambah wawasan apapun untuk apa yang sudah kita lihat di atas, tapi itu tidak membuat kita bertanya-tanya: sejak korelasi intra-kelas adalah koefisien korelasi bonafide, dan koefisien korelasi bisa negatif, apa yang akan terjadi (dan apa artinya) jika korelasi intra-kelas negatif?
var ( 1n m∑saya∑jysaya j) = σ2kamun+ σ2en m= ( ρn+ 1 - ρn m) (σ2kamu+ σ2e)
σ2kamuρ
Model marjinal
ysaya j
ysaya j= β+ e∗saya j,
kamusayaesaya je∗saya j= usaya+ esaya jkamusayaesaya je∗saya jCC = σ2⎡⎣⎢⎢⎢⎢⎢R0⋮00R⋮0⋯⋯⋱⋯00⋮R⎤⎦⎥⎥⎥⎥⎥, R = ⎡⎣⎢⎢⎢⎢⎢1ρ⋮ρρ1⋮ρ⋯⋯⋱⋯ρρ⋮1⎤⎦⎥⎥⎥⎥⎥
ρe∗ρρ.)
var ( 1n m∑saya∑jysaya j)= var ( 1n m∑saya∑jβ+ e∗saya j)= 1n2m2var ( Âsaya∑je∗saya j)= 1n2m2( n ( mσ2+ ( m2- m ) ρ σ2) )= σ2( 1+(m-1)ρ )n m= ( ρn+ 1 - ρn m) σ2,
σ2e+σ2u=σ2e∗ij=ui+eij
ρ≥−1/(m−1)m=2ρ=−1m=3ρ=−1/2
nm
(1+(m−1)ρ)×positive constant.
ρ>0mρ<0mnmρ=0mn