Saya baru saja menemukan makalah ini , yang menjelaskan bagaimana menghitung pengulangan (alias reliabilitas, alias korelasi intraclass) dari pengukuran melalui pemodelan efek campuran. Kode R adalah:

#fit the model
fit = lmer(dv~(1|unit),data=my_data)

#obtain the variance estimates
vc = VarCorr(fit)
residual_var = attr(vc,'sc')^2
intercept_var = attr(vc$id,'stddev')[1]^2

#compute the unadjusted repeatability
R = intercept_var/(intercept_var+residual_var)

#compute n0, the repeatability adjustment
n = as.data.frame(table(my_data$unit))
    k = nrow(n)
    N = sum(n$Freq)
n0 = (N-(sum(n$Freq^2)/N))/(k-1)

#compute the adjusted repeatability
Rn = R/(R+(1-R)/n0)

Saya percaya bahwa pendekatan ini juga dapat digunakan untuk menghitung keandalan efek (yaitu jumlah efek kontras variabel dengan 2 level), seperti pada:

#make sure the effect variable has sum contrasts
contrasts(my_data$iv) = contr.sum

#fit the model
fit = lmer(dv~(iv|unit)+iv,data=my_data)

#obtain the variance estimates
vc = VarCorr(fit)
residual_var = attr(vc,'sc')^2
effect_var = attr(vc$id,'stddev')[2]^2

#compute the unadjusted repeatability
R = effect_var/(effect_var+residual_var)

#compute n0, the repeatability adjustment
n = as.data.frame(table(my_data$unit,my_data$iv))
k = nrow(n)
N = sum(n$Freq)
    n0 = (N-(sum(n$Freq^2)/N))/(k-1)

#compute the adjusted repeatability
Rn = R/(R+(1-R)/n0)

Tiga pertanyaan:

Apakah perhitungan di atas untuk mendapatkan estimasi titik pengulangan efek masuk akal?
Ketika saya memiliki beberapa variabel yang pengulangannya ingin saya perkirakan, menambahkan semuanya ke kesesuaian yang sama (misalnya lmer(dv~(iv1+iv2|unit)+iv1+iv2) tampaknya menghasilkan perkiraan pengulangan yang lebih tinggi daripada membuat model terpisah untuk setiap efek. Ini masuk akal secara komputasi bagi saya, karena dimasukkannya beberapa efek akan cenderung mengurangi varians residual, tetapi saya tidak yakin bahwa perkiraan pengulangan yang dihasilkan valid. Apakah mereka?
Makalah yang dikutip di atas menunjukkan bahwa kemungkinan profiling dapat membantu saya mendapatkan interval kepercayaan untuk perkiraan pengulangan, tetapi sejauh yang saya tahu, confint(profile(fit))hanya menyediakan interval untuk varian intersep dan efek, sedangkan saya juga akan memerlukan interval untuk varians residual untuk menghitung interval untuk pengulangan, bukan?

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

— Mike Lawrence
sumber

Saya pikir saya bisa menjawab pertanyaan Anda setidaknya mengenai perkiraan pengulangan yang tidak disesuaikan , yaitu, korelasi intra-kelas klasik (ICC). Mengenai perkiraan pengulangan yang "disesuaikan", saya membaca sekilas kertas yang Anda tautkan dan tidak benar-benar melihat di mana rumus yang Anda gunakan dapat ditemukan di koran? Berdasarkan ekspresi matematis, nampaknya pengulangan skor rata-rata (bukan skor individu). Tetapi tidak jelas bahwa ini adalah bagian penting dari pertanyaan Anda, jadi saya akan mengabaikannya.

(1.) Apakah perhitungan di atas untuk mendapatkan estimasi titik pengulangan efek masuk akal?

Ya, ekspresi yang Anda usulkan memang masuk akal, tetapi sedikit modifikasi pada formula yang Anda usulkan diperlukan. Di bawah ini saya menunjukkan bagaimana seseorang dapat menurunkan koefisien pengulangan yang Anda usulkan. Saya harap ini memperjelas arti konseptual dari koefisien dan juga menunjukkan mengapa diinginkan untuk mengubahnya sedikit.

Untuk memulai, pertama mari kita ambil koefisien pengulangan dalam kasus pertama Anda dan klarifikasi apa artinya dan dari mana asalnya. Memahami ini akan membantu kita untuk memahami kasus kedua yang lebih rumit.

Hanya penyadapan acak

Dalam kasus ini, model campuran untuk tanggapan ke- dalam kelompok ke- adalah mana penyadapan acak memiliki varian dan residual memiliki varian . $i$ $j$

y_{i j} = β_{0} + u_{0 j} + e_{i j},

$y_{ij} = \beta_0 + u_{0j} + e_{ij},$

u_{0 j}

$u_{0j}$

σ_{u_{0}}^{2}

$\sigma^2_{u_0}$

e_{i j}

$e_{ij}$

σ_{e}^{2}

$\sigma^2_e$

Sekarang, korelasi antara dua variabel acak dan didefinisikan sebagai $x$ $y$

c o r r = \frac{c o v (x, y)}{\sqrt{v a r (x) v a r (y)}} .

$corr = \frac{cov(x, y)}{\sqrt{var(x)var(y)}}.$

Ekspresi untuk ICC / koefisien pengulangan kemudian berasal dari membiarkan dua variabel acak dan menjadi dua pengamatan yang diambil dari kelompok sama , dan jika Anda menyederhanakan ini menggunakan definisi yang diberikan di atas dan properti varians / kovarian (proses yang tidak akan saya tunjukkan di sini, kecuali Anda atau orang lain lebih suka yang saya lakukan), Anda berakhir dengan $x$ $y$ $j$

I C C = \frac{c o v (β_{0} + u_{0 j} + e_{i_{1} j}, β_{0} + u_{0 j} + e_{i_{2} j})}{\sqrt{v a r (β_{0} + u_{0 j} + e_{i_{1} j}) v a r (β_{0} + u_{0 j} + e_{i_{2} j})}},

$ICC = \frac{cov(\beta_0 + u_{0j} + e_{i_1j}, \beta_0 + u_{0j} + e_{i_2j})}{\sqrt{var(\beta_0 + u_{0j} + e_{i_1j})var(\beta_0 + u_{0j} + e_{i_2j})}},$

I C C = \frac{σ_{u_{0}}^{2}}{σ_{u_{0}}^{2} + σ_{e}^{2}} .

$ICC = \frac{\sigma^2_{u_0}}{\sigma^2_{u_0} + \sigma^2_e}.$ Apa artinya ini adalah bahwa ICC atau "koefisien pengulangan yang tidak disesuaikan" dalam kasus ini memiliki interpretasi sederhana sebagai korelasi yang diharapkan antara pengamatan pasangan dari cluster yang sama (bersih dari efek tetap, yang dalam kasus ini hanya rata-rata besar). Fakta bahwa ICC juga dapat ditafsirkan sebagai proporsi varian dalam kasus ini adalah kebetulan; penafsiran itu tidak benar secara umum untuk ICC yang lebih rumit. Interpretasi sebagai semacam korelasi adalah yang utama.

Penyadapan acak dan lereng acak

Sekarang untuk kasus kedua, pertama-tama kita harus mengklarifikasi apa yang dimaksud dengan "keandalan efek (yaitu jumlah efek kontras variabel dengan 2 level)" - kata-kata Anda.

Pertama kita paparkan modelnya. Model campuran untuk tanggapan ke- dalam kelompok ke- bawah tingkat ke- dari prediktor berkode kontras adalah mana intersep acak memiliki varians , lereng acak memiliki varians , intersep acak dan lereng memiliki kovarians , dan residu memiliki varian . $i$ $j$ $k$ $x$

y_{i j k} = β_{0} + β_{1} x_{k} + u_{0 j} + u_{1 j} x_{k} + e_{i j k},

$y_{ijk} = \beta_0 + \beta_1x_k + u_{0j} + u_{1j}x_k + e_{ijk},$

σ_{u_{0}}^{2}

$\sigma^2_{u_0}$

σ_{u_{1}}^{2}

$\sigma^2_{u_1}$

σ_{u_{01}}

$\sigma_{u_{01}}$

e_{i j}

$e_{ij}$

σ_{e}^{2}

$\sigma^2_e$

Jadi apa "pengulangan efek" di bawah model ini? Saya pikir definisi kandidat yang baik adalah bahwa itu adalah korelasi yang diharapkan antara dua pasang skor perbedaan yang dihitung dalam cluster sama , tetapi di antara pasangan pengamatan yang berbeda . $j$ $i$

Jadi pasangan skor selisih yang dimaksud adalah (ingat bahwa kami mengasumsikan adalah kode kontras sehingga ): dan $x$ $|x_1|=|x_2|=x$

y_{i_{1} j k_{2}} - y_{i_{1} j k_{1}} = (β_{0} - β_{0}) + β_{1} (x_{k_{2}} - x_{k_{1}}) + (u_{0 j} - u_{0 j}) + u_{1 j} (x_{k_{2}} - x_{k_{1}}) + (e_{i_{1} j k_{2}} - e_{i_{1} j k_{1}}) = 2 x β_{1} + 2 x u_{1 j} + e_{i_{1} j k_{2}} - e_{i_{1} j k_{1}}

$y_{i_1jk_2}-y_{i_1jk_1}=(\beta_0-\beta_0)+\beta_1(x_{k_2}-x_{k_1})+(u_{0j}-u_{0j})+u_{1j}(x_{k_2}-x_{k_1})+(e_{i_1jk_2}-e_{i_1jk_1}) \\=2x\beta_1+2xu_{1j}+e_{i_1jk_2}-e_{i_1jk_1}$

y_{i_{2} j k_{2}} - y_{i_{2} j k_{1}} = 2 x β_{1} + 2 x u_{1 j} + e_{i_{2} j k_{2}} - e_{i_{2} j k_{1}} .

$y_{i_2jk_2}-y_{i_2jk_1}=2x\beta_1+2xu_{1j}+e_{i_2jk_2}-e_{i_2jk_1}.$

Memasukkan ini ke dalam rumus korelasi memberi kita yang disederhanakan menjadi Perhatikan bahwa ICC secara teknis adalah fungsi dari ! Namun, dalam hal ini hanya dapat mengambil 2 nilai yang mungkin, dan ICC identik pada kedua nilai ini.

I C C = \frac{c o v (2 x β_{1} + 2 x u_{1 j} + e_{i_{1} j k_{2}} - e_{i_{1} j k_{1}}, 2 x β_{1} + 2 x u_{1 j} + e_{i_{2} j k_{2}} - e_{i_{2} j k_{1}})}{\sqrt{v a r (2 x β_{1} + 2 x u_{1 j} + e_{i_{1} j k_{2}} - e_{i_{1} j k_{1}}) v a r (2 x β_{1} + 2 x u_{1 j} + e_{i_{2} j k_{2}} - e_{i_{2} j k_{1}})}},

$ICC = \frac{cov(2x\beta_1+2xu_{1j}+e_{i_1jk_2}-e_{i_1jk_1}, 2x\beta_1+2xu_{1j}+e_{i_2jk_2}-e_{i_2jk_1})}{\sqrt{var(2x\beta_1+2xu_{1j}+e_{i_1jk_2}-e_{i_1jk_1})var(2x\beta_1+2xu_{1j}+e_{i_2jk_2}-e_{i_2jk_1})}},$

I C C = \frac{2 x^{2} σ_{u_{1}}^{2}}{2 x^{2} σ_{u_{1}}^{2} + σ_{e}^{2}} .

$ICC = \frac{2x^2\sigma^2_{u_1}}{2x^2\sigma^2_{u_1} + \sigma^2_e}.$

x

$x$

x

$x$

Seperti yang Anda lihat, ini sangat mirip dengan koefisien pengulangan yang Anda usulkan dalam pertanyaan Anda, satu-satunya perbedaan adalah bahwa varians kemiringan acak harus diskalakan dengan tepat jika ekspresi tersebut harus ditafsirkan sebagai ICC atau "koefisien pengulangan yang tidak disesuaikan." Ekspresi yang Anda tulis bekerja dalam kasus khusus di mana prediktor dikodekan , tetapi tidak secara umum. $x$ $\pm\frac{1}{\sqrt{2}}$

(2.) Ketika saya memiliki beberapa variabel yang pengulangannya ingin saya perkirakan, menambahkan semuanya ke kesesuaian yang sama (misalnya lmer(dv~(iv1+iv2|unit)+iv1+iv2) tampaknya menghasilkan perkiraan pengulangan yang lebih tinggi daripada membuat model terpisah untuk setiap efek. Ini masuk akal secara komputasi bagi saya, karena dimasukkannya beberapa efek akan cenderung mengurangi varians residual, tetapi saya tidak yakin bahwa perkiraan pengulangan yang dihasilkan valid. Apakah mereka?

Saya percaya bahwa bekerja melalui derivasi yang sama seperti yang disajikan di atas untuk model dengan beberapa prediktor dengan kemiringan acak mereka sendiri akan menunjukkan bahwa koefisien pengulangan di atas masih akan valid, kecuali untuk komplikasi tambahan bahwa skor perbedaan yang secara konseptual kita tertarik sekarang akan memiliki definisi yang sedikit berbeda: yaitu, kami tertarik pada korelasi yang diharapkan dari perbedaan antara rata-rata yang disesuaikan setelah mengendalikan prediktor lain dalam model.

Jika prediktor lain ortogonal dengan prediktor minat (seperti dalam, misalnya, percobaan yang seimbang), saya akan berpikir ICC / koefisien pengulangan yang diuraikan di atas harus bekerja tanpa modifikasi. Jika mereka tidak ortogonal maka Anda perlu memodifikasi rumus untuk memperhitungkan ini, yang bisa menjadi rumit, tetapi mudah-mudahan jawaban saya telah memberikan beberapa petunjuk tentang seperti apa itu.

— Jake Westfall
sumber

Kamu benar Jake. ICC yang disesuaikan mengacu pada bagian VII. REPEATABILITAS DAN HERITABILITAS YANG DIEKSTRUKSI dalam makalah yang tertaut. Para penulis menulis Adalah penting untuk membedakan antara pengulangan pengukuran individu dan pengulangan pengukuran berarti $R$ $R_n$ .

— Gabra

Menghitung pengulangan efek dari model lmer

Hanya penyadapan acak

Penyadapan acak dan lereng acak