Catatan ini tergantung pada hasil yang terkandung dalam Moser's Linear Models: A Mean Model Approach . Saya akan mengutip beberapa hasil dari buku ini sebagai berikut. Ketika saya melihat pertanyaan Anda, saya mulai melihat-lihat buku: catatan ini adalah cara pikiran saya diorganisir setelah itu.
Membiarkan y∼Nn(μ,Σ) menjadi respons, dengan μ mengandung efek tetap dan Σ mengandung efek acak.
Mengambil yTAiyuntuk menjadi jumlah kuadrat yang sesuai dengan setiap istilah (kovariat dan interaksi) dalam model. Perhatikan bahwa jumlah kuadrat ini tidak sama dengan apakah ketentuannya tetap atau acak. Asumsikan masing-masingAi simetris dan idempoten, yang akan berlaku di sebagian besar model minat.
Ketika itu memegang itu
I=∑iAi,
yang berjumlah jumlah kuadrat sesuai dengan dekomposisi menjadi subruang ortogonal sejak kita mengasumsikan
Ai adalah proyektor, dan
Σ=∑iciAi,
oleh teorema Cochran (lemma 3.4.1),
yTAiy∼ciχ2di(μTAiμ/ci),
untuk
di=tr(Ai), dan
yTAjy independen dari
yTAky untuk
j≠k.
Syarat
F~=yTAjy/djyTAky/dk∼cjχ2dj(μTAjμ/cj)/djckχ2dk(μTAkμ/ck)/dk
memang (pusat)
F statistik jika dan hanya jika
cjckμTAjμμTAkμ=1,=0,=0, and (1)(2)(3)
Ketika ketiga kondisi ini terpenuhi, kita dapat menghitung
p-nilai yang sesuai dengan statistik
F~. Istilah-istilah ini pada dasarnya hanya membantu dalam perhitungan sejak
ciTergantung pada komponen varians dan parameter noncentrality tergantung pada rata-rata
μ. Kondisi kedua memastikan itu
F~ akan memiliki (setidaknya) noncentral
Fdistribusi. Di bawah kondisi kedua, kondisi ketiga memberikan itu
F~ memiliki pusat
F distribusi.
Kuadrat rata-rata yang diharapkan (EMS) sesuai dengan ith jumlah kotak yTAiy adalah
EMSi:=1tr(Ai)E[yTAiy]=tr(AiΣ)+μTAiμtr(Ai)=ci+μTAiμtr(Ai),
dimana
tr(AiΣ)=citr(Ai)karena cor 3.1.2. Rasio
EMSjEMSk=cj+μTAjμtr(Aj)ck+μTAkμtr(Ak)=1
jika kondisinya
(1),
(2), dan
(3)memegang. Inilah sebabnya mengapa orang memeriksa rasio
EMS saat menentukan jumlah kuadrat mana yang harus dibagi untuk membentuk a
F statistik untuk menguji hipotesis nol tertentu.
Kami menggunakan kondisi (1),(2), dan (3)untuk menentukan hipotesis nol. Dalam pengalaman saya, ketika istilah (sesuai denganj) bahwa kami tertarik untuk menguji secara acak, kami membuat hipotesis nol menjadi cj/ck=1, dan, ketika sudah diperbaiki, kami membuat hipotesis nol menjadi yTAjy=0. Khususnya, jumlah ini yang dapat kita pilihk sehingga sisa kondisinya (1),(2) dan (3)puas. Pilihan seperti ituktidak selalu mungkin, yang mengarah pada kesulitan seperti Behrens-Fisher .
Ini tidak menjelaskan apa-apa terutama terkait dengan masalah yang dihadapi, tetapi itu hanya berarti komputasi μ dan Σ. Saya harap ini dipandang sebagai cara berpikir yang berguna tentang masalah ini. Perhatikan bahwa contoh 4.4.1 menghitung semua jumlah di atas dalam contoh ANOVA dua arah.
Perbedaannya adalah karena struktur masalah dan bukan karena konvensi. Berbagai pendekatan yang berbeda ini (perubahan dua arah vs berulang) berubahμ dan Σ, yang mengubah EMS, yang mengubah mana k kami memilih untuk membuat tes.
Mari kita perhatikan modelnya
yijk=μ0+idi+Xw1j+id∗Xw1ij+R(id∗Xw1)k(ij),
dimana
i menunjukkan tingkat
id, dll. Di sini
k menunjukkan mana dari 3 ulangan yang dipertimbangkan.
Kami sekarang memperkenalkan beberapa notasi vektor yang bermanfaat: tulis y=(y111,y112,y113,y121,…y20,3,3). Karena data ini seimbang, kita dapat membuat kita dari notasi produk kronecker . (Sebagai tambahan, saya diberi tahu bahwa Charlie Van Loan pernah menyebut produk Kroner "operasi tahun 2000-an!") TentukanJ¯∈Rm×m menjadi matriks dengan semua entri sama dengan 1m dan C=I−J¯menjadi matriks keterpusatan. (Matriks centering dinamai karena, misalnya,∥Cx∥22=∑i(xi−x¯)2 untuk vektor x.)
Dengan notasi produk kronecker ini di bawah sabuk, kita dapat menemukan matriks Aidisebutkan di atas. Jumlah kuadrat sesuai denganμ0 adalah
SS(μ0)=n(y¯⋅⋅⋅)2=∥(J¯⊗J¯⊗J¯)y∥22=yT(J¯⊗J¯⊗J¯)y,
dimana komponen pertama
J¯∈R20×20, yang kedua adalah
R3×3, dan yang ketiga adalah di
R3×3. Secara umum, matriks dalam komponen tersebut akan selalu sebesar itu. Juga, jumlah kotak karena
id adalah
SS(id)=∑ijk(y¯i⋅⋅−y¯⋅⋅⋅)2=∥(C⊗J¯⊗J¯)y∥22=yT(C⊗J¯⊗J¯)y.
Perhatikan itu
SS(id) memang mengukur variasi antar tingkat
id. Demikian pula, matriks lainnya adalah
AXw1=J¯⊗C⊗J¯,
Aid∗Xw1=C⊗C⊗J¯, dan
AR()=I⊗I⊗C.
Ini terbukti konsisten dengan aov
menjalankan kode untuk memberikan, misalnya, jumlah sisa kuadratSS(R(id∗Xw1))=yTAR()y:
mY <- c()
for(j in 1:(nrow(d)/3)) {
mY <- c(mY, rep(mean(d$Y[3*(j-1)+(1:3)]), 3))
}
sum((d$Y - mY)^2) #this is the residual sum of squares
Pada titik ini, kita harus membuat beberapa pilihan pemodelan. Secara khusus, kita harus memutuskan apakahidadalah efek acak. Pertama mari kita anggap itu bukan efek acak, sehingga semua efek selain replikasi tetap. Kemudian
E[yijk]=μij=μ0+idi+Xw1jk+id∗Xw1ij
dan
R(id∗Xw1)k(ij)∼iidN(0,σ2). Perhatikan bahwa tidak ada ketergantungan antara pengamatan yang berbeda. Dalam notasi vektor, kita dapat menulis
y∼N(μ,Σ)
untuk
μ=E[y]=(μ11,μ12,…,μ20,3)⊗13 dan
Σ=σ2(I⊗I⊗I).
Memperhatikan itu semua 5 dari AYang didefinisikan di atas adalah identitas, kita tahu dengan teorema cochran bahwa, antara lain,
SS(Xw1)=yTAXw1y∼σ2χ2(19)(1)(1)(μTAXw1μ/σ2)
dan
SS(R(id∗Xw1))=yTAR()y∼σ2χ2(20)(3)(2)(μTAR()μ/σ2)
dan jumlah kotak ini independen.
Sekarang, sesuai dengan apa yang kita diskusikan di atas, kami menginginkan kondisi (1),(2), dan (3)untuk menahan. Perhatikan kondisi itu(1) memegang (karena tidak ada komponen varian lain untuk memperumit hal.) Apa yang benar-benar keren untuk diperhatikan sekarang adalah μTAR()μ=0, since μ is constant along this third "component" that is being centered by AR(). This means that (3) is behind us. Therefore we only have to fret about condition (2): if we assume it (as a null hypothesis) then we're assuming that 0=μTAXw1μ=∑ijk(μij−μ¯i⋅)2, which is the same as μij=μ¯i⋅ for all i,j, which is the same as Xw1j=0 and id∗Xw1ij=0 for all i,j (since the mean level is in the other terms.)
In summary, the null hypothesis can be seen to just be testing whether a noncentrality parameter is zero, which is equivalent to effects concerning the covariate being zero. The repeated measures case follows a similar line of reasoning, where we instead make the modeling choice that the id effect is random. There, condition (1) will become the null hypothesis.
Related to the R
command, like you mention in the comments to the original post, this error term just specifies which terms are to be considered as random effects. (Note that all terms that are to be included in the model should be plainly input or input inside the Error()
term. This is why there's a difference between id/Xw1 = id + id:Xw1
and id
being in the Error
term. Non-included terms are lumped in with the error in the sense that AR()+Aid∗Xw1 is relabeled as AR().)
Here's the explicit details related to the repeated measures case where the terms related to id (which are id and id∗Xw1) are random. We'll see that this is the more interesting case.
There we have the same sum of squares matrices (since they don't depend on whether a factor is fixed or random.) The covariance matrix there is
Σ=(a)σ2id(I⊗J⊗J)+σ2id∗Xw1(I⊗C⊗J)+σ2R()(I⊗I⊗I)=σ2id(3)(3)(Aμ0+Aid)+σ2id∗Xw1(3)(AXw1+Aid∗Xw1)+σ2R()(Aμ0+Aid+AXw1+Aid∗Xw1+AR())=((3)(3)σ2id+σ2R())Aμ0+((3)(3)σ2id+σ2R())Aid+((3)σ2id∗Xw1+σ2R())AXw1+((3)σ2id∗Xw1+σ2R())Aid∗Xw1+σ2R()AR(),
where
J is the matrix of all ones. The first and last summand on the right hand side of equality (a) offer intuitive explanations: the first summand shows that there's an additional source of correlation among observations with the same
id, and the third summand shows, as in the two-way example, the base source of variation. This second summand is less intuitive, but among observations with the same \mathrm{id}, it can be seen as increasing variation between observations with same
Xw1 while decreasing variation between observations with different
Xw1, due to the shape of
I⊗C⊗J.
Also, since all of the terms related to id are random, the mean
is just due to Xw1, so that E[yijk]=μj=μ0+Xw1j, or μ=1⊗(μ1,μ2,μ3)⊗1.
Notice that, related to condition (1): we have
cXw1cid∗Xw1=(3)σ2id∗Xw1+σ2R()(3)σ2id∗Xw1+σ2R()=1,
while
cXw1cR()=(3)σ2id∗Xw1+σ2R()σ2R()≠1.
Further, related to condition
(3) both
μTAXw1∗idμ=0 and
μTAR()μ=0. Also, related to condition
(2): we see that
μTAXw1μ=∥AXw1μ∥22=∥(J¯⊗C⊗J¯)(1⊗(μ1,μ2μ3)′⊗1)∥22=(20)(3)∥C(μ1,μ2μ3)′∥22=(20)(3)∑j(Xw1j)2.
Therefore, if the denominator sum of squares was the residual R(id∗Xw1) like before, there would be both conditions (1) and (2) in the null hypothesis---since those are the two conditions that aren't satisfied without assumptions. However, if we were to use denominator sum of squares as the interaction, since condition (1) is already satisfied, the null hypothesis would just be condition (2). So, as you mention in your question, these different denominators just amount to different null hypotheses.
This analysis technique we use allows the choice of which null hypothesis is being tested to be transparent. Indeed, we can see this by writing out the conditions mentioned in the previous paragraph more explicitly. Using the denominator as the residual sum of squares forces us to test Xw1j=0 for all j and σ2id∗Xw1=0, while using the denominator as the interaction sum of squares allows us to simply test Xw1j=0 for all j.