Akan menarik untuk menghargai bahwa divergensi ada pada jenis variabel , dan lebih khusus pada jenis variabel penjelas . Dalam ANOVA yang khas kami memiliki variabel kategori dengan kelompok yang berbeda , dan kami berusaha untuk menentukan apakah pengukuran variabel kontinu berbeda antara kelompok. Di sisi lain, OLS cenderung dianggap terutama sebagai upaya menilai hubungan antara regresi berkelanjutan atau variabel respon dan satu atau beberapa regresi atau variabel penjelas . Dalam hal ini regresi dapat dilihat sebagai teknik yang berbeda, meminjamkan dirinya untuk memprediksi nilai berdasarkan garis regresi.
Namun , perbedaan ini tidak tahan perpanjangan ANOVA ke sisa analisis sup alfabet varians (ANCOVA, MANOVA, MANCOVA); atau dimasukkannya variabel kode-dummy dalam regresi OLS. Saya tidak jelas tentang tengara sejarah tertentu, tetapi seolah-olah kedua teknik telah tumbuh adaptasi paralel untuk menangani model yang semakin kompleks.
Sebagai contoh, kita dapat melihat bahwa perbedaan antara ANCOVA versus OLS dengan variabel dummy (atau kategori) (dalam kedua kasus dengan interaksi) paling banyak bersifat kosmetik. Maafkan keberangkatan saya dari batas-batas dalam judul pertanyaan Anda, mengenai regresi linier berganda.
Dalam kedua kasus tersebut, model pada dasarnya identik dengan titik di R yang lm
fungsinya digunakan untuk melakukan ANCOVA . Namun, itu dapat disajikan sebagai berbeda sehubungan dengan dimasukkannya intersep yang sesuai dengan tingkat pertama (atau kelompok) dari faktor (atau kategori) variabel dalam model regresi.
Dalam model yang seimbang ( kelompok berukuran sama , ) dan hanya satu kovariat (untuk menyederhanakan presentasi matriks), matriks model dalam ANCOVA dapat ditemui sebagai beberapa variasi dari:sayan1 , 2 , ⋯saya
X= ⎡⎣⎢1n10001n20001n3xn1000xn2000xn3⎤⎦⎥
untuk kelompok variabel faktor, dinyatakan sebagai matriks blok.3
Ini sesuai dengan model linier:
y= αsaya+ β1xn1+ β2xn2+ β3xn3+ ϵsaya
dengan setara dengan berbagai sarana kelompok dalam ANOVA model, sedangkan berbeda adalah kemiringan kovariat untuk masing-masing kelompok.
αsayaβ
Penyajian model yang sama di bidang regresi, dan khususnya dalam R, mempertimbangkan intersep keseluruhan, sesuai dengan salah satu kelompok, dan matriks model dapat disajikan sebagai:
X= ⎡⎣⎢⎢⎢⋮J3 n , 1⋮01n20001n3⋮x⋮0000xn2000xn3⎤⎦⎥⎥⎥
dari persamaan OLS:
y= β0+ μsaya+ β1xn1+ β2xn2+ β3xn3+ ϵsaya
.
Dalam model ini, intersep keseluruhan dimodifikasi pada setiap level grup oleh , dan grup-grup tersebut juga memiliki kemiringan berbeda.μ iβ0μsaya
Seperti yang dapat Anda lihat dari matriks model, presentasi memungkiri identitas sebenarnya antara regresi dan analisis varians.
Aku seperti untuk jenis memverifikasi ini dengan beberapa baris kode dan data yang favorit saya set mtcars
di R . Saya menggunakan lm
untuk ANCOVA menurut kertas Ben Bolker tersedia di sini .
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
Sebagai bagian dari pertanyaan tentang metode apa yang digunakan (regresi dengan R!) Anda mungkin menemukan komentar online lucu yang saya temui ketika menulis posting ini.