Saya mencoba memahami logika di balik ANOVA F-test dalam Analisis Regresi Linier Sederhana. Pertanyaan yang saya miliki adalah seperti berikut. Ketika nilai F, yaitu
MSR/MSE
besar, kami menerima model sebagai signifikan. Apa logika di balik ini?
Saya mencoba memahami logika di balik ANOVA F-test dalam Analisis Regresi Linier Sederhana. Pertanyaan yang saya miliki adalah seperti berikut. Ketika nilai F, yaitu
MSR/MSE
besar, kami menerima model sebagai signifikan. Apa logika di balik ini?
Jawaban:
Dalam kasus paling sederhana, ketika Anda hanya memiliki satu prediktor (regresi sederhana), katakanlah , -test memberi tahu Anda apakah termasuk menjelaskan sebagian besar varian yang diamati dalam dibandingkan dengan model nol (intersep saja). Idenya adalah untuk menguji apakah varians yang dijelaskan ditambahkan (total varians, TSS, minus varians residual, RSS) cukup besar untuk dianggap sebagai "kuantitas signifikan". Kami di sini membandingkan model dengan satu prediktor, atau variabel penjelas, dengan baseline yang hanya "noise" (tidak ada kecuali grand mean).
Demikian juga, Anda dapat menghitung statistik dalam pengaturan regresi berganda: Dalam kasus ini, ini merupakan tes semua prediktor yang termasuk dalam model, yang di bawah kerangka kerja HT berarti bahwa kami bertanya-tanya apakah ada di antara mereka yang berguna dalam memprediksi respons. variabel. Ini adalah alasan mengapa Anda mungkin menghadapi situasi di mana uji untuk seluruh model adalah signifikan sedangkan beberapa uji atau terkait dengan masing-masing koefisien regresi tidak.
The statistik terlihat seperti
di mana adalah jumlah parameter model dan jumlah pengamatan. Kuantitas ini harus dirujuk ke distribusi untuk nilai kritis atau . Ini berlaku untuk model regresi sederhana juga, dan jelas memiliki analogi dengan kerangka kerja ANOVA klasik.
Sidenote. Ketika Anda memiliki lebih dari satu prediktor, maka Anda mungkin bertanya-tanya apakah mempertimbangkan hanya sebagian dari prediktor tersebut "mengurangi" kualitas kecocokan model. Ini sesuai dengan situasi di mana kami mempertimbangkan model bersarang . Ini persis situasi yang sama dengan yang di atas, di mana kami membandingkan model regresi yang diberikan dengan model nol (tidak termasuk prediktor). Untuk menilai pengurangan varian yang dijelaskan, kita dapat membandingkan jumlah residu kuadrat (RSS) dari kedua model (yaitu, apa yang dibiarkan tidak dijelaskan setelah Anda memperhitungkan efek dari prediktor yang ada dalam model). Biarkan dan menunjukkan model dasar (denganparameter) dan model dengan prediktor tambahan ( parameter ), maka jika adalah kecil, kami akan mempertimbangkan bahwa model yang lebih kecil memiliki performa yang sama baiknya dengan yang lebih besar. Statistik yang baik untuk digunakan adalah perbandingan SS, , diberi bobot berdasarkan derajat kebebasannya ( untuk pembilang, dan untuk penyebut). Seperti yang telah dikatakan, dapat ditunjukkan bahwa jumlah ini mengikuti distribusi (atau Fisher-Snedecor) dengan derajat kebebasan dan . Jika diamatilebih besar dari quantile yang bersesuaian pada diberikan (biasanya, ), maka kita akan menyimpulkan bahwa model yang lebih besar membuat "pekerjaan yang lebih baik". (Ini sama sekali tidak menyiratkan bahwa model itu benar, dari sudut pandang praktis!)
Generalisasi dari ide di atas adalah uji rasio kemungkinan .
Jika Anda menggunakan R, Anda dapat bermain dengan konsep di atas seperti ini:
df <- transform(X <- as.data.frame(replicate(2, rnorm(100))),
y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df)) # "ANOVA view"
summary(lm(y ~ V1, df)) # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0) # test of V2
anova()
fungsi dalam R mengembalikan baris individual untuk setiap prediktor dalam model. Misalnya, anova(lm0)
di atas mengembalikan baris untuk V1
, V2
dan Residuals
(dan tidak ada total). Dengan demikian, kami mendapatkan dua statistik F * untuk model ini. Bagaimana ini mengubah interpretasi statistik F * yang dilaporkan dalam tabel ANOVA?
anova()
perbandingan GLM. Ketika diterapkan pada objek lm
atau aov
, itu menampilkan efek terpisah (SS) untuk setiap istilah dalam model dan tidak menunjukkan TSS. (Dulu saya menerapkan ini sebaliknya, yaitu setelah pas dengan ANOVA aov()
, saya bisa gunakan summary.lm()
untuk mendapatkan ide tentang kontras pengobatan.) Namun, ada masalah halus antara summary.lm()
dan summary.aov()
, terutama terkait dengan pemasangan berurutan.