Ini pertanyaan yang bagus, karena "jumlah yang berbeda" sepertinya tidak terlalu banyak penjelasan.
Ada dua alasan penting untuk berhati-hati dalam menggunakan untuk membandingkan model-model ini: ini terlalu kasar ( tidak benar-benar menilai goodness of fit ) dan itu akan menjadi tidak pantas untuk setidaknya salah satu model. Balasan ini membahas masalah kedua itu.R2
Perawatan Teoritis
R 2 yR2 membandingkan varians dari residual model dengan varians dari respon. Varians adalah deviasi aditif kuadrat rata-rata dari fit. Dengan demikian, kita dapat memahami sebagai membandingkan dua model respon . R2y
Model "dasar" adalah
yi=μ+δi(1)
dimanaμ adalah parameter (respons rata-rata teoretis) dan adalah "kesalahan" acak, masing-masing dengan nol rata-rata dan varian umum τ 2 .δiτ2
Model regresi linier memperkenalkan vektor sebagai variabel penjelas:xi
yi=β0+xiβ+εi.(2)
Angka dan vektor β adalah parameternya (intersep dan "slope"). The ε i lagi kesalahan acak independen, masing-masing dengan nol varians mean dan umum σ 2 .β0βεiσ2
perkiraan pengurangan varians, τ 2 - σ 2 , dibandingkan dengan varians asli τ 2 .R2τ2−σ2τ2
Ketika Anda mengambil logaritma dan menggunakan kuadrat terkecil agar sesuai dengan model , Anda secara implisit sedang membandingkan hubungan formulir
log(yi)=ν+ζi(1a)
ke salah satu formulir
log(yi)=γ0+xiγ+ηi.(2a)
(1)(2)(2a)
yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).
exp(ηi)yi=exp(γ0+xiγ)
Var(yi)=exp(γ0+xiγ)2Var(eηi).
xi(2)σ2
(1a)(2a)(1)(2)R2R2
Analisis
R2xyεiηi
Model seperti itu (yang biasa terjadi) adalah kuadrat-terkecil cocok dengan hubungan eksponensial,
yi=exp(α0+xiα)+θi.(3)
yx(2a)θi(2)R2xy
(3)300xi1.01.6(x,y)(x,log(y))
R20.700.56R2R20.70
log(y)(3)