Kami menggunakan analisis Regresi untuk membuat model yang menggambarkan pengaruh variasi dalam variabel prediktor pada variabel respons. Kadang-kadang jika kita memiliki variabel kategori dengan nilai-nilai seperti Ya / Tidak atau Pria / Wanita dll. Analisis regresi sederhana memberikan beberapa hasil untuk setiap nilai dari variabel kategori. Dalam skenario seperti itu, kita dapat mempelajari pengaruh variabel kategori dengan menggunakannya bersama dengan variabel prediktor dan membandingkan garis regresi untuk setiap tingkat variabel kategori. Analisis semacam ini disebut sebagai Analisis Kovarian juga disebut sebagai ANCOVA.
Contoh
Pertimbangkan R
kumpulan data bawaan mtcars
. Di dalamnya kami mengamati bahwa bidang tersebut am
mewakili jenis transmisi (otomatis atau manual). Ini adalah variabel kategori dengan nilai 0 dan 1. Nilai mil per galon ( mpg
) mobil juga dapat bergantung padanya di samping nilai tenaga kuda ( hp
). Kami mempelajari pengaruh nilai am
pada regresi antara mpg
dan hp
. Ini dilakukan dengan menggunakan aov()
fungsi diikuti oleh anova()
fungsi untuk membandingkan regresi berganda.
Input Data
Buat bingkai data yang berisi bidang mpg
, hp
dan am
dari kumpulan data mtcars
. Di sini kita ambil mpg
sebagai variabel respon, hp
sebagai variabel prediktor dan am
sebagai variabel kategorikal.
input <- mtcars[,c("am","mpg","hp")]
head(input)
Ketika kami mengeksekusi kode di atas, itu menghasilkan hasil sebagai berikut:
am mpg hp
Mazda RX4 1 21.0 110
Mazda RX4 Wag 1 21.0 110
Datsun 710 1 22.8 93
Hornet 4 Drive 0 21.4 110
Hornet Sportabout 0 18.7 175
Valiant 0 18.1 105
Analisis ANCOVA
Kami membuat model regresi dengan mengambil hp
sebagai variabel prediktor dan mpg
sebagai variabel respon dengan mempertimbangkan interaksi antara am
dan hp
.
Model dengan interaksi antara variabel kategori dan variabel prediktor
Buat model regresi1
result1 <- aov(mpg~hp*am,data=mtcars)
summary(result1)
Ketika kami mengeksekusi kode di atas, itu menghasilkan hasil sebagai berikut:
Df Sum Sq Mean Sq F value Pr(>F)
hp 1 678.4 678.4 77.391 1.50e-09 ***
am 1 202.2 202.2 23.072 4.75e-05 ***
hp:am 1 0.0 0.0 0.001 0.981
Residuals 28 245.4 8.8
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Hasil ini menunjukkan bahwa tenaga kuda dan tipe transmisi memiliki efek yang signifikan pada mil per galon karena nilai-p dalam kedua kasus kurang dari 0,05. Tetapi interaksi antara kedua variabel ini tidak signifikan karena p-value lebih dari 0,05.
Model tanpa interaksi antara variabel kategori dan variabel prediktor
Buat model regresi2
result2 <- aov(mpg~hp+am,data=mtcars)
summary(result2)
Ketika kami mengeksekusi kode di atas, itu menghasilkan hasil sebagai berikut:
Df Sum Sq Mean Sq F value Pr(>F)
hp 1 678.4 678.4 80.15 7.63e-10 ***
am 1 202.2 202.2 23.89 3.46e-05 ***
Residuals 29 245.4 8.5
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Hasil ini menunjukkan bahwa tenaga kuda dan tipe transmisi memiliki efek yang signifikan pada mil per galon karena nilai-p dalam kedua kasus kurang dari 0,05.
Membandingkan dua model
Sekarang kita dapat membandingkan dua model untuk menyimpulkan jika interaksi variabel benar-benar tidak signifikan. Untuk ini kami menggunakan anova()
fungsi.
anova(result1,result2)
Model 1: mpg ~ hp * am
Model 2: mpg ~ hp + am
Res.Df RSS Df Sum of Sq F Pr(>F)
1 28 245.43
2 29 245.44 -1 -0.0052515 6e-04 0.9806
Karena nilai p lebih besar dari 0,05, kami menyimpulkan bahwa interaksi antara tenaga kuda dan jenis transmisi tidak signifikan. Jadi jarak tempuh per galon akan tergantung pada cara yang sama pada tenaga kuda mobil dalam mode transmisi otomatis dan manual.