Karena garis regresi yang cocok dengan kuadrat terkecil biasa harus melalui rata-rata data Anda (yaitu, ) —tidak selama Anda tidak menekan intersep — ketidakpastian tentang nilai sebenarnya dari lereng tidak berpengaruh pada posisi vertikal garis di rata-rata x (yaitu, di y ˉ x ). Ini diterjemahkan ke dalam ketidakpastian vertikal kurang di ˉ x daripada Anda memiliki semakin jauh dari ˉ x Anda. Jika memotong, di mana x = 0 adalah ˉ x(x¯,y¯)xy^x¯x¯x¯x=0x¯, Maka ini akan meminimalkan ketidakpastian tentang nilai sebenarnya dari . Dalam istilah matematika, ini diterjemahkan menjadi nilai yang mungkin terkecil dari kesalahan standar untuk β 0 . β0β^0
Berikut adalah contoh cepat di R
:
set.seed(1) # this makes the example exactly reproducible
x0 = rnorm(20, mean=0, sd=1) # the mean of x varies from 0 to 10
x5 = rnorm(20, mean=5, sd=1)
x10 = rnorm(20, mean=10, sd=1)
y0 = 5 + 1*x0 + rnorm(20) # all data come from the same
y5 = 5 + 1*x5 + rnorm(20) # data generating process
y10 = 5 + 1*x10 + rnorm(20)
model0 = lm(y0~x0) # all models are fit the same way
model5 = lm(y5~x5)
model10 = lm(y10~x10)
Angka ini agak sibuk, tetapi Anda dapat melihat data dari beberapa studi berbeda di mana distribusi lebih dekat atau lebih jauh dari 0 . Kemiringan sedikit berbeda dari studi ke studi, tetapi sebagian besar serupa. (Perhatikan mereka semua pergi melalui X dilingkari yang saya gunakan untuk mark ( ˉ x , ˉ y ) .) Meskipun demikian, ketidakpastian tentang nilai sebenarnya dari orang-orang lereng menyebabkan ketidakpastian tentang y untuk memperluas lebih lanjut Anda dapatkan dari ˉ x , yang berarti bahwa S E ( β 0 )x0(x¯,y¯)y^x¯SE(β^0)sangat luas untuk data yang diambil sampelnya di lingkungan , dan sangat sempit untuk penelitian yang datanya diambil sampelnya dekat x = 0 . x=10x=0
Edit dalam menanggapi komentar: Sayangnya, berpusat data Anda setelah Anda memiliki mereka tidak akan membantu Anda jika Anda ingin mengetahui kemungkinan nilai di beberapa x nilai x yang baru . Alih-alih, Anda harus memusatkan pengumpulan data pada titik yang Anda pedulikan sejak awal. Untuk memahami masalah ini secara lebih lengkap, Anda dapat membaca jawaban saya di sini: Interval prediksi regresi linier . yxxnew