Mengapa kesalahan standar intersep meningkatkan

Standar error dari istilah intercept ( ) di diberikan oleh $\hat{\beta}_0$ $y=\beta_1x+\beta_0+\varepsilon$

S E ({\hat{β}}_{0})^{2} = σ^{2} [\frac{1}{n} + \frac{{\bar{x}}^{2}}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}]

$SE(\hat{\beta}_0)^2 = \sigma^2\left[\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right]$ di mana

\bar{x}

$\bar{x}$ adalah mean dari

x_{i}

$x_i$ 's.

Dari apa yang saya mengerti, SE mengkuantifikasi uncertainty- Anda misalnya, di 95% dari sampel, interval akan berisi sejati . Saya gagal memahami bagaimana SE, ukuran ketidakpastian, meningkat dengan . Jika saya hanya menggeser data saya, sehingga , ketidakpastian saya turun? Itu sepertinya tidak masuk akal. $[\hat{\beta}_0-2SE,\hat{\beta}_0+2SE]$ $\beta_0$ $\bar{x}$ $\bar{x}=0$

Interpretasi analog adalah - dalam versi uncentered data bersesuaian dengan prediksi saya di , sedangkan dalam data bersesuaian dengan prediksi saya di . Jadi apakah ini berarti ketidakpastian saya tentang prediksi saya di lebih besar dari ketidakpastian saya tentang prediksi saya di ? Tampaknya juga tidak masuk akal, kesalahan memiliki varians yang sama untuk semua nilai $\hat{\beta}_0$ $x=0$ $\hat{\beta}_0$ $x=\bar{x}$ $x=0$ $x=\bar{x}$ $\epsilon$ $x$ , jadi ketidakpastian saya dalam nilai prediksi saya harus sama untuk semua . $x$

Ada celah dalam pemahaman saya, saya yakin. Bisakah seseorang membantu saya memahami apa yang terjadi?

regression interpretation standard-error

— elexhobby
sumber

Apakah Anda pernah mengalami kemunduran terhadap kencan? Banyak sistem komputer memulai kencan mereka di masa lalu yang jauh, seringkali lebih dari 100 atau lebih dari 2000 tahun yang lalu. Intercept memperkirakan nilai data Anda diekstrapolasi mundur ke waktu mulai itu. Seberapa pasti Anda, katakanlah, terhadap produk domestik bruto Irak pada tahun 0 CE berdasarkan kemunduran serangkaian data abad ke-21?

— whuber

Saya setuju, masuk akal jika Anda memikirkannya seperti ini. Ini, dan jawaban gung, membuat semuanya menjadi jelas.

— elexhobby

Jawaban ini memberikan penjelasan intuitif, dengan diagram) tentang bagaimana hal itu muncul, dengan melemparkan garis yang pas dalam hal kecocokan pada rata-rata

(garis pas melewati

) dan menunjukkan mengapa posisi di mana garis dapat menyebar saat Anda menjauh dari

(yang disebabkan oleh ketidakpastian di lereng).

\bar{x}

$\bar x$

(\bar{x}, \bar{y})

$(\bar x,\bar y)$

\bar{x}

$\bar x$

— Glen_b -Reinstate Monica

Karena garis regresi yang cocok dengan kuadrat terkecil biasa harus melalui rata-rata data Anda (yaitu, ) —tidak selama Anda tidak menekan intersep — ketidakpastian tentang nilai sebenarnya dari lereng tidak berpengaruh pada posisi vertikal garis di rata-rata (yaitu, di ). Ini diterjemahkan ke dalam ketidakpastian vertikal kurang di daripada Anda memiliki semakin jauh dari Anda. Jika memotong, di mana adalah $(\bar x, \bar y)$ $x$ $\hat y_{\bar x}$ $\bar x$ $\bar x$ $x=0$ $\bar x$ , Maka ini akan meminimalkan ketidakpastian tentang nilai sebenarnya dari . Dalam istilah matematika, ini diterjemahkan menjadi nilai yang mungkin terkecil dari kesalahan standar untuk . $\beta_0$ $\hat\beta_0$

Berikut adalah contoh cepat di R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

enter image description here

Angka ini agak sibuk, tetapi Anda dapat melihat data dari beberapa studi berbeda di mana distribusi lebih dekat atau lebih jauh dari . Kemiringan sedikit berbeda dari studi ke studi, tetapi sebagian besar serupa. (Perhatikan mereka semua pergi melalui X dilingkari yang saya gunakan untuk mark .) Meskipun demikian, ketidakpastian tentang nilai sebenarnya dari orang-orang lereng menyebabkan ketidakpastian tentang untuk memperluas lebih lanjut Anda dapatkan dari , yang berarti bahwa $x$ $0$ $(\bar x, \bar y)$ $\hat y$ $\bar x$ $SE(\hat\beta_0)$ sangat luas untuk data yang diambil sampelnya di lingkungan , dan sangat sempit untuk penelitian yang datanya diambil sampelnya dekat . $x=10$ $x=0$

Edit dalam menanggapi komentar: Sayangnya, berpusat data Anda setelah Anda memiliki mereka tidak akan membantu Anda jika Anda ingin mengetahui kemungkinan nilai di beberapa nilai . Alih-alih, Anda harus memusatkan pengumpulan data pada titik yang Anda pedulikan sejak awal. Untuk memahami masalah ini secara lebih lengkap, Anda dapat membaca jawaban saya di sini: Interval prediksi regresi linier . $y$ $x$ $x_\text{new}$

— gung - Pasang kembali Monica
sumber

Jadi, katakanlah untuk beberapa alasan, saya paling tertarik dengan prediksi pada nilai

. Penjelasan di atas menyiratkan bahwa saya tidak seharusnya memusatkan data saya (yaitu, menggeser

sehingga

), tetapi sebaliknya menggesernya sehingga

. Apakah ini benar?

x = x^{'}

$x=x'$

x

$x$

\bar{x} = 0

$\bar{x}=0$

\bar{x} = x^{'}

$\bar{x}=x'$

— elexhobby

(x^{'} - \bar{x})^{2}

$(x^\prime - \bar{x})^2$

{\bar{x}}^{2}

$\bar{x}^2$

@elexhobby, saya menambahkan beberapa info untuk menjawab komentar Anda, Anda mungkin juga ingin melihat materi yang ditautkan. Beri tahu saya jika Anda masih membutuhkan lebih banyak.

— gung - Reinstate Monica

S E ({\hat{β}}_{1}) = \frac{σ^{2}}{\sum (x_{i} - \bar{x})^{2}}

$SE(\hat{\beta}_1)=\frac{\sigma^2}{\sum(x_i-\bar{x})^2}$

x_{n e w}

$x_{new}$

S E ({\hat{β}}_{1}) (x_{n e w} - \bar{x})^{2}

$SE(\hat{\beta}_1)(x_{new}-\bar{x})^2$

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$ . Combine these together, and we get the uncertainty in the predicted value due to uncertainty in

{\hat{β}}_{1}

$\hat{\beta}_1$ and

{\hat{β}}_{0}

$\hat{\beta}_0$ is

\frac{σ^{2}}{n} + \frac{σ^{2} (x_{n e w} - \bar{x})^{2}}{\sum (x_{i} - \bar{x})^{2}}

$\frac{\sigma^2}{n}+\frac{\sigma^2(x_{new}-\bar{x})^2}{\sum(x_i-\bar{x})^2}$ . Correct me if I'm wrong.

— elexhobby

Furthermore, it is clear why the error in the vertical position is

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$ - we know that the line has to pass through

\bar{y}

$\bar{y}$ at

x = \bar{x}

$x=\bar{x}$ . Now

\bar{y}

$\bar{y}$ contains the average of

n

$n$ iid errors, and hence will have SE equal to

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$ . Wow! Thanks a lot for your diagram and clear explanation, I really appreciate.

— elexhobby