Bentuk interval kepercayaan untuk nilai prediksi dalam regresi linier

69

Saya telah memperhatikan bahwa interval kepercayaan untuk nilai prediksi dalam regresi linier cenderung sempit di sekitar rata-rata prediktor dan lemak di sekitar nilai minimum dan maksimum prediktor. Ini dapat dilihat dalam plot 4 regresi linier ini:

masukkan deskripsi gambar di sini

Saya awalnya berpikir ini karena sebagian besar nilai prediktor terkonsentrasi di sekitar rata-rata prediktor. Namun, saya kemudian memperhatikan bahwa pertengahan sempit interval kepercayaan akan terjadi bahkan jika banyak nilai terkonsentrasi di sekitar ekstrem prediktor, seperti dalam regresi linier kiri bawah, yang banyak nilai prediktor terkonsentrasi di sekitar minimum sang prediktor.

adakah yang bisa menjelaskan mengapa interval kepercayaan untuk nilai prediksi dalam regresi linier cenderung sempit di tengah dan gemuk di ekstrem?

— luciano
sumber

86

Saya akan membahasnya secara intuitif.

Interval kepercayaan dan interval prediksi dalam regresi mempertimbangkan fakta bahwa intersep dan kemiringan tidak pasti - Anda memperkirakan nilai dari data, tetapi nilai populasi mungkin berbeda (jika Anda mengambil sampel baru, Anda akan mendapatkan estimasi yang berbeda nilai).

Garis regresi akan melewati , dan yang terbaik untuk memusatkan diskusi tentang perubahan kecocokan di sekitar titik itu - yaitu untuk berpikir tentang garis (dalam formulasi ini, ). $(\bar x, \bar y)$ $y= a + b(x-\bar x)$ $\hat a = \bar y$

Jika garis melewati titik , tetapi kemiringan sedikit lebih tinggi atau lebih rendah (yaitu jika ketinggian garis pada rata-rata adalah tetap tetapi kemiringan itu sedikit berbeda), apa yang akan terlihat seperti? $(\bar x, \bar y)$

Anda akan melihat bahwa garis baru akan bergerak lebih jauh dari garis saat ini di dekat ujung daripada di tengah, membuat semacam X miring yang melintasi rata-rata (karena masing-masing garis ungu di bawah berkenaan dengan garis merah) ; garis ungu mewakili kemiringan yang diperkirakan dua kesalahan standar lereng). $\pm$

masukkan deskripsi gambar di sini

Jika Anda menggambar kumpulan garis seperti itu dengan kemiringan yang sedikit berbeda dari perkiraannya, Anda akan melihat distribusi nilai yang diprediksi di dekat ujung 'kipas angin' (bayangkan wilayah di antara dua garis ungu yang diarsir dalam warna abu-abu, misalnya, karena kita mengambil sampel lagi dan menggambar banyak lereng seperti di dekat yang diperkirakan; Kita bisa merasakan ini dengan bootstrap garis melalui titik ( )). Berikut ini contoh menggunakan 2000 sampel dengan bootstrap parametrik: $\bar{x},\bar{y}$

Jika sebaliknya Anda memperhitungkan ketidakpastian dalam konstanta (membuat garis melewati dekat tetapi tidak cukup melalui ), yang menggerakkan garis ke atas dan ke bawah, jadi interval untuk mean pada setiap akan duduk di atas dan di bawah garis yang pas. $(\bar x, \bar y)$ $x$

masukkan deskripsi gambar di sini

(Berikut garis ungu adalah dua kesalahan standar dari istilah konstan kedua sisi dari perkiraan line). $\pm$

Ketika Anda melakukan keduanya sekaligus (garis mungkin naik atau turun sedikit, dan kemiringan mungkin sedikit lebih curam atau dangkal), maka Anda mendapatkan sejumlah spread pada rata-rata, , karena ketidakpastian dalam konstan, dan Anda mendapatkan kipas tambahan karena ketidakpastian lereng, di antara mereka menghasilkan bentuk hiperbolik khas plot Anda. $\bar x$

Itulah intuisinya.

Sekarang, jika Anda suka, kami dapat mempertimbangkan aljabar kecil (tapi itu tidak penting):

Ini sebenarnya adalah akar kuadrat dari jumlah kuadrat dari dua efek - Anda dapat melihatnya dalam rumus interval kepercayaan. Mari kita membangun potongan:

The kesalahan standar dengan dikenal adalah (ingat sini adalah nilai yang diharapkan dari pada rata-rata , tidak mencegat biasa, itu hanya standard error mean a). Itulah kesalahan standar dari posisi garis pada mean ( ). $a$ $b$ $\sigma /\sqrt{n}$ $a$ $y$ $x$ $\bar x$

The error standar dengan diketahui adalah . Efek ketidakpastian pada kemiringan pada beberapa nilai dikalikan dengan seberapa jauh Anda dari rata-rata ( ) (karena perubahan level adalah perubahan kemiringan kali jarak Anda bergerak), memberikan . $b$ $a$ $\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$ $x^*$ $x^*-\bar x$ $(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$

Sekarang efek keseluruhan hanya akar kuadrat dari jumlah kuadrat dari dua hal (mengapa? Karena varians hal berkorelasi menambahkan, dan jika Anda menulis baris Anda di bentuk , estimasi dan tidak berkorelasi. Jadi standar kesalahan keseluruhan adalah akar kuadrat dari keseluruhan varians, dan varians adalah jumlah dari varian komponen - yaitu, kami memiliki $y= a + b(x-\bar x)$ $a$ $b$

$\sqrt{(\sigma /\sqrt{n})^2+ \left[(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}\right]^2 }$

Manipulasi kecil yang sederhana memberikan istilah biasa untuk kesalahan standar estimasi nilai rata-rata pada : $x^*$

$\sigma\sqrt{\frac{1}{n}+ \frac{(x^*-\bar x)^2}{\sum_{i=1}^n (x_i-\bar{x})^2} }$

Jika Anda menggambar itu sebagai fungsi , Anda akan melihatnya membentuk kurva (terlihat seperti senyum) dengan minimum pada , yang semakin besar saat Anda pindah. Itulah yang ditambahkan ke / dikurangi dari baris yang sesuai (well, kelipatannya adalah, untuk mendapatkan tingkat kepercayaan yang diinginkan). $x^*$ $\bar x$

[Dengan interval prediksi, ada juga variasi dalam posisi karena variabilitas proses; ini menambahkan istilah lain yang menggeser batas ke atas dan ke bawah, membuat penyebaran jauh lebih luas, dan karena istilah itu biasanya mendominasi jumlah di bawah akar kuadrat, kelengkungannya jauh lebih jelas.]

— Glen_b
sumber

Terima kasih Glen_b, itu sangat intuitif. Itu tidak terlintas di benak saya, itulah yang diperhitungkan dalam interval kepercayaan.

— luciano

1

Jawaban yang diterima memang membawa intuisi yang diperlukan. Ini hanya melewatkan visualisasi menggabungkan ketidakpastian linear dan sudut, yang merujuk dengan sangat baik kembali ke plot dalam pertanyaan. Jadi begini. Mari kita panggil a'dan b'ketidakpastian a, dan b, masing-masing, jumlah yang biasanya dikembalikan oleh paket statistik populer. Maka kita memiliki, terlepas dari yang paling pas a*x + b, empat garis yang mungkin untuk digambar (dalam kasus 1 kovariat x):

(a+a')*x + b+b'
(a-a')*x + b-b'
(a+a')*x + b-b'
(a-a')*x + b+b'

Ini adalah empat garis collored pada grafik di bawah ini. Garis hitam tebal di tengah mewakili yang paling cocok tanpa ketidakpastian. Jadi untuk menggambar bayangan "hiperbolik", seseorang harus mengambil nilai maksimum dan minimum dari empat garis ini digabungkan, yang sebenarnya adalah empat segmen garis, tidak ada kurva di sana (saya bertanya-tanya bagaimana tepatnya plot fency ini menggambar lengkung, sepertinya tidak akurat untuk saya).

Saya harap ini menambahkan sesuatu ke jawaban yang sudah bagus dari @Glen_b.

— ouranos
sumber