Saya akan membahasnya secara intuitif.
Interval kepercayaan dan interval prediksi dalam regresi mempertimbangkan fakta bahwa intersep dan kemiringan tidak pasti - Anda memperkirakan nilai dari data, tetapi nilai populasi mungkin berbeda (jika Anda mengambil sampel baru, Anda akan mendapatkan estimasi yang berbeda nilai).
Garis regresi akan melewati , dan yang terbaik untuk memusatkan diskusi tentang perubahan kecocokan di sekitar titik itu - yaitu untuk berpikir tentang garis (dalam formulasi ini, ).(x¯,y¯)y=a+b(x−x¯)a^=y¯
Jika garis melewati titik , tetapi kemiringan sedikit lebih tinggi atau lebih rendah (yaitu jika ketinggian garis pada rata-rata adalah tetap tetapi kemiringan itu sedikit berbeda), apa yang akan terlihat seperti?(x¯,y¯)
Anda akan melihat bahwa garis baru akan bergerak lebih jauh dari garis saat ini di dekat ujung daripada di tengah, membuat semacam X miring yang melintasi rata-rata (karena masing-masing garis ungu di bawah berkenaan dengan garis merah) ; garis ungu mewakili kemiringan yang diperkirakan dua kesalahan standar lereng).±
Jika Anda menggambar kumpulan garis seperti itu dengan kemiringan yang sedikit berbeda dari perkiraannya, Anda akan melihat distribusi nilai yang diprediksi di dekat ujung 'kipas angin' (bayangkan wilayah di antara dua garis ungu yang diarsir dalam warna abu-abu, misalnya, karena kita mengambil sampel lagi dan menggambar banyak lereng seperti di dekat yang diperkirakan; Kita bisa merasakan ini dengan bootstrap garis melalui titik ( )). Berikut ini contoh menggunakan 2000 sampel dengan bootstrap parametrik:x¯,y¯
Jika sebaliknya Anda memperhitungkan ketidakpastian dalam konstanta (membuat garis melewati dekat tetapi tidak cukup melalui ), yang menggerakkan garis ke atas dan ke bawah, jadi interval untuk mean pada setiap akan duduk di atas dan di bawah garis yang pas.(x¯,y¯)x
(Berikut garis ungu adalah dua kesalahan standar dari istilah konstan kedua sisi dari perkiraan line).±
Ketika Anda melakukan keduanya sekaligus (garis mungkin naik atau turun sedikit, dan kemiringan mungkin sedikit lebih curam atau dangkal), maka Anda mendapatkan sejumlah spread pada rata-rata, , karena ketidakpastian dalam konstan, dan Anda mendapatkan kipas tambahan karena ketidakpastian lereng, di antara mereka menghasilkan bentuk hiperbolik khas plot Anda.x¯
Itulah intuisinya.
Sekarang, jika Anda suka, kami dapat mempertimbangkan aljabar kecil (tapi itu tidak penting):
Ini sebenarnya adalah akar kuadrat dari jumlah kuadrat dari dua efek - Anda dapat melihatnya dalam rumus interval kepercayaan. Mari kita membangun potongan:
The kesalahan standar dengan dikenal adalah (ingat sini adalah nilai yang diharapkan dari pada rata-rata , tidak mencegat biasa, itu hanya standard error mean a). Itulah kesalahan standar dari posisi garis pada mean ( ).abσ/n−−√ayxx¯
The error standar dengan diketahui adalah . Efek ketidakpastian pada kemiringan pada beberapa nilai dikalikan dengan seberapa jauh Anda dari rata-rata ( ) (karena perubahan level adalah perubahan kemiringan kali jarak Anda bergerak), memberikan .baσ/∑ni=1(xi−x¯)2−−−−−−−−−−−√x∗x∗−x¯(x∗−x¯)⋅σ/∑ni=1(xi−x¯)2−−−−−−−−−−−√
Sekarang efek keseluruhan hanya akar kuadrat dari jumlah kuadrat dari dua hal (mengapa? Karena varians hal berkorelasi menambahkan, dan jika Anda menulis baris Anda di bentuk , estimasi dan tidak berkorelasi. Jadi standar kesalahan keseluruhan adalah akar kuadrat dari keseluruhan varians, dan varians adalah jumlah dari varian komponen - yaitu, kami memilikiy=a+b(x−x¯)ab
(σ/n−−√)2+[(x∗−x¯)⋅σ/∑ni=1(xi−x¯)2−−−−−−−−−−−√]2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
Manipulasi kecil yang sederhana memberikan istilah biasa untuk kesalahan standar estimasi nilai rata-rata pada :x∗
σ1n+(x∗−x¯)2∑ni=1(xi−x¯)2−−−−−−−−−−−−√
Jika Anda menggambar itu sebagai fungsi , Anda akan melihatnya membentuk kurva (terlihat seperti senyum) dengan minimum pada , yang semakin besar saat Anda pindah. Itulah yang ditambahkan ke / dikurangi dari baris yang sesuai (well, kelipatannya adalah, untuk mendapatkan tingkat kepercayaan yang diinginkan).x∗x¯
[Dengan interval prediksi, ada juga variasi dalam posisi karena variabilitas proses; ini menambahkan istilah lain yang menggeser batas ke atas dan ke bawah, membuat penyebaran jauh lebih luas, dan karena istilah itu biasanya mendominasi jumlah di bawah akar kuadrat, kelengkungannya jauh lebih jelas.]