@whuber telah mengarahkan Anda ke tiga jawaban yang bagus, tapi mungkin saya masih bisa menulis sesuatu yang bernilai. Pertanyaan eksplisit Anda, seperti yang saya pahami, adalah:
Mengingat model pas y^saya= m^xsaya+ b^ (pemberitahuan saya menambahkan 'topi') , dan asumsi residual saya biasanya didistribusikan, , saya bisa memprediksi bahwa belum respon tidak teramati, y n e w , dengan diketahui nilai prediksi, x n e w , akan jatuh dalam interval ( y - σ e , y + σN( 0 , σ^2e)yn e wxn e w , dengan probabilitas 68%?( y^- σe, y^+ σe)
Secara intuitif, jawabannya sepertinya harus 'ya', tetapi jawaban yang sebenarnya mungkin . Ini akan menjadi kasus ketika parameter (yaitu, & σ ) diketahui dan tanpa kesalahan. Karena Anda memperkirakan parameter ini, kami harus memperhitungkan ketidakpastiannya. m , b ,σ
Pertama-tama mari kita pikirkan tentang standar deviasi residu Anda. Karena ini diperkirakan dari data Anda, mungkin ada beberapa kesalahan dalam estimasi. Akibatnya, distribusi harus Anda gunakan untuk membentuk interval prediksi Anda harus , tidak normal. Namun, karena t konvergen dengan cepat ke normal, ini cenderung menjadi masalah dalam praktik. tkesalahan dft
Jadi, bisa kita hanya menggunakan y baru ± t ( 1 - α / 2 , error df ) s , bukan y baru ± z ( 1 - α / 2 ) s , dan pergi jalan gembira kami? Sayangnya tidak ada. Masalah yang lebih besar adalah bahwa ada ketidakpastian tentang perkiraan Anda dari mean bersyarat dari respon di lokasi itu karena ketidakpastian dalam perkiraan Anda m & b . Demikian,y^baru± t( 1 - α / 2 , kesalahan df ) sy^baru± z( 1 - α / 2 )sm^b^standar deviasi dari prediksi Anda perlu untuk menggabungkan lebih dari sekedar skesalahan . Karena varians menambahkan , perkiraan varians dari prediksi akan menjadi:
Perhatikan bahwa " x " adalah subscript untuk mewakili nilai tertentu untuk baru pengamatan, dan bahwa " s 2 " adalah sesuai subscript. Artinya, interval prediksi Anda bergantung pada lokasi pengamatan baru di sepanjang x
s2prediksi (baru)= s2kesalahan+ Var ( m^xbaru+ b^)
xs2xsumbu. Deviasi standar prediksi Anda dapat lebih mudah diperkirakan dengan rumus berikut:
Sebagai catatan samping yang menarik, kita dapat menyimpulkan beberapa fakta tentang interval prediksi dari persamaan ini. Pertama, interval prediksi akan sempit semakin banyak data yang kita miliki ketika kita membangun model prediksi (ini karena ada kurang ketidakpastian dalam
m&
b). Kedua, prediksi akan paling tepat jika dibuat dengan nilai rata-rata
x yangAnda gunakan untuk mengembangkan model Anda, karena pembilang untuk suku ketiga adalah
0. Alasannya adalah bahwa dalam keadaan normal, tidak ada ketidakpastian tentang perkiraan kemiringan pada rata-rata
xsprediksi (baru)= s2kesalahan( 1 + 1N+ ( xbaru- x¯)2∑ ( xsaya- x¯)2)------------------------√
m^b^x0x, hanya beberapa ketidakpastian tentang posisi vertikal sebenarnya dari garis regresi. Dengan demikian, beberapa pelajaran yang bisa dipetik untuk membangun model prediksi adalah: bahwa lebih banyak data bermanfaat, bukan dengan menemukan 'signifikansi', tetapi dengan meningkatkan ketepatan prediksi masa depan; dan bahwa Anda harus memusatkan upaya pengumpulan data Anda pada interval di mana Anda perlu membuat prediksi di masa mendatang (untuk meminimalkan pembilang itu), tetapi sebarkan pengamatan seluas mungkin dari pusat itu (untuk memaksimalkan penyebut itu).
Setelah menghitung nilai yang benar dengan cara ini, kita dapat menggunakannya dengan distribusi sesuai seperti yang disebutkan di atas. t