Untuk interval prediksi dalam regresi linear Anda masih menggunakan E [ Y | x ] = ^ β 0 + β 1 x untuk menghasilkan interval. Anda juga menggunakan ini untuk menghasilkan interval kepercayaan E [ Y | x 0 ] . Apa perbedaan keduanya?
Untuk interval prediksi dalam regresi linear Anda masih menggunakan E [ Y | x ] = ^ β 0 + β 1 x untuk menghasilkan interval. Anda juga menggunakan ini untuk menghasilkan interval kepercayaan E [ Y | x 0 ] . Apa perbedaan keduanya?
Jawaban:
Perbedaan antara interval prediksi dan interval kepercayaan adalah kesalahan standar.
Kesalahan standar untuk interval kepercayaan pada rata-rata memperhitungkan ketidakpastian akibat pengambilan sampel. Garis yang Anda hitung dari sampel Anda akan berbeda dari garis yang akan dihitung jika Anda memiliki seluruh populasi, kesalahan standar memperhitungkan ketidakpastian ini.
Kesalahan standar untuk interval prediksi pada pengamatan individu memperhitungkan ketidakpastian akibat pengambilan sampel seperti di atas, tetapi juga memperhitungkan variabilitas individu di sekitar rata-rata yang diprediksi. Kesalahan standar untuk interval prediksi akan lebih lebar daripada untuk interval kepercayaan dan karenanya interval prediksi akan lebih lebar dari interval kepercayaan.
Saya menemukan penjelasan berikut bermanfaat:
Interval kepercayaan memberi tahu Anda seberapa baik Anda telah menentukan rata-rata. Asumsikan bahwa data benar-benar diambil secara acak dari distribusi Gaussian. Jika Anda melakukan ini berkali-kali, dan menghitung interval kepercayaan dari rata-rata dari setiap sampel, Anda akan mengharapkan sekitar 95% dari interval tersebut untuk memasukkan nilai sebenarnya dari rata-rata populasi. Poin kuncinya adalah bahwa interval kepercayaan memberitahu Anda tentang kemungkinan lokasi parameter populasi sebenarnya.
Interval prediksi memberi tahu Anda di mana Anda dapat berharap untuk melihat titik data selanjutnya yang dijadikan sampel. Asumsikan bahwa data benar-benar diambil secara acak dari distribusi Gaussian. Kumpulkan sampel data dan hitung interval prediksi. Kemudian sampel satu nilai lagi dari populasi. Jika Anda melakukan ini berkali-kali, Anda akan berharap bahwa nilai berikutnya berada dalam interval prediksi pada 95% sampel. Poin utamanya adalah bahwa interval prediksi memberi tahu Anda tentang distribusi nilai, bukan ketidakpastian dalam menentukan populasi berarti.
Interval prediksi harus memperhitungkan ketidakpastian dalam mengetahui nilai rata-rata populasi, ditambah penyebaran data. Jadi interval prediksi selalu lebih luas daripada interval kepercayaan.
Satu adalah prediksi dari pengamatan di masa depan, dan yang lainnya adalah respon rata-rata yang diprediksi. Saya akan memberikan jawaban yang lebih terperinci untuk mudah-mudahan menjelaskan perbedaan dan dari mana asalnya, serta bagaimana perbedaan ini memanifestasikan dirinya dalam interval yang lebih luas untuk prediksi daripada untuk kepercayaan diri.
Semoga ini membuatnya sedikit lebih jelas mengapa interval prediksi selalu lebih luas, dan apa perbedaan mendasar antara kedua interval tersebut. Contoh ini diadaptasi dari Faraway, Linear Models dengan R, Sec. 4.1.
Jawaban singkat:
Sebuah interval prediksi adalah interval terkait dengan variabel acak belum diamati (forecasting).
Sebuah selang kepercayaan adalah interval terkait dengan parameter dan merupakan konsep frequentist.
Lihat jawaban lengkapnya di sini dari Rob Hyndman, pembuat paket perkiraan di R.
Jawaban ini untuk pembaca yang tidak dapat sepenuhnya memahami jawaban sebelumnya. Mari kita bahas contoh spesifik. Misalkan Anda mencoba memprediksi berat badan orang dari tinggi badan, jenis kelamin (pria, wanita) dan diet (standar, rendah karbohidrat, vegetarian). Saat ini, ada lebih dari 8 miliar orang di Bumi. Tentu saja, Anda dapat menemukan ribuan orang yang memiliki tinggi yang sama dan dua parameter lain tetapi beratnya berbeda. Bobot mereka sangat berbeda karena beberapa dari mereka memiliki obesitas dan yang lain mungkin menderita kelaparan. Sebagian besar dari orang-orang itu akan berada di suatu tempat di tengah.
Satu tugas adalah memprediksi bobot rata-rata semua orang yang memiliki nilai yang sama dari ketiga variabel penjelas. Di sini kita menggunakan interval kepercayaan. Masalah lain adalah memperkirakan berat orang tertentu. Dan kita tidak tahu keadaan hidup individu itu. Di sini interval prediksi harus digunakan. Ini berpusat di sekitar titik yang sama, tetapi harus jauh lebih luas daripada interval kepercayaan.