Bisakah kita membuat pernyataan probabilistik dengan interval prediksi?

Saya telah membaca banyak diskusi hebat di situs tersebut mengenai interpretasi interval kepercayaan dan interval prediksi, tetapi satu konsep masih sedikit membingungkan:

Pertimbangkan kerangka OLS dan kami telah memperoleh dipasang Model . Kami diberi dan diminta untuk memprediksi jawabannya. Kami menghitung dan, sebagai bonus, kami juga menyediakan interval prediksi 95% sekitar prediksi kami, ala Mendapatkan formula untuk batas prediksi dalam model linear . Sebut saja interval prediksi PI ini. $\hat y = X\hat\beta$ $x^*$ $x^{*T}\hat\beta$

Sekarang, manakah dari yang berikut ini (atau tidak satu pun) yang merupakan interpretasi PI yang benar?

Untuk khususnya, terletak di dalam PI dengan probabilitas 95%. $x^*$ $y(x^*)$
Jika kita diberikan sejumlah besar s, prosedur ini untuk menghitung PI akan mencakup respons sebenarnya 95% dari waktu. $x$

Dari kata-kata @ung dalam interval prediksi regresi linier , sepertinya yang pertama benar (walaupun saya bisa saja salah menafsirkan.) Interpretasi 1 tampaknya berlawanan dengan intuisi saya (dalam arti bahwa kita menarik kesimpulan Bayesian dari analisis frequentist), tetapi jika itu benar, itu karena kita memprediksi realisasi dari variabel acak vs memperkirakan sebuah parameter ?

(Sunting) Pertanyaan bonus: Misalkan kita tahu apa sebenarnya, yaitu proses menghasilkan data, maka apakah kita dapat berbicara tentang probabilitas mengenai prediksi tertentu, karena kita hanya melihat ? $\beta$ $\epsilon$

Upaya terakhir saya dalam hal ini: kita dapat "secara konseptual membusuk" (menggunakan kata dengan sangat longgar) interval prediksi menjadi dua bagian: (A) interval kepercayaan di sekitar respons rata-rata yang diprediksi, dan (B) kumpulan interval yang hanya kuantil rentang istilah kesalahan. (B) kita dapat membuat pernyataan probabilistik tentang, dengan syarat mengetahui rata-rata prediksi yang sebenarnya, tetapi secara keseluruhan, kita hanya dapat memperlakukan interval prediksi sebagai CI yang sering muncul di sekitar nilai prediksi. Apakah ini agak benar?

regression confidence-interval prediction-interval

— kevinykuo
sumber

Jawaban yang saya tulis di stats.stackexchange.com/a/26704 menyiratkan bahwa sesuatu seperti (2) adalah kasusnya (menurut hukum angka besar) tetapi jelas bukan (1).

— Whuber

Jawaban:

Pertama, pada penggunaan probabilitas kata, frequentist tidak memiliki masalah dengan menggunakan probabilitas kata ketika memprediksi sesuatu di mana potongan acak belum terjadi. Kami tidak menyukai kata probabilitas untuk interval kepercayaan karena parameter sebenarnya tidak berubah (kami mengasumsikan itu adalah nilai tetap, meskipun tidak diketahui) dan intervalnya tetap karena didasarkan pada data yang telah kami kumpulkan. Sebagai contoh jika data kami berasal dari sampel acak manusia pria dewasa dan x adalah tinggi badan mereka dan y adalah berat badan mereka dan kami cocok dengan model regresi umum maka kami tidak menggunakan probabilitas ketika berbicara tentang interval kepercayaan. Tetapi jika saya ingin berbicara tentang berapa probabilitas pria jantan 65 inci yang dipilih secara acak dari semua jantan 65 inci memiliki berat badan dalam interval tertentu,

Jadi saya akan mengatakan bahwa jawaban untuk pertanyaan bonus adalah "Ya". Jika kita tahu cukup informasi, maka kita bisa menghitung probabilitas untuk melihat nilai dalam suatu interval (atau menemukan interval dengan probabilitas yang diinginkan).

Untuk pernyataan Anda yang berlabel "1." Saya akan mengatakan bahwa itu OK jika Anda menggunakan kata seperti "perkiraan" ketika berbicara tentang interval atau probabilitas. Seperti yang Anda sebutkan dalam pertanyaan bonus, kami dapat menguraikan ketidakpastian menjadi bagian tentang pusat prediksi dan bagian tentang keacakan di sekitar mean sebenarnya. Ketika kita menggabungkan ini untuk menutupi semua ketidakpastian kita (dan dengan asumsi kita memiliki model / normalitas yang benar) kita memiliki interval yang cenderung terlalu lebar (meskipun bisa terlalu sempit juga), sehingga kemungkinan titik baru yang dipilih secara acak jatuh ke interval prediksi tidak akan persis 95%. Anda dapat melihat ini dengan simulasi. Mulailah dengan model regresi yang dikenal dengan semua parameter yang diketahui. Pilih sampel (melintasi banyak nilai x) dari hubungan ini, paskan regresi, dan hitung interval prediksi. Sekarang menghasilkan sejumlah besar poin data baru dari model yang benar lagi dan membandingkannya dengan interval prediksi. Saya melakukan ini beberapa kali menggunakan kode R berikut:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

Saya menjalankan kode di atas beberapa kali (sekitar 10, tapi saya tidak menghitung dengan cermat) dan sebagian besar waktu proporsi nilai baru yang jatuh dalam interval berkisar antara kisaran 96% hingga 98%. Saya memang punya satu kasus di mana estimasi standar deviasi sangat rendah sehingga proporsinya berada di kisaran 93% hingga 94%, tetapi semua sisanya di atas 95%. Jadi saya akan senang dengan pernyataan Anda 1 dengan perubahan menjadi "sekitar 95%" (dengan asumsi semua asumsi itu benar, atau cukup dekat untuk dicakup dalam kira-kira).

Demikian pula, pernyataan 2 membutuhkan "kira-kira" atau serupa, karena untuk menutupi ketidakpastian kami, kami menangkap rata-rata lebih dari 95%.

— Greg Snow
sumber

Yang kedua lebih baik. Yang pertama tergantung pada informasi apa yang diketahui.

Menggunakan contoh acak, memang benar bahwa "95% interval (pada kepercayaan 95%) akan mencakup rata-rata sebenarnya dari [variabel insert]".

Di sisi lain, jika hasilnya jelas kontra-intuitif, kami tidak dapat menegaskan (1).

Misalnya, "uji signifikansi saya pada kepercayaan 95% menunjukkan bahwa tinggi dan berat badan berkorelasi negatif ". Yah itu jelas salah, dan kita tidak bisa mengatakan bahwa ada "kemungkinan 95% bahwa itu benar". Sebenarnya ada, dengan mempertimbangkan pengetahuan sebelumnya, probabilitas yang sangat kecil bahwa itu benar. Namun, valid untuk mengatakan bahwa "95% dari tes tersebut akan menghasilkan hasil yang benar."

Jawaban ini tampaknya membahas interval kepercayaan daripada interval prediksi.

— whuber

@whuber Prinsip yang sama berlaku. Kami pada dasarnya berurusan dengan interval kepercayaan untuk variabel tertentu (variabel "yang diprediksi").

Ada perbedaan penting antara nilai tetap (seperti parameter) dan nilai variabel acak. Selain itu, inti dari pertanyaan ini sampai pada perbedaan ini: apa yang bisa dikatakan tentang probabilitas hasil acak ("masa depan")? Karena itu, tampaknya tidak memadai - dan mungkin menyesatkan - untuk memperlakukan pertanyaan ini sebagai satu-satunya tentang arti kepercayaan.

— Whuber

@whuber Pernyataan (2) dalam posting masih tidak menyiratkan pernyataan (1). Seperti dalam contoh saya, prediksi yang bertentangan dengan pengetahuan intuisi / latar belakang yang jelas tidak menyiratkan bahwa hasil di masa depan memiliki 95% kemungkinan jatuh dalam PI. Memang benar bahwa proses, 95% dari waktu, akan memberikan PI yang berisi hasil di masa depan. Tetapi kadang-kadang mungkin untuk mendeteksi kapan ini telah atau belum terjadi.

Anda benar, tetapi jika saya membaca komentar Anda dengan benar, saya curiga itu tidak tepat. Masalahnya bukan fakta bahwa (dengan desain) PI hanya memiliki kemungkinan 95% untuk menutupi nilai masa depan atau bahwa data tambahan (atau intuisi) dapat memberikan informasi lebih lanjut. Masalah di depan kita menyangkut apakah PI dapat diartikan dalam hal probabilitas kondisional untuk nilai masa depan (berdasarkan pada nilai-nilai regresi). Itu memang interpretasi dari PI Bayes , seperti catatan OP, tetapi tidak valid untuk PI yang sering.

— whuber