Apakah interval prediksi harus mengandung mean?

Saya mengalami masalah besar dengan masalah konseptual yang saya temukan.

Katakanlah sebuah perusahaan memiliki distribusi yang sangat miring. Sesuatu yang mirip dengan eksponensial atau lognormal hanya lebih ekstrem. Sekarang berpura-pura distribusi sangat miring sehingga rata-rata distribusi lebih tinggi dari 99% Persentil dari distribusi. (Aka 1-2 nilai ekstrem yang lebih tinggi menyebabkan rata-rata sangat tinggi dibandingkan dengan distribusi lainnya).

Menurut definisi, jika distribusi ini digunakan untuk memperkirakan nilai masa depan (alias sampel acak dari distribusi) apakah benar bahwa rata-rata tidak akan berada dalam interval Prediksi 95%?

Di otak saya, interval predisi 95% adalah rentang yang 95% dari semua nilai masa depan akan jatuh di antara. Untuk distribusi apa pun, ini harus persis sama dengan 0,025 Persentil pada batas bawah, dan persentil 0,975 pada batas atas ... Jika rerata lebih tinggi dari 0,975 Persentil, maka rerata tidak akan berada dalam '95% interval prediksi '.

Apakah saya salah memikirkan hal ini? Tampaknya aneh melaporkan perkiraan sebagai

Nilai Perkiraan Rata-rata: 6,000,0000
Interval Prediksi 95%: [400.5000].

mean prediction-interval

— Mimpi lain
sumber

Apa yang akan Anda lakukan ketika memprediksi nilai dari distribusi yang tidak berarti sama sekali? Menurut Anda mengapa aneh membuat prediksi untuk distribusi seperti itu?

— whuber

Actuall Whuber ... apa yang akan Anda lakukan ketika memprediksi nilai dari distribusi tanpa berarti ... Anda tidak dapat melakukan monte carlo karena itu tidak akan berarti ... Anda dapat menunjukkan distribusi variabel itu sendiri ... Apakah Anda mungkin menggunakan median? Saya sebenarnya tidak tahu jawaban untuk pertanyaan itu, dan mungkin itu bagian dari kebingungan.

— Anotherdream

Saya kira sebagian dari kebingungan adalah ini. Saya diberitahu untuk memberikan interval prediksi untuk variabel yang berperilaku SANGAT mirip dengan ini. "Estimasi titik prediksi" adalah rata-rata bergerak 6 bulan. Namun rata-rata pergerakan 6 bulan lebih tinggi dari persentil atas ... Dengan demikian "interval prediksi" saya tidak termasuk "perkiraan prediksi" saya. Kedengarannya semua orang mengatakan bahwa nilai rata-rata adalah nilai buruk untuk digunakan sejak awal (yang dapat saya lihat ... Saya tidak membuat benda ini haha). Apakah saya mengikutinya dengan benar? Mungkin nilai yang berbeda harus digunakan sebagai 'perkiraan titik prediksi'?

— Anotherdream

Komentar pertama Anda menarik karena tampaknya memperkenalkan arti tidak perlu. Setelah Anda memiliki simulasi yang baik dari distribusi variabel itu sendiri, mengapa itu tidak cukup informasi untuk membuat prediksi yang baik? Tidakkah mungkin nilai masa depan akan terletak di dalam tubuh utama dari distribusi itu? Mengapa maksudnya relevan dalam kasus itu?

— whuber

Whuber. Saya setuju sepenuhnya dengan apa yang Anda katakan .... Sepertinya mean tidak relevan sama sekali dalam contoh ini ... Tapi apakah itu menyiratkan bahwa jika Anda pernah menjalankan simulasi, dan menggunakan "varaible" (dalam hal ini mean) sebagai estimasi titik, dan residu Anda cenderung miring, Anda dapat membuat kembali distribusi asli dengan mengambil estimasi titik miring dan mengambil sampel secara acak dari residu dan menambahkan hasilnya bersama-sama. Saya baru saja membuat ulang dist asli dari estimasi "bias" dan dist residual ... Jadi apa gunanya estimasi asli sama sekali?

— Anotherdream

Jawaban:

Tidak, interval prediksi tidak perlu mengandung rerata. Saya pikir beberapa kebingungan Anda mungkin mencampur interval prediksi dan interval kepercayaan. Sementara tujuan dari interval prediksi adalah untuk mengandung dengan beberapa nilai masa depan yang pasti dari variabel acak, tujuan dari interval kepercayaan adalah untuk mengandung mean sebenarnya dari distribusi.

Seperti yang Anda sebutkan dalam distribusi yang sangat miring ide-ide ini tampaknya bertentangan satu sama lain. Yang penting adalah mengenali nilai di setiap statistik yang disediakan.

Nilai prediktif rata-rata adalah:

1) Kumulatif: Semakin banyak sampel masuk, rata-rata mereka cenderung ke arah rata-rata yang sebenarnya. Jadi, jika nilai kumulatifnya menarik (misalnya, jika Anda berjudi dan berhadapan dengan kemenangan atau kekalahan, Anda tertarik dengan efek kumulatif) maka rerata ini sangat berguna.

2) Meminimalkan Residu Kuadrat: Sementara residu kuadrat adalah jumlah bunga yang agak sewenang-wenang, ada baiknya untuk mengetahui apa yang diminimalkan prediksi Anda.

Namun, jika tujuan Anda adalah untuk meminimalkan kesalahan absolut dalam prediksi Anda, nilai perkiraan rata-rata 6.000.000 bukanlah yang saya inginkan.

— jlimahaverford
sumber

Terima kasih atas waktu jlimahaverfold. Jadi jika saya mengerti Anda dengan benar adalah mengikuti pernyataan yang benar (saya pikir saya mengerti, itu hanya 'terasa salah' haha) Jika saya memiliki variabel di mana saya diberi perkiraan "titik" (menggunakan mean), tetapi residu yang sangat tidak normal (eksponensial misalnya) saya bisa mendapatkan 'perkiraan distribusi' dengan dasarnya pengambilan sampel secara acak dari 10k distribusi residual kali (monte carlo) dan kemudian distribusi yang baru dibuat akankah interval perkiraan? Saya pikir ini adalah bagaimana ini harus dilakukan, tetapi ingin mengkonfirmasi saya mengerti dengan benar

— Anotherdream

Untuk memperjelas pertanyaan saya sedikit lebih jauh. Jika seseorang mengambil perkiraan rata-rata bergerak 6 bulan, tetapi memiliki residu tidak normal dalam perkiraan ini ... Apakah benar membuat distribusi perkiraan dengan mengambil sampel dari distribusi residu dan menambahkan nilai ke estimasi titik perkiraan Rata-rata, lalu menghitung interval prediksi 95% dari persentil dari distribusi yang dihasilkan ini? Juga, dapatkah Anda menentukan apa lagi yang mungkin Anda ikuti selain "berarti" jika saya ingin meminimalkan kesalahan absolut dalam prediksi yang diberikan untuk data yang sangat miring? Sekali lagi saya sangat menghargai bantuan Anda!

— Anotherdream

Saya masih kesulitan menafsirkan pertanyaan itu. Biarkan saya jelas tentang apa yang saya cari. Saya memiliki variabel acak X, dan data {x1, x2, ... xN}. Saya berasumsi rata-rata bergulir 6 bulan ini adalah sesuatu di sepanjang baris \ sum_ {j = i} ^ {i + 180} x_i / 180. Sesuatu di sepanjang baris ini. Adapun apa yang saya maksud tentang meminimalkan residu absolut, itu hanyalah fungsi objektif. Sementara rata-rata meminimalkan jumlah residu kuadrat, ini tidak selalu meminimalkan residu absolut, tetapi beberapa nilai (tidak harus unik) tidak.

— jlimahaverford

+1, poin yang sangat bagus tentang kemungkinan kebingungan tentang interval prediksi dan interval kepercayaan. Secara kebetulan, jika Anda ingin meminimalkan kesalahan absolut yang diharapkan, Anda menggunakan median dari distribusi prediksi sebagai perkiraan titik Anda ( lihat di sini ). Ini tentu saja akan selalu termasuk dalam interval prediksi (tengah).

— Stephan Kolassa

Stephan. Komentar Anda membantu BUNCH. Saya pikir inilah yang perlu terjadi di masa depan dari perkiraan ini. Sungguh saya pikir masalahnya adalah rata-rata adalah tempat yang salah untuk memulai dengan menggunakan distribusi miring seperti itu ... Tapi karena mereka mulai di sini, saya bingung dengan apa yang bisa saya lakukan ... Apakah biasanya 'dapat diterima' untuk menggunakan median sebagai 'perkiraan titik perkiraan' dan berikan batas? Saya sangat baru dalam meramalkan dan tidak yakin apakah itu umumnya dilakukan dengan distribusi miring.

— Anotherdream

Pertimbangkan distribusi pengembalian yang mungkin dalam paradoks St Petersburg:

Prob (1) = 1/2

Prob (2) = 1/4

Prob (4) = 1/8 ... Prob (2 ^ n) = 1/2 ^ (n + 1)

Berarti menyimpang dan di luar interval prediksi yang masuk akal. (Mediannya adalah 1 dalam hal ini, tapi saya tidak tahu apa yang akan saya gunakan untuk perkiraan poin saya. Mungkin Stephan Kolassa, lihat di atas, punya saran.)

Ada komplikasi lain: Katakanlah Anda ingin interval prediksi 95% untuk beberapa distribusi (selain yang saya sebutkan). Apakah Anda beralih dari ubin 2,5% ke ubin 97,5% atau 0 ke 95 atau ke 5 ke 100 atau ....? Jawabannya mungkin tergantung pada mengapa Anda mengajukan pertanyaan.

— Emil Friedman
sumber