Apa perbedaan antara estimasi dan prediksi?

46

Sebagai contoh, saya memiliki data kerugian historis dan saya menghitung kuantil ekstrem (Value-at-Risk atau Probable Maximum Loss). Hasil yang diperoleh adalah untuk memperkirakan kerugian atau memperkirakannya? Di mana orang bisa menggambar garis? Saya bingung.

estimation predictor prediction-interval

— melon
sumber

4

Terkait erat adalah diskusi tentang perbedaan antara interval kepercayaan dan interval prediksi di stats.stackexchange.com/questions/16493 .

— whuber

65

"Prediksi" dan "estimasi" memang kadang-kadang digunakan secara bergantian dalam penulisan non-teknis dan mereka tampaknya berfungsi sama, tetapi ada perbedaan yang tajam di antara mereka dalam model standar masalah statistik. Sebuah estimator Data penggunaan menebak parameter sementara prediksi menggunakan data untuk menebak beberapa nilai acak yang bukan bagian dari dataset. Bagi mereka yang tidak terbiasa dengan apa arti "parameter" dan "nilai acak" dalam statistik, berikut ini memberikan penjelasan rinci.

Dalam model standar ini, data diasumsikan merupakan observasi (mungkin multivariat) dari variabel acak yang distribusinya hanya diketahui terletak di dalam set distribusi tertentu yang mungkin, "keadaan alamiah". Sebuah estimator adalah prosedur matematika yang ditunjuk untuk setiap nilai yang mungkin dari beberapa properti dari keadaan alam , seperti mean . Jadi perkiraan adalah dugaan tentang keadaan alam yang sebenarnya. Kita dapat mengetahui seberapa baik perkiraan dengan membandingkan dengan . $\mathbf{x}$ $X$ $t$ $\mathbf{x}$ $t(\mathbf{x})$ $\theta$ $\mu(\theta)$ $t(\mathbf{x})$ $\mu(\theta)$

Sebuah prediksi menyangkut pengamatan independen lain variabel acak yang distribusinya terkait dengan keadaan sebenarnya dari alam. Prediksi adalah perkiraan tentang nilai acak lainnya. Kita dapat mengetahui seberapa baik prediksi tertentu hanya dengan membandingkan dengan nilai direalisasikan oleh . Kami berharap bahwa rata - rata perjanjian akan baik (dalam arti rata-rata atas semua kemungkinan hasil dan secara bersamaan atas semua nilai yang mungkin dari ). $p(\mathbf{x})$ $Z$ $p(\mathbf{x})$ $Z$ $\mathbf{x}$ $Z$

Kuadrat terkecil biasa memberikan contoh standar. Data terdiri dari pasangan mengaitkan nilai dari variabel dependen ke nilai dari variabel independen. Keadaan alam ditentukan oleh tiga parameter , , dan : ia mengatakan bahwa setiap seperti gambar independen dari distribusi normal dengan mean dan standar deviasi . , , dan adalah parameter (angka) yang diyakini telah diperbaiki dan tidak berubah. Minat berfokus pada $(x_i,y_i)$ $y_i$ $x_i$ $\alpha$ $\beta$ $\sigma$ $y_i$ $\alpha + \beta x_i$ $\sigma$ $\alpha$ $\beta$ $\sigma$ $\alpha$ (intersep) dan (lereng). Perkiraan OLS, ditulis , baik dalam arti bahwa cenderung dekat dengan dan cenderung dekat dengan , tidak peduli apa nilai-nilai yang benar (tapi tidak diketahui) dari dan mungkin . $\beta$ $(\hat{\alpha}, \hat{\beta})$ $\hat{\alpha}$ $\alpha$ $\hat{\beta}$ $\beta$ $\alpha$ $\beta$

Prediksi OLS terdiri dari mengamati nilai baru dari variabel dependen yang terkait dengan beberapa nilai dari variabel independen. mungkin atau mungkin tidak termasuk di antara dalam dataset; itu tidak penting. Satu prediksi yang baik secara intuitif adalah bahwa nilai baru ini kemungkinan dekat dengan . Prediksi yang lebih baik mengatakan seberapa dekat nilai baru itu (mereka disebut interval prediksi ). Mereka menjelaskan fakta bahwa dan tidak pasti (karena mereka bergantung secara matematis pada nilai acak $Z = Y(x)$ $x$ $x$ $x_i$ $\hat{\alpha} + \hat{\beta}x$ $\hat{\alpha}$ $\hat{\beta}$ $(y_i)$ ), bahwa tidak diketahui secara pasti (dan karena itu harus diperkirakan), serta asumsi bahwa memiliki distribusi normal dengan standar deviasi dan rata-rata ( perhatikan tidak adanya topi!). $\sigma$ $Y(x)$ $\sigma$ $\alpha + \beta x$

Perhatikan khususnya bahwa prediksi ini memiliki dua sumber ketidakpastian yang berbeda: ketidakpastian dalam data mengarah ke ketidakpastian dalam perkiraan kemiringan, intersep, dan standar deviasi residual ( ); selain itu, ada ketidakpastian berapa nilai akan terjadi. Ketidakpastian tambahan ini - karena adalah acak - menjadi ciri prediksi. Prediksi mungkin terlihat seperti taksiran (setelah semua, taksiran :-) dan bahkan mungkin memiliki rumus matematika yang sama ( terkadang bisa sama dengan $(x_i,y_i)$ $\sigma$ $Y(x)$ $Y(x)$ $\hat{\alpha} + \hat{\beta}x$ $\alpha+\beta x$ $p(\mathbf{x})$ $t(\mathbf{x})$ ), tetapi akan datang dengan jumlah ketidakpastian yang lebih besar dari perkiraan.

Di sini, kemudian, dalam contoh OLS, kita melihat perbedaannya dengan jelas: perkiraan menebak parameter (yang ditetapkan tetapi angka tidak diketahui), sedangkan prediksi menebak nilai kuantitas acak. Sumber kebingungan potensial adalah bahwa prediksi biasanya dibangun berdasarkan estimasi parameter dan bahkan mungkin memiliki rumus yang sama dengan estimator.

Dalam praktiknya, Anda dapat membedakan penaksir dari penaksir dengan dua cara:

tujuan : estimator berusaha mengetahui properti dari keadaan alami yang sebenarnya, sedangkan prediksi berusaha menebak hasil dari variabel acak; dan
ketidakpastian : seorang prediktor biasanya memiliki ketidakpastian yang lebih besar daripada penduga yang terkait, karena ketidakpastian tambahan dalam hasil variabel acak. Oleh karena itu prediktor yang terdokumentasi dengan baik dan dideskripsikan biasanya datang dengan pita ketidakpastian - interval prediksi - yang lebih luas dari pita ketidakpastian estimator, yang dikenal sebagai interval kepercayaan. Ciri khas interval prediksi adalah mereka dapat (secara hipotetis) menyusut ketika set data tumbuh, tetapi mereka tidak akan menyusut menjadi nol lebar - ketidakpastian dalam hasil acak "tidak dapat direduksi" - sedangkan lebar interval kepercayaan akan cenderung menyusut ke nol, sesuai dengan intuisi kami bahwa ketepatan estimasi dapat menjadi baik secara sewenang-wenang dengan jumlah data yang memadai.

Dalam menerapkan ini untuk menilai kerugian investasi potensial, pertama mempertimbangkan tujuan: apakah Anda ingin tahu berapa banyak Anda mungkin benar-benar kehilangan atas ini investasi (atau ini keranjang tertentu investasi) selama periode tertentu, atau Anda benar-benar hanya menebak apa kerugian yang diperkirakan (lebih dari investasi besar di dunia, mungkin)? Yang pertama adalah prediksi, yang terakhir perkiraan. Kemudian pertimbangkan ketidakpastian. Bagaimana jawaban Anda berubah jika Anda memiliki sumber daya yang hampir tak terbatas untuk mengumpulkan data dan melakukan analisis? Jika itu akan menjadi sangat tepat, Anda mungkin memperkirakan pengembalian yang diharapkan dari investasi, sedangkan jika Anda tetap sangat tidak yakin tentang jawabannya, Anda membuat prediksi.

Jadi, jika Anda masih tidak yakin dengan hewan mana yang Anda hadapi, tanyakan pada estimator / prediktor Anda ini: seberapa salah kemungkinannya dan mengapa? Melalui kedua kriteria (1) dan (2) Anda akan tahu apa yang Anda miliki.

— whuber
sumber

Jawaban yang sangat menarik! Bisakah Anda memberi kami beberapa referensi tentang itu?

— user1420303

2

@ user1420303 Inilah dua. (1) Kiefer, Pengantar Inferensi Statistik (1987), hal. 30. ("Masalah prediksi adalah masalah di mana keputusannya merupakan dugaan bukan dari beberapa properti , melainkan beberapa properti dari variabel acak ....") (2) Hahn & Meeker, Interval Statistik (1991) . Lihat bagian 2.3 untuk contoh dan interpretasi.

F

$F$

— whuber

+1. Saya menemukan jawaban Anda karena saya mencoba memahami perbedaan terminologis antara BLUE dan BLUP dalam model campuran, dan saya masih tidak yakin saya mendapatkannya. Dalam kasus model campuran , di mana penyadapan acak , kami memperkirakan dan . Maka kita bisa memprediksi . Perbedaan ini saya mengerti. Tapi bagaimana dengan ? Mereka dihitung dengan P BLU , yaitu dengan "prediktor"; tetapi tampaknya bahwa dengan ketidakpastian setiap menghilang, jadi seharusnya tidak kita katakan bahwa yang diperkirakan

y = α + β x + u_{i} + ϵ

$y=\alpha+\beta x + u_i + \epsilon$

u_{i} \sim N (0, σ_{u}^{2})

$u_i \sim \mathcal N(0, \sigma^2_u)$

α, β, σ,

$\alpha, \beta, \sigma,$

σ_{u}

$\sigma_u$

y

$y$

u_{i}

$u_i$

n \to \infty

$n \to \infty$

u_{i}

$u_i$ ?

— Amoeba berkata Reinstate Monica

2

@amoeba Mungkin bermanfaat untuk memahami situasi ini sebagai model hierarkis: pada satu tingkat hierarki, adalah acak (sehingga pernyataan tentang hal itu akan menjadi prediktor ) sementara pada tingkat selanjutnya telah direalisasikan dan estimasi selanjutnya tergantung pada realisasi. (membuat pernyataan tentang itu penduga ).

u_{i}

$u_i$

— whuber

2

@whuber Poin paling penting yang Anda tunjukkan adalah bahwa estimator selalu bertujuan mendekati kuantitas dengan sifat non-stokastik / non-acak seperti parameter dalam model SLR; prediktor selalu bertujuan mendekati kuantitas dengan sifat stokastik / acak seperti variabel respons (termasuk istilah kesalahan) dalam model SLR. Poin ini diangkat dalam karya-karya awal Rao.

— Henry.L

8

Estimasi selalu untuk parameter yang tidak diketahui sedangkan prediksi untuk variabel acak.

— Arif
sumber

5

Anda memprediksi realisasi variabel acak saat Anda memperkirakan parameter variabel acak (misalnya nilai yang diharapkan).

— Richard Hardy

@CowboyTrader, saya tidak cukup tahu tentang estimasi kepadatan kernel untuk mengomentari klaim Anda.

— Richard Hardy

2

Tidak ada perbedaan dalam model. Memang ada (sedikit) perbedaan dalam tindakan yang dilakukan. Estimasi adalah kalibrasi model probabilistik Anda menggunakan data ("belajar" dalam terminologi AI). Prediksi adalah "menebak" dari pengamatan di masa depan. Dengan asumsi "dugaan" ini didasarkan pada data masa lalu - ini mungkin merupakan kasus estimasi; seperti prediksi ketinggian orang berikutnya yang akan Anda temui menggunakan perkiraan tinggi rata-rata dalam populasi. Perhatikan bahwa prediksi itu tidak selalu merupakan contoh estimasi. Jenis kelamin orang berikutnya yang akan Anda temui, bukan parameter populasi dalam pengertian klasik; Memprediksi jenis kelamin, mungkin memerlukan beberapa estimasi, tetapi akan membutuhkan beberapa ...

Dalam kasus value-at-risk, prediksi dan estimasi bertepatan sejak prediksi kerugian Anda, adalah perkiraan estimasi kerugian.

— JohnRos
sumber

2

Anda memulai dengan baik dengan perbedaan yang benar antara estimasi dan prediksi, tetapi kemudian dua pertiga terakhir dari jawaban muncul untuk mengacaukan prediksi dengan estimasi sekali lagi. Memperkenalkan contoh gender masih lebih membingungkan, karena tidak terkait dengan perbedaan awal (pada kenyataannya, itu tidak masuk akal, karena yang mendasarinya adalah pergeseran model statistik antara langkah estimasi dan prediksi).

— whuber

0

Prediksi adalah penggunaan fungsi regresi sampel untuk memperkirakan nilai untuk variabel dependen yang dikondisikan pada beberapa nilai yang tidak teramati dari variabel independen.

Estimasi adalah proses atau teknik penghitungan parameter atau jumlah populasi yang tidak diketahui.

— pengguna82419
sumber

3

Brevity patut dipuji, tetapi di sini bisa menimbulkan kebingungan. Prediksi tidak terbatas pada aplikasi regresi: itu sepenuhnya umum seperti estimasi. Apa pun yang Anda maksud dengan "dikondisikan pada beberapa nilai variabel independen yang tidak teramati"? Apakah itu hanya cara untuk mengatakan bahwa prediksi memerlukan data? Jika demikian, bagaimana dengan estimasi, di mana Anda tidak menyediakan persyaratan seperti itu? Deskripsi Anda membuatnya terdengar seperti latihan buku teks, seperti "apa arti dari distribusi Normal yang SD-nya dan kuartil atas adalah ?" Apakah estimasi membutuhkan data atau tidak?

1

$1$

2

$2$

— whuber

0

Biasanya "estimasi" dicadangkan untuk parameter dan "prediksi" adalah untuk nilai. Namun, kadang-kadang perbedaan menjadi kabur, misalnya Anda mungkin telah melihat sesuatu seperti "memperkirakan nilai besok" daripada "memprediksi nilai besok."

Value-at-risk (VaR) adalah kasus yang menarik. VaR bukan parameter, tetapi kami tidak mengatakan "prediksi VaR." Kami mengatakan "memperkirakan VaR." Mengapa?

Alasan dalam VaR itu bukan kuantitas acak JIKA Anda tahu distribusi, DAN Anda perlu tahu distribusi untuk menghitung VaR. Jadi, Anda jika Anda menggunakan pendekatan VaR parametrik, maka Anda pertama-tama memperkirakan parameter distribusi kemudian menghitung VaR. Jika Anda menggunakan VaR nonparametrik, maka Anda langsung memperkirakan VaR yang mirip dengan cara Anda memperkirakan parameter. Dalam hal ini mirip dengan kuantil.

Di sisi lain, jumlah kerugian adalah nilai acak. Karenanya, jika Anda diminta memperkirakan kerugian, Anda akan memperkirakannya tidak memperkirakan. Sekali lagi, kadang-kadang kita mengatakan "memperkirakan" kerugian. Jadi, garisnya kabur, seperti yang saya tulis sebelumnya.

— Aksakal
sumber

Anda mengatakan VaR bukan parameter, tapi saya ingin tahu apakah itu benar-benar terjadi. VaR adalah kuantil (kondisional atau tanpa syarat) dari distribusi variabel dependen. Seperti itu terlihat seperti parameter distribusi kepada saya, atau setidaknya fungsi dari beberapa parameter lain yang lebih mendasar, yang tampaknya tidak mengubah esensi. Itu tidak terlihat seperti realisasi dari variabel acak.

— Richard Hardy

Juga, ketika Anda mengatakan bahwa prediksi adalah untuk nilai-nilai, itu berlaku untuk nilai-nilai parameter sama halnya dengan realisasi variabel acak (yang juga merupakan nilai). Oleh karena itu, saya menyarankan mengganti nilai dengan realisasi variabel acak; maka Anda akan memiliki dikotomi yang Anda tuju.

— Richard Hardy

-3

Saya menemukan definisi di bawah ini lebih jelas:

Estimasi adalah perkiraan hasil yang dihitung. Hasil ini mungkin merupakan perkiraan tetapi tidak harus. Sebagai contoh, saya dapat memperkirakan bahwa jumlah mobil di Jembatan Golden Gate pukul 5 sore kemarin adalah 900 dengan mengasumsikan tiga jalur menuju Marin berada pada kapasitas, masing-masing mobil membutuhkan ruang 30 kaki, dan jembatan itu memiliki panjang 9000 kaki ( 9000/30 x 3 = 900).

Ekstrapolasi memperkirakan nilai suatu variabel di luar rentang nilai yang diketahui dengan mengasumsikan bahwa nilai estimasi mengikuti beberapa pola dari yang diketahui. Bentuk ekstrapolasi yang paling sederhana dan paling populer adalah memperkirakan tren linier berdasarkan data yang diketahui. Alternatif untuk ekstrapolasi linier termasuk ekstrapolasi polinomial dan kerucut. Seperti halnya estimasi, ekstrapolasi dapat digunakan untuk peramalan tetapi tidak terbatas pada peramalan.

Prediksi hanyalah mengatakan sesuatu tentang masa depan. Prediksi biasanya difokuskan pada hasil dan bukan jalur menuju hasil tersebut. Sebagai contoh, saya dapat memprediksi bahwa pada tahun 2050 semua kendaraan akan ditenagai motor listrik tanpa menjelaskan bagaimana kita dapatkan dari adopsi rendah pada tahun 2011 menjadi adopsi penuh pada tahun 2050. Seperti yang dapat Anda lihat dari contoh sebelumnya, prediksi tidak harus didasarkan pada data.

Peramalan adalah proses membuat perkiraan atau prediksi. Istilah ramalan dan prediksi sering digunakan secara bergantian tetapi terkadang ramalan dibedakan dari prediksi karena ramalan sering memberikan penjelasan tentang jalur menuju hasil. Misalnya, perkiraan adopsi kendaraan listrik mungkin termasuk jalur ke adopsi kendaraan listrik penuh mengikuti pola adopsi S-berbentuk di mana beberapa mobil listrik sebelum 2025, titik belok terjadi pada 2030 dengan adopsi cepat, dan mayoritas mobil listrik setelah 2040.

Estimasi, ekstrapolasi, prediksi, dan peramalan tidak saling melengkapi dan lengkap. Prakiraan jangka panjang yang baik untuk masalah yang kompleks seringkali perlu menggunakan teknik selain ekstrapolasi untuk menghasilkan hasil yang masuk akal. Prakiraan dan prediksi juga dapat terjadi tanpa estimasi yang dihitung.

lihat tautan definisi1 definisi2

— juga
sumber

2

Prediksi tidak harus tentang masa depan.

— miura

baca selengkapnya: Prediksi hanya mengatakan sesuatu tentang masa depan. Prediksi biasanya difokuskan pada hasil dan bukan jalan menuju hasil tersebut.

— so

Ya, tetapi hasilnya tidak perlu di masa depan. Anda dapat, misalnya, juga memprediksi hasil yang tidak diketahui sebelumnya.

— miura

1

Ini adalah akun yang masuk akal tentang bagaimana kata "estimasi" dan "prediksi" digunakan dalam arti non-teknis, non-statistik . Seperti yang dikemukakan @miura, jelas dari jawaban lain di sini bahwa indra sehari-hari itu berbeda dari indra statistik konvensional. Saya melihat argumen yang valid untuk menafsirkan pertanyaan asli dengan cara non-statistik. Namun, interpretasi itu memperkenalkan batasan yang tidak nyaman dan tidak perlu dengan tidak mengizinkan "prediksi" untuk diterapkan pada peristiwa masa lalu (selesai) dengan hasil yang tidak diketahui.

— whuber

Jika Anda menerapkannya untuk melewati filter kalman varians minimum varians minimum dan varians minimum yang lebih halus dapat digunakan untuk memulihkan data yang menarik dari pengukuran bising. Teknik yang disebutkan di depan bergantung pada prediksi satu langkah-depan ... jadi, masih prediksi satu langkah di depan (masa depan) :)

— SSO