Perbedaan antara model statistik dan model probabilitas?

Probabilitas terapan adalah cabang penting dalam probabilitas, termasuk probabilitas komputasi. Karena statistik menggunakan teori probabilitas untuk membangun model untuk menangani data, seperti pemahaman saya, saya bertanya-tanya apa perbedaan penting antara model statistik dan model probabilitas? Model probabilitas tidak memerlukan data nyata? Terima kasih.

probability mathematical-statistics

— Honglang Wang
sumber

Sebuah Probabilitas Model terdiri dari triplet , di mana adalah ruang sampel, adalah -algebra (peristiwa) dan adalah ukuran probabilitas pada . $(\Omega,{\mathcal F},{\mathbb P})$ $\Omega$ ${\mathcal F}$ $\sigma$ ${\mathbb P}$ ${\mathcal F}$

Penjelasan intuitif . Model probabilitas dapat diartikan sebagai variabel acak diketahui . Sebagai contoh, misalkan menjadi variabel acak yang terdistribusi normal dengan mean dan varians . Dalam hal ini ukuran probabilitas dikaitkan dengan Fungsi Distribusi Kumulatif (CDF) sampai $X$ $X$ $0$ $1$ ${\mathbb P}$ $F$

F (x) = P (X \leq x) = P (ω \in Ω : X (ω) \leq x) = \int_{- \infty}^{x} \frac{1}{\sqrt{2 π}} \exp (- \frac{t^{2}}{2}) d t .

$F(x)={\mathbb P}(X\leq x) = {\mathbb P}(\omega\in\Omega:X(\omega)\leq x) =\int_{-\infty}^x \dfrac{1}{\sqrt{2\pi}}\exp\left({-\dfrac{t^2}{2}}\right)dt.$

Generalisasi . Definisi Model Probabilitas tergantung pada definisi matematika probabilitas, lihat misalnya probabilitas Gratis dan probabilitas Quantum .

Sebuah Model statistik adalah set model probabilitas, ini, serangkaian langkah-langkah probabilitas / distribusi pada ruang sampel . ${\mathcal S}$ $\Omega$

Seperangkat distribusi probabilitas ini biasanya dipilih untuk memodelkan fenomena tertentu yang darinya kami memiliki data.

Penjelasan intuitif . Dalam Model Statistik, parameter dan distribusi yang menggambarkan fenomena tertentu keduanya tidak diketahui. Contohnya adalah famili dari distribusi Normal dengan rata-rata dan varians , ini adalah, kedua parameter tidak diketahui dan Anda biasanya ingin menggunakan set data untuk memperkirakan parameter (yaitu memilih elemen ). Set distribusi ini dapat dipilih pada dan , tetapi, jika saya tidak salah, dalam contoh nyata hanya yang ditentukan pada pasangan yang sama masuk akal untuk mempertimbangkan. $\mu\in{\mathbb R}$ $\sigma^2\in{\mathbb R_+}$ ${\mathcal S}$ $\Omega$ ${\mathcal F}$ $(\Omega,{\mathcal F})$

Generalisasi . Makalah ini memberikan definisi yang sangat formal Model Statistik, tetapi penulis menyebutkan bahwa "model Bayesian membutuhkan komponen tambahan dalam bentuk distribusi sebelumnya ... Meskipun formulasi Bayesian bukan fokus utama dari makalah ini". Oleh karena itu definisi Model Statistik tergantung pada jenis model yang kami gunakan: parametrik atau nonparametrik. Juga dalam pengaturan parametrik, definisi tergantung pada bagaimana parameter diperlakukan (misalnya Klasik vs Bayesian).

The Perbedaan adalah: dalam model probabilitas Anda tahu persis ukuran probabilitas, misalnya , di mana parameter diketahui, sementara dalam statistik. model yang Anda pertimbangkan kumpulan distribusi, misalnya , di mana adalah parameter yang tidak diketahui. $\mbox{Normal}(\mu_0,\sigma_0^2)$ $\mu_0,\sigma_0^2$ $\mbox{Normal}(\mu,\sigma^2)$ $\mu,\sigma^2$

Tidak satu pun dari mereka memerlukan set data, tetapi saya akan mengatakan bahwa model statistik biasanya dipilih untuk pemodelan satu.

— Xi'an
sumber

@ HonglangWang Itu benar sampai batas tertentu. Perbedaan utama adalah bahwa model probabilitas hanya satu distribusi (dikenal), sedangkan model statistik adalah satu set model probabilitas; data digunakan untuk memilih model dari himpunan ini atau bagian yang lebih kecil dari model yang lebih baik (dalam arti tertentu) menggambarkan fenomena (dalam terang data).

(+1) Ini adalah jawaban yang bagus, meskipun saya punya beberapa komentar. Pertama, saya pikir ini mungkin menjual probabilist sedikit pendek. Sama sekali tidak jarang untuk mempertimbangkan seperangkat ruang probabilitas dalam model probabilistik, dan memang, langkah-langkah yang mungkin bahkan bisa acak (dibangun di ruang yang lebih besar sesuai). Kedua, seorang Bayesian (khususnya) mungkin menemukan jawaban ini sedikit membingungkan karena model statistik Bayesian sering dapat dilihat sebagai model probabilitas tunggal pada ruang produk yang sesuai

Ω \times Θ

$\Omega \times \Theta$

— kardinal

@ung Ini pertanyaan yang lebih terkait dengan teori ukuran. Mengenai pertanyaan pertama Anda,

memang didefinisikan melalui CDF. Sekarang, interpretasi

adalah yang sulit karena, secara formal,

berarti

, maka

bukan nilai yang dapat diamati.

adalah aljabar

yang merupakan pra-gambar dari Borel

aljabar di bawah

P

${\mathbb P}$

Ω

$\Omega$

P (X \leq x)

${\mathbb P}(X\leq x)$

P (ω \in Ω : X (ω) \leq x)

${\mathbb P}(\omega\in\Omega: X(\omega)\leq x)$

Ω

$\Omega$

F

${\mathcal F}$

σ -

$\sigma-$

σ -

$\sigma-$

X

$X$ , sekali lagi ini tidak dapat diamati. Saya tidak yakin bagaimana menjelaskan ini di tingkat intuitif.

@ung

tergantung pada aplikasi ; itu tidak ditentukan oleh teori. Sebagai contoh,

bisa menjadi seperangkat gerakan Brown yang menggambarkan harga derivatif keuangan dan

bisa menjadi nilai yang diperoleh pada waktu yang tetap

. Di aplikasi lain

bisa berupa satu set orang dan

bisa menjadi panjang lengan mereka. Secara umum,

adalah model matematika dari objek fisik studi dan

adalah properti numerik dari objek tersebut.

adalah himpunan peristiwa yang mungkin: situasi-situasi yang ingin kita anggap sebagai probabilitas.

Ω

$\Omega$

Ω

$\Omega$

X

$X$

t

$t$

Ω

$\Omega$

X

$X$

Ω

$\Omega$

X

$X$

F

$\mathcal{F}$

— whuber

@gung

adalah aljabar sigma : ini adalah kumpulan himpunan bagian ("acara"). Dalam aplikasi keuangan, ini adalah serangkaian sejarah harga; dalam aplikasi pengukuran lengan, acara akan menjadi set orang. Kami dapat membicarakan ini lebih banyak jika Anda ingin di ruang obrolan.

F

$\mathcal{F}$

— whuber