Apakah ada perbedaan antara Frequentist dan Bayesian pada definisi Kemungkinan?


21

Beberapa sumber mengatakan fungsi kemungkinan bukan probabilitas kondisional, beberapa mengatakan itu. Ini sangat membingungkan saya.

Menurut sebagian besar sumber yang saya lihat, kemungkinan distribusi dengan parameter θ , harus merupakan produk dari fungsi massa probabilitas yang diberikansampel:x inxsaya

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

Misalnya dalam Regresi Logistik, kami menggunakan algoritma optimisasi untuk memaksimalkan fungsi kemungkinan (Estimasi Kemungkinan Maksimum) untuk mendapatkan parameter optimal dan karenanya model LR akhir. Mengingat sampel pelatihan, yang kami anggap independen satu sama lain, kami ingin memaksimalkan produk probabilitas (atau fungsi massa probabilitas gabungan). Ini sepertinya cukup jelas bagi saya.n

Menurut Hubungan antara: Kemungkinan, probabilitas bersyarat dan tingkat kegagalan , "kemungkinan bukan probabilitas dan itu bukan probabilitas kondisional". Disebutkan juga, "kemungkinan adalah probabilitas bersyarat hanya dalam pemahaman Bayesian tentang kemungkinan, yaitu, jika Anda menganggap bahwa adalah variabel acak."θ

Saya membaca tentang berbagai perspektif dalam menangani masalah belajar antara frequentist dan Bayesian.

Menurut sebuah sumber, untuk inferensi Bayesian, kita memiliki priori , kemungkinanP ( X | θ )P(θ)P(X|θ) , dan kami ingin mendapatkan posterior , menggunakan teorema Bayesian:P(θ|X)

P(θ|X)=P(X|θ)×P(θ)P(X)

Saya tidak terbiasa dengan Bayesian Inference. Kenapa yang merupakan distribusi data yang diamati tergantung pada parameternya, juga disebut kemungkinannya? Di Wikipedia , katanya kadang-kadang ditulis . Apa artinya ini?P(X|θ)L(θ|X)=p(X|θ)

apakah ada perbedaan antara definisi Frequentist dan Bayesian tentang kemungkinan ??

Terima kasih.


EDIT:

Ada berbagai cara menafsirkan teorema Bayes - interpretasi Bayesian dan interpretasi Frequentist (Lihat: teorema Bayes - Wikipedia ).


2
Dua sifat kunci kemungkinan adalah (a) bahwa ia merupakan fungsi untuk tertentu dan bukan sebaliknya, dan (b) hanya dapat diketahui hingga konstanta proporsionalitas positif. Ini bukan probabilitas (bersyarat atau tidak), karena tidak perlu menjumlahkan atau mengintegrasikan ke atas semuaX 1 θθX1θ
Henry

Jawaban:


24

Tidak ada perbedaan dalam definisi - dalam kedua kasus, fungsi kemungkinan adalah fungsi dari parameter yang sebanding dengan kepadatan sampel. Secara tegas kami tidak mensyaratkan bahwa kemungkinannya sama dengan kepadatan sampel; hanya perlu proporsional, yang memungkinkan penghapusan bagian multiplikasi yang tidak bergantung pada parameter.

Sedangkan kepadatan sampling ditafsirkan sebagai fungsi data, tergantung pada nilai parameter yang ditentukan, fungsi kemungkinan ditafsirkan sebagai fungsi parameter untuk vektor data tetap. Jadi dalam kasus standar data IID yang Anda miliki:

Lx(θ)i=1np(xi|θ).

Dalam statistik Bayesian, kami biasanya mengekspresikan teorema Bayes dalam bentuknya yang paling sederhana:

π(θ|x)π(θ)Lx(θ).

Ungkapan untuk teorema Bayes ini menekankan bahwa kedua elemen multilikatifnya adalah fungsi dari parameter, yang merupakan objek yang diminati dalam kerapatan posterior. (Hasil proporsionalitas ini sepenuhnya mendefinisikan aturan, karena posterior adalah kepadatan, dan ada konstanta pengali yang unik yang membuatnya berintegrasi menjadi satu.) Ketika Anda menunjukkan dalam pembaruan Anda, filosofi Bayesian dan frequentist memiliki struktur interpretif yang berbeda. Dalam paradigma frequentist, parameter umumnya diperlakukan sebagai "konstanta tetap" dan karenanya tidak dianggap sebagai ukuran probabilitas. Oleh karena itu, para frekuensi sering menolak anggapan distribusi sebelumnya atau posterior ke parameter (untuk diskusi lebih lanjut tentang perbedaan filosofis dan interpretatif ini, lihat misalnya, O'Neill 2009 ).


14

Fungsi kemungkinan didefinisikan secara independen dari atau sebelum - paradigma statistik yang digunakan untuk inferensi, sebagai fungsi, L ( θ ; x ) (atau L ( θ | x ) ), dari parameter θ , fungsi yang bergantung pada - atau diindeks oleh - pengamatan (s) x tersedia untuk inferensi ini. Dan juga secara implisit tergantung pada keluarga model probabilitas yang dipilih untuk mewakili variabilitas atau keacakan dalam data. Untuk nilai tertentu dari pasangan ( θ ,L(θ;x)L(θ|x)θx , nilai fungsi ini persissama dengan nilai kepadatan model pada x ketika diindeks dengan parameter θ . Yang sering diterjemahkan secara kasar sebagai "probabilitas data".(θ,x)xθ

Mengutip lebih banyak sumber otoritatif dan historis daripada jawaban sebelumnya di forum ini,

"Kita dapat membahas probabilitas kemunculan jumlah yang dapat diamati ... sehubungan dengan hipotesis apa pun yang mungkin disarankan untuk menjelaskan pengamatan ini. Kita tidak tahu apa-apa tentang probabilitas hipotesis ... [Kita] dapat memastikan kemungkinannya. hipotesis ... dengan perhitungan dari pengamatan: ... untuk berbicara tentang kemungkinan ... dari kuantitas yang dapat diamati tidak memiliki arti. " RA Fisher, Pada `` kemungkinan kesalahan '' dari koefisien korelasi yang disimpulkan dari sampel kecil . Metron 1, 1921, p.25

dan

"Apa yang dapat kita temukan dari sampel adalah kemungkinan nilai r tertentu, jika kita mendefinisikan kemungkinan sebagai kuantitas yang proporsional dengan probabilitas bahwa, dari populasi yang memiliki nilai r tertentu, sampel memiliki nilai observasi r , harus diperoleh. " RA Fisher, Pada `` kemungkinan kesalahan '' dari koefisien korelasi yang disimpulkan dari sampel kecil . Metron 1, 1921, hal.24

yang menyebutkan proporsionalitas yang menurut Jeffreys (dan saya) berlebihan:

"... kemungkinan, istilah yang mudah digunakan diperkenalkan oleh Profesor RA Fisher, meskipun dalam penggunaannya kadang-kadang dikalikan dengan faktor konstan. Ini adalah probabilitas pengamatan yang memberikan informasi asli dan hipotesis yang sedang dibahas." H. Jeffreys, Theory of Probability , 1939, p.28

Mengutip satu kalimat dari entri sejarah yang sangat baik ke topik oleh John Aldrich (Statistik Science, 1997):

"Fisher (1921, hlm. 24) menyusun ulang apa yang telah ditulisnya pada tahun 1912 tentang probabilitas terbalik, membedakan antara operasi matematika yang dapat dilakukan pada kepadatan probabilitas dan kemungkinan: kemungkinan bukan '' elemen diferensial, '' tidak dapat diintegrasikan . " J. Aldrich, RA Fisher dan Pembuatan Kemungkinan Maksimum 1912 - 1922 , 1997 , hal.9

xθθxθθθπ()XxL(θ|)θ(θ,x)

π(θ)×L(θ|x)
θθx
π(θ|x)π(θ)×L(θ|x)
posteriorprior×likelihood

Catatan: Saya menemukan perbedaan yang dibuat dalam pengantar halaman Wikipedia tentang fungsi kemungkinan antara frequentist dan kemungkinan Bayesian membingungkan dan tidak perlu, atau hanya salah karena sebagian besar ahli statistik Bayesia saat ini tidak menggunakan kemungkinan sebagai pengganti kemungkinan posterior. Demikian pula, "perbedaan" yang ditunjukkan di halaman Wikipedia tentang Bayes Theorem terdengar lebih membingungkan daripada yang lain, karena teorema ini adalah pernyataan probabilitas tentang perubahan pengondisian, terlepas dari paradigma atau dari makna pernyataan probabilitas. ( Menurut saya , itu lebih merupakan definisi daripada teorema!)


1

Sebagai tambahan kecil:

Nama "Kemungkinan" sepenuhnya menyesatkan, karena ada banyak arti yang berbeda. Tidak hanya bahasa "normal", tetapi juga dalam statistik. Saya dapat memikirkan setidaknya tiga ekspresi yang berbeda, tetapi bahkan terkait yang semuanya disebut Kemungkinan; bahkan di buku teks.

Yang mengatakan, ketika mengambil definisi multiplikatif dari Kemungkinan, tidak ada di dalamnya yang akan mengubahnya menjadi segala kemungkinan dalam arti definisi (misalnya aksiomatik). Ini adalah angka yang bernilai nyata. Anda dapat melakukan banyak hal untuk menghitung atau mengaitkannya dengan probabilitas (mengambil rasio, menghitung prior dan posteriors, dll.) - tetapi dengan sendirinya itu tidak memiliki arti dalam hal probabilitas.

Jawabannya kurang lebih sudah usang oleh jawaban yang jauh lebih informatif dan komprehensif dari Xi'an. Tetapi atas permintaan, beberapa definisi buku teks tentang Peluang:

  • L(x;θ)
  • θ
  • rasio nilai kemungkinan untuk prior yang berbeda (misalnya dalam tugas klasifikasi) ... dan lebih lagi arti yang berbeda yang bisa dicoba untuk atribut pada (ab) penggunaan elemen-elemen tersebut.

1
Ini akan menjadi jawaban yang jauh lebih baik jika Anda dapat menambahkan contoh / referensi karena saya dapat memikirkan setidaknya tiga yang berbeda, tetapi bahkan ekspresi terkait yang semuanya disebut Likelihood; bahkan di buku teks .
kjetil b halvorsen
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.