Apa intuisi di balik distribusi beta?


438

Penafian: Saya bukan ahli statistik tetapi insinyur perangkat lunak. Sebagian besar pengetahuan saya dalam statistik berasal dari pendidikan mandiri, jadi saya masih memiliki banyak celah dalam memahami konsep-konsep yang mungkin tampak sepele bagi orang lain di sini. Jadi saya akan sangat berterima kasih jika jawaban termasuk istilah yang kurang spesifik dan penjelasan lebih lanjut. Bayangkan Anda berbicara dengan nenek Anda :)

Saya mencoba untuk memahami sifat dari distribusi beta - apa yang harus digunakan dan bagaimana untuk menafsirkannya dalam setiap kasus. Jika kita berbicara tentang, katakanlah, distribusi normal, orang dapat menggambarkannya sebagai waktu kedatangan kereta: paling sering tiba tepat pada waktunya, sedikit lebih jarang yaitu 1 menit lebih awal atau 1 menit terlambat dan sangat jarang datang dengan perbedaan. 20 menit dari rata-rata. Distribusi seragam menjelaskan, khususnya, peluang setiap tiket dalam lotre. Distribusi binomial dapat digambarkan dengan membalik koin dan sebagainya. Tapi ada semacam penjelasan intuitif dari distribusi beta ?

Katakanlah, dan . Distribusi beta dalam hal ini terlihat seperti ini (dibuat dalam R):α=.99B ( α , β )β=.5B(α,β)

masukkan deskripsi gambar di sini

Tapi apa sebenarnya artinya? Sumbu Y jelas merupakan kepadatan probabilitas, tetapi apa yang ada pada sumbu X?

Saya akan sangat menghargai penjelasan apa pun, baik dengan contoh ini atau yang lain.


13
Sumbu y bukan probabilitas (yang jelas, karena menurut definisi probabilitas tidak dapat berada di luar interval , tetapi plot ini meluas hingga 50 dan - pada prinsipnya - ke ). Ini adalah kepadatan probabilitas : probabilitas per unit x (dan Anda telah menggambarkan x sebagai laju). [0,1]50xx
whuber

4
@whuber: yeah, saya mengerti apa itu PDF - itu hanya kesalahan dalam deskripsi saya. Terima kasih atas catatan yang valid!
Berteman

1
Saya akan mencoba dan menemukan referensi tapi aku tahu beberapa bentuk yang lebih aneh untuk distribusi Beta yang umum dengan bentuk memiliki aplikasi seperti fisika. Selain itu, Anda dapat mencocokkannya dengan data ahli (min, mode, maks) di lingkungan yang miskin data dan seringkali lebih baik daripada menggunakan distribusi Triangular (sayangnya sering digunakan oleh IEs). a+(ba)Beta(α1,α2)
SecretAgentMan

Anda jelas tidak pernah bepergian dengan perusahaan kereta api Deutsche Bahn. Anda akan kurang optimis.
Henning

Jawaban:


622

Versi singkatnya adalah bahwa distribusi Beta dapat dipahami sebagai representasi distribusi probabilitas - yaitu, ia mewakili semua nilai kemungkinan probabilitas ketika kita tidak tahu apa probabilitas itu. Inilah penjelasan intuitif favorit saya tentang ini:

Siapa pun yang mengikuti baseball terbiasa dengan rata-rata memukul - hanya berapa kali seorang pemain mendapat pukulan basis dibagi dengan berapa kali ia naik ke atas kelelawar (jadi itu hanya persentase antara 0dan 1). .266secara umum dianggap sebagai rata-rata pukulan rata-rata, sedangkan .300dianggap sangat baik.

Bayangkan kita memiliki pemain baseball, dan kita ingin memprediksi apa yang akan menjadi rata-rata musim-panjangnya. Anda mungkin mengatakan kami hanya bisa menggunakan rata-rata pukulannya sejauh ini - tetapi ini akan menjadi ukuran yang sangat buruk pada awal musim! Jika seorang pemain naik ke kelelawar sekali dan mendapat satu, rata-rata pukulannya singkat 1.000, sementara jika dia memukul keluar, rata-rata pukulannya adalah 0.000. Tidak akan jauh lebih baik jika Anda naik ke kelelawar lima atau enam kali - Anda bisa mendapatkan garis keberuntungan dan mendapatkan rata-rata 1.000, atau garis tidak beruntung dan mendapatkan rata-rata 0, yang keduanya bukan merupakan prediktor jarak jauh yang baik tentang bagaimana Anda akan kelelawar musim itu.

Mengapa rata-rata pukulan Anda di beberapa hit pertama bukan prediktor yang baik dari rata-rata pukulan Anda yang sebenarnya? Ketika kesalahan pertama seorang pemain adalah strikeout, mengapa tidak ada yang meramalkan bahwa ia tidak akan pernah mendapatkan hit sepanjang musim? Karena kita masuk dengan harapan sebelumnya. Kita tahu bahwa dalam sejarah, sebagian besar rata-rata batting selama satu musim telah melayang di antara sesuatu seperti .215dan .360, dengan beberapa pengecualian yang sangat langka di kedua sisi. Kita tahu bahwa jika seorang pemain mendapat beberapa serangan berturut-turut di awal, itu mungkin mengindikasikan dia akan berakhir sedikit lebih buruk daripada rata-rata, tetapi kita tahu dia mungkin tidak akan menyimpang dari jarak itu.

Mengingat masalah rata-rata pemukulan kami, yang dapat diwakili dengan distribusi binomial (serangkaian keberhasilan dan kegagalan), cara terbaik untuk mewakili ekspektasi-ekspektasi sebelumnya ini (apa yang kami sebut dalam statistik sebelumnya ) adalah dengan distribusi Beta - katanya, sebelum kita melihat pemain melakukan pukulan pertamanya, kira-kira perkiraan rata-rata pukulannya. Domain dari distribusi Beta adalah (0, 1), seperti halnya probabilitas, jadi kita sudah tahu bahwa kita berada di jalur yang benar - tetapi kesesuaian Beta untuk tugas ini jauh melampaui itu.

Kami berharap bahwa rata-rata pukulan pemain selama musim akan kemungkinan besar ada .27, tetapi itu bisa berkisar dari .21sampai .35. Ini dapat direpresentasikan dengan distribusi Beta dengan parameter dan β = 219 :α=81β=219

curve(dbeta(x, 81, 219))

Beta (81, 219)

Saya datang dengan parameter ini karena dua alasan:

  • Mean adalah αα+β=8181+219=.270
  • Seperti yang dapat Anda lihat di plot, distribusi ini hampir seluruhnya berada dalam (.2, .35)- kisaran wajar untuk rata-rata pukulan.

Anda bertanya apa yang direpresentasikan oleh sumbu x dalam plot kepadatan distribusi beta - ini mewakili rata-rata batting-nya. Jadi perhatikan bahwa dalam kasus ini, tidak hanya sumbu y probabilitas (atau lebih tepatnya kepadatan probabilitas), tetapi sumbu x juga (rata-rata batting hanya probabilitas pukulan, toh)! Distribusi Beta mewakili distribusi probabilitas probabilitas .

Tapi inilah mengapa distribusi Beta sangat tepat. Bayangkan pemain mendapat satu pukulan. Rekornya untuk musim ini adalah sekarang 1 hit; 1 at bat. Kami kemudian harus memperbarui probabilitas kami - kami ingin menggeser seluruh kurva ini hanya sedikit untuk mencerminkan informasi baru kami. Sementara matematika untuk membuktikan ini sedikit terlibat ( ditunjukkan di sini ), hasilnya sangat sederhana . Distribusi Beta yang baru adalah:

Beta(α0+hits,β0+misses)

Di mana dan β 0 adalah parameter yang kita mulai dengan -yaitu, 81 dan 219. Jadi, dalam hal ini, α telah meningkat sebesar 1 (satu pukulannya), sementara β belum meningkat sama sekali (belum ada yang ketinggalan). Itu berarti distribusi baru kami adalah Beta ( 81 + 1 , 219 ) , atau:α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

masukkan deskripsi gambar di sini

Perhatikan bahwa itu hampir tidak berubah sama sekali - perubahan itu memang tidak terlihat oleh mata telanjang! (Itu karena satu pukulan tidak benar-benar berarti apa-apa).

Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

masukkan deskripsi gambar di sini

Perhatikan bahwa kurva sekarang lebih tipis dan bergeser ke kanan (rata-rata batting lebih tinggi) dari dulu - kita memiliki perasaan yang lebih baik tentang rata-rata batting pemain.

αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270

Dengan demikian, distribusi Beta adalah yang terbaik untuk mewakili distribusi probabilitas probabilitas - kasus di mana kita tidak tahu apa probabilitas di muka, tetapi kami memiliki beberapa dugaan yang masuk akal.


5
@ teman: Senang itu membantu- Saya harap Anda mengikuti baseball (kalau tidak, saya ingin tahu apakah itu bisa dimengerti!)
David Robinson

11
Berikut adalah contoh serupa dari John Cook menggunakan peringkat penjual biner Amazon dengan jumlah ulasan yang berbeda. Diskusi memilih sebelumnya dalam komentar sangat mencerahkan: johndcook.com/blog/2011/09/27/bayesian-amazon/#comments
Dimitriy V. Masterov

4
α0=β0=1/2

5
+ Saya suka penjelasan Anda tentang bagaimana Anda memperbarui distribusi ketika Anda memiliki lebih banyak data.
Mike Dunlavey

2
@ user27997 Mereka memberikan rata-rata 0,27 yang diinginkan, dan standar deviasi yang kira-kira realistis untuk batting rata-rata (sekitar 0,025). Kebetulan, saya memberikan penjelasan tentang cara menghitung α dan β dari mean dan varian yang diinginkan di sini .
David Robinson

48

Sebuah distribusi Beta digunakan untuk memodelkan hal-hal yang memiliki rentang yang terbatas, seperti 0-1.

Contohnya adalah probabilitas keberhasilan dalam percobaan yang hanya memiliki dua hasil, seperti keberhasilan dan kegagalan. Jika Anda melakukan percobaan dalam jumlah terbatas, dan beberapa di antaranya berhasil, Anda dapat mewakili apa yang diceritakan oleh distribusi beta.

Contoh lain adalah statistik pesanan . Misalnya, jika Anda menghasilkan beberapa (misalnya 4) seragam 0,1 angka acak, dan mengurutkannya, berapakah distribusi yang ke-3?

nss>1Beta(s+1,(ns)+1)

Lebih lanjut tentang itu ...


41

(0,1)

U1Unn(0,1)U(1)U(n)(U1,,Un)U1UnU(1)=min(Ui)U(n)=max(Ui)U(k)Beta(k,n+1k)k=1,,n

Hasil ini menunjukkan bahwa distribusi Beta muncul secara alami dalam matematika, dan memiliki beberapa aplikasi menarik dalam matematika.


28

Ada dua motivasi utama:

Pertama, distribusi beta adalah konjugat sebelum distribusi Bernoulli. Itu berarti bahwa jika Anda memiliki probabilitas yang tidak diketahui seperti bias koin yang Anda perkirakan dengan membalik koin berulang, maka kemungkinan diinduksi pada bias yang tidak diketahui oleh urutan membalik koin adalah didistribusikan secara beta.

log(x)log(1x)x[0,1]x1,,xn

Distribusi beta tidak khusus untuk memodelkan hal-hal yang lebih dari [0,1] karena banyak distribusi dapat dipotong untuk dukungan itu dan lebih berlaku dalam banyak kasus.


23

masukkan deskripsi gambar di sini

Mari kita asumsikan penjual di beberapa situs web e-commerce menerima 500 peringkat di mana 400 di antaranya bagus dan 100 di antaranya buruk.

p

Kualitas naif dalam hal peringkat penjual adalah 80% karena 0,8 = 400 / 500. Tetapi kualitas "benar" dalam hal peringkat yang tidak kita ketahui.

p=77%

p

α=400+1β=100+1

p

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/


3
Terima kasih atas kontribusi anda! Saya bingung tentang sesuatu, meskipun: meskipun legenda histogram menyatakan mereka menunjukkan kepadatan beta , Anda tampaknya mengklaim ini juga menggambarkan hasil simulasi binomial ("seberapa sering itu terjadi dalam simulasi"). Tetapi keduanya adalah hal-hal yang berbeda, meskipun keduanya tampak cukup dekat dalam ilustrasi. (Itu konsekuensi dari mendekati normalitas Beta dengan parameter besar dan teorema Limit Pusat untuk distribusi Binomial.)
whuber

Itu poin yang bagus! Tapi saya tidak yakin bagaimana cara mengulanginya dengan benar. Jika saya hanya memplot histogram maka, tentu saja, Anda tidak akan melihat banyak kepadatan mengingat besarnya itu. Jadi ya, histogram sebenarnya saya kira tidak hanya diperkecil tetapi sebenarnya kepadatan (perkiraan) histogram asli. Mengingat jumlah berjalan saya juga bisa mencari tahu faktor dan skala turun secara linear tetapi akan terlihat hampir persis sama PLUS apa yang saya (sebenarnya) ingin membandingkan adalah kepadatan beta dengan kepadatan hasil simulasi ( kepadatan histogram asli).
Raffael

8

Sejauh ini sebagian besar jawaban mencakup alasan untuk RV Beta yang dihasilkan sebagai sebelumnya untuk proporsi sampel, dan satu jawaban cerdas telah menghubungkan RV RV dengan statistik pesanan.

Distribusi beta juga muncul dari hubungan sederhana antara dua Gamma (k_i, 1) RVs, i = 1,2 menyebutnya X dan Y. X / (X + Y) memiliki distribusi Beta.

Gamma RVs telah memiliki alasan mereka dalam memodelkan waktu kedatangan untuk acara independen, jadi saya tidak akan membahasnya karena ini bukan pertanyaan Anda. Tetapi "sebagian kecil waktu" yang dihabiskan menyelesaikan salah satu dari dua tugas yang dilakukan secara berurutan cocok untuk distribusi Beta.


1
+1 Terima kasih telah menunjukkan bahwa tentang menggunakan Gamma untuk membentuk distribusi Beta. Saya pernah mendengar bahwa jika Anda ingin menggeneralisasi Beta ke dalam Dirichlet, Anda cukup memasukkan lebih banyak Gammas ke dalam penyebut. Mungkin ahli statistik hanya tahu itu, tetapi bagi saya itu benar-benar berguna ketika melihat interval kepercayaan dari pengamatan kategoris.
Mike Dunlavey

4

Intuisi saya mengatakan bahwa itu "menimbang" proporsi keberhasilan saat ini " " dan proporsi kegagalan saat ini " (x(1x)f(x;α,β)=constantxα1(1x)β11/B(α,β)αβseperti "bobot" untuk kontribusi kegagalan. Anda memiliki ruang parameter dua dimensi (satu untuk kontribusi keberhasilan dan satu untuk kontribusi kegagalan) yang membuatnya agak sulit untuk dipikirkan dan dipahami.


3

Dalam contoh yang dikutip, parameternya adalah alpha = 81 dan beta = 219 dari tahun sebelumnya [81 hit dalam 300 pada kelelawar atau (81 dan 300 - 81 = 219)]

Saya tidak tahu apa yang mereka sebut asumsi sebelumnya dari 81 hit dan 219 out tetapi dalam bahasa Inggris, itulah asumsi a priori.

Perhatikan bagaimana saat musim berlangsung, kurva bergeser ke kiri atau kanan dan probabilitas modal bergeser ke kiri atau kanan tetapi masih ada kurva.

Saya ingin tahu apakah Laa dari Angka Besar akhirnya memegang dan mendorong rata-rata memukul kembali ke 0,270.

Untuk memperkirakan angka alfa dan beta secara umum orang akan mengambil jumlah lengkap dari kejadian sebelumnya (pada kelelawar), rata-rata pukulan seperti yang diketahui, dapatkan total hit (alfa), beta atau total keseluruhan dikurangi kegagalan) dan voila - Anda memiliki formula Anda. Kemudian, kerjakan data tambahan seperti yang ditunjukkan.


2

F(X)=tanh((x/p)n)

Omong-omong, ada apa jika Anda menghasilkan distribusi ukuran dari pengamatan mikroskopis dan Anda memiliki distribusi partikel dalam jumlah, dan tujuan Anda adalah bekerja dengan distribusi volume? Hampir wajib untuk mendapatkan distribusi asli dalam jumlah yang dibatasi di sebelah kanan. Jadi, transformasi lebih konsisten karena Anda yakin bahwa dalam distribusi volume baru tidak muncul mode apa pun, atau median atau ukuran sedang di luar interval yang sedang Anda kerjakan. Selain itu, Anda menghindari efek Greenland Afrika.

Transformasinya sangat mudah jika Anda memiliki bentuk reguler, yaitu bola atau prisma. Anda harus menambahkan tiga unit ke parameter alfa dari distribusi angka beta dan mendapatkan distribusi volume.


1
Selamat datang di situs ini. Apakah ini dimaksudkan sebagai jawaban untuk pertanyaan OP? Bisakah Anda mengklarifikasi bagaimana ini berkaitan dengan intuisi di balik distribusi beta?
gung

Harap edit untuk mengklarifikasi intuisi tentang distribusi beta.
Glen_b

1

Saya pikir tidak ada intuisi di balik distribusi beta! Distribusi beta hanyalah distribusi yang sangat fleksibel dengan rentang FIX! Dan untuk bilangan bulat a dan b bahkan lebih mudah untuk dihadapi. Juga banyak kasus khusus dari beta memiliki arti aslinya, seperti distribusi seragam. Jadi jika data perlu dimodelkan seperti ini, atau dengan sedikit lebih banyak fleksibilitas, maka beta adalah pilihan yang sangat baik.


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.