Versi singkatnya adalah bahwa distribusi Beta dapat dipahami sebagai representasi distribusi probabilitas - yaitu, ia mewakili semua nilai kemungkinan probabilitas ketika kita tidak tahu apa probabilitas itu. Inilah penjelasan intuitif favorit saya tentang ini:
Siapa pun yang mengikuti baseball terbiasa dengan rata-rata memukul - hanya berapa kali seorang pemain mendapat pukulan basis dibagi dengan berapa kali ia naik ke atas kelelawar (jadi itu hanya persentase antara 0
dan 1
). .266
secara umum dianggap sebagai rata-rata pukulan rata-rata, sedangkan .300
dianggap sangat baik.
Bayangkan kita memiliki pemain baseball, dan kita ingin memprediksi apa yang akan menjadi rata-rata musim-panjangnya. Anda mungkin mengatakan kami hanya bisa menggunakan rata-rata pukulannya sejauh ini - tetapi ini akan menjadi ukuran yang sangat buruk pada awal musim! Jika seorang pemain naik ke kelelawar sekali dan mendapat satu, rata-rata pukulannya singkat 1.000
, sementara jika dia memukul keluar, rata-rata pukulannya adalah 0.000
. Tidak akan jauh lebih baik jika Anda naik ke kelelawar lima atau enam kali - Anda bisa mendapatkan garis keberuntungan dan mendapatkan rata-rata 1.000
, atau garis tidak beruntung dan mendapatkan rata-rata 0
, yang keduanya bukan merupakan prediktor jarak jauh yang baik tentang bagaimana Anda akan kelelawar musim itu.
Mengapa rata-rata pukulan Anda di beberapa hit pertama bukan prediktor yang baik dari rata-rata pukulan Anda yang sebenarnya? Ketika kesalahan pertama seorang pemain adalah strikeout, mengapa tidak ada yang meramalkan bahwa ia tidak akan pernah mendapatkan hit sepanjang musim? Karena kita masuk dengan harapan sebelumnya. Kita tahu bahwa dalam sejarah, sebagian besar rata-rata batting selama satu musim telah melayang di antara sesuatu seperti .215
dan .360
, dengan beberapa pengecualian yang sangat langka di kedua sisi. Kita tahu bahwa jika seorang pemain mendapat beberapa serangan berturut-turut di awal, itu mungkin mengindikasikan dia akan berakhir sedikit lebih buruk daripada rata-rata, tetapi kita tahu dia mungkin tidak akan menyimpang dari jarak itu.
Mengingat masalah rata-rata pemukulan kami, yang dapat diwakili dengan distribusi binomial (serangkaian keberhasilan dan kegagalan), cara terbaik untuk mewakili ekspektasi-ekspektasi sebelumnya ini (apa yang kami sebut dalam statistik sebelumnya ) adalah dengan distribusi Beta - katanya, sebelum kita melihat pemain melakukan pukulan pertamanya, kira-kira perkiraan rata-rata pukulannya. Domain dari distribusi Beta adalah (0, 1)
, seperti halnya probabilitas, jadi kita sudah tahu bahwa kita berada di jalur yang benar - tetapi kesesuaian Beta untuk tugas ini jauh melampaui itu.
Kami berharap bahwa rata-rata pukulan pemain selama musim akan kemungkinan besar ada .27
, tetapi itu bisa berkisar dari .21
sampai .35
. Ini dapat direpresentasikan dengan distribusi Beta dengan parameter dan β = 219 :α = 81β= 219
curve(dbeta(x, 81, 219))
Saya datang dengan parameter ini karena dua alasan:
- Mean adalah αα + β= 8181 + 219= .270
- Seperti yang dapat Anda lihat di plot, distribusi ini hampir seluruhnya berada dalam
(.2, .35)
- kisaran wajar untuk rata-rata pukulan.
Anda bertanya apa yang direpresentasikan oleh sumbu x dalam plot kepadatan distribusi beta - ini mewakili rata-rata batting-nya. Jadi perhatikan bahwa dalam kasus ini, tidak hanya sumbu y probabilitas (atau lebih tepatnya kepadatan probabilitas), tetapi sumbu x juga (rata-rata batting hanya probabilitas pukulan, toh)! Distribusi Beta mewakili distribusi probabilitas probabilitas .
Tapi inilah mengapa distribusi Beta sangat tepat. Bayangkan pemain mendapat satu pukulan. Rekornya untuk musim ini adalah sekarang 1 hit; 1 at bat
. Kami kemudian harus memperbarui probabilitas kami - kami ingin menggeser seluruh kurva ini hanya sedikit untuk mencerminkan informasi baru kami. Sementara matematika untuk membuktikan ini sedikit terlibat ( ditunjukkan di sini ), hasilnya sangat sederhana . Distribusi Beta yang baru adalah:
Beta ( α0+ hit , β0+ rindu )
Di mana dan β 0 adalah parameter yang kita mulai dengan -yaitu, 81 dan 219. Jadi, dalam hal ini, α telah meningkat sebesar 1 (satu pukulannya), sementara β belum meningkat sama sekali (belum ada yang ketinggalan). Itu berarti distribusi baru kami adalah Beta ( 81 + 1 , 219 ) , atau:α0β0αβBeta (81+1,219 )
curve(dbeta(x, 82, 219))
Perhatikan bahwa itu hampir tidak berubah sama sekali - perubahan itu memang tidak terlihat oleh mata telanjang! (Itu karena satu pukulan tidak benar-benar berarti apa-apa).
Beta (81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
Perhatikan bahwa kurva sekarang lebih tipis dan bergeser ke kanan (rata-rata batting lebih tinggi) dari dulu - kita memiliki perasaan yang lebih baik tentang rata-rata batting pemain.
αα + β81 + 10081 + 100 + 219 + 200= .303100100 + 200= 0,3338181 + 219= .270
Dengan demikian, distribusi Beta adalah yang terbaik untuk mewakili distribusi probabilitas probabilitas - kasus di mana kita tidak tahu apa probabilitas di muka, tetapi kami memiliki beberapa dugaan yang masuk akal.