Saya memiliki satu set data yang merinci banyak game kriket (beberapa ribu). Dalam kriket "bowler" berulang kali melempar bola pada suksesi "batsmen". Bowler sedang mencoba untuk mendapatkan batsman "keluar". Dalam hal ini sangat mirip dengan pitcher dan batter di baseball.
Jika saya mengambil seluruh dataset dan membagi jumlah total bola yang membuat batsman keluar dengan jumlah total bola bowled, saya dapat melihat bahwa saya akan memiliki kemungkinan rata-rata seorang bowler mengeluarkan batsman - itu akan menjadi sekitar 0,03 ( semoga saya tidak salah?)
Apa yang saya tertarik adalah apa yang bisa saya lakukan untuk mencoba dan menghitung probabilitas batsman tertentu yang dicoret oleh bowler tertentu pada bola berikutnya.
Dataset cukup besar sehingga setiap bowler yang diberikan akan memagari ribuan bola ke berbagai batsmen. Jadi saya percaya bahwa saya hanya bisa membagi jumlah belokan yang dicapai oleh pemain bola dengan jumlah bola yang dia lewati untuk menghitung probabilitas baru bagi pemain bowler tertentu yang keluar dari bola berikutnya.
Masalah saya adalah dataset tidak cukup besar untuk menjamin bahwa bowler yang diberikan telah bowled sejumlah bola signifikan secara statistik pada setiap batsmen yang diberikan. Jadi, jika saya tertarik untuk menghitung kemungkinan keluar untuk bowler tertentu menghadapi batsmen tertentu, saya tidak berpikir ini tidak dapat dilakukan dengan cara sederhana yang sama.
Pertanyaan saya adalah apakah pendekatan berikut ini valid:
Di seluruh dataset kemungkinan bola keluar adalah 0,03.
Jika saya menghitung bahwa rata-rata bowler A memiliki kemungkinan untuk keluar dari 0,06 (yaitu dua kali lebih mungkin dari bowler rata-rata),
dan rata-rata batsman B memiliki kemungkinan untuk keluar dari 0,01 (sepertiga kemungkinan sebagai rata-rata batsmen),
apakah valid untuk mengatakan probabilitas bahwa batsman tertentu keluar pada bola di sebelah bowler spesifik akan menjadi 0,06 * (0,01 / 0,03) = 0,02?