Probabilitas persimpangan dari beberapa sampel populasi yang sama

10

Berikut ini contohnya:

Saya memiliki populasi 10.000 item. Setiap item memiliki id unik.
Saya secara acak memilih 100 item dan mencatat id
Saya memasukkan 100 item ke dalam populasi
Saya secara acak mengambil 100 item lagi, mencatat id dan ganti.
Secara total, saya ulangi sampling acak ini sebanyak 5 kali

Berapa probabilitas bahwa jumlah $X$ item muncul di semua 5 sampel acak?

Saya tidak terlalu berpengalaman dalam statistik. Apakah ini benar untuk $X = 10$ ?

Untuk setiap pengambilan sampel, jumlah kemungkinan kombinasi 100 item dari 10.000 adalah ${\rm binom}(10000, 100)$
Dari semua kemungkinan kombinasi 100 item, kombinasi ${\rm binom}(9990, 90) * {\rm binom}(100, 10)$ mengandung 10 item spesifik
Peluang memiliki 10 item spesifik adalah $({\rm binom}(9990, 90) * {\rm binom}(100, 10)) / {\rm binom}(10000, 100)$
Probabilitas yang dihitung dengan kekuatan 5 akan mewakili 5 sampel independen.

Jadi intinya kita hanya menghitung 5 probabilitas hipergeometrik independen dan kemudian mengalikannya bersama? Saya merasa seperti kehilangan langkah di suatu tempat.

probability hypergeometric

— dasmon
sumber

3

Jika Anda mengulangi sesuatu sekali, itu berarti Anda melakukannya dua kali dalam semua. Tidak mengulangi sesuatu 5 kali menyiratkan Anda melakukannya 6 kali?

— Glen_b -Reinstate Monica

3

Hitung peluang secara rekursif.

Misalkan menjadi probabilitas bahwa nilai yang tepat , , dipilih di semua penarikan item independen (tanpa penggantian) dari populasi anggota. (Mari kita pertahankan dan tetap selama analisis sehingga mereka tidak harus disebutkan secara eksplisit.) $p_s(x)$ $x$ $0 \le x \le k$ $s\ge 1$ $k$ $n \ge k \gt 0$ $n$ $k$

Misalkan adalah probabilitas bahwa jika nilai-nilai tepat dipilih pada draw pertama, maka dari mereka dipilih pada draw terakhir. Lalu karena ada $p_s(x\mid y)$ $y$ $s-1$ $x \le y$ himpunan bagian darielemen darielemen, dan $\binom{y}{x}$ $x$ $y$ himpunan bagian dari elementersisadipilih secara terpisah darianggota populasilainnya, $\binom{n-y}{k-x}$ $k-x$ $n-y$

{hal}_{s} (x ∣ y) = \frac{(\binom{y}{x}) (\binom{n - y}{k - x})}{(\binom{n}{k})} .

$p_s(x\mid y) = \frac{\binom{y}{x}\binom{n-y}{k-x}}{ \binom{n}{k}}.$

Hukum probabilitas total menegaskan

{hal}_{s} (x) = \sum_{y = x}^{k} {hal}_{s} (x ∣ y) {hal}_{s - 1} (y) .

$p_s(x) = \sum_{y=x}^k p_s(x\mid y) p_{s-1}(y).$

Untuk , ini merupakan kepastian bahwa : ini adalah distribusi awal. $s=1$ $x=k$

Perhitungan total yang diperlukan untuk mendapatkan distribusi penuh naik melalui pengulangan adalah . Tidak hanya itu cukup cepat, algoritme juga mudah. Salah satu jebakan yang menunggu programmer tidak waspada adalah bahwa probabilitas ini bisa menjadi perhitungan floating-point yang sangat kecil dan underflow. Implementasi berikut menghindari ini dengan menghitung nilai-nilai dalam kolom dari sebuah array. $s$ $O(k^2 s)$ R $\log(p_s(x))$ $1, 2, \ldots, s$

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

Jawaban atas pertanyaan tersebut diperoleh dengan membiarkan , dan . $s=5,$ $n=10000=10^4$ $k=100=10^2$ Outputnya adalah array , tetapi sebagian besar jumlahnya sangat kecil sehingga kita dapat fokus pada sangat kecil . Berikut adalah empat baris pertama yang sesuai dengan : $101\times 5$ $x$ $x=0,1,2,3$

p(5, 1e4, 1e2)[1:4, ]

Outputnya adalah

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

Nilai label baris sedangkan nilai label kolom. Kolom 5 menunjukkan kemungkinan bahwa satu elemen muncul di semua lima sampel adalah sangat kecil (sekitar satu dalam sejuta) dan pada dasarnya tidak ada kemungkinan bahwa dua atau lebih elemen muncul di kelima sampel. $x$ $s$

Jika Anda ingin melihat seberapa kecil peluang ini, lihat logaritma mereka. Basis 10 nyaman dan kami tidak membutuhkan banyak digit:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

Output memberitahu kita berapa banyak nol setelah titik desimal:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0

Angka di baris atas adalah nilai . Misalnya, peluang tepat tiga nilai muncul di semua lima sampel ditemukan oleh komputasi , memberikan $x$ exp(u[4]) dan memang ini memiliki angka nol sebelum angka signifikan pertama. Sebagai tanda centang, nilai terakhir adalah versi bulat dari . $0.000\,000\,000\,000\,000\,000\,1434419\ldots$ $18$ $967.0$ $967.26$ (yang menghitung kemungkinan bahwa sampel pertama muncul kembali dalam empat sampel berikutnya) sama dengan $\binom{10000}{100}^{-4}$ $10^{-967.26}.$

— whuber
sumber

0

Saya hanya mengalami masalah yang sama dan, meskipun saya juga tidak tahu apakah ini solusi yang tepat, mendekatinya seperti ini:

Anda tertarik terjadinya item dalam 5 sampel á item dari item yang total. Anda bisa memikirkan sebuah guci dengan bola putih dan bola hitam. bola dikeluarkan dan adalah probabilitas bahwa Anda memiliki semua bola putih di set Anda. Jika Anda melakukan ini kali (secara independen), saya akan melipatgandakannya: . $X$ $100$ $10,000$ $X$ $10,000-X$ $100$ $p_h$ $X$ $5$ $p = {p_h}^5$

$p_h$ $5$ $5$ $p = {5\choose 5}{p_h}^5 (1-{p_h})^{5-5} = {p_h}^5$

— Hans
sumber

0

Berapa probabilitas bahwa jumlah X $X$

$X$ $X$ $X$ $X$ $X$ $P = \frac{{X \choose X}{10000-X \choose 100-X}}{10000 \choose 100}$ $P^5$

$X$ $10000 \choose X$ $X$ ${10000 \choose X} P^5$

— Hao Ye
sumber

x

$x$

Saya tidak ingat, seperti 3 tahun yang lalu, tetapi mungkin X yang sama seperti pada pertanyaan?

— Hao Ye

X = 0

$X=0$

1

$1$