Melemparkan Balls ke dalam Bins, memperkirakan probabilitas yang lebih rendah

14

Ini bukan pekerjaan rumah, meskipun sepertinya. Setiap referensi diterima. :-)

Skenario: Ada bola yang $n$ berbeda dan nampan yang $n$ berbeda (dilabeli dari 1 ke $n$ , dari kiri ke kanan). Setiap bola dilemparkan secara independen dan seragam ke dalam tempat sampah. Biarkan $f(i)$ menjadi jumlah bola di $i$ ~ bin th. Biarkan $E_i$ menunjukkan acara berikut.

Untuk setiap $j\le i$ , $\sum_{k\le j}{f(k)} \le j-1$

Artinya, pertama sampah (paling kiri sampah) mengandung kurang dari bola, untuk setiap . $j$ $j$ $j$ $j\le i$

Pertanyaan: Perkirakan , dalam hal ? Ketika menjadi tak terhingga. Lowerbound lebih disukai. Saya kira formula yang mudah dihitung tidak ada. $\sum_{i<n}{Pr(E_i)}$ $n$ $n$

Contoh: . Catatan . $\lim\limits_{n\to\infty}{Pr(E_1)}=\lim\limits_{n\to\infty}{(\frac{n-1}{n})^n}=\frac{1}{e}$ $Pr(E_n)=0$

Tebakan saya: Saya kira , ketika menjadi tak terhingga. Saya dianggap yang pertama item dalam penjumlahan. $\sum_{i<n}{Pr(E_i)}=\ln n$ $n$ $\ln n$

reference-request co.combinatorics pr.probability

— Peng Zhang
sumber

1

Sepertinya sebuah subcase dari masalah ulang tahun ..

— Gopi

@ Gopi Saya tidak dapat meyakinkan diri saya bahwa pertanyaan saya adalah masalah ulang tahun yang terbatas. Bisakah Anda menjelaskannya secara eksplisit? Terima kasih banyak. Catatan: kendala adalah pada jumlah bola di pertama

j

$j$ sampah, bukan pada jumlah sampah di bin tertentu.

— Peng Zhang

Sungguh sayang sekali, setelah membaca ulang artikel wikipedia tentang masalah ulang tahun saya sadar saya sedang mempertimbangkan masalah lain yang diadaptasi dari masalah Ulang Tahun.

— Gopi

2

Beberapa ide yang salah ... Jadi pikirkan cara menyandikan keadaan: Baca formulir sampah dari kiri ke kanan. Jika nampan pertama memiliki bola i, hasilkan urutan i, diikuti oleh 0. Lakukan ini untuk semua nampan dari kiri ke kanan. Kodisi Anda tampaknya adalah bahwa Anda tertarik pada yang terbesar sehingga string biner ini (yang memiliki nol dan nol) untuk pertama kali berisi lebih banyak daripada nol. Sekarang, mari kita membuat lompatan nasib dan menghasilkan 0 dan 1 dengan sama probabilitas

1 / 2

$1/2$ . (Ini mungkin omong kosong) Masalah ini terkait dengan angka Catalan dan kata-kata Dyck. Dan...???

— Sariel Har-Peled

4

Saya tidak melihat dalam definisi Anda mengapa bola itu berbeda. Juga, intepetasi string memperhitungkan fakta bahwa tempat sampah berbeda.

— Sariel Har-Peled

11

EDIT: (2014-08-08) Seperti yang ditunjukkan Douglas Zare dalam komentar, argumen di bawah ini, khususnya 'jembatan' antara dua probabilitas, salah. Saya tidak melihat cara langsung untuk memperbaikinya. Aku akan meninggalkan jawaban di sini karena saya percaya masih menyediakan beberapa intuisi, tapi tahu bahwa

Pr (E_{m}) \leq \prod_{l = 1}^{m} Pr (F_{l})

$\Pr(E_m) \le \prod_{l=1}^{m}\Pr(F_l)$ adalah tidak benar secara umum.

Ini tidak akan menjadi jawaban yang lengkap tetapi mudah-mudahan itu akan memiliki konten yang cukup sehingga Anda atau seseorang yang lebih berpengetahuan daripada saya bisa menyelesaikannya.

Pertimbangkan probabilitas tepat bola jatuh ke pertama (dari ) sampah: $k$ $l$ $n$

(\binom{n}{k}) {(\frac{l}{n})}^{k} {(\frac{n - l}{n})}^{n - k}

$\binom{n}{k} \left( \frac{l}{n} \right)^k \left(\frac{n-l}{n} \right)^{n-k}$

Sebut probabilitas bahwa kurang dari bola jatuh ke dalam bin pertama : $l$ $l$ $F_l$

Pr (F_{l}) = \sum_{k = 0}^{l - 1} (\binom{n}{k}) {(\frac{l}{n})}^{k} {(\frac{n - l}{n})}^{n - k}

$\Pr(F_l) = \sum_{k=0}^{l-1} \binom{n}{k} \left( \frac{l}{n} \right)^k \left( \frac{n-l}{n} \right)^{n-k}$

Probabilitas bahwa acara tersebut, , di atas terjadi kurang dari jika kita menganggap masing-masing peristiwa yang terjadi secara independen dan sekaligus. Ini memberi kita jembatan antara keduanya: $E_l$ $F_l$

\begin{array}{lll} Pr (E_{m}) & \leq & \prod_{l = 1}^{m} Pr (F_{l}) \\ = & \prod_{l = 1}^{m} (\sum_{k = 1}^{l - 1} (\binom{n}{k}) ({\frac{l}{n}}^{k}) {(\frac{n - l}{n})}^{n - k}) \\ = & \prod_{l = 1}^{m} F (l - 1; n, \frac{l}{n}) \end{array}

$\begin{array}{lll} \Pr(E_m) & \le & \prod_{l=1}^m \Pr(F_l) \\ & = & \prod_{l=1}^m \left( \sum_{k=1}^{l-1} \binom{n}{k} \left( \frac{l}{n}^k \right) \left( \frac{n-l}{n} \right)^{n-k} \right) \\ & = & \prod_{l=1}^m F(l-1; n, \frac{l}{n} ) \end{array}$

Di mana adalahfungsi distribusi kumulatif untuk distribusi Binomialdengan $F(l-1; n, \frac{l}{n})$ . Cukup membaca beberapa baris di halaman Wikipedia, dan mencatat bahwa, kita dapat menggunakanketidaksetaraan Chernoffuntuk mendapatkan: $p = \frac{l}{n}$ $(l-1 \le p n)$

\begin{array}{lll} Pr (E_{m}) & \leq & \prod_{l = 1}^{m} \exp [- \frac{1}{2 l}] \\ = & \exp [- \frac{1}{2} \sum_{l = 1}^{m} \frac{1}{l}] \\ = & \exp [- \frac{1}{2} H_{m}] \\ \leq & \exp [- \frac{1}{2} (\frac{1}{2 m} + \ln (m) + γ)] \end{array}

$\begin{array}{lll} \Pr(E_m) & \le & \prod_{l=1}^m \exp\left[ -\frac{1}{2l} \right] \\ & = & \exp\left[ - \frac{1}{2} \sum_{l=1}^m \frac{1}{l} \right] \\ & = & \exp\left[ - \frac{1}{2} H_m \right] \\ & \le & \exp\left[ -\frac{1}{2} \left( \frac{1}{2 m} + \ln(m) + \gamma \right) \right] \end{array}$

Dimana adalah 'th Harmonic Nomor , adalah konstanta Euler-Mascheroni dan ketidaksetaraan untuk diambil dari Wolfram mathworld terkait halaman. $H_m$ $m$ $\gamma$ $H_m$

Tidak khawatir tentang faktor, ini akhirnya memberi kita: $e^{-1/4m}$

Pr (E_{m}) \leq \frac{e^{- γ / 2}}{\sqrt{m}}

$\Pr(E_m) \le \frac{ e^{ -\gamma/2}}{\sqrt{m}}$

Di bawah ini adalah plot log-log dengan rata-rata 100.000 instance untuk sebagai fungsi dengan fungsi $n=2048$ $m$ juga diplot untuk referensi: $\frac{e^{ -\gamma/2}}{\sqrt{m}}$

masukkan deskripsi gambar di sini

Sementara konstanta mati, bentuk fungsi tampaknya benar.

Di bawah ini adalah plot log-log untuk memvariasikan dengan setiap titik menjadi rata-rata 100.000 instance sebagai fungsi dari : $n$ $m$

masukkan deskripsi gambar di sini

Akhirnya, sampai ke pertanyaan awal yang Anda inginkan terjawab, karena kita tahu bahwa kita memiliki: $\Pr(E_m) \propto \frac{1}{\sqrt{m}}$

\sum_{i < n} Pr (E_{i}) \propto \sqrt{n}

$\sum_{i<n} \Pr(E_i) \propto \sqrt{n}$

Dan sebagai verifikasi numerik, di bawah ini adalah plot log-log dari jumlah, , versus ukuran instance, . Setiap titik mewakili rata-rata jumlah 100.000 contoh. Fungsi telah diplot untuk referensi: $S$ $n$ $x^{1/2}$

masukkan deskripsi gambar di sini

Sementara saya tidak melihat hubungan langsung antara keduanya, trik dan bentuk akhir dari masalah ini memiliki banyak kesamaan dengan Masalah Ulang Tahun seperti yang awalnya ditebak dalam komentar.

— pengguna834
sumber

4

Bagaimana Anda mendapatkan

? Misalnya, untuk

, saya menghitung bahwa

P r (E_{2}) \leq P r (F_{1}) \times P r (F_{2})

$Pr(E_2) \le Pr(F_1)\times Pr(F_2)$

n = 100

$n=100$

P r (E_{2}) = 0.267946 > 0.14761 = P r (F_{1}) P r (F_{2}) .

$Pr(E_2) = 0.267946 \gt 0.14761 = Pr(F_1)Pr(F_2).$ Jika Anda diberitahu bahwa nampan pertama kosong, apakah ini membuatnya lebih atau kurang mungkin bahwa dua nampan pertama menampung paling banyak

bola? Ini lebih mungkin, jadi

adalah perkiraan yang terlalu rendah.

1

$1$

P r (F_{1}) P r (F_{2})

$Pr(F_1)Pr(F_2)$

— Douglas Zare

@DouglasZare, saya telah memverifikasi perhitungan Anda, Anda benar. Melayani saya dengan benar karena tidak menjadi lebih keras.

— user834

15

Jawabannya adalah . $\Theta(\sqrt{n})$

Pertama, mari kita hitung . $E_{n-1}$

Mari kita misalkan kita melempar bola ke dalam nampan, dan melihat probabilitas bahwa sebuah bin memiliki tepat bola di dalamnya. Probabilitas ini berasal dari distribusi Poisson, dan seperti pergi ke probabilitas bahwa ada tepat bola di tempat sampah yang diberikan adalah $n$ $n$ $k$ $n$ $\infty$ $k$ . $\frac{1}{e} \frac{1}{ k!}$

Sekarang, mari kita lihat cara yang berbeda dalam mendistribusikan bola ke tempat sampah. Kami melempar sejumlah bola ke setiap nampan yang dipilih dari distribusi Poisson, dan syarat jika ada bola total. Saya mengklaim bahwa ini memberikan distribusi yang sama persis seperti melempar bola ke dalam bins. Mengapa? Sangat mudah untuk melihat bahwa kemungkinan memiliki bola di ^th bin sebanding dengan $n$ $n$ $n$ $k_j$ $j$ di kedua distribusi. $\prod_{j=1}^n \frac{1}{k_j!}$

Jadi mari kita pertimbangkan jalan acak di mana pada setiap langkah, Anda beralih dari ke dengan probabilitas $t$ $t+1-k$ . Saya mengklaim bahwa jika Anda mengkondisikan pada kejadian bahwa jalan acak ini kembali ke 0 setelahlangkah, probabilitas bahwa acak ini selalu berada di atasadalah probabilitas bahwa OP ingin menghitung. Mengapa? Ketinggian ini berjalan ini acak setelahlangkah adalahdikurangi jumlah bola di pertamasampah. $\frac{1}{e}\frac{1}{k!}$ $n$ $0$ $s$ $s$ $s$

Jika kita memilih jalan acak dengan probabilitas $\frac{1}{2}$ of going up or down $1$ on each step, this would be the classical ballot problem, for which the answer is $\frac{1}{2(n-1)}$ . This is a variant of the ballot problem which has been studied (see this paper), and the answer is still $\Theta\left(\frac{1}{n}\right)$ . I don't know whether there is an easy way to compute the constant for the $\Theta\left(\frac{1}{n}\right)$ for this case.

The same paper shows that when the random walk is conditioned to end at height $k$ , the probability of always staying positive is $\Theta(k/n)$ as long as $k = O(\sqrt{n})$ . This fact will let us estimate $E_s$ for any $s$ .

I'm going to be a little handwavy for the rest of my answer, but standard probability techniques can be used to make this rigorous.

We know that as $n$ goes to $\infty$ , this random walk converges to a Brownian bridge, i.e., Brownian motion conditioned to start and end at $0$ . From general probability theorems, for $\epsilon n < s< (1-\epsilon)n$ , the random walk is roughly $\Theta(\sqrt{n})$ away from the $x$ -axis. In the case it has height $t>0$ , the probability that it has stayed above $0$ for the entire time before $s$ is $\Theta(t/s)$ . Since $t$ is likely to be $\Theta(\sqrt{n})$ when $s = \Theta(n)$ , we have $E_s \approx \Theta(1/\sqrt{n})$ .

— Peter Shor
sumber

4

[Edit 2014-08-13: Thanks to a comment by Peter Shor, I have changed my estimate of the asymptotic growth rate of this series.]

My belief is that $\lim_{n\to\infty} \sum_{i<n} \Pr(E_i)$ grows as $\sqrt{n}$ . I do not have a proof but I think I have a convincing argument.

Let $B_i = f(i)$ be a random variable that gives the number of balls in bin $i$ . Let $B_{i,j} = \sum_{k=i}^j B_k$ be a random variable that gives the total number of balls in bins $i$ through $j$ inclusive.

You can now write $\Pr(E_i) = \sum_{b<j} \Pr(E_j \wedge B_{1,j} = b) \Pr(E_i \mid E_j \wedge B_{1,j} = b)$ for any $j < i$ . To that end, let's introduce the functions $\pi$ and $g_i$ .

π (j, k, b) = Pr (B_{j} = k ∣ B_{1, j - 1} = b) = (\binom{n - b}{k}) {(\frac{1}{n - j + 1})}^{k} {(\frac{n - j}{n - j + 1})}^{n - b - k}

$\pi(j, k, b) = \Pr(B_j = k \mid B_{1,j-1} = b) = \binom{n-b}{k}\left(\frac{1}{n-j+1}\right)^k\left(\frac{n-j}{n-j+1}\right)^{n-b-k}$

\begin{aligned} g_{i} (j, k, b) & = Pr (E_{i} \land B_{j, i} \leq k ∣ E_{j - 1} \land B_{1, j - 1} = b) \\ = {\begin{cases} 0 & k < 0 \\ 1 & k >= 0 \land j > i \\ \sum_{l = 0}^{j - b - 1} π (j, l, b) g_{i} (j + 1, k - l, b + l) & o t h e r w i s e \end{cases} \end{aligned}

$\begin{aligned} g_i(j, k, b) \; &= \Pr(E_i \wedge B_{j,i} \le k \mid E_{j-1} \wedge B_{1,j-1} = b) \\ &= \begin{cases} 0 & k < 0 \\ 1 & k >= 0 \wedge j > i \\ \sum_{l=0}^{j-b-1} \pi(j, l, b) g_i(j + 1, k - l, b + l) & \mathrm{otherwise} \end{cases}\end{aligned}$

We can write $\Pr(E_i)$ in terms of $g_i$ :

Pr (E_{i}) = g_{i} (1, i - 1, 0)

$\Pr(E_i) = g_i(1, i - 1, 0)$

Now, it's clear from the definition of $g_i$ that

Pr (E_{i}) = \frac{(n - i)^{n - i + 1}}{n^{n}} h_{i} (n)

$\Pr(E_i) = \frac{(n-i)^{n-i+1}}{n^n}h_i(n)$

where $h_i(n)$ is a polynomial in $n$ of degree $i - 1$ . This makes some intuitive sense too; at least $n - i + 1$ balls will have to be put in one of the $(i+1)$ th through $n$ th bins (of which there are $n-i$ ).

Since we're only talking about $Pr(E_i)$ when $n\to\infty$ , only the lead coefficient of $h_i(n)$ is relevant; let's call this coefficient $a_i$ . Then

lim_{n \to \infty} Pr (E_{i}) = \frac{a_{i}}{e^{i}}

$\lim_{n\to\infty} \Pr(E_i) = \frac{a_i}{e^i}$

How do we compute $a_i$ ? Well, this is where I'll do a little handwaving. If you work out the first few $E_i$ , you'll see that a pattern emerges in the computation of this coefficient. You can write it as

a_{i} = μ_{i} (1, i - 1, 0)

$a_i = \mu_i(1, i-1, 0)$ where

μ_{i} (j, k, b) = {\begin{cases} 0 & k < 0 \\ 1 & k >= 0 \land i > j \\ \sum_{l = 0}^{j - b - 1} \frac{1}{l!} μ_{i} (j + 1, k - l, b + l) & o t h e r w i s e \end{cases}

$\mu_i(j, k, b) = \begin{cases} 0 & k < 0 \\ 1 & k >= 0 \wedge i > j \\ \sum_{l = 0}^{j-b-1} \frac{1}{l!} \mu_i(j + 1, k - l, b+ l) & \mathrm{otherwise} \end{cases}$

Now, I wasn't able to derive a closed-form equivalent directly, but I computed the first 20 values of $Pr(E_i)$ :

N       a_i/e^i
1       0.367879
2       0.270671
3       0.224042
4       0.195367
5       0.175467
6       0.160623
7       0.149003
8       0.139587
9       0.131756
10      0.12511
11      0.119378
12      0.114368
13      0.10994
14      0.105989
15      0.102436
16      0.0992175
17      0.0962846
18      0.0935973
19      0.0911231
20      0.0888353

Now, it turns out that

Pr (E_{i}) = \frac{i^{i}}{i! e^{i}} = Pois (i; i)

$\DeclareMathOperator{\Pois}{Pois} \Pr(E_i) = \frac{i^i}{i! e^i} = \Pois(i; i)$

where $\Pois(i; \lambda)$ is the probability that a random variable $X$ has value $i$ when it's drawn from a Poisson distribution with mean $\lambda$ . Thus we can write our sum as

lim_{n \to \infty} \sum_{i = 1}^{n} Pr (E_{i}) = \sum_{x = 1}^{\infty} \frac{x^{x}}{x! e^{x}}

$\lim_{n\to\infty} \sum_{i=1}^n \Pr(E_i) = \sum_{x = 1}^{\infty} \frac{x^x}{x!e^x}$

Wolfram Alpha tells me this series diverges. Peter Shor points out in a comment that Stirling's approximation allows us to estimate $\Pr(E_i)$ :

lim_{n \to \infty} Pr (E_{x}) = \frac{x^{x}}{x! e^{x}} \approx \frac{1}{\sqrt{2 π x}}

$\lim_{n\to\infty} \Pr(E_x) = \frac{x^x}{x!e^x} \approx \frac{1}{\sqrt{2 \pi x}}$

Let

ϕ (x) = \frac{1}{\sqrt{2 π x}}

$\phi(x) = \frac{1}{\sqrt{2 \pi x}}$

Since

$\lim_{x\to\infty}\frac{\phi(x)}{\phi(x+1)} = 1$
$\phi(x)$ is decreasing
$\int_1^n \phi(x)dx \to \infty$ as $n \to \infty$

our series grows as $\int_1^n \phi(x) dx$ (See e.g. Theorem 2). That is,

\sum_{i = 1}^{n} P r (E_{i}) = Θ (\sqrt{n})

$\sum_{i=1}^n Pr(E_i) = \Theta\left(\sqrt{n}\right)$

— ruds
sumber

1

Wolfram Alpha is wrong. Use Stirling's formula. It says that,

x^{x} / (x! e^{x}) \approx 1 / \sqrt{2 π x}

$x^x/(x! e^x)\approx 1/\sqrt{2\pi x}$ .

— Peter Shor

@PeterShor Thanks! I've updated the conclusion thanks to your insight, and now I am in agreement with the other two answers. It's interesting to me to see 3 quite different approaches to this problem.

— ruds

4

Exhaustively checking the first few terms (by examining all n^n cases) and a bit of lookup shows that the answer is https://oeis.org/A036276 / $n^n$ . This implies that the answer is $\sim n^{\frac{1}{2}} \frac{\sqrt{\pi}}{2}$ .

More exactly, the answer is:

\frac{n!}{2 n^{n}} \sum_{k = 0}^{n - 2} \frac{n^{k}}{k!}

$\frac{n!}{2 n^n} \sum_{k=0}^{n-2}\frac{n^k}{k!}$ and there is no closed-form answer.

— Haran
sumber

Oeis is pretty awesome

— Thomas Ahle