Balls dan analisis Bins di


23

Misalkan kita melemparkan bola ke dalam bin, di mana . Biarkan menjadi jumlah bola yang berakhir di nampan , menjadi nampan terberat, X_ \ min menjadi nampan teringan, dan X _ {\ mathrm {sec-max}} menjadi nampan terberat kedua. Secara kasar, X_i - X_j \ sim N (0,2m / n) , jadi kami berharap | X_i - X_j | = \ Theta (\ sqrt {m / n}) untuk dua i tetap , j . Menggunakan ikatan gabungan, kami berharap X _ {\ max} - X _ {\ min} = O (\ sqrt {m \ log n / n}) ; agaknya, kita bisa mendapatkan batas bawah yang cocok dengan mempertimbangkan n / 2mnmnXiiXmaxXminXsecmaxXiXjN(0,2m/n)|XiXj|=Θ(m/n) i,jXmaxXmin=O(mlogn/n)n/2pasang tempat sampah terpisah. Argumen (tidak sepenuhnya formal) ini membuat kita berharap bahwa kesenjangan antara Xmax dan Xmin adalah Θ(mlogn/n) dengan probabilitas tinggi.

Saya tertarik pada kesenjangan antara Xmax dan Xsecmax . Argumen yang diuraikan di atas menunjukkan bahwa XmaxXsecmax=O(mlogn/n) dengan probabilitas tinggi, tetapi faktor logn tampaknya tidak cocok . Adakah yang diketahui tentang distribusi XmaxXsecmax ?

Lebih umum, anggaplah bahwa setiap bola dikaitkan dengan non-negatif skor untuk setiap bin, dan kami tertarik dalam skor total masing-masing bin setelah melempar m bola. Skenario yang biasa sesuai dengan skor formulir (0,,0,1,0,,0) . Misalkan distribusi probabilitas skor tidak berubah di bawah permutasi dari tempat sampah (dalam skenario biasa, ini sesuai dengan kenyataan bahwa semua tempat sampah bisa dilengkapi). Mengingat distribusi skor, kita dapat menggunakan metode paragraf pertama untuk mendapatkan ikatan yang baik pada XmaxXmin . Terikat akan mengandung faktor lognyang berasal dari ikatan gabungan (melalui probabilitas ekor dari variabel normal). Bisakah faktor ini dikurangi jika kita tertarik untuk membatasi XmaxXsecmax ?


Setiap skor ada di [0,1]?
Neal Young

Tidak masalah, Anda selalu bisa menskalakannya sehingga menjadi . [0,1]
Yuval Filmus

Jawaban:


21

Jawab: .Θ(mnlogn)

Menerapkan versi multidimensi dari Teorema Limit Pusat, kita mendapatkan bahwa vektor memiliki distribusi Gaussian multivariat asimptotik dengan dan Kami akan menganggap di bawah ini bahwa adalah vektor Gaussian (dan tidak hanya sekitar vektor Gaussian). Mari kita tambahkan variabel acak Gaussian dengan varians untuk semua ( independen dari semua ). Ya, biarkan V a r [ X i ] = m ( 1(X1,,Xn)Cov(Xi,Xj)=-m/

Var[Xi]=m(1n1n2),
X Z m / n 2 X i Z X i ( Y 1 Y 2Y n ) = ( X 1 + Z X 2 + Z X n + Z ) . ( Y 1
Cov(Xi,Xj)=m/n2.
X Zm/n2XiZXi
(Y1Y2Yn)=(X1+ZX2+ZXn+Z).
Kami mendapatkan vektor Gaussian . Sekarang setiap memiliki varian : dan semua independen: Y i m / n V a r [ Y i ] = V a r [ X i ] + 2 C o v ( X i , Z ) =(Y1,,Yn)Yim/nYiCov(Yi,Yj)=Cov(Xi,Xj)+ C o v ( X i , Z ) + C o v ( X j , Z ) =
Var[Yi]=Var[Xi]+2Cov(Xi,Z)=0+Var[Z]=m/n,
Yi
Cov(Yi,Yj)=Cov(Xi,Xj)+Cov(Xi,Z)+Cov(Xj,Z)=0+Cov(Z,Z)=0.

Perhatikan bahwa . Dengan demikian masalah awal kita setara dengan masalah menemukan . Mari kita pertama-tama untuk menganalisis kasus ketika semua memiliki varian .Y m a x - Y s e c - m a x Y i 1YiYj=XiXjYmaxYsecmaxYi1

Masalah. Kami diberi Gaussian rv dengan mean dan varians . Perkirakan ekspektasi .γ 1 , ... , γ n μ 1 γ m a x - γ s e c - m a xnγ1,,γnμ1γmaxγsecmax

Jawab: .Θ(1logn)

Bukti Informal. Ini adalah solusi informal untuk masalah ini (tidak sulit untuk membuatnya formal). Karena jawabannya tidak tergantung pada rata-rata, kami menganggap bahwa . Biarkan , di mana . Kami memiliki (untuk cukup besar ), ˉ Φ ( t ) = Pr [ γ > t ] γ N ( 0 , 1 ) t ˉ Φ ( t ) 1μ=0Φ¯(t)=Pr[γ>t]γN(0,1)t

Φ¯(t)12πte12t2.

Catat itu

  • [ 0 , 1 ]Φ(γi) secara seragam dan independen pada ,[0,1]

  • Φ ( γ i )Φ(γmax) adalah yang terkecil di antara ,Φ(γi)

  • Φ(γsecmax) adalah yang terkecil kedua di antara .Φ(γi)

Jadi dekat dengan dan dekat dengan (tidak ada konsentrasi tetapi jika kita tidak ' Tidak peduli dengan konstanta, perkiraan ini cukup baik; bahkan, mereka cukup baik jika kita peduli dengan konstanta - tetapi itu membutuhkan pembenaran). Dengan menggunakan rumus untuk , kita mendapatkan 1 / nΦ(γmax)1/nΦ(γmax)2/nΦ¯(t)

2Φ¯(γsecmax)/Φ¯(γmax)e12(γmax2γsecmax2).

Jadi adalah whp Perhatikan bahwa . Kami punya, γmax2γsecmax2Θ(1)γmaxγsecmax=Θ(logn)

γmaxγsecmaxΘ(1)γmax+γsecmaxΘ(1)logn.

QED

Kami mengerti

E[XmaxXsecmax]=E[YmaxYsecmax]=Var[Yi]×E[γmaxγsecmax]=Θ(mnlogn).

Argumen yang sama terjadi ketika kita memiliki skor arbitrer. Ini menunjukkan bahwa

E[XmaxXsecmax]=cE[XmaxXmin]/logn.

2
Terima kasih! Saya akan ingat untuk mencoba pendekatan Gaussian multivarian di lain waktu.
Yuval Filmus

5
Yury, Anda menulis "Mari kita tambahkan vektor Gaussian dengan varian ke semua . Kami mendapatkan vektor Gaussian . Sekarang setiap memiliki varian dan semua tidak berkorelasi ... Perhatikan bahwa . " Bisakah Anda memperluas bagian ini? Apakah ? Jika 's dependen, dan 's independent (atau seragam sama), bagaimana 's independent? (Tampak seperti trik yang rapi tetapi saya tidak memahaminya.) Terima kasih. Zm/n2Xi(Y1,,Yn)Yim/nYiYiYj=XiXjZi=ZjXiZiYi
Neal Young

1
@NealYoung, ya, jika kita memiliki variabel dengan korelasi berpasangan negatif dan semua covariances yang sama , maka kita dapat menambahkan satu baru variabel acak untuk semua sehingga jumlahnya independen. Juga, jika variabel memiliki korelasi positif dan sekali lagi semua kovarian sama maka kita dapat mengurangi satu rv dari semuanya sehingga semua perbedaannya independen; tetapi sekarang tidak independen dari melainkanX1,,XnCov(Xi,Xj)ZXiCov(Xi,Xj)ZZXiZ=α(X1++Xn)untuk beberapa parameter penskalaan . α
Yury

1
Ah saya mengerti. setidaknya secara aljabar, yang menjadi adalah kemandirian berpasangan dari Z dan masing-masing . sangat keren. Xi
Suresh Venkat

1
Argumen ini sekarang muncul (dengan atribusi) dalam makalah EC'14 : dl.acm.org/citation.cfm?id=2602829 .
Yuval Filmus

13

Untuk pertanyaan pertama Anda, saya pikir Anda dapat menunjukkan bahwa whp adalah Perhatikan bahwa ini adalah .XmaxXsec-max

o(mnlog2lognlogn).
o(m/n)

Bandingkan eksperimen acak Anda dengan alternatif berikut: Biarkan menjadi beban maksimum dari salah satu dari bucket pertama . Biarkan menjadi beban maksimum dari salah satu dari bucket terakhir .X1n/2X2n/2

Sebagai pertimbangan,adalah batas atas pada . Juga, dengan probabilitas setidaknya satu setengah, . Jadi, secara kasar, didistribusikan dengan cara yang sama dengan.|X1X2|XmaxXsecmax|X1X2|=XmaxXsecmaxXmaxXsecmax|X1X2|

Untuk belajar, catat bahwa dengan probabilitas tinggi bola dilemparkan ke nampan pertama, dan juga untuk nampan terakhir. Jadi masing-masing dan didistribusikan pada dasarnya seperti beban maksimum ketika melempar bola ke dalam nampan.|X1X2|m/2±O(m)n/2n/2X1X2m=m/2±o(m)n=n/2

Distribusi ini dipelajari dengan baik dan, untungnya untuk argumen ini, sangat terkonsentrasi di sekitar rata-ratanya. Sebagai contoh, jika , maka dengan probabilitas tinggi berbeda dari yang diharapkan oleh paling banyak kuantitas yang ditampilkan di bagian atas jawaban ini [ Thm. 1 ]. (Catatan: batas atas ini, saya pikir, longgar, diberikan jawaban Yuri.) Jadi, dengan probabilitas tinggi dan juga berbeda paling banyak, dan juga dan paling banyak berbeda sebanyak ini.mnlog3nX1X1X2XmaxXmaxsec

Sebaliknya, untuk batas bawah (agak lebih lemah), jika, untuk apa pun , katakanlah, , lalu setidaknya yang (berdasarkan batas serikat naif) setidaknya Saya pikir ini harus memberi Anda (misalnya) harapan dalam faktor kontan.Pr [ | X 1 - X 2 | t ] 3 / 4 Pr [ X max - X sec-maxt - ( 1 / 2 ) = 1 / 4. XtPr[|X1X2|t]3/4Pr[XmaxXsec-maxt]

Pr[|X1X2|t  XmaxXsec-max=|X1X2|]
1(1/4)(1/2)=1/4.XmaxXsec-max

Melihat Thm. 1, perbedaan dari harapan adalah , dan bukan apa yang Anda tulis. Itu masih jauh lebih baik daripada . O((m/n)loglogn)O((m/n)logn)
Yuval Filmus

Oleh Thm. 1 (kasus ke-3), untuk setiap , dengan probabilitas , maksimum dalam setiap bin (bola m dalam n bins) adalah Dengan matematika saya (menggunakan ), istilah diperluas ke istilah absolut tambahan dariApa yang saya lakukan salah? ϵ>01o(1)
mn+2mlognn1(1±ϵ)loglogn2logn.
±ϵO(ϵ)1δ=1O(δ)±ϵ
O(ϵ)mlognn loglognlogn = O(ϵ)mn log2lognlogn.
Neal Young

Ah - saya kira Anda benar. Saya mengurangi di dalam akar kuadrat dan itulah cara saya mendapatkan sosok saya.
Yuval Filmus
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.