Jumlah Produk dari variabel acak Rademacher


9

Biarkan menjadi variabel acak independen yang mengambil nilai atau dengan probabilitas masing-masing 0,5. Pertimbangkan jumlah . Saya ingin batas atas probabilitas . Batas terbaik yang saya miliki saat ini adalah 2e ^ {- \ frac {ct} {\ max (a, b)}} di mana c adalah konstanta universal. Ini dicapai dengan membatasi probabilitas Pr (| x_1 + \ dots + x_n | <\ sqrt {t}) dan Pr (| y_1 + \ dots + y_n | <\ sqrt {t}) dengan penerapan batas Chernoff sederhana. Bisakah saya berharap mendapatkan sesuatu yang jauh lebih baik daripada batas ini? Sebagai permulaan setidaknya bisa saya dapatkanx1xa,y1yb+11S=i,jxi×yjP(|S|>t)2e-ctmaks(Sebuah,b)cPr(|x1++xn|<t)Pr(|y1++yn|<t)e-ctSebuahb . Jika saya bisa mendapatkan ekor sub-gaussian yang mungkin akan menjadi yang terbaik tetapi bisakah kita mengharapkan itu (saya tidak berpikir begitu tetapi tidak dapat memikirkan argumen)?


Sudahkah Anda mempertimbangkan untuk menerapkan Chernoff yang terikat langsung ke S ? Anda mungkin dapat melakukan sesuatu dengan
E[exp(λS]=E[λsayajXsayaYj]=E[λ(sayaXsaya)(jYj)]
Dilip Sarwate

Ada peningkatan yang jelas dalam batas Anda untuk t>ab , karena probabilitasnya harus nol. Menurut saya itu adalah ekor "sub-Gaussian" :-). Hal ini juga tampaknya Anda terikat tidak benar: variabel yang terus-menerus 1 memenuhi kondisi pertanyaan ini. Untuk a=b dan t=a21 probabilitasnya adalah 1 tetapi Anda terikat adalah asimtotik 2exp(ca)0 sebagai a tumbuh besar.
whuber

Probabilitas semua variabel menjadi 1 turun secara eksponensial. Saya rasa saya tidak mengerti komentar Anda. Untuk dan , batas yang saya nyatakan benar-benar sepele karena probabilitas penjumlahannya lebih besar dari adalaht = a 2 - 1 t 2 - 1Sebuah=bt=Sebuah2-1t2-12-(Sebuah-1)e-ln(2)c(Sebuah-1/Sebuah)
user1189053

1
Saya benar-benar minta maaf atas kesalahan saya. Saya pikir saya telah menyebutkan secara seragam di atas. Jadi p = 1/2 dan kita dapat mengambil a dan b lebih besar dari konstanta mana pun (jika perlu) agar ketidaksamaan dapat dipertahankan
user1189053

2
Kecuali jika mata saya menipu saya, Anda mempertimbangkan sejumlah produk, bukan produk jumlah. :-)
kardinal

Jawaban:


7

Hubungan aljabar

S=saya,jxsayayj=sayaxsayajyj

menunjukkan sebagai produk dari dua jumlah independen. Karena dan adalah independen Bernoulli , adalah variabel Binomial yang telah digandakan dan digeser. Oleh karena itu meannya adalah dan variansinya adalah . Demikian pula memiliki rata-rata dan varian . Mari kita standarisasi sekarang dengan mendefinisikan( x i + 1 ) / 2 ( y j + 1 ) / 2 ( 1 / 2 ) X = Σ a i = 1 x i ( a , 1 / 2 ) 0 a Y = Σ b j = 1 y j 0 bS(xsaya+1)/2(yj+1)/2(1/2)X=saya=1Sebuahxsaya(Sebuah,1/2)0SebuahY=j=1byj0b

XSebuah=1Sebuahsaya=1Sebuahxsaya,

dari mana

S=SebuahbXSebuahXb=SebuahbZSebuahb.

Untuk tingkat tinggi (dan terukur) akurasi, sebagai tumbuh besar mendekati distribusi normal standar. Karena itu marilah kita memperkirakan sebagai kali produk dari dua normals standar.X a S SebuahXSebuahSSebuahb

Langkah selanjutnya adalah memperhatikan hal itu

ZSebuahb=XSebuahXb=12((XSebuah+Xb2)2-(XSebuah-Xb2)2)=12(U2-V2).

merupakan kelipatan dari perbedaan kuadrat independen standar variabel normal dan . Distribusi dapat dihitung secara analitik (dengan membalik fungsi karakteristik ): pdf-nya sebanding dengan fungsi Bessel dari urutan nol, . Karena fungsi ini memiliki buntut eksponensial, kami segera menyimpulkan bahwa untuk dan dan tetap , tidak ada perkiraan yang lebih baik untuk daripada yang diberikan dalam pertanyaan.V Z a b K 0 ( | z | ) / π a b t Pr a , b ( S > t )UVZabK0(|z|)/πabtPra,b(S>t)

Masih ada ruang untuk perbaikan ketika satu (setidaknya) dari dan tidak besar atau pada titik di ujung dekat dengan . Perhitungan langsung dari distribusi menunjukkan pengurangan melengkung dari probabilitas ekor pada titik yang jauh lebih besar dari , kira-kira di luar . Plot log-linear dari CDF untuk berbagai nilai (diberikan dalam judul) dan (berkisar kira-kira di atas nilai yang sama dengan , dibedakan oleh warna di setiap plot) menunjukkan apa yang terjadi. Untuk referensi, grafik membatasib S ± a b S abS±SebuahbSSebuahb SabaK0S0Pr(S>t)=Pr(-S<-t)Sebuahbmaks(Sebuah,b)SSebuahbSebuahK0distribusi ditampilkan dalam warna hitam. (Karena simetris di sekitar , , sehingga cukup untuk melihat ekor negatif.)S0Pr(S>t)=Pr(-S<-t)

Tokoh

Ketika tumbuh lebih besar, CDF tumbuh lebih dekat ke garis referensi.b

Mengkarakterisasi dan mengkuantifikasi kelengkungan ini akan membutuhkan analisis yang lebih baik dari perkiraan Normal untuk varian Binomial.

Kualitas perkiraan fungsi Bessel menjadi lebih jelas pada bagian yang diperbesar ini (di sudut kanan atas setiap plot). Kami sudah cukup jauh ke buntut. Meskipun skala vertikal logaritmik dapat menyembunyikan perbedaan besar, jelas pada saat telah mencapai aproksimasi baik untuk .500 | S | < a Sebuah500|S|<Sebuahb

Insets


Kode R untuk Menghitung DistribusiS

Berikut ini akan memakan waktu beberapa detik untuk dieksekusi. (Menghitung beberapa juta probabilitas untuk 36 kombinasi dan .) Pada mesin yang lebih lambat, hilangkan nilai satu atau dua yang lebih besar dari dan dan tingkatkan batas plot yang lebih rendah dari menjadi sekitar .b 10 - 300 10 - 160Sebuahbab10-30010-160

s <- function(a, b) {
  # Returns the distribution of S as a vector indexed by its support.
  products <- factor(as.vector(outer(seq(-a, a, by=2), seq(-b, b, by=2))))
  probs <- as.vector(outer(dbinom(0:a, a, 1/2), dbinom(0:b, b, 1/2)))
  tapply(probs, products, sum)
}

par(mfrow=c(2,3))
b.vec <- c(51, 101, 149, 201, 299, 501)
cols <- terrain.colors(length(b.vec)+1)
for (a in c(50, 100, 150, 200, 300, 500)) {
  plot(c(-sqrt(a*max(b.vec)),0), c(10^(-300), 1), type="n", log="y", 
       xlab="S/sqrt(ab)", ylab="CDF", main=paste(a))
  curve(besselK(abs(x), 0)/pi, lwd=2, add=TRUE)
  for (j in 1:length(b.vec)) {
    b <- b.vec[j]
    x <- s(a,b)
    n <- as.numeric(names(x))
    k <- n <= 0
    y <- cumsum(x[k])
    lines(n[k]/sqrt(a*b), y, col=cols[j], lwd=2)
  }
}

1
Dilakukan dengan sangat baik! Satu dapat memperoleh bentuk yang tepat untuk cdf dari produk 2 Normals standar .. untuk ekor negatif, itu 1/2 (1 + y BesselK[0,-y] StruveL[-1, y] - y BesselK[1,-y] StruveL[0, y]). Akan menarik untuk melihat bagaimana: (a) ikatan OP berkinerja, dan (b) perkiraan Normal Anda berkinerja, untuk kasus yang kami lihat di atas, yaitu diturunkan menggunakan solusi diskrit PMF yang tepat. a=5,b=7
serigala

1
@ serigala Ya, saya memperoleh ungkapan itu juga: ia mengintegrasikan ekor . Karena distribusi yang tepat benar-benar menyimpang dari itu, tampaknya tidak ada gunanya membawa analisis integral itu lebih jauh. Langkah logis berikutnya adalah analisis yang lebih cermat dari ekor, yang berarti melampaui perkiraan Normal. K0
whuber

3

Komentar: Saya mengedit judul dalam upaya untuk mencerminkan dengan lebih baik rv jenis apa yang dipertimbangkan dalam pertanyaan. Siapa pun merasa bebas untuk mengedit kembali.

Motivasi: Saya kira tidak perlu puas dengan batas atas, jika kita dapat memperoleh distribusi. ( PEMBARUAN : Kami tidak dapat melihat komentar dan jawaban Whuber).|SSebuahb|

Mendenotasikan . Sangat mudah untuk memverifikasi bahwa 's memiliki distribusi yang sama dengan ' s dan 's. Fungsi pembangkit momen adalahZ X YZk=XsayaYj,k=1,...,SebuahbZXY

M.Z(t)=E[ezt]=12e-t+12et=tongkat pendek(t)

Selain itu, adalah, untuk mulai dengan, pair-wise independent: Variabel (indeks bisa berupa apa saja), memiliki dukungan dengan probabilitas yang sesuai . Fungsi pembangkit momennya adalahW = Z 1 + Z 2 { - 2 , 0 , 2 } { 1 / 4 , 1 / 2 , 1 / 4 }ZW=Z1+Z2{-2,0,2}{1/4,1/2,1/4}

M.W(t)=E[e(z1+z2)t]=14e-2t+12+14e2t==14(e-2t+1)+14(e2t+1)=142e-ttongkat pendek(t)+142ettongkat pendek(t)=tongkat pendek(t)tongkat pendek(t)=M.Z1(t)M.Z2(t)

Saya akan mencoba untuk mencurigai bahwa kemerdekaan penuh berlaku, sebagai berikut (apakah sudah jelas bagi yang lebih bijaksana?): Untuk bagian ini, tunjukkan . Kemudian dengan aturan rantai P [ Z a b , . . . , Z 11 ] = P [ Z a b | Z a , b - 1 , . . . , Z 11 ] . . . P [ Z 13Z 12 , Z 11 ] P [Zsayaj=XsayaYj

P[ZSebuahb,...,Z11]=P[ZSebuahbZSebuah,b-1,...,Z11]...P[Z13Z12,Z11]P[Z12Z11]P[Z11]

Dengan kemandirian berpasangan, kita memiliki . Pertimbangkan . dan bersyarat independen pada jadi kami memiliki persamaan kedua dengan independensi pasangan. Tapi ini menyiratkan hal ituP [ Z 13 , Z 12Z 11 ] Z 13 Z 12 Z 11 P [ Z 13Z 12 , Z 11 ] = P [ Z 13Z 11 ] = P [ Z 13 ]P[Z12Z11]=P[Z12]
P[Z13,Z12Z11]Z13Z12Z11

P[Z13Z12,Z11]=P[Z13Z11]=P[Z13]

P[Z13Z12,Z11]P[Z12Z11]P[Z11]=P[Z13,Z12,Z11]=P[Z13]P[Z12]P[Z11]

Dll (saya pikir). ( PEMBARUAN : Saya kira salah . Kemandirian mungkin berlaku untuk triplet apa pun, tetapi tidak untuk keseluruhannya. Jadi yang berikut hanyalah derivasi dari distribusi jalan acak sederhana, dan bukan jawaban yang benar untuk pertanyaan - lihat Wolfies 'dan Jawaban Whuber).

Jika memang kemerdekaan penuh benar-benar berlaku, kita memiliki tugas untuk memperoleh distribusi sejumlah iid dichotomous rv's

SSebuahb=k=1SebuahbZk

yang terlihat seperti jalan acak sederhana , meskipun tanpa interpretasi yang jelas dari yang terakhir sebagai urutan.

Jika dukungan akan menjadi bilangan bulat genap dalam termasuk nol, sedangkan jika , dukungan akan menjadi bilangan bulat ganjil dalam , tanpa nol. S [ - a b , . . . , Sebuah b ] a b = o d d S [ - a b , . . . , A b ]Sebuahb=evenS[-Sebuahb,...,Sebuahb]Sebuahb=HaiddS[-Sebuahb,...,Sebuahb]

Kami memperlakukan kasus . Melambangkan sebagai angka mengambil nilai . Maka dukungan dapat dituliskan . Untuk setiap diberikan , kita memperoleh nilai unik untuk . Selain itu, karena probabilitas simetris dan kemandirian (atau hanya pertukaran?), Semua kemungkinan realisasi bersama dari -variables dapat dilengkapi. Jadi kami menghitung dan kami menemukan bahwa fungsi massa probabilitas adalah,Sebuahb=Haidd
mZ-1SS{Sebuahb-2m;mZ+{0};mSebuahb}mSZ{Z1=z1,...,ZSebuahb=zSebuahb}S

P(S=Sebuahb-2m)=(Sebuahbm)12Sebuahb,0mSebuahb

Mendefinisikan , dan nomor ganjil berdasarkan konstruksi, dan elemen khas dari dukungan , kami memilikisSebuahb-2mS

P(S=s)=(SebuahbSebuahb-s2)12Sebuahb

Pindah ke, karena jika , distribusi simetris di sekitar nol tanpa mengalokasikan massa probabilitas ke nol, sehingga distribusidiperoleh dengan "melipat" grafik kerapatan di sekitar sumbu vertikal, pada dasarnya menggandakan probabilitas untuk nilai positif,|S|Sebuahb=HaiddS|S|

P(|S|=|s|)=(SebuahbSebuahb-s2)12Sebuahb-1

Maka fungsi distribusinya adalah

P(|S||s|)=12Sebuahb-11sayas,sayaHaidd(SebuahbSebuahb-saya2)

Oleh karena itu, untuk setiap nyata , , kita memperoleh probabilitas yang diperlukan t1t<Sebuahb

P(|S|>t)=1-P(|S|t)=1-12Sebuahb-11sayat,sayaHaidd(SebuahbSebuahb-saya2)

Perhatikan bahwa indikasi jaminan bahwa jumlah hanya akan berjalan hingga nilai yang termasuk dalam dukungan- misalnya, jika kita menetapkan , masih akan menjalankan hingga , karena itu dibatasi menjadi aneh, di atas menjadi bilangan bulat.saya=Haidd|S|t=10.5saya9


Jumlah nilai negatif dalam harus genap . Oleh karena itu keempat variabel acak ini (saya anggap mereka adalah empat dari s - notasi tidak jelas) tidak independen. (X1Y1,X1Y2,X2Y1,X2Y2)Z
whuber

@whuber Terima kasih. Masalahnya (masalah saya, yaitu), adalah saya terus mendapatkan independensi dalam setiap contoh spesifik yang saya kerjakan. Saya akan mengerjakan empat variabel spesifik yang Anda tulis.
Alecos Papadopoulos

Ya, ini rumit karena berbeda berpasangan independen dan (saya percaya) ketiga berbeda juga independen. (Saya mengangkat jawaban Anda karena serangan kreatifnya terhadap masalah ini dan saya harap saya keliru dalam penilaian saya tentang kurangnya kebebasan!)ZZ
whuber

@whuber Sekali lagi terima kasih, itu sangat mendukung. Saya berpikir, apa yang kita butuhkan agar derivasi dari distribusi menjadi valid, adalah bahwa semua peristiwa dapat digunakan. Mungkinkah properti seperti itu dipegang, sementara kemerdekaan bersama gagal? Maksud saya, kemandirian bersama sudah cukup untuk bisa dipertahankan, tetapi apakah itu juga perlu? S{k=1SebuahbZk}
Alecos Papadopoulos

Saya khawatir saya tidak mengerti notasi Anda, yang tampaknya merujuk pada persimpangan variabel acak (apa pun artinya).
whuber

3

Bukan jawaban, tapi komentar tentang jawaban menarik Alecos yang terlalu panjang untuk dimasukkan ke dalam kotak komentar.

Biarkan menjadi variabel acak Rademacher independen, dan biarkan menjadi variabel acak Rademacher independen. Alecos mencatat bahwa:(X1,...,XSebuah)(Y1,...,Yb)

SSebuahb=k=1SebuahbZkdimanaZk=XsayaYj

"... terlihat seperti jalan acak sederhana ". Jika itu seperti jalan acak sederhana, maka distribusi akan simetris 'berbentuk lonceng unimodal' sekitar 0.S

Untuk mengilustrasikan bahwa itu bukan jalan acak sederhana, berikut adalah perbandingan cepat dari Monte Carlo:

  • titik segitiga: simulasi Monte Carlo dari PMF dari diberikan dana = 5 b = 7SSebuah=5b=7
  • titik bulat: simulasi Monte Carlo dari jalan acak sederhana dengan langkahn=35

masukkan deskripsi gambar di sini

Jelas, bukan jalan acak sederhana; juga perhatikan bahwa S tidak didistribusikan pada semua bilangan bulat genap (atau ganjil).S

Monte Carlo

Berikut adalah kode (dalam Mathematica ) yang digunakan untuk menghasilkan satu iterasi tunggal dari jumlah , diberikan dan :a bSSebuahb

 SumAB[a_, b_] :=  Outer[Times, RandomChoice[{-1, 1}, a], RandomChoice[{-1, 1}, b]] 
                         // Flatten // Total 

Kemudian, 500.000 jalur seperti itu, katakan ketika dan , dapat dihasilkan dengan:b = 7Sebuah=5b=7

 data57 = Table[SumAB[5, 7], {500000}];

Domain dukungan untuk kombinasi dan ini adalah:bSebuahb

{-35, -25, -21, -15, -9, -7, -5, -3, -1, 1, 3, 5, 7, 9, 15, 21, 25, 35}

1
+1 Simulasi (atau contoh konkret semacam itu) telah lama dibutuhkan untuk memberi kami referensi untuk analisis lebih lanjut. Simulasi Anda dapat dibuat jauh lebih efisien (sekitar 25 kali lebih cepat) dengan mencatat faktor sebagai . Itu segera menjelaskan mengapa tidak ada nilai prima yang cukup besar yang dapat muncul di bagan segitiga Anda - dan secara paksa menunjukkan bahwa tidak dapat memiliki distribusi "jalan acak" (skala binomial). ( i x i ) ( j y j ) SS(sayaxsaya)(jyj)S
whuber

1
Alih-alih mensimulasikan Anda dapat dengan cepat mendapatkan jawaban yang tepat (untuk adan bkeduanya kurang dari 1000, sebagai), rademacher[a_] := Transpose[{Range[-a, a, 2], Array[Binomial[a, #] &, a + 1, 0] /2^a}]; s[a_, b_] := {#[[1, 1]], Total[#[[;; , 2]]]} & /@ GatherBy[Flatten[Outer[Times, rademacher[a], rademacher[b], 1], 1], First]; ListLogPlot[s[5, 7]] Cobalah, katakan s[100,211],.
whuber

@whuber kembali komentar pertama - factorisation Anda sangat rapi! :) Di Mac saya, menggunakan: ......... WHuberSumAB[a_, b_] := Total[RandomChoice[{-1, 1}, a]] * Total[RandomChoice[{-1, 1}, b]]... dua kali lebih cepat dari Outerpendekatannya. Ingin tahu kode apa yang Anda gunakan? [Kedua pendekatan ini, tentu saja, dapat dibuat lebih cepat menggunakan ParallelTable, dll]
serigala

Coba ini: sum[n_, a_, b_] := Block[{w, p}, w[x_] := Array[Binomial[x, #] &, x + 1, 0] /2^x; p[x_] := RandomChoice[w[x] -> Range[-x, x, 2], n]; p[a] p[b]]. Lalu waktu Tally[sum[500000, 5, 7]]. Untuk Raficianodos, berikut ini melakukan hal yang sama dan hanya membutuhkan waktu 50% lebih lama dari Mathematica : s <- function(n, a, b) (2 * rbinom(n, a, 1/2) - a)*(2 * rbinom(n, b, 1/2) - b); system.time(x <- table(s(5*10^5, 5, 7))); plot(log(x), col="#00000020").
whuber

@whuber - re comment2 - pmf tepat: jadi Anda memiliki , di mana setiap jumlah Rademacher adalah Binomial, dan jadi kami memiliki produk dari 2 Binomials. Mengapa tidak menuliskan ini sebagai jawaban !? - cantik, rapi, elegan dan bermanfaat ...S=(sayaXsaya)(jYj)
serigala
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.