KARUNIA:
Hadiah penuh akan diberikan kepada seseorang yang memberikan referensi ke makalah yang diterbitkan yang menggunakan atau menyebutkan estimator bawah ini.
Motivasi:
Bagian ini mungkin tidak penting bagi Anda dan saya kira itu tidak akan membantu Anda mendapatkan hadiah, tetapi karena seseorang bertanya tentang motivasi, inilah yang saya kerjakan.
Saya sedang mengerjakan masalah teori grafik statistik. Objek pembatas grafik padat standar adalah fungsi simetris dalam arti bahwa . Pengambilan sampel grafik pada simpul dapat dianggap sebagai sampling nilai seragam pada satuan interval ( untuk ) dan kemudian probabilitas suatu edge adalah . Biarkan matriks ketetanggaan yang dihasilkan disebut .
Kita dapat memperlakukan sebagai kepadatan seandainya \ iint W> 0 . Jika kami memperkirakan f berdasarkan A tanpa kendala f , maka kami tidak dapat memperoleh estimasi yang konsisten. Saya menemukan hasil yang menarik tentang memperkirakan secara konsisten f ketika f berasal dari sekumpulan fungsi yang mungkin dibatasi. Dari estimator ini dan \ sum A , kita dapat memperkirakan W .
Sayangnya, metode yang saya temukan menunjukkan konsistensi ketika kami sampel dari distribusi dengan kepadatan . Cara dikonstruksi mengharuskan saya mencicipi kisi-kisi poin (sebagai lawan dari pengambilan undian dari asli ). Dalam pertanyaan stats.SE ini, saya menanyakan masalah 1 dimensi (lebih sederhana) dari apa yang terjadi ketika kita hanya dapat sampel Bernoullis sampel pada kotak seperti ini daripada benar-benar mengambil sampel dari distribusi secara langsung.
referensi untuk batas grafik:
L. Lovasz dan B. Szegedy. Batas urutan grafik padat ( arxiv ).
C. Borgs, J. Chayes, L. Lovasz, V. Sos, dan K. Vesztergombi. Urutan konvergen grafik padat i: Frekuensi subgraph, sifat metrik, dan pengujian. ( arxiv ).
Notasi:
Pertimbangkan distribusi berkelanjutan dengan cdf dan pdf yang memiliki dukungan positif pada interval . Misalkan tidak memiliki pointmass, mana-mana dapat dibedakan, dan juga bahwa adalah supremum dari pada interval . Mari berarti bahwa variabel acak adalah sampel dari distribusi . adalah variabel acak seragam iid pada .
Masalah pengaturan:
Seringkali, kita dapat membiarkan menjadi variabel acak dengan distribusi dan bekerja dengan fungsi distribusi empiris yang biasa sebagai mana adalah fungsi indikator. Perhatikan bahwa distribusi empiris ini itu sendiri acak (di mana diperbaiki).
Sayangnya, saya tidak mampu mengambil contoh langsung dari . Namun, saya tahu bahwa memiliki dukungan positif hanya pada , dan saya dapat menghasilkan variabel acak mana adalah variabel acak dengan distribusi Bernoulli dengan probabilitas keberhasilan mana dan didefinisikan di atas. Jadi, . Satu cara yang jelas bahwa saya dapat memperkirakan dari nilai - nilai ini adalah dengan mengambil dimana
Pertanyaan:
Dari (apa yang saya pikir seharusnya) termudah hingga yang paling sulit.
Adakah yang tahu jika ini (atau yang serupa) memiliki nama? Bisakah Anda memberikan referensi di mana saya bisa melihat beberapa propertinya?
Sebagai , apakah penduga yang konsisten untuk (dan dapatkah Anda membuktikannya)?
Apa distribusi pembatas dari sebagai ?
Idealnya, saya ingin mengikat yang berikut ini sebagai fungsi dari - misalnya, , tetapi saya tidak tahu apa yang sebenarnya. The singkatan Big O di probabilitas
Beberapa ide dan catatan:
Ini sangat mirip sampling penerimaan-penolakan dengan stratifikasi berbasis grid. Perhatikan bahwa itu bukan karena di sana kami tidak menarik sampel lain jika kami menolak proposal.
Saya cukup yakin ini bias. Saya pikir alternatif tidak bias, tetapi memiliki properti tidak menyenangkan yang .
Saya tertarik menggunakan sebagai estimator plug-in . Saya tidak berpikir ini adalah informasi yang berguna, tetapi mungkin Anda tahu beberapa alasan mengapa itu mungkin.
Contoh dalam R
Berikut adalah beberapa kode R jika Anda ingin membandingkan distribusi empiris dengan . Maaf beberapa indentasi salah ... Saya tidak melihat cara memperbaikinya.
# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)
# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
u <- sort(runif(n))
x <- qD(u) # samples for empirical dist
z <- 0 # keep track of how many y_i == 1
# take bernoulli samples at the points s
s <- seq(0,1-1/n,length=n) + runif(n,0,1/n)
p <- dD(s) # density at s
while(z == 0){ # make sure we get at least one y_i == 1
y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
z <- sum(y)
}
result <- list(x=x, y=y, z=z)
return(result)
}
sim <- function(simdat, n, w){
# F hat -- empirical dist at w
fh <- mean(simdat$x < w)
# F tilde
ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
# Uncomment this if we want an unbiased estimate.
# This can take on values > 1 which is undesirable for a cdf.
### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
return(c(fh, ft))
}
set.seed(1) # for reproducibility
n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))
# compare the true value to the empirical means
pD(w) # the truth
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var) # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth
# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
rep(seq(0,1,length=n+1),each=2),
col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
rep(seq(0,1,length=dat$z+1),each=2),
col="blue")
EDIT:
EDIT 1 -
Saya mengedit ini untuk menanggapi komentar @ whuber.
EDIT 2 -
Saya menambahkan kode R dan membersihkannya sedikit lebih banyak. Saya sedikit mengubah notasi untuk keterbacaan, tetapi pada dasarnya sama. Saya berencana memberikan hadiah untuk hal ini segera setelah saya diizinkan, jadi tolong beri tahu saya jika Anda ingin klarifikasi lebih lanjut.
EDIT 3 -
Saya pikir saya berbicara dengan pernyataan @ kardinal. Saya memperbaiki kesalahan ketik dalam variasi total. Saya menambahkan hadiah.
EDIT 4 -
Menambahkan bagian "motivasi" untuk @ cardinal.