Alternatif distribusi empiris


12

KARUNIA:

Hadiah penuh akan diberikan kepada seseorang yang memberikan referensi ke makalah yang diterbitkan yang menggunakan atau menyebutkan estimator bawah ini.F~

Motivasi:

Bagian ini mungkin tidak penting bagi Anda dan saya kira itu tidak akan membantu Anda mendapatkan hadiah, tetapi karena seseorang bertanya tentang motivasi, inilah yang saya kerjakan.

Saya sedang mengerjakan masalah teori grafik statistik. Objek pembatas grafik padat standar adalah fungsi simetris dalam arti bahwa . Pengambilan sampel grafik pada simpul dapat dianggap sebagai sampling nilai seragam pada satuan interval ( untuk ) dan kemudian probabilitas suatu edge adalah . Biarkan matriks ketetanggaan yang dihasilkan disebut .W:[0,1]2[0,1]W(u,v)=W(v,u)nnUii=1,,n(i,j)W(Ui,Uj)A

Kita dapat memperlakukan sebagai kepadatan seandainya \ iint W> 0 . Jika kami memperkirakan f berdasarkan A tanpa kendala f , maka kami tidak dapat memperoleh estimasi yang konsisten. Saya menemukan hasil yang menarik tentang memperkirakan secara konsisten f ketika f berasal dari sekumpulan fungsi yang mungkin dibatasi. Dari estimator ini dan \ sum A , kita dapat memperkirakan W .Wf=W/WW>0fAfffAW

Sayangnya, metode yang saya temukan menunjukkan konsistensi ketika kami sampel dari distribusi dengan kepadatan . Cara dikonstruksi mengharuskan saya mencicipi kisi-kisi poin (sebagai lawan dari pengambilan undian dari asli ). Dalam pertanyaan stats.SE ini, saya menanyakan masalah 1 dimensi (lebih sederhana) dari apa yang terjadi ketika kita hanya dapat sampel Bernoullis sampel pada kotak seperti ini daripada benar-benar mengambil sampel dari distribusi secara langsung.fAf

referensi untuk batas grafik:

L. Lovasz dan B. Szegedy. Batas urutan grafik padat ( arxiv ).

C. Borgs, J. Chayes, L. Lovasz, V. Sos, dan K. Vesztergombi. Urutan konvergen grafik padat i: Frekuensi subgraph, sifat metrik, dan pengujian. ( arxiv ).

Notasi:

Pertimbangkan distribusi berkelanjutan dengan cdf dan pdf yang memiliki dukungan positif pada interval . Misalkan tidak memiliki pointmass, mana-mana dapat dibedakan, dan juga bahwa adalah supremum dari pada interval . Mari berarti bahwa variabel acak adalah sampel dari distribusi . adalah variabel acak seragam iid pada .Ff[0,1]fFsupz[0,1]f(z)=c<f[0,1]XFXFUi[0,1]

Masalah pengaturan:

Seringkali, kita dapat membiarkan menjadi variabel acak dengan distribusi dan bekerja dengan fungsi distribusi empiris yang biasa sebagai mana adalah fungsi indikator. Perhatikan bahwa distribusi empiris ini itu sendiri acak (di mana diperbaiki).X1,,XnF

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

Sayangnya, saya tidak mampu mengambil contoh langsung dari . Namun, saya tahu bahwa memiliki dukungan positif hanya pada , dan saya dapat menghasilkan variabel acak mana adalah variabel acak dengan distribusi Bernoulli dengan probabilitas keberhasilan mana dan didefinisikan di atas. Jadi, . Satu cara yang jelas bahwa saya dapat memperkirakan dari nilai - nilai ini adalah dengan mengambil dimanaFf[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cUiYiBern(pi)FYi
F~n(t)=1i=1nYii=1tnYi
adalah fungsi plafon (yaitu, hanya membulatkan ke bilangan bulat terdekat), dan menggambar ulang jika (untuk menghindari pembagian dengan nol dan membuat alam semesta runtuh) . Perhatikan bahwa juga merupakan variabel acak karena adalah variabel acak.i=1nYi=0F~(t)Yi

Pertanyaan:

Dari (apa yang saya pikir seharusnya) termudah hingga yang paling sulit.

  1. Adakah yang tahu jika ini (atau yang serupa) memiliki nama? Bisakah Anda memberikan referensi di mana saya bisa melihat beberapa propertinya?F~n

  2. Sebagai , apakah penduga yang konsisten untuk (dan dapatkah Anda membuktikannya)?nF~n(t)F(t)

  3. Apa distribusi pembatas dari sebagai ?F~n(t)n

  4. Idealnya, saya ingin mengikat yang berikut ini sebagai fungsi dari - misalnya, , tetapi saya tidak tahu apa yang sebenarnya. The singkatan Big O di probabilitasnOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

Beberapa ide dan catatan:

  1. Ini sangat mirip sampling penerimaan-penolakan dengan stratifikasi berbasis grid. Perhatikan bahwa itu bukan karena di sana kami tidak menarik sampel lain jika kami menolak proposal.

  2. Saya cukup yakin ini bias. Saya pikir alternatif tidak bias, tetapi memiliki properti tidak menyenangkan yang .F~n

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. Saya tertarik menggunakan sebagai estimator plug-in . Saya tidak berpikir ini adalah informasi yang berguna, tetapi mungkin Anda tahu beberapa alasan mengapa itu mungkin.F~n

Contoh dalam R

Berikut adalah beberapa kode R jika Anda ingin membandingkan distribusi empiris dengan . Maaf beberapa indentasi salah ... Saya tidak melihat cara memperbaikinya.F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

output dari data di atas

EDIT:

EDIT 1 -

Saya mengedit ini untuk menanggapi komentar @ whuber.

EDIT 2 -

Saya menambahkan kode R dan membersihkannya sedikit lebih banyak. Saya sedikit mengubah notasi untuk keterbacaan, tetapi pada dasarnya sama. Saya berencana memberikan hadiah untuk hal ini segera setelah saya diizinkan, jadi tolong beri tahu saya jika Anda ingin klarifikasi lebih lanjut.

EDIT 3 -

Saya pikir saya berbicara dengan pernyataan @ kardinal. Saya memperbaiki kesalahan ketik dalam variasi total. Saya menambahkan hadiah.

EDIT 4 -

Menambahkan bagian "motivasi" untuk @ cardinal.


1
Pertanyaan Anda mulai menjadi ambigu pada saat Anda merujuk ke objek yang tidak terdefinisi dan menggunakan beberapa notasi istimewa. Sebagai contoh, muncul sejak awal tetapi tidak memiliki hubungan yang jelas dengan dan hanya dengan membaca lebih jauh kita belajar Anda menganggapnya sebagai "bukan distribusi diskrit" - tetapi objek seperti apa itu? Yang paling penting, apa artinya " ?" "biasanya berarti supremum tetapi mungkin ada hubungannya dengan dukungan esensial dari suatu distribusi? Karena segala sesuatu dalam pertanyaan tergantung pada apa artinya ini, saya tidak dapat memahami dari pertanyaanfFsupzf(z)sup
whuber

1
Terima kasih @whuber atas komentar Anda. Tolong beri tahu saya jika pertanyaan yang direvisi masih membingungkan.
user1448319

1
Aha! Itu indikasi pertama yang saya lihat bahwa tidak tetap dan Anda tertarik pada asimptotik. Jika memang benar Anda memiliki fleksibilitas untuk memilih , bukankah itu membuka banyak kemungkinan, seperti pilihan adaptif dari titik sampel (daripada membatasi ke jaringan tetap )? Hal ini juga jelas Anda membuat asumsi tak tertulis, sehingga kontinu (ekuivalen, adalah benar-benar terus menerus ). Apa lagi yang dapat Anda asumsikan tentang distribusi dasar yang dapat membantu dengan analisis ini? nn{i/n}fFF
whuber

2
Beberapa pertanyaan / komentar lain: Tampaknya secara implisit didasarkan pada bagaimana Anda mengusulkan untuk membangun bahwa Anda benar-benar mempertimbangkan array segitiga , untuk keperluan analisis konvergensi. Dari bagaimana Anda membangun , tampaknya Anda juga harus dapat (dengan mudah) sampel variabel acak Bernoulli dengan probabilitas keberhasilan bersyarat mana adalah variabel acak seragam. Benarkah itu? (Sedikit lebih banyak konteks untuk pertanyaan Anda kemungkinan akan menyelesaikan banyak pertanyaan ini.) Cheers. piYi,ni=1,,npif(U)/cU
kardinal

2
Pertanyaan ini telah diperbaiki sehingga saya bahkan tidak mengenalinya sampai saya menyadari saya telah melihat komentar sebelumnya. Sekarang pertanyaan yang sangat menarik dan jauh lebih ditulis dengan baik.
Glen_b -Reinstate Monica

Jawaban:


1

Sementara referensi ini

EDIT: TAMBAHAN REFERENSI UNTUK STATISTIK YANG SANGAT SEDERHANA "Estimasi Nonparametrik dari Pengamatan Tidak Lengkap" EL Kaplan dan Paul Meier, Jurnal Asosiasi Statistik Amerika, Vol. 53, No. 282 (Juni, 1958), hlm. 457-481

tidak untuk penaksir seperti ECDF Anda di Saya percaya ini setara dengan penaksir Kaplan-Meier (alias. penaksir batas produk) seperti yang digunakan dalam Analisis Kelangsungan Hidup, meskipun itu diterapkan pada rentang waktu .[0,1][0,)

Memperkirakan bias akan mungkin terjadi setelah Anda memiliki estimasi distribusi yang wajar melalui perataan kernel jika berperilaku cukup baik (lihat, misalnya, transformasi Khmaladze di Wikipedia).

Dalam kasus bivariat dalam masalah grafik Anda, memperkirakan dari meskipun dengan kendala simetri sepele tampaknya mirip dengan pendekatan dalam Jean-David Fermanian, Dragan Radulovic, dan Marten Wegkamp (2004), Konvergensi lemah kopula empiris proses , Bernoulli , vol. 10, tidak. 5, 847–860, seperti yang ditunjukkan @cardinal "Metode Delta Multivariat".f=W/WA


Selamat datang di situs, James. Saya berharap dapat melihat lebih banyak kontribusi Anda.
kardinal

0

Ini menjawab pertanyaan 2 dan 3 di atas. Saya masih sangat menginginkan referensi (dari pertanyaan 1).

Ini belum memperhitungkan kapan .Yi=0

Pertimbangkan , lalu mana subscript menunjukkan turunannya. Ingat . Mari Jadi perhatikan bahwa dan . Juga, g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t)
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
Perhatikan bahwa oleh independensi s. Cov(R,S)=0Yi

Sekarang, kami menggunakan ekspansi taylor untuk mendapatkan

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
di mana Secara khusus, kita mendapatkan
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

Berikan komentar jika Anda melihat ada yang salah dengan ini.

EDIT:

Edit 1 -

Memperbaiki salah ketik di . Terima kasih @ cardinal atas saran Anda di komentar tentang pertanyaan 4.VF(t)

Edit 2 -

Memperbaiki banyak kesalahan ketik: Saya memiliki mana saya seharusnya memiliki di banyak tempat. Saya masih perlu menjawab tanggapan @ cardinal tentang .c1cYi=0


1
Dear @user: Ini di jalur yang benar; Berikut adalah beberapa saran. ( 1 ) Rata-rata dari tidak ada, setidaknya tidak sampai Anda menentukan apa yang terjadi ketika , jadi secara tegas analisis dalam jawaban tidak benar. Mendefinisikan perilaku di nol akan merusak struktur independensi, tetapi semuanya tidak hilang. ( 2 ) Pada dasarnya, apa yang Anda lakukan adalah menerapkan metode delta multivarian. Perhatikan bahwa ini tidak memerlukan keberadaan rata-rata , sehingga akan lebih bersih (dan lebih tepat) jika Anda menggunakan rute ini. F~n(t)iYi=0F~n(t)
kardinal

2
( 3 ) Item 4 dalam daftar Anda ditangani sebagai berikut. Perhatikan bahwaIstilah pertama di sisi kanan, , adalah, jadi jelas . Anda hanya tinggal berurusan dengan jangka menengah, tetapi itu mudah menyerah pada ketidaksetaraan Markov diikuti oleh Jensen dan juga .
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
{iYi>0}|1cn1iYi|Op(n1/2)Op(n1/2)
kardinal

Yth. Pemakai yang terhormat: Akan sangat membantu untuk melihat lebih banyak elaborasi atas komentar Anda tentang tidak perlu mempertimbangkan kasus . Apa yang Anda gambarkan adalah pengambilan sampel bersyarat. The tergantung pada yang tidak independen (atau kondisional independen), sehingga (implisit) analisis dalam jawaban tersebut tidak memiliki. Mungkin bermanfaat untuk melihat kasus untuk melihat ini (cukup gambar tabel ). iYi=0Yi{iYi>0}n=22×2
kardinal

Sebagai tambahan, mungkin perlu dicatat bahwa, jadi definisi ini dapat disederhanakan. supCC|F~F|=01|F~F|
kardinal
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.