Mengapa ecdf menggunakan fungsi langkah dan bukan interpolasi linier?


13

Fungsi CDF empiris biasanya diperkirakan dengan fungsi langkah. Apakah ada alasan mengapa ini dilakukan sedemikian rupa dan tidak dengan menggunakan interpolasi linier? Apakah fungsi langkah memiliki sifat teoretis yang menarik yang membuat kita lebih menyukainya?

Berikut adalah contoh keduanya:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

masukkan deskripsi gambar di sini


Terkait ...................................

8
"... diperkirakan oleh fungsi langkah" memungkiri kesalahpahaman yang halus: ECDF tidak hanya diperkirakan oleh fungsi langkah; itu adalah fungsi seperti itu dengan definisi. Ini identik dengan CDF dari variabel acak. Secara khusus, mengingat urutan angka hingga , tentukan ruang probabilitas dengan , diskrit, dan seragam. Misalkan adalah variabel acak yang menugaskan ke . ECDF adalah CDF dari . ( Ω , S , P ) Ω = { 1 , 2 , ... , n } Sx1,x2,,xn(Ω,S,P)Ω={1,2,,n}SPXxiiXPenyederhanaan konseptual yang sangat besar ini merupakan argumen yang meyakinkan untuk definisi tersebut.
whuber

Jawaban:


22

Ini menurut definisi.

Fungsi distribusi empiris dari seperangkat pengamatan didefinisikan oleh(Xn)

Fe(t)=#{XnXnt}n

Di mana adalah kardinalitas yang disetel. Ini, pada dasarnya, adalah fungsi langkah. Konvergen ke CDF sebenarnya hampir pasti .#

Juga perhatikan bahwa untuk distribusi apa pun dengan untuk setidaknya dua (terutama distribusi diskrit yang tidak diregenerasi), varian ECDF Anda tidak menyatu dengan CDF yang sebenarnya. Sebagai contoh, pertimbangkan distribusi Bernoulli dengan CDFP(X=x)0x

FX(x)=pχx0+(1p)χx1
ini adalah fungsi langkah sedangkan ecdf2 akan konvergen ke (fungsi linier sambungan ganda dan .χx0(p+(1p)min(x,1))(0,p)(1,1)

Terima kasih Alex. Jadi, apakah ada nama lain untuk fungsi yang saya tulis? (karena saya kira itu juga konvergen ke CDF sebenarnya)
Tal Galili

5
@ Talalili Tidak. Pertimbangkan distribusi Bernoulli. Ecdf2 Anda tidak akan bertemu dalam kasus ini. Anda bisa menyebutnya ecdf yang dihaluskan. Saya menduga itu akan konvergen ke CDF sebenarnya jika CDF sebenarnya tidak memiliki poin dengan probabilitas nol kecuali untuk poin ekstrim (di mana Anda tidak mulus)
AlexR

@AlexR Anda dapat mengedit jawaban Anda untuk menambahkan komentar ini karena distribusi diskrit adalah alasan yang pasti - jadi itu menjawab pertanyaan "mengapa".
Tim

1
@Tim Selesai.
AlexR

Terima kasih. Apakah ada cara untuk mendefinisikan fungsi empiris kontinu yang akan menyatu dengan fungsi langkah tetapi akan sepenuhnya monoton (yaitu: tanpa "lompatan" tajam)?
Tal Galili
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.