Mengapa ecdf menggunakan fungsi langkah dan bukan interpolasi linier?

Fungsi CDF empiris biasanya diperkirakan dengan fungsi langkah. Apakah ada alasan mengapa ini dilakukan sedemikian rupa dan tidak dengan menggunakan interpolasi linier? Apakah fungsi langkah memiliki sifat teoretis yang menarik yang membuat kita lebih menyukainya?

Berikut adalah contoh keduanya:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

r distributions ecdf

— Tal Galili
sumber

Terkait ...................................

"... diperkirakan oleh fungsi langkah" memungkiri kesalahpahaman yang halus: ECDF tidak hanya diperkirakan oleh fungsi langkah; itu adalah fungsi seperti itu dengan definisi. Ini identik dengan CDF dari variabel acak. Secara khusus, mengingat urutan angka hingga , tentukan ruang probabilitas dengan , diskrit, dan seragam. Misalkan adalah variabel acak yang menugaskan ke . ECDF adalah CDF dari .

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \ldots, x_n$

(Ω, S, P)

$(\Omega,\mathfrak{S},\mathbb{P})$

Ω = {1, 2, \dots, n}

$\Omega=\{1,2,\ldots, n\}$

S

$\mathfrak{S}$

P

$\mathbb{P}$

X

$X$

x_{i}

$x_i$

i

$i$ $X$ Penyederhanaan konseptual yang sangat besar ini merupakan argumen yang meyakinkan untuk definisi tersebut.

— whuber

Ini menurut definisi.

Fungsi distribusi empiris dari seperangkat pengamatan didefinisikan oleh $(X_n)$

F_{e} (t) = \frac{# {X_{n} ∣ X_{n} \leq t}}{n}

$F_e(t) = \frac{\#\{X_n \mid X_n \le t\}}n$

Di mana adalah kardinalitas yang disetel. Ini, pada dasarnya, adalah fungsi langkah. Konvergen ke CDF sebenarnya hampir pasti . $\#$

Juga perhatikan bahwa untuk distribusi apa pun dengan untuk setidaknya dua (terutama distribusi diskrit yang tidak diregenerasi), varian ECDF Anda tidak menyatu dengan CDF yang sebenarnya. Sebagai contoh, pertimbangkan distribusi Bernoulli dengan CDF $P(X = x) \ne 0$ $x$

F_{X} (x) = p χ_{x \geq 0} + (1 - p) χ_{x \geq 1}

$F_X(x) = p \chi_{x \ge 0} + (1-p) \chi_{x \ge 1}$ ini adalah fungsi langkah sedangkan ecdf2 akan konvergen ke (fungsi linier sambungan ganda dan .

χ_{x \geq 0} \cdot (p + (1 - p) min (x, 1))

$\chi_{x\ge 0} \cdot (p + (1-p)\min(x, 1))$

(0, p)

$(0,p)$

(1, 1)

$(1,1)$

— AlexR
sumber

Terima kasih Alex. Jadi, apakah ada nama lain untuk fungsi yang saya tulis? (karena saya kira itu juga konvergen ke CDF sebenarnya)

— Tal Galili

@ Talalili Tidak. Pertimbangkan distribusi Bernoulli. Ecdf2 Anda tidak akan bertemu dalam kasus ini. Anda bisa menyebutnya ecdf yang dihaluskan. Saya menduga itu akan konvergen ke CDF sebenarnya jika CDF sebenarnya tidak memiliki poin dengan probabilitas nol kecuali untuk poin ekstrim (di mana Anda tidak mulus)

— AlexR

@AlexR Anda dapat mengedit jawaban Anda untuk menambahkan komentar ini karena distribusi diskrit adalah alasan yang pasti - jadi itu menjawab pertanyaan "mengapa".

— Tim

@Tim Selesai.

${}{}$

— AlexR

Terima kasih. Apakah ada cara untuk mendefinisikan fungsi empiris kontinu yang akan menyatu dengan fungsi langkah tetapi akan sepenuhnya monoton (yaitu: tanpa "lompatan" tajam)?

— Tal Galili