Apa nama metode estimasi kerapatan tempat semua pasangan kemungkinan digunakan untuk membuat distribusi campuran Normal?

Saya hanya memikirkan cara yang rapi (belum tentu bagus) untuk membuat perkiraan kepadatan satu dimensi dan pertanyaan saya adalah:

Apakah metode estimasi kerapatan ini memiliki nama? Jika tidak, apakah ini merupakan kasus khusus dari beberapa metode lain dalam literatur?

Berikut adalah metode: Kami memiliki vektor yang kami asumsikan diambil dari beberapa distribusi yang tidak diketahui yang ingin kami perkirakan. Cara melakukan ini adalah dengan mengambil semua pasangan nilai yang mungkin dalam dan untuk setiap pasangan cocok dengan distribusi Normal menggunakan kemungkinan maksimum. Estimasi kepadatan yang dihasilkan kemudian distribusi campuran yang terdiri dari semua Normals yang dihasilkan, di mana setiap Normal diberi bobot yang sama. $X = [x_1,x_2,...,x_n]$ $X$ $[x_i,x_j]_{i \neq j}$

Gambar di bawah ini mengilustrasikan menggunakan metode ini pada vektor . Di sini lingkaran adalah titik data, Norma berwarna adalah distribusi kemungkinan maksimum yang diperkirakan menggunakan setiap pasangan yang mungkin dan garis hitam tebal menunjukkan perkiraan kerapatan yang dihasilkan (yaitu, distribusi campuran). $[-1.3,0.15,0.73,1.4]$

masukkan deskripsi gambar di sini

Omong-omong, sangat mudah untuk menerapkan metode dalam R yang menarik sampel dari distribusi campuran yang dihasilkan:

# Generating some "data"
x <- rnorm(30)

# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
  pair <- sample(x, size = 2)
  rnorm(1, mean(pair), sd(pair))
})

# Plotting the density estimate compared with 
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')

masukkan deskripsi gambar di sini

— Rasmus Bååth
sumber

Cobalah metode Anda menggunakanx <- c(rnorm(30), rnorm(30, 10))

— Dason

@ Alasan Yap, dalam hal ini metode ini tidak berfungsi sama sekali! :) Juga tidak menyatu dengan n besar.

— Rasmus Bååth

Ini kedengarannya seperti versi estimasi kepadatan kernel yang rusak di mana bandwidth diperkirakan dengan validasi silang!

— Xi'an

X = [x_{1}, x_{2}, \dots, x_{n}]

$X=[x_1,x_2,\ldots,x_n]$

n

$n$

Ini adalah ide yang menarik, karena penduga standar deviasi tampaknya kurang sensitif terhadap outlier daripada pendekatan root-mean-square biasa. Namun, saya ragu estimator ini telah dipublikasikan. Ada tiga alasan mengapa: itu tidak efisien secara komputasi, itu bias, dan bahkan ketika bias diperbaiki, secara statistik tidak efisien (tetapi hanya sedikit). Ini dapat dilihat dengan sedikit analisis pendahuluan, jadi mari kita lakukan itu terlebih dahulu dan kemudian menarik kesimpulan.

Analisis

$\mu$ $\sigma$ $(x_i, x_j)$

\hat{μ} (x_{i}, x_{j}) = \frac{x_{i} + x_{j}}{2}

$\hat\mu(x_i,x_j) = \frac{x_i+x_j}{2}$

dan

\hat{σ} (x_{i}, x_{j}) = \frac{| x_{i} - x_{j} |}{2} .

$\hat\sigma(x_i,x_j) = \frac{|x_i-x_j|}{2}.$

Karena itu metode yang dijelaskan dalam pertanyaan adalah

\hat{μ} (x_{1}, x_{2}, \dots, x_{n}) = \frac{2}{n (n - 1)} \sum_{i > j} \frac{x_{i} + x_{j}}{2} = \frac{1}{n} \sum_{i = 1}^{n} x_{i},

$\hat\mu(x_1, x_2, \ldots, x_n) = \frac{2}{n(n-1)} \sum_{i\gt j} \frac{x_i+x_j}{2} = \frac{1}{n}\sum_{i=1}^nx_i,$

yang merupakan penduga rata-rata, dan

\hat{σ} (x_{1}, x_{2}, \dots, x_{n}) = \frac{2}{n (n - 1)} \sum_{i > j} \frac{| x_{i} - x_{j} |}{2} = \frac{1}{n (n - 1)} \sum_{i, j} | x_{i} - x_{j} | .

$\hat\sigma(x_1, x_2, \ldots, x_n) = \frac{2}{n(n-1)}\sum_{i\gt j}\frac{|x_i-x_j|}{2} = \frac{1}{n(n-1)}\sum_{i,j}|x_i-x_j|.$

$E = \mathbb{E}(|x_i-x_j|)$ $i$ $j$

E (\hat{σ} (x_{1}, x_{2}, \dots, x_{n})) = \frac{1}{n (n - 1)} \sum_{i, j} E (| x_{i} - x_{j} |) = E .

$\mathbb{E}(\hat\sigma(x_1, x_2, \ldots, x_n)) = \frac{1}{n(n-1)}\sum_{i,j}\mathbb{E}(|x_i-x_j|) = E.$

$x_i$ $x_j$ $2\sigma^2$ $\sqrt{2}\sigma$ $\chi(1)$ $\sqrt{2/\pi}$

E = \frac{2}{\sqrt{π}} σ .

$E = \frac{2}{\sqrt{\pi}} \sigma.$

$2/\sqrt{\pi} \approx 1.128$ adalah bias dalam estimator ini.

$\hat\sigma$ , tapi - seperti yang akan kita lihat - ada tidak mungkin banyak minat ini, jadi saya hanya akan memperkirakan itu dengan simulasi cepat.

Kesimpulan

$\hat\sigma$ $n=20,000$
$\sum_{i,j}|x_i-x_j|$ $O(n^2)$ $O(n)$ $n$ $10,000$ R. (Pada platform lain, persyaratan RAM akan jauh lebih kecil, mungkin dengan sedikit biaya dalam waktu perhitungan.)
Secara statistik tidak efisien. Untuk memberikan yang terbaik, mari kita pertimbangkan versi yang tidak bias dan bandingkan dengan versi yang tidak bias dari kuadrat terkecil atau penduga kemungkinan maksimum

${\hat{σ}}_{O L S} = \sqrt{(\frac{1}{n - 1} \sum_{i = 1}^{n} {(x_{i} - \hat{μ})}^{2})} \frac{(n - 1) Γ ((n - 1) / 2)}{2 Γ (n / 2)} .$ $\hat\sigma_{OLS} = \sqrt{\left(\frac{1}{n-1} \sum_{i=1}^n \left(x_i - \hat\mu\right)^2\right)} \frac{(n-1)\Gamma((n-1)/2)}{2\Gamma(n/2)}.$
R $n=3$ $n=300$ $\hat\sigma_{OLS}$ $\sigma$

Kemudian

$\hat\sigma$

Kode

sigma <- function(x) sum(abs(outer(x, x, '-'))) / (2*choose(length(x), 2))
#
# sigma is biased.
#
y <- rnorm(1e3) # Don't exceed 2E4 or so!
mu.hat <- mean(y)
sigma.hat <- sigma(y)

hist(y, freq=FALSE,
     main="Biased (dotted red) and Unbiased (solid blue) Versions of the Estimator",
     xlab=paste("Sample size of", length(y)))
curve(dnorm(x, mu.hat, sigma.hat), col="Red", lwd=2, lty=3, add=TRUE)
curve(dnorm(x, mu.hat, sqrt(pi/4)*sigma.hat), col="Blue", lwd=2, add=TRUE)
#
# The variance of sigma is too large.
#
N <- 1e4
n <- 10
y <- matrix(rnorm(n*N), nrow=n)
sigma.hat <- apply(y, 2, sigma) * sqrt(pi/4)
sigma.ols <- apply(y, 2, sd) / (sqrt(2/(n-1)) * exp(lgamma(n/2)-lgamma((n-1)/2)))

message("Mean of unbiased estimator is ", format(mean(sigma.hat), digits=4))
message("Mean of unbiased OLS estimator is ", format(mean(sigma.ols), digits=4))
message("Variance of unbiased estimator is ", format(var(sigma.hat), digits=4))
message("Variance of unbiased OLS estimator is ", format(var(sigma.ols), digits=4))
message("Efficiency is ", format(var(sigma.ols) / var(sigma.hat), digits=4))

— whuber
sumber

Literatur yang relevan kembali ke masa lalu misalnya Downton, F. 1966 Estimasi linear dengan koefisien polinomial. Biometrika 53: 129-141 doi: 10.1093 / biomet / 53.1-2.129

— Nick Cox

Wow, saya mendapat lebih dari yang saya tawar! :)

— Rasmus Bååth