"Estimasi kepadatan kernel" adalah konvolusi dari apa?

Saya mencoba untuk mendapatkan pemahaman yang lebih baik tentang estimasi kepadatan kernel.

Menggunakan definisi dari Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition

$\hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big)$

Mari kita ambil $K()$ menjadi fungsi persegi panjang yang memberikan $1$ jika $x$ adalah antara $-0.5$ dan $0.5$ dan $0$ sebaliknya, dan $h$ (ukuran jendela) menjadi 1.

Saya mengerti bahwa kepadatan adalah konvolusi dari dua fungsi, tetapi saya tidak yakin saya tahu bagaimana mendefinisikan kedua fungsi ini. Salah satunya harus (mungkin) menjadi fungsi dari data yang, untuk setiap titik dalam R, memberi tahu kami berapa banyak titik data yang kami miliki di lokasi tersebut (kebanyakan $0$ ). Dan fungsi lainnya mungkin harus beberapa modifikasi dari fungsi kernel, dikombinasikan dengan ukuran jendela. Tetapi saya tidak yakin bagaimana mendefinisikannya.

Ada saran?

Di bawah ini adalah contoh kode R yang (saya curiga) mereplikasi pengaturan yang saya tetapkan di atas (dengan campuran dua Gaussi dan $n=100$ ), di mana saya berharap melihat "bukti" bahwa fungsi yang akan berbelit-belit adalah seperti yang kita duga .

# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)

masukkan deskripsi gambar di sini

r kernel-smoothing convolution

— Tal Galili
sumber

Permadani di bagian bawah memberikan intuisi yang kasar. Bayangkan setiap nilai

dari

adalah lonjakan dengan bobot terkait

. Sekarang usap setiap lonjakan menggunakan bentuk dan lebar kernel Anda, sehingga lonjakan diubah untuk mengambil bentuk dan lebar yang sama, dengan ketinggian sedemikian sehingga area di bawah ini adalah

. Tambahkan hasilnya dan Anda memiliki perkiraan kepadatan kernel.

x_{i}

$x_i$

i = 1

$i = 1$

n

$n$

1 / n

$1/n$

1 / n

$1/n$

— Nick Cox

Hai Nick, terima kasih atas komentarnya. Sejauh ini dalam intuisi yang sudah saya dapatkan, itu adalah mengubahnya secara resmi menjadi bentuk konvolusi yang saya ingin tahu :) (Saya ingin sekarang pergi melalui jawaban Whuber!)

— Tal Galili

Sesuai dengan kumpulan data apa pun $X = (x_1, x_2, \ldots, x_n)$ adalah "fungsi kepadatan empiris" -nya

f_{X} (x) = \frac{1}{n} \sum_{i = 1}^{n} δ (x - x_{i}) .

$f_X(x) = \frac{1}{n}\sum_{i=1}^{n} \delta(x-x_i).$

Di sini, $\delta$ adalah "fungsi umum". Terlepas dari nama itu, itu sama sekali bukan fungsi: itu adalah objek matematika baru yang hanya dapat digunakan dalam integral. Properti definisinya adalah bahwa untuk setiap fungsi $g$ dukungan kompak yang kontinu dalam lingkungan $0$ ,

\int_{R} δ (x) g (x) d x = g (0) .

$\int_{\mathbb{R}}\delta(x) g(x) dx = g(0).$

(Nama untuk $\delta$ termasuk ukuran "atom" atau "titik" dan " Fungsi delta Dirac ." Dalam perhitungan berikut konsep ini diperluas untuk mencakup fungsi $g$ yang kontinu dari satu sisi saja.)

Membenarkan karakterisasi $f_X$ ini adalah pengamatan itu

\begin{aligned} \int_{- \infty}^{x} f_{X} (y) d y & = \int_{- \infty}^{x} \frac{1}{n} \sum_{i = 1}^{n} δ (y - x_{i}) d y \\ = \frac{1}{n} \sum_{i = 1}^{n} \int_{- \infty}^{x} δ (y - x_{i}) d y \\ = \frac{1}{n} \sum_{i = 1}^{n} \int_{R} I (y \leq x) δ (y - x_{i}) d y \\ = \frac{1}{n} \sum_{i = 1}^{n} I (x_{i} \leq x) \\ = F_{X} (x) \end{aligned}

$\eqalign{ \int_{-\infty}^{x} f_X(y) dy &= \int_{-\infty}^{x} \frac{1}{n}\sum_{i=1}^{n} \delta(y-x_i)dy \\ &= \frac{1}{n}\sum_{i=1}^{n} \int_{-\infty}^{x} \delta(y-x_i)dy \\ &= \frac{1}{n}\sum_{i=1}^{n} \int_{\mathbb{R}} I(y\le x) \delta(y-x_i)dy \\ &= \frac{1}{n}\sum_{i=1}^{n} I(x_i \le x) \\ &= F_X(x) }$

$F_X$ $I$ $1$ $0$ $\mathbb{R}$ $I$ $X$

$f_X(x)$ $k$

\begin{aligned} (f_{X} * k) (x) & = \int_{R} f_{X} (x - y) k (y) d y \\ = \int_{R} \frac{1}{n} \sum_{i = 1}^{n} δ (x - y - x_{i}) k (y) d y \\ = \frac{1}{n} \sum_{i = 1}^{n} \int_{R} δ (x - y - x_{i}) k (y) d y \\ = \frac{1}{n} \sum_{i = 1}^{n} k (x_{i} - x) . \end{aligned}

$\eqalign{ (f_X * k)(x) &= \int_{\mathbb{R}} f_X(x - y) k(y) dy \\ &=\int_{\mathbb{R}} \frac{1}{n}\sum_{i=1}^{n} \delta(x-y-x_i) k(y) dy \\ &= \frac{1}{n}\sum_{i=1}^{n}\int_{\mathbb{R}} \delta(x-y-x_i) k(y) dy \\ &=\frac{1}{n}\sum_{i=1}^{n} k(x_i-x). }$

$k(x) = K_h(-x)$ $K_h(x)$

— whuber
sumber

Situasi dalam dua dimensi dijelaskan (dalam istilah sehari-hari) dan diilustrasikan pada situs GIS di gis.stackexchange.com/questions/14374/… .

— whuber

Dear Whuber, saya baru saja membaca dan membaca jawaban Anda dengan senang hati! Terima kasih banyak atas penjelasan dan detailnya, jawaban Anda (yang ini, dan yang lainnya secara umum) benar-benar menginspirasi. Milik Anda, Tal

— Tal Galili

δ

$\delta$

g,

$g,$

x_{i}

$x_i$

g (x_{i}) .

$g(x_i).$

@whuber Terima kasih. Kalimat Fungsi umum δ sama sekali bukan fungsi: ini adalah objek matematika baru yang hanya dapat digunakan dalam integral. membuatnya lebih jelas. tepat seperti biasa. ;)

— Jan Vainer

@ Jan Terima kasih atas bantuan Anda: Saya telah memasukkan ide itu dalam jawaban ini.

— whuber