Penjelasan rumus untuk median titik terdekat dengan asal sampel N dari bola satuan

Dalam Elemen Pembelajaran Statistik , masalah diperkenalkan untuk menyoroti masalah dengan k-nn dalam ruang dimensi tinggi. Ada titik data yang terdistribusi secara seragam dalam satuan bola -dimensi. $N$ $p$

Jarak median dari titik asal ke titik data terdekat diberikan oleh ekspresi:

d (p, N) = {(1 - {(\frac{1}{2})}^{\frac{1}{N}})}^{\frac{1}{p}}

$d(p,N) = \left(1-\left(\frac{1}{2}\right)^\frac{1}{N}\right)^\frac{1}{p}$

Ketika , rumus memecah menjadi setengah jari-jari bola, dan saya bisa melihat bagaimana titik terdekat mendekati perbatasan sebagai , sehingga membuat intuisi di balik knn memecah dalam dimensi tinggi. Tapi saya tidak bisa mengerti mengapa formula ini bergantung pada N. Bisakah seseorang tolong klarifikasi? $N=1$ $p \rightarrow \infty$

Juga buku ini membahas masalah ini lebih lanjut dengan menyatakan: "... prediksi jauh lebih sulit di dekat tepi sampel pelatihan. Seseorang harus memperkirakan dari titik sampel tetangga daripada interpolasi di antara mereka". Ini sepertinya pernyataan yang mendalam, tapi sepertinya saya tidak bisa memahami artinya. Adakah yang bisa menulis ulang?

self-study proof k-nearest-neighbour

— user64773
sumber

Anda perlu mengedit persamaan yang ditampilkan sedikit. Apakah itu eksponen hanya berlaku untuk di pembilang seperti yang terlihat sekarang, atau apakah Anda ingin itu berlaku untuk keseluruhan ?

\frac{1}{N}

$\frac 1N$

1

$1$

\frac{1}{2}

$\frac 12$

— Dilip Sarwate

Ini akan membantu untuk membedakan "hypersphere" (yang dalam adalah bermacam-macam dimensi ) dari "unit ball" (yang memiliki dimensi ). Hypersphere adalah batas bola. Jika, seperti judul Anda katakan, semua poin diambil dari hypersphere , lalu - menurut definisi - mereka semua memiliki jarak dari titik asal, jarak median adalah , dan semua sama-sama dekat dengan titik asal.

R^{p}

$\mathbb{R}^p$

p - 1

$p-1$

p

$p$

1

$1$

1

$1$

— whuber

@DilipSarwate Ini diterapkan ke seluruh . Dalam buku ini ada contoh di mana jadi

\frac{1}{2}

$\frac{1}{2}$

N = 500, p = 10

$N=500, p=10$

d (p, N) \approx 0.52

$d(p, N) \approx 0.52$

— user64773

Jawaban:

Volume hyperball dimensional dari jari-jari memiliki volume yang proporsional dengan . $p$ $r$ $r^p$

Jadi proporsi volume lebih dari jarak dari titik asal adalah . $kr$ $\frac{r^p-(kr)^p}{r^p}=1-k^p$

Probabilitas bahwa semua poin yang dipilih secara acak lebih dari jarak dari asal adalah . Untuk mendapatkan jarak median ke titik acak terdekat, setel probabilitas ini sama dengan . Jadi $N$ $kr$ $\left(1-k^p\right)^N$ $\frac12$

{(1 - k^{p})}^{N} = \frac{1}{2}

$\left(1-k^p\right)^N=\tfrac12$

⟹ k = {(1 - \frac{1}{2^{1 / N}})}^{1 / p} .

$\implies k=\left(1-\tfrac1{2^{1/N}}\right)^{1/p}.$

Secara intuitif ini membuat semacam akal: poin lebih acak ada, semakin dekat Anda harapkan yang terdekat ke asal menjadi, sehingga Anda harus mengharapkan menjadi fungsi penurunan . Di sini adalah fungsi penurunan dari , jadi adalah fungsi yang meningkat dari , dan dengan demikian adalah suatu penurunan fungsi seperti yang akar th. $k$ $N$ $2^{1/N}$ $N$ $\tfrac1{2^{1/N}}$ $N$ $1-\tfrac1{2^{1/N}}$ $N$ $p$

— Henry
sumber

Ah, cara yang bagus untuk melihatnya. Apakah Anda dapat menafsirkan ulang kutipan dalam pertanyaan kedua saya?

— user64773

Saya menduga mungkin menyarankan bahwa dalam dimensi tinggi, poin untuk diprediksi secara efektif jauh dari data pelatihan, seolah-olah berada di tepi bola, jadi Anda tidak benar-benar melakukan interpolasi melainkan ekstrapolasi, sehingga ketidakpastian jauh lebih besar. Tapi saya tidak begitu tahu.

— Henry

Saya tidak mengerti - saya mengerti mengapa ungkapan ini adalah probabilitas untuk semua poin menjadi lebih jauh dari kr, tetapi mengapa menetapkan probabilitas ini menjadi 1/2 memberikan jarak median ??

— ihadanny

@ihadanny: nilai memberikan sebagian kecil dari jari-jari di mana probabilitas semua poin lebih jauh adalah , dan di mana probabilitas setidaknya satu titik lebih dekat adalah , jadi adalah median dari distribusi jarak dari titik terdekat.

k = {(1 - \frac{1}{2^{1 / N}})}^{1 / p}

$k=\left(1-\tfrac1{2^{1/N}}\right)^{1/p}$

N

$N$

\frac{1}{2}

$\frac12$

1 - \frac{1}{2} = \frac{1}{2}

$1-\frac12=\frac12$

k r

$kr$

— Henry

Definisi median, setengah lebih besar dan setengah lebih kecil.

— Berikan Izmirlian

Dan sekarang tanpa melambaikan tangan

Untuk setiap urutan iid rv's, mana adalah CDF umum
$P (min_{1 \leq i \leq N} Y_{i} > y) = (1 - F (y))^{N},$ $P( \min_{1\le i\le N} Y_i > y ) = (1-F(y))^N,$ $F$
Jadi jika kita memiliki iid mendistribusikan secara seragam dalam satuan bola dalam dimensi , maka di mana adalah CDF umum dari jarak, . Akhirnya, apa CDF, , untuk titik yang terdistribusi secara merata di bola unit dalam ? Probabilitas bahwa titik terletak pada bola jari-jari r di dalam bola jari-jari satuan sama dengan rasio volume: $N$ $X_i$ $p$
$P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - F (r))^{N},$ $P( \min_{1\le i\le N} ||X_i|| > r ) = (1-F(r))^N,$ $F$ $||X_i||, i=1,2,\ldots,N$ $F$ $R^p$

F (r) = P (| | X_{i} | | \leq r) = C r^{p} / (C 1^{p}) = r^{p}

$F(r) = P ( ||X_i|| \le r ) = C r^p/( C 1^p) = r^p$

Demikian solusi untuk

1 / 2 = P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - r^{p})^{N}

$1/2 = P( \min_{1\le i\le N} ||X_i|| > r ) = (1- r^p)^N$

adalah

r = (1 - (1 / 2)^{1 / N})^{1 / p} .

$r = (1 - (1/2)^{1/N})^{1/p}.$

Juga pertanyaan Anda tentang ketergantungan pada ukuran sampel, . Untuk fix, karena bola terisi lebih banyak poin, tentu saja jarak minimum ke titik asal harus lebih kecil. $N$ $p$

Akhirnya, ada sesuatu yang salah dalam rasio volume Anda. Sepertinya harus menjadi volume bola unit dalam . $k$ $R^p$

— Berikan Izmirlian
sumber

Ringkas tetapi dalam kata-kata:

Kami ingin menemukan jarak median dari titik terdekat ke titik asal di titik terdistribusi seragam di bola pada titik asal jari-jari satuan dalam dimensi . Probabilitas bahwa jarak terkecil melebihi , (sebut ungkapan kuantitas ini [1]) adalah kekuatan dari probabilitas bahwa satu titik terdistribusi secara seragam melebihi , karena kemandirian statistik. Yang terakhir adalah satu dikurangi probabilitas bahwa titik terdistribusi tunggal yang seragam kurang dari . Yang terakhir adalah rasio volume bola jari-jari dengan bola jari-jari satuan, atau . Kita sekarang dapat menulis ekspresi [1] sebagai $N$ $p$ $r$ $N^{th}$ $r$ $r$ $r$ $r^p$

P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - r^{p})^{N} .

$P( \min_{1\le i\le N} ||X_i|| > r ) = (1- r^p)^N.$

Untuk menemukan median distribusi minimum jarak, atur probabilitas di atas menjadi dan selesaikan untuk , dapatkan jawabannya. $1/2$ $r$

— Berikan Izmirlian
sumber