Saya akan mencoba untuk menebus kesalahan saya sebelumnya dengan menunjukkan sesuatu yang berlawanan - bahwa sampel sudah cukup (batas bawah hampir kencang)! Lihat apa yang Anda pikirkan ....1/ϵ2Θ~(1ϵ2)1/ϵ2
Intuisi kunci dimulai dari dua pengamatan. Pertama, agar distribusi memiliki jarak dari , harus ada titik dengan probabilitas tinggi ( ). Misalnya, jika kita memiliki poin probabilitas , kita akan memiliki . ϵ Ω ( ϵ 2 ) 1 / ϵ 3 ϵ 3 ‖ D 1 - D 2 ‖ 2 ≤ √L2ϵΩ(ϵ2)1/ϵ3ϵ3∥D1−D2∥2≤1ϵ3(ϵ3)2−−−−−−√=ϵ3/2<ϵ
Kedua, pertimbangkan distribusi seragam dengan jarak dari . Jika kita memiliki poin probabilitas , maka mereka masing-masing akan berbeda dengan dan sampel sudah cukup. Di sisi lain, jika kita memiliki poin, mereka masing-masing harus berbeda dengan dan lagi sampel (jumlah konstan per point) sudah cukup. Jadi kita mungkin berharap bahwa, di antara titik-titik probabilitas tinggi yang disebutkan sebelumnya, selalu ada beberapa titik yang berbeda "cukup" sehingga undian membedakannya. ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2 O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)
Algoritma. Diberikan dan parameter keyakinan , misalkan . Gambarkan sampel dari setiap distribusi. Biarkan masing-masing lebih tinggi, jumlah sampel yang lebih rendah untuk titik . Jika ada titik yang dan , nyatakan distro berbeda. Kalau tidak, nyatakan sama.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) ai,biii∈[n]ai≥XXϵ2ai,biii∈[n] ai-bi≥√ai≥X8ai−bi≥ai−−√X√4
Batas-batas kebenaran dan kepercayaan ( ) bergantung pada lemma berikut yang mengatakan bahwa semua penyimpangan dalam jarak berasal dari titik-titik yang probabilitasnya berbeda dengan . L 2 Ω ( ϵ 2 )1−e−Ω(M)L2Ω(ϵ2)
Klaim. Misalkan . Biarkan. Biarkan . Kemudian
δ i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ϵ 2∥D1−D2∥2≥ϵδi=|D1(i)−D2(i)|∑i∈ S k δ 2 i ≥ϵ2(1-2Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
Bukti . Kami memiliki
Mari kita ikat jumlah kedua; kami ingin memaksimalkan tunduk pada . Karena fungsi benar-benar cembung dan meningkat, kita dapat meningkatkan tujuannya dengan mengambil dan meningkatkan oleh sambil mengurangi oleh . Dengan demikian, tujuan akan dimaksimalkan dengan sebanyak mungkin istilah pada nilai maksimumnya, dan sisanya pada∑ i ∉ S k δ 2 i ∑ i ∉ S k δi≤2x↦x2δi≥δjδiγδjγ0 ϵ 2
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2x↦x2δi≥δjδiγδjγ0. Nilai maksimum setiap istilah adalah , dan ada paling banyak syarat dari nilai ini (karena jumlah mereka paling banyak ). Jadi
2kϵ2k2kϵ22∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
Klaim . Biarkan . Jika , ada setidaknya satu titik dengan dan .pi=max{D1(i),D2(i)}∥D1−D2∥2≥ϵi∈[n]pi>ϵ24δi≥ϵpi√2
Bukti . Pertama, semua titik di memiliki menurut definisi (dan tidak boleh kosong untuk dengan klaim sebelumnya).Skpi≥δi>ϵ2kSkk>2
Kedua, karena , kita memiliki
atau, mengatur ulang,
sehingga ketidaksetaraan
berlaku untuk setidaknya satu titik di . Sekarang pilih . ∑ipi≤2
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
δ2i≥piϵ2(12−1k)
Skk=4□
Klaim (positif palsu) . Jika , algoritma kami menyatakan mereka berbeda dengan probabilitas paling banyak .D1=D2e−Ω(M)
Sketsa . Pertimbangkan dua kasus: dan . Dalam kasus pertama, jumlah sampel tidak akan melebihi dari distribusi mana pun: Jumlah rata-rata sampel adalah dan sebuah ekor mengatakan bahwa dengan probabilitas , 's sampel tidak melebihi rata-rata mereka dengan aditif ; jika kita berhati-hati untuk menjaga nilai di dalam tail tail, kita bisa menyatukannya di atas mereka tidak peduli berapa banyak poin yang ada (secara intuitif, batasnya menurun secara eksponensial dalam jumlah kemungkinan poin).pi<ϵ2/16pi≥ϵ2/16iX/8<X/16e−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
Dalam kasus , kita dapat menggunakan batasan Chernoff: Dikatakan bahwa, ketika kita mengambil sampel dan sebuah titik digambar dengan probabilitas , probabilitas berbeda dari rata-rata oleh paling banyak . Di sini, mari , jadi probabilitasnya dibatasi oleh .pi≥ϵ2/16mppmcpm−−−√e−Ω((cpm√)2/pm)=e−Ω(c2)c=X√16e−Ω(X)=ϵ2e−Ω(M)
Jadi dengan probabilitas , (untuk kedua distribusi) jumlah sampel berada di dalam dari rata-rata . Dengan demikian, pengujian kami tidak akan menangkap poin-poin ini (mereka sangat dekat satu sama lain), dan kami dapat menyatukan semua dari mereka. 1−ϵ2e−Ω(M)ipiXϵ2−−−−√X√16piXϵ216/ϵ2□
Klaim (negatif palsu) . Jika , algoritme kami menyatakan mereka identik dengan probabilitas paling banyak .∥D1−D2∥2≥ϵϵ2e−Ω(M)
Sketsa . Ada beberapa poin dengan dan . Chernoff yang sama terikat seperti pada klaim sebelumnya mengatakan bahwa dengan probabilitas , jumlah sampel berbeda dari rata-rata oleh paling banyak . Itu untuk (WLOG) distribusi yang memiliki ; tetapi ada kemungkinan yang lebih rendah lagi dari jumlah sampel dari distribusiipi>ϵ2/4δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipimpim−−−√X√161pi=D1(i)=D2(i)+δii2 berbeda dari rata-rata dengan jumlah aditif ini (karena rata-rata dan varians lebih rendah).
Jadi dengan probabilitas tinggi, jumlah sampel dari setiap distribusi berada dalam dari rata-rata; tetapi probabilitasnya berbeda dengan , jadi berarti mereka berbeda dengan
ipiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
Jadi dengan probabilitas tinggi, untuk poin , jumlah sampel berbeda setidaknya dengan . i#samples(1)−−−−−−−−−−−√X√4□
Untuk menyelesaikan sketsa, kita perlu menunjukkan dengan lebih teliti bahwa, untuk cukup besar, jumlah sampel cukup dekat dengan artinya, ketika algoritma menggunakan daripada , itu tidak mengubah apa pun (yang seharusnya langsung dengan meninggalkan ruang gerak di konstanta).Mi#samples−−−−−−−−√mean−−−−−√