Batas bawah untuk menguji kedekatan dalam norma ?


11

Saya bertanya-tanya apakah ada batas bawah (dalam hal kompleksitas sampel) yang dikenal untuk masalah berikut:

Diberi contoh akses oracle ke dua distribusi yang tidak diketahui , pada , uji (whp) apakahD1D2{1,,n}

  • D1=D2
  • ataud2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

Batu et al. [BFR + 00] menunjukkan bahwa sampel O(1ϵ4) sudah cukup, tetapi saya belum menemukan penyebutan batas bawah?

Saya rasa kita selalu bisa menunjukkan batas bawah Ω(1ϵ2) dengan mengurangi tugas membedakan koin yang sesuai dengan harga vs vs. ϵ untuk masalah ini (mensimulasikan distribusi yang didukung hanya pada dua poin, dan menjawab pertanyaan dari tester sesuai dengan lemparan koin id), tapi itu masih menyisakan celah kuadrat ...

(Poin lain yang saya tertarik adalah batas bawah dalam memperkirakan (hingga aditif ϵ ) jarak L_2 ini L2- sekali lagi, saya tidak menemukan referensi untuk hasil seperti itu dalam literatur)

Terima kasih atas bantuan Anda,


Masalah janji ini tampaknya sangat mirip dengan yang disebut perbedaan statistik oleh Sahai dan Vadhan, yang merupakan masalah lengkap untuk kelas SZK (pengetahuan nol statistik); Namun, mereka menggunakan jarak . cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf . (Sunting: juga saya pikir mereka berasumsi Anda memiliki sirkuit yang menghitung distribusi, bukan akses oracle.)L1
usul

Hai, seperti yang disebutkan dalam komentar lain, perbedaan antara norma dan sebenarnya penting di sini - lebih lanjut, dalam makalah ini, mereka menetapkan ambang eksplisit (dan tidak sewenang-wenang) (dalam salah satu pernyataan, mereka menjelaskan bahwa ambang ini perlu memenuhi beberapa batasan tertentu); dan ingin membedakan vs. (yang entah bagaimana lebih dekat dengan pengujian toleran / estimasi jarak dari "pengujian biasa", di mana Anda ingin menguji vs (tapi untuk semua yang diperbaiki )). L2L1τ=1/3d1τd21τd2=0d2ϵϵ
Clement C.

Jawaban:


6

Tampaknya sampel - seperti yang ditunjukkan usul di bawah - cukup untuk pengujian, sehingga kompleksitas sampel tepat ; sebenarnya, ternyata jumlah sampel ini bahkan cukup untuk mempelajari hingga aditif wrt norma .Θ ( 1 / ϵ 2 ) D ϵ L 2O(1/ϵ2)Θ(1/ϵ2) DϵL2


Biarkan menjadi fungsi kerapatan empiris yang diperoleh dengan menggambar iid sampel dan mengatur Kemudian mana . The ms1,...,sm~D D (k)D^ms1,,smDD - D2 2

D^(k)=def1m=1m1{s=k},k[n]
Xk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
Xkk[n] ED - D2 2Xk=def=1m1{s=k}Bin(m,D(k))Xk(untuk ) tidak independen, tetapi kita dapat menulis sehingga untuk , dan menerapkan ketidaksamaan Markov k[n] m3
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
ED - D 2 2ε2m3ϵ2 P{D - D2ε}1
EDD^22ϵ23
P{DD^2ϵ}13.

(Saya merujuk pada jawaban usul dimulai dengan "Saya akan berusaha untuk menebus kesalahan saya sebelumnya dengan menunjukkan sesuatu yang berlawanan [...]" - yang sebenarnya di atas yang ini. Saya tidak mengharapkan ini :)) Adapun pembelajaran batas atas, dapat ditunjukkan bahwa algoritma yang paling naif (yaitu, yang menarik sampel , dan menghasilkan kepadatan empiris yang didefinisikan ini) menghasilkan distribusi yang adalah, dengan probabilitas konstan, tutup ke pada jarak . D ε D L 2m=O(1/ϵ2)D^ϵDL2
Clement C.

@ WD Saya baru saja mengedit jawaban saya.
Clement C.

3

Saya akan mencoba untuk menebus kesalahan saya sebelumnya dengan menunjukkan sesuatu yang berlawanan - bahwa sampel sudah cukup (batas bawah hampir kencang)! Lihat apa yang Anda pikirkan ....1/ϵ2Θ~(1ϵ2)1/ϵ2

Intuisi kunci dimulai dari dua pengamatan. Pertama, agar distribusi memiliki jarak dari , harus ada titik dengan probabilitas tinggi ( ). Misalnya, jika kita memiliki poin probabilitas , kita akan memiliki . ϵ Ω ( ϵ 2 ) 1 / ϵ 3 ϵ 3D 1 - D 2 2L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

Kedua, pertimbangkan distribusi seragam dengan jarak dari . Jika kita memiliki poin probabilitas , maka mereka masing-masing akan berbeda dengan dan sampel sudah cukup. Di sisi lain, jika kita memiliki poin, mereka masing-masing harus berbeda dengan dan lagi sampel (jumlah konstan per point) sudah cukup. Jadi kita mungkin berharap bahwa, di antara titik-titik probabilitas tinggi yang disebutkan sebelumnya, selalu ada beberapa titik yang berbeda "cukup" sehingga undian membedakannya. ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2 O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)

Algoritma. Diberikan dan parameter keyakinan , misalkan . Gambarkan sampel dari setiap distribusi. Biarkan masing-masing lebih tinggi, jumlah sampel yang lebih rendah untuk titik . Jika ada titik yang dan , nyatakan distro berbeda. Kalau tidak, nyatakan sama.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) ai,biii[n]aiXXϵ2ai,biii[n] ai-biaiX8aibiaiX4

Batas-batas kebenaran dan kepercayaan ( ) bergantung pada lemma berikut yang mengatakan bahwa semua penyimpangan dalam jarak berasal dari titik-titik yang probabilitasnya berbeda dengan . L 2 Ω ( ϵ 2 )1eΩ(M)L2Ω(ϵ2)

Klaim. Misalkan . Biarkan. Biarkan . Kemudian δ i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ϵ 2D1D22ϵδi=|D1(i)D2(i)|i S k δ 2 iϵ2(1-2Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

Bukti . Kami memiliki Mari kita ikat jumlah kedua; kami ingin memaksimalkan tunduk pada . Karena fungsi benar-benar cembung dan meningkat, kita dapat meningkatkan tujuannya dengan mengambil dan meningkatkan oleh sambil mengurangi oleh . Dengan demikian, tujuan akan dimaksimalkan dengan sebanyak mungkin istilah pada nilai maksimumnya, dan sisanya pada i S k δ 2 i i S k δi2xx2δiδjδiγδjγ0 ϵ 2

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2δiδjδiγδjγ0. Nilai maksimum setiap istilah adalah , dan ada paling banyak syarat dari nilai ini (karena jumlah mereka paling banyak ). Jadi 2kϵ2k2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

Klaim . Biarkan . Jika , ada setidaknya satu titik dengan dan .pi=max{D1(i),D2(i)}D1D22ϵi[n]pi>ϵ24δiϵpi2

Bukti . Pertama, semua titik di memiliki menurut definisi (dan tidak boleh kosong untuk dengan klaim sebelumnya).Skpiδi>ϵ2kSkk>2

Kedua, karena , kita memiliki atau, mengatur ulang, sehingga ketidaksetaraan berlaku untuk setidaknya satu titik di . Sekarang pilih . ipi2

iSkδi2ϵ2(121k)iSkpi,
iSk(δi2piϵ2(121k))0,
δi2piϵ2(121k)
Skk=4

Klaim (positif palsu) . Jika , algoritma kami menyatakan mereka berbeda dengan probabilitas paling banyak .D1=D2eΩ(M)

Sketsa . Pertimbangkan dua kasus: dan . Dalam kasus pertama, jumlah sampel tidak akan melebihi dari distribusi mana pun: Jumlah rata-rata sampel adalah dan sebuah ekor mengatakan bahwa dengan probabilitas , 's sampel tidak melebihi rata-rata mereka dengan aditif ; jika kita berhati-hati untuk menjaga nilai di dalam tail tail, kita bisa menyatukannya di atas mereka tidak peduli berapa banyak poin yang ada (secara intuitif, batasnya menurun secara eksponensial dalam jumlah kemungkinan poin).pi<ϵ2/16piϵ2/16iX/8<X/16eΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

Dalam kasus , kita dapat menggunakan batasan Chernoff: Dikatakan bahwa, ketika kita mengambil sampel dan sebuah titik digambar dengan probabilitas , probabilitas berbeda dari rata-rata oleh paling banyak . Di sini, mari , jadi probabilitasnya dibatasi oleh .piϵ2/16mppmcpmeΩ((cpm)2/pm)=eΩ(c2)c=X16eΩ(X)=ϵ2eΩ(M)

Jadi dengan probabilitas , (untuk kedua distribusi) jumlah sampel berada di dalam dari rata-rata . Dengan demikian, pengujian kami tidak akan menangkap poin-poin ini (mereka sangat dekat satu sama lain), dan kami dapat menyatukan semua dari mereka. 1ϵ2eΩ(M)ipiXϵ2X16piXϵ216/ϵ2

Klaim (negatif palsu) . Jika , algoritme kami menyatakan mereka identik dengan probabilitas paling banyak .D1D22ϵϵ2eΩ(M)

Sketsa . Ada beberapa poin dengan dan . Chernoff yang sama terikat seperti pada klaim sebelumnya mengatakan bahwa dengan probabilitas , jumlah sampel berbeda dari rata-rata oleh paling banyak . Itu untuk (WLOG) distribusi yang memiliki ; tetapi ada kemungkinan yang lebih rendah lagi dari jumlah sampel dari distribusiipi>ϵ2/4δiϵpi/21ϵ2eΩ(M)ipimpimX161pi=D1(i)=D2(i)+δii2 berbeda dari rata-rata dengan jumlah aditif ini (karena rata-rata dan varians lebih rendah).

Jadi dengan probabilitas tinggi, jumlah sampel dari setiap distribusi berada dalam dari rata-rata; tetapi probabilitasnya berbeda dengan , jadi berarti mereka berbeda dengan ipiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

Jadi dengan probabilitas tinggi, untuk poin , jumlah sampel berbeda setidaknya dengan . i#samples(1)X4

Untuk menyelesaikan sketsa, kita perlu menunjukkan dengan lebih teliti bahwa, untuk cukup besar, jumlah sampel cukup dekat dengan artinya, ketika algoritma menggunakan daripada , itu tidak mengubah apa pun (yang seharusnya langsung dengan meninggalkan ruang gerak di konstanta).Mi#samplesmean


Hai, Terima kasih untuk ini - Saya punya beberapa pertanyaan tentang algoritma dan analisisnya (mengenai beberapa poin yang saya tidak yakin dapatkan): dengan asumsi saya hanya ingin pada akhirnya probabilitas konstan dari kesuksesan, itu berarti bahwa konstan, jika saya mengerti dengan benar (kecuali saya tidak mendapatkan apa itu )? Jadi dalam kasus ini, beralih ke : menurut algoritma, itu menjadi - apakah itu benar? 2/3MMXΘ(log1ϵ)
Clement C.

@ClementC. Maaf saya tidak begitu jelas! Klaimnya adalah bahwa jika kita menggambar sampel, maka kemungkinan kesalahan adalah , jadi untuk probabilitas konstan salah, sampel . 1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))
usul

Oke, itu yang saya kumpulkan. Saya akan memeriksa buktinya dengan mengingat hal ini - terima kasih lagi untuk waktu yang Anda habiskan untuk ini!
Clement C.

1

Anda mungkin mulai dengan mencoba menyelesaikan ini untuk kasus . Saya cukup yakin sampel akan diperlukan dan cukup, dalam hal ini.n=2Θ(1/ϵ2)

Mungkin saja Anda merasa perlu untuk melihat konversi antara jarak dan jarak (jarak variasi total).L2L1

  • Diketahui bahwa, dengan satu sampel, jika distribusinya diketahui, jarak variasi total dengan sempurna mencirikan keunggulan yang dengannya seseorang dapat membedakan dari . Dengan demikian, jika jarak variasi total besar dan distribusinya diketahui, seseorang dapat membuat tes yang benar dengan probabilitas tinggi; jika jarak variasi total kecil, kita tidak bisa. Saya tidak tahu apa yang bisa dikatakan tentang kasus di mana jarak variasi total besar tetapi distribusinya tidak diketahui.D1D2

  • Selanjutnya Anda mungkin melihat distribusi produk, dan . Menggunakan total variasi jarak (jarak ), sepertinya tidak ada batasan bagus yang terkait dengan hingga . Namun, ketika menggunakan jarak , saya percaya ada perkiraan yang baik dari sebagai fungsi . (Sayangnya, sepertinya saya tidak bisa menggali referensi spesifik untuk perkiraan / batas tersebut, jadi saya harap saya tidak salah mengingat.) Ada juga batas yang diketahui yang memungkinkan Anda memperkirakan jarak sebagai fungsi dari jarak .D1nD2nL1||D1nD2n||1||D1D2||1L2||D1nD2n||2||D1D2||2L1L2

  • Oleh karena itu, satu pendekatan yang mungkin Anda coba adalah mengikat , kemudian dari itu mendapatkan terikat pada .| | D n 1 - D n 2 | | 1||D1nD2n||2||D1nD2n||1

Saya tidak tahu apakah ini akan membawa hasil yang baik atau tidak; itu hanya sebuah ide. Mungkin penulis makalah yang Anda kutip sudah mencoba atau mempertimbangkan sesuatu seperti ini.

Referensi yang mungkin bermanfaat:


Hai, Terima kasih atas jawaban Anda! Namun, saya tertarik pada batas bawah asimptotik, ketika . Secara khusus, hubungan antara norma dan melibatkan faktor - yang berarti mereka memang setara untuk konstan, tetapi secara asimtotik sangat berbeda; menggunakan sebagai proxy bukanlah pilihan, sejauh yang saya tahu (seperti untuk menguji kedekatan dalam jarak , kompleksitas tepatnya dikenal sebagai [BFR + 10 , Val11 ]L 2 L 1 nL2L1 nL1L1Θ(n 2 / 3 /nnL1L1Θ(n2/3/poly(ϵ))
Clement C.

0

EDIT: ini tidak benar! Lihat diskusi di komentar - Saya akan menunjukkan kelemahan di bawah ini.

Saya pikir kita dapat mengatakan bahwa diperlukan.1ϵ4

Set . Biarkan menjadi distribusi seragam (probabilitas setiap titik ) dan biarkan berbeda dari seragam dengan jumlah aditif di setiap titik. Periksa bahwa jarak adalah .n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

Jadi kita harus membedakan koin adil sided dari koin sided . Saya pikir ini setidaknya harus sekeras mengatakan koin adil sisi dari koin sisi , yang membutuhkan sampel. Sunting: ini salah! Koin itu bersifat additive , tetapi ia bias secara ganda dengan faktor konstan. Seperti yang ditunjukkan DW, itu berarti bahwa jumlah sampel konstan per titik membedakan dari .nnΘ(ϵ2)22Θ(ϵ2)Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


Perhatikan bahwa sejauh yang bisa kita dorong argumen ini. Konkretnya, misalkan kita mencoba meningkatkan menjadi, katakanlah, . Dalam distribusi seragam, setiap titik memiliki probabilitas . Tetapi dalam , kita perlu setiap titik berbeda dari seragam oleh . Itu tidak mungkin karena .1ϵ4n1ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

Secara lebih abstrak, anggaplah kita ingin setiap titik berbeda dari seragam oleh . Maka yang paling bisa kita atur adalah . Untuk mendapatkan jarak dari , kita perlu memastikan bahwa akar kuadrat dari jumlah jarak adalah , jadi , jadi jadi , dan kita mendapatkan .ϵkn1ϵkL2ϵϵn(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

Juga, saya pikir argumen yang sama mengatakan bahwa, jika kami tertarik pada jarak dengan , kami memerlukan , jadi kami akan memilih , sehingga jumlah sampel akan menjadi . Saya pikir ini masuk akal sebagai batasan yang tidak bergantung pada . Ia mendekati infinity sebagai . Jika Anda mencoba untuk membedakan dua distribusi pada jarak dari tanpa terikat pada , saya akan membuat besar tanpa batas dan menyebar perbedaannya secara sewenang-wenang, sehingga Anda tidak akan pernah bisa membedakannya (Lpp>1k=pp1n=1/ϵpp11/ϵ2pp1np1L1ϵnnyaitu tidak ada jumlah sampel yang tetap yang mencukupi untuk semua ). Itu juga mendekati sebagai ; ini masuk akal sebagai terikat karena, untuk norma , kita dapat mengatur dan membiarkan setiap titik berbeda dengan ; kita perlu mengambil sampel beberapa titik kali untuk memastikan itu berbeda dari seragam, yang akan mengambil sampel .n1ϵ3pLn=1ϵΘ(ϵ)1ϵ21ϵ3


1. Apakah maksud Anda bahwa berbeda dari seragam pada di setiap titik? Saya menduga itu salah ketik dan Anda berarti . D2±1/ϵ2±ϵ2
DW

1
2. Saya tidak membeli bahwa yang membedakan dari membutuhkan sampel. Bagi saya sepertinya sampel sudah cukup. Penjelasan (intuisi): misalkan kita mengumpulkan sampel dan menghitung berapa kali setiap nilai yang mungkin terjadi. Jika mereka berasal dari , masing-masing harus muncul 100 kali (dengan std dev 10). Jika mereka berasal dari , masing-masing harus muncul 200 kali (std dev 14) untuk setengahnya, / 0 kali (std dev 0) untuk setengah lainnya. Cukup mudah untuk membedakan keduanya, jika Anda tahu Anda berurusan dengan atau . D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2
DW

@DW (1) Anda benar! Tetap. (2) Seperti yang Anda katakan, saya setuju, tetapi saya pikir dengan pilihan konstanta yang berbeda, itu lebih sulit. Saya membayangkan sesuatu seperti ini: , jadi menempatkan probabilitas pada setiap titik. Kemudian berbeda dengan pada setiap titik (periksa bahwa jarak adalah ), sehingga menempatkan probabilitas atau pada setiap titik. n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2
usul

1
Saya pikir sampel masih cukup. Kumpulkan sampel, dan hitung berapa kali setiap nilai yang mungkin terjadi. Untuk , masing-masing harus muncul 1.000.000 kali (std dev ). Untuk , masing-masing harus muncul 900.000 kali (std dev ) atau 1.100.000 kali (std dev ). Itu cukup mudah untuk membedakan antara keduanya, jika kita tahu kita berurusan dengan atau , karena perbedaan antara 1.000.000 dan 1.100.000 adalah 100 standar deviasi, yaitu sangat besar. O(1/ϵ2)m=106nD11000D210001000D1D2
DW

@ WD Saya lebih memikirkannya - Anda benar. Jika cara mereka berbeda dengan faktor multiplikasi konstan maka jumlah sampel per titik yang konstan harus membedakannya. Faktor multiplikasi bukan aditif yang penting. Pendekatan ini kemudian hanya memberikan batas bawah . 1/ϵ2
usul
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.