Dimensi pembelajaran VC PAC yang tepat batas


11

Sudah diketahui umum bahwa untuk kelas konsep dengan VC dimensi , cukup untuk mendapatkan O \ kiri (\ frac {d} {\ varepsilon} \ log \ frac {1} {\ varepsilon} \ kanan) contoh berlabel untuk PAC learn \ mathcal {C} . Tidak jelas bagi saya apakah algoritma pembelajaran PAC (yang menggunakan banyak sampel ini) tepat atau tidak tepat? Dalam buku teks Kearns dan Vazirani serta Anthony dan Biggs sepertinya algoritma pembelajaran PAC tidak tepat (yaitu, hipotesis output tidak terletak pada \ mathcal {C} ) d O ( dCdCCO(dεlog1ε)CC

  1. Bisakah seseorang mengklarifikasi jika batas atas yang sama berlaku untuk pengaturan pembelajaran PAC yang tepat juga? Jika demikian, dapatkah Anda memberi saya referensi di mana ini disebutkan secara eksplisit dan juga berisi bukti yang lengkap?

  2. Baru-baru ini Hanneke memperbaiki ikatan ini dengan menyingkirkan faktor . Bisakah seseorang mengklarifikasi jika diketahui dapat dilepas untuk pengaturan pembelajaran PAC yang Tepat? Atau masih merupakan pertanyaan terbuka?log ( 1 / ε )log(1/ε)log(1/ε)


Makalah Hanneke ini yang mana yang Anda maksud?
gradstudent

Jawaban:


9

Terima kasih saya kepada Aryeh karena membawa pertanyaan ini menjadi perhatian saya.

Seperti yang telah disebutkan orang lain, jawaban untuk (1) adalah Ya , dan metode sederhana Minimisasi Risiko Empiris di mencapai kompleksitas sampel ( lihat Vapnik dan Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler, dan Warmuth, 1989).CLog CO((d/ε)log(1/ε))

Adapun (2), pada kenyataannya diketahui bahwa ada ruang C mana tidak ada algoritma pembelajaran yang tepat mencapai lebih baik dari kompleksitas sampel Ω((d/ε)log(1/ε)) , dan karenanya pembelajaran yang tepat tidak dapat mencapai O(d/ε) optimal. ( d / ε ) kompleksitas sampel. Sepengetahuan saya, fakta ini tidak pernah benar-benar dipublikasikan, tetapi berakar pada argumen terkait Daniely dan Shalev-Shwartz (COLT 2014) (awalnya dirumuskan untuk pertanyaan yang berbeda, tetapi terkait, dalam pembelajaran multikelas).

Pertimbangkan kasus sederhana d=1 , dan menempatkan ruang X sebagai {1,2,...,1/ε} , dan C adalah lajang fz(x): =saya[x=z],zX : yaitu, setiap classifier dalam C mengklasifikasikan tepat satu titik dari X sebagai 1 dan yang lainnya sebagai 0. Untuk batas bawah, ambil fungsi target sebagai singleton acak fx , di mana xUnsayafHairm(X) , dan P , distribusi marginal X , seragam pada X{x} . Sekarang pelajar tidak pernah melihat contoh berlabel 1 , tetapi harus memilih titik z untuk menebak diberi label 1 (penting, fungsi `` semua nol '' tidak dalam C, Sehingga setiap peserta didik yang tepat harus kira beberapa z ), dan sampai telah melihat setiap titik di X{x} memiliki setidaknya 1/2 kesempatan menebak salah (yaitu, probabilitas posterior nya fz memiliki zx setidaknya 1/2 ). Argumen kolektor kupon menyiratkan akan membutuhkan Ω((1/ε)catatan(1/ε))sampel untuk melihat setiap titik dalam X{x} . Jadi ini membuktikan batas bawah Ω((1/ε)catatan(1/ε)) untuk semua pelajar yang tepat.

Untuk umum d>1 , kita mengambil X sebagai {1,2,...,d/(4ε)} , ambil C sebagai pengklasifikasi sayaSEBUAH untuk set SEBUAHX ukuran tepat d , pilih fungsi target secara acak dari C , dan ambil P lagi sebagai seragam pada titik-titik yang dikelompokkan fungsi target 0 ( jadi pelajar tidak pernah melihat titik berlabel 1). Kemudian generalisasi argumen kupon-kolektor menyiratkan kita perlu Ω((d/ε)catatan(1/ε)) sampel untuk melihat setidaknya |X|-2d poin berbeda dari X , dan tanpa melihat ini banyak poin yang berbeda setiap pembelajar yang tepat memiliki setidaknya 1/3 kesempatan untuk mendapatkan lebih besar dari d/4 dari menebak-nya SEBUAH dari d poin salah dalam nya hipotesis yang dipilih hSEBUAH, artinya tingkat kesalahannya lebih besar dari ε . Jadi dalam hal ini, tidak ada pelajar yang tepat dengan kompleksitas sampel lebih kecil dari Ω((d/ε)catatan(1/ε)) , yang berarti tidak ada pelajar yang tepat yang mencapai kompleksitas sampel optimal HAI(d/ε) .

Perhatikan bahwa hasilnya cukup spesifik untuk ruang C dibangun. Memang ada ruang C mana peserta didik yang tepat dapat mencapai HAI(d/ε) kompleksitas sampel optimal, dan bahkan bahkan ekspresi penuh tepat HAI((d/ε)+(1/ε)catatan(1/δ)) dari ( Hanneke, 2016a). Beberapa batas atas dan bawah untuk pelajar ERM umum telah dikembangkan di (Hanneke, 2016b), dikuantifikasi dalam hal sifat-sifat ruang C, serta membahas beberapa kasus yang lebih terspesialisasi di mana peserta didik yang tepat terkadang dapat mencapai kompleksitas sampel yang optimal.

Referensi:

Vapnik dan Chervonenkis (1974). Teori Pengenalan Pola. Nauka, Moskow, 1974.

Blumer, Ehrenfeucht, Haussler, dan Warmuth (1989). Dimensi pembelajaran dan dimensi Vapnik-Chervonenkis. Jurnal Asosiasi untuk Mesin Komputer, 36 (4): 929–965.

Daniely dan Shalev-Shwartz (2014). Pembelajar yang Optimal untuk Masalah Multikelas. Dalam Prosiding Konferensi ke-27 tentang Teori Belajar.

Hanneke (2016a). Kompleksitas Sampel Optimal Pembelajaran PAC. Jurnal Penelitian Pembelajaran Mesin, Vol. 17 (38), hlm. 1-15.

Hanneke (2016b). Batas Kesalahan yang Disempurnakan untuk Beberapa Algoritma Pembelajaran. Jurnal Penelitian Pembelajaran Mesin, Vol. 17 (135), hlm. 1-55.


Menarik ... Apakah ada karakterisasi kombinatorial kelas yang pembelajaran PAC yang tepat adalah sampel-optimal? Atau setidaknya kondisi yang memadai (penutupan di bawah persimpangan, penyatuan?)C
Clement C.

2
@ClementC. Tidak ada karakterisasi lengkap yang diketahui di mana kelas memiliki tingkat optimal yang dapat dicapai oleh pelajar yang tepat secara umum. Makalah yang dirujuk "Refined error bounds ..." memberikan karakterisasi kombinatorial yang kelas-kelasnya mengakui tingkat optimal untuk semua pelajar ERM (Corollary 14). Kuantitas yang relevan adalah "angka bintang": jumlah poin terbesar sehingga seseorang dapat membalikkan label setiap titik tanpa mengubah yang lain (Definisi 9). Kelas persimpangan-tertutup memiliki pelajar yang tepat optimal: "penutupan" alg (Teorema 5 di koran, dan juga dibuktikan oleh Darnstädt, 2015).
S. Hanneke

Terima kasih!
Clement C.

6

Pertanyaan Anda (1) dan (2) terkait. Pertama, mari kita bicara tentang pembelajaran PAC yang tepat. Hal ini diketahui bahwa ada PAC peserta didik yang tepat yang mencapai kesalahan sampel nol, namun memerlukan contoh. Untuk bukti sederhana dariketergantunganϵ, pertimbangkan kelas konsep interval[a,b][0,1] dibawah distribusi seragam. Jika kita memilihinterval konsistenterkecil, kita memang mendapatkan kompleksitas sampelO(1/ϵ). Misalkan, kita memilihinterval konsistenterbesar, dan konsep target adalah interval titik seperti[0,0]Ω(dϵcatatan1ϵ)ϵ[Sebuah,b][0,1]HAI(1/ϵ)[0,0]. Kemudian argumen pengumpul-kupon sederhana menunjukkan bahwa kecuali kita menerima kurang lebih contoh, kita akan tertipu oleh jarak antara contoh negatif (satu-satunya yang akan kita lihat) - yang memiliki perilaku karakteristik1/[ukuran sampel] di bawah distribusi seragam. Batas bawah yang lebih umum dari tipe ini diberikan dalam1ϵcatatan1ϵ1/

P. Auer, R. Ortner. PAC baru terikat untuk kelas konsep persimpangan-tertutup. Pembelajaran Mesin 66 (2-3): 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

Hal tentang PAC yang tepat adalah bahwa untuk hasil positif dalam kasus abstrak, orang tidak dapat menentukan algoritma di luar ERM, yang mengatakan "menemukan konsep yang konsisten dengan sampel berlabel". Ketika Anda memiliki struktur tambahan, seperti interval, Anda dapat memeriksa dua algoritma ERM yang berbeda, seperti di atas: segmen konsisten minimal vs maksimal. Dan ini memiliki kompleksitas sampel yang berbeda!

Kekuatan PAC yang tidak tepat adalah Anda dapat merancang berbagai skema pemungutan suara (Hanneke adalah hasil seperti itu) - dan struktur tambahan ini memungkinkan Anda membuktikan tingkat perbaikan. (Ceritanya lebih sederhana untuk PAC agnostik, di mana ERM memberi Anda tingkat kasus terburuk terbaik, hingga konstanta.)

Edit. Sekarang terpikir oleh saya bahwa strategi prediksi grafik 1-inklusi D. Haussler, N. Littlestone, Md K. Warmuth. Memprediksi {0,1} -Fungsi pada Poin yang Diambil Secara Acak. Inf. Komputasi. 115 (2): 248-292 (1994) mungkin menjadi kandidat alami untuk pelajar PAC universal tepat.HAI(d/ϵ)


Terima kasih! Ok, jadi jika saya mengerti Anda dengan benar, kompleksitas sampel dari pembelajaran PAC yang tidak benar adalah dan untuk pembelajaran PAC yang tepat adalah Θ ( d / ϵ log ( 1 / ϵ ) ) , batas bawah untuk yang terakhir adalah tercapai untuk contoh yang Anda berikan. Apakah itu benar? Θ(d/ϵ)Θ(d/ϵcatatan(1/ϵ))
Anonim

Ya, dengan sedikit reservasi bahwa untuk PAC yang tidak tepat Anda perlu menggunakan algoritma spesifik (Hanneke) - bukan sembarang ERM lama. Jangan ragu untuk menerima jawabannya :)
Aryeh

Saya terlambat ke pesta, tetapi bukankah batas bawah Proper-PAC yang disebutkan di atas kompleksitas sampel lebih rendah untuk algoritma pembelajaran tertentu (atau kelas terbatasnya) saja? Maksud saya, tanpa batasan seperti itu, tidak ada informasi secara teoritis tidak ada pemisahan antara PAC yang tepat dan yang tidak tepat, bukan? (Dan dengan demikian tidak ada pemisahan tanpa asumsi komputasi, seperti atau yang serupa)?)NPRP
Clement C.

1
Definisi biasa yang dapat dipelajari PAC meminta algoritma waktu poli. Poin saya adalah bahwa (i) bersantai itu, tepat dan tidak patut memiliki kompleksitas sampel yang sama; (ii) dengan persyaratan ini, kami tidak dapat membuktikan pemisahan tanpa syarat antara benar dan tidak patut (karena pada dasarnya akan membuktikan sesuatu seperti NP tidak sama dengan RP). (Namun, kita dapat membuktikan batas bawah pada kompleksitas sampel dari algoritma pembelajaran yang tepat dan spesifik , yang sejauh yang saya mengerti adalah apa yang dilakukan referensi Aryeh.)
Clement C.

1
@ClementC. Dalam salah satu komentar Anda sebelumnya, yang Anda sebutkan setelah menjalankan algoritma PAC yang tidak tepat, pelajar mendapatkan hipotesis yang mungkin tidak tepat dan pelajar kemudian dapat menemukan hipotesis terdekat yang tepat dari kelas konsep (tanpa sampel lagi). Tetapi bagaimana pelajar dapat melakukan ini tanpa mengetahui distribusi di mana ia diberikan sampel? Bukankah yang terdekat diukur berdasarkan distribusi yang tidak diketahui?
Anonim

5

Untuk menambah jawaban yang saat ini diterima:

  1. Iya. The kompleksitas sampel batas atas berlaku untuk pembelajaran PAC yang tepat juga(walaupun penting untuk dicatat bahwa hal itu mungkin tidak mengarah pada algoritma pembelajaran yang efisien secara komputasi. Yang normal, karena kecualiNP=RPdiketahui bahwa beberapa kelas adalah PAC tidak dapat dipelajari secara efisien, misalnya Teorema 1.3 dalam Kearns — buku Vazirani yang Anda sebutkan). Ini sebenarnya ditampilkan dalam buku Kearns-Vazirani (Teorema 3.3), karenaLada hipotesis finder konsisten dengan kelas hipotesisH=C. Lihat juga [1].

    HAI(dεcatatan1ε)
    NP=RPL.H=C
  2. catatan(1/ε)

    catatan(1/ε)(ε,δ)

    (Catatan kaki 1 di kertas yang sama juga relevan)


[1] A. Blumer, A. Ehrenfeucht, D. Haussler, dan MK Warmuth. Dimensi pembelajaran dan dimensi Vapnik-Chervonenkis. Jurnal ACM, 36 (4): 929–965, 1989.

[2] S. Hanneke. Kompleksitas sampel optimal pembelajaran PAC. J. Mach. Belajar. Res. 17, 1, 1319-1333, 2016.

[3] S. Arunachalam dan R. de Wolf. Kompleksitas sampel kuantum yang optimal dari algoritma pembelajaran. Dalam Prosiding Konferensi Kompleksitas Komputasi ke 32 (CCC), 2017.


Apakah dugaan bahwa grafik 1-inklusi Haussler et al. apakah pembelajar PAC yang optimal?
Aryeh

@ Aryeh saya tidak yakin. Dari apa yang dapat saya temukan, dugaan Warmuth pada tahun 2004. Saya tidak tahu lebih dari itu.
Clement C.
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.