Terima kasih saya kepada Aryeh karena membawa pertanyaan ini menjadi perhatian saya.
Seperti yang telah disebutkan orang lain, jawaban untuk (1) adalah Ya , dan metode sederhana Minimisasi Risiko Empiris di mencapai kompleksitas sampel ( lihat Vapnik dan Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler, dan Warmuth, 1989).CLog CO((d/ε)log(1/ε))
Adapun (2), pada kenyataannya diketahui bahwa ada ruang C
mana tidak ada algoritma pembelajaran yang tepat mencapai lebih baik dari kompleksitas sampel Ω((d/ε)log(1/ε)) , dan karenanya pembelajaran yang tepat tidak dapat mencapai O(d/ε) optimal. ( d / ε ) kompleksitas sampel. Sepengetahuan saya, fakta ini tidak pernah benar-benar dipublikasikan, tetapi berakar pada argumen terkait Daniely dan Shalev-Shwartz (COLT 2014) (awalnya dirumuskan untuk pertanyaan yang berbeda, tetapi terkait, dalam pembelajaran multikelas).
Pertimbangkan kasus sederhana d=1 , dan menempatkan ruang X sebagai { 1 , 2 , . . . , 1 / ε } , dan C adalah lajang fz( x ) : = I [ x = z] , z∈ X : yaitu, setiap classifier dalam C mengklasifikasikan tepat satu titik dari X sebagai 1 dan yang lainnya sebagai 0. Untuk batas bawah, ambil fungsi target sebagai singleton acak fx∗ , di mana x∗∼ U n i fo r m ( X) , dan P , distribusi marginal X , seragam pada X∖ { x∗} . Sekarang pelajar tidak pernah melihat contoh berlabel 1 , tetapi harus memilih titik z untuk menebak diberi label 1 (penting, fungsi `` semua nol '' tidak dalam C, Sehingga setiap peserta didik yang tepat harus kira beberapa z ), dan sampai telah melihat setiap titik di X∖ { x∗} memiliki setidaknya 1 / 2 kesempatan menebak salah (yaitu, probabilitas posterior nya fz memiliki z≠ x∗ setidaknya 1 / 2 ). Argumen kolektor kupon menyiratkan akan membutuhkan Ω ( ( 1 / ε ) log( 1 / ε ) )sampel untuk melihat setiap titik dalam X∖ { x∗} . Jadi ini membuktikan batas bawah Ω ( ( 1 / ε ) log( 1 / ε ) ) untuk semua pelajar yang tepat.
Untuk umum d> 1 , kita mengambil X sebagai { 1 , 2 , . . . , d/ (4ε)} , ambil C sebagai pengklasifikasi sayaSEBUAH untuk set A ⊂ X ukuran tepat d , pilih fungsi target secara acak dari C , dan ambil P lagi sebagai seragam pada titik-titik yang dikelompokkan fungsi target 0 ( jadi pelajar tidak pernah melihat titik berlabel 1). Kemudian generalisasi argumen kupon-kolektor menyiratkan kita perlu Ω ( ( d/ ε)log( 1 / ε ) ) sampel untuk melihat setidaknya | X| -2d poin berbeda dari X , dan tanpa melihat ini banyak poin yang berbeda setiap pembelajar yang tepat memiliki setidaknya 1 / 3 kesempatan untuk mendapatkan lebih besar dari d/ 4 dari menebak-nya SEBUAH dari d poin salah dalam nya hipotesis yang dipilih hSEBUAH, artinya tingkat kesalahannya lebih besar dari ε . Jadi dalam hal ini, tidak ada pelajar yang tepat dengan kompleksitas sampel lebih kecil dari Ω ( ( d/ ε)log( 1 / ε ) ) , yang berarti tidak ada pelajar yang tepat yang mencapai kompleksitas sampel optimal O ( d/ ε) .
Perhatikan bahwa hasilnya cukup spesifik untuk ruang C dibangun. Memang ada ruang C mana peserta didik yang tepat dapat mencapai O ( d/ ε) kompleksitas sampel optimal, dan bahkan bahkan ekspresi penuh tepat O ( ( d/ ε)+(1 / ε)log( 1 / δ) ) dari ( Hanneke, 2016a). Beberapa batas atas dan bawah untuk pelajar ERM umum telah dikembangkan di (Hanneke, 2016b), dikuantifikasi dalam hal sifat-sifat ruang C, serta membahas beberapa kasus yang lebih terspesialisasi di mana peserta didik yang tepat terkadang dapat mencapai kompleksitas sampel yang optimal.
Referensi:
Vapnik dan Chervonenkis (1974). Teori Pengenalan Pola. Nauka, Moskow, 1974.
Blumer, Ehrenfeucht, Haussler, dan Warmuth (1989). Dimensi pembelajaran dan dimensi Vapnik-Chervonenkis. Jurnal Asosiasi untuk Mesin Komputer, 36 (4): 929–965.
Daniely dan Shalev-Shwartz (2014). Pembelajar yang Optimal untuk Masalah Multikelas. Dalam Prosiding Konferensi ke-27 tentang Teori Belajar.
Hanneke (2016a). Kompleksitas Sampel Optimal Pembelajaran PAC. Jurnal Penelitian Pembelajaran Mesin, Vol. 17 (38), hlm. 1-15.
Hanneke (2016b). Batas Kesalahan yang Disempurnakan untuk Beberapa Algoritma Pembelajaran. Jurnal Penelitian Pembelajaran Mesin, Vol. 17 (135), hlm. 1-55.