Untuk melanjutkan jawaban Deigo, kompleksitas sampel standar yang dibatasi oleh teori belajar memberi tahu Anda bahwa jika Anda puas menemukan program yang "kira-kira benar", Anda tidak perlu mencoba banyak poin sama sekali. Katakanlah kita meng-encode program dalam biner, sehingga hanya ada program dengan panjang d. Mari kita misalkan juga bahwa ada beberapa distribusi lebih contoh masukan . Mungkin tujuan Anda adalah untuk menemukan program yang Anda yakini hampir benar ("Kemungkinan Sekitar Tepat" yaitu seperti dalam model pembelajaran Pali Valiants). Artinya, Anda ingin menjalankan algoritma yang akan mengambil sejumlah kecil sampel bersama dengan , dan akan dengan probabilitas setidaknya2d2dDDx∼Dx∼Df(x)f(x)(1−δ)(1−δ)Output program beberapa yang setuju dengan pada setidaknya sebagian kecil dari input diambil dari . PPff(1−ϵ)(1−ϵ)DD
Kami hanya akan menggambar contoh , dan menampilkan program dengan panjang yang sesuai dengan pada semua contoh. (Satu dijamin ada karena kami menganggap memiliki kompleksitas Kolmogorov paling banyak ) ...mmx∼Dx∼DPP≤d≤dffffdd
Berapa probabilitas bahwa suatu program tertentu yang tidak setuju dengan pada lebih dari fraksi contoh konsisten dengan contoh kami pilih? Paling banyak . Kami ingin menjadikan probabilitas ini paling banyak sehingga kami dapat mengambil ikatan serikat atas semua program dan mengatakan bahwa dengan probabilitas setidaknya , tidak ada program "buruk" yang konsisten dengan contoh menarik kami. Memecahkan, kita melihat bahwa itu cukup untuk mengambil
contoh hanya
. (Yaitu hanya banyak linear dalam kompleksitas Kolmogorov dariPPffϵϵmm(1−ϵ)m(1−ϵ)mδ/2dδ/2d2d2d1−δ1−δm≥1ϵ(d+log1/δ)
m≥1ϵ(d+log1/δ)
ff...)
BTW, argumen seperti ini dapat digunakan untuk menjustifikasi "Occam's Razor": mengingat sejumlah pengamatan, di antara semua teori yang menjelaskannya, Anda harus memilih teori dengan kompleksitas Kolmogorov terendah, karena ada sedikit peluang untuk overfitting.
Tentu saja, jika Anda hanya ingin memeriksa satu program tetap dengan cara ini, Anda hanya perlu contoh ...O(log(1/δ)/ϵ)O(log(1/δ)/ϵ)