Setelah membaca lagi pertanyaan ini, saya dapat memberi Anda batasan berikut:
Asumsikan sampel diambil iid, distribusi adalah tetap, dan kerugian tersebut dibatasi oleh , kemudian dengan probabilitas setidaknya 1 - δ ,
E [ E ( h ) ] ≤ E ( h ) + B √B1 - δ
E [ E( h ) ] ≤ E^( h ) + B log1δ2 m-----√
di mana adalah ukuran sampel, dan 1 - δ adalah kepercayaannya. Ikatan itu berlaku sepele oleh ketidaksetaraan McDiarmid.m1 - δ
mE [ E( h ) ]E^( h )
Tolong jangan hanya melaporkan kesalahan validasi silang atau kesalahan pengujian, itu tidak ada artinya secara umum karena mereka hanya perkiraan titik.
Posting lama untuk dicatat:
Saya tidak yakin bahwa saya benar-benar memahami pertanyaan Anda, tetapi saya akan menusuknya.
Pertama, saya tidak yakin bagaimana Anda akan menentukan interval prediksi untuk pemilihan model, karena, seperti yang saya mengerti, interval prediksi membuat beberapa asumsi distribusi. Sebagai gantinya, Anda dapat memperoleh ketidaksetaraan konsentrasi, yang pada dasarnya mengikat variabel acak dengan variansnya untuk beberapa probabilitas. Ketidaksetaraan konsentrasi digunakan melalui pembelajaran mesin, termasuk teori lanjutan untuk meningkatkan. Dalam hal ini Anda ingin mengikat kesalahan generalisasi (kesalahan Anda secara umum, poin yang belum Anda lihat) oleh kesalahan empiris Anda (kesalahan Anda pada set tes) ditambah beberapa istilah kompleksitas dan istilah yang berkaitan dengan varians.
Sekarang saya perlu menghilangkan kesalahpahaman tentang validasi silang yang sangat umum. Validasi silang hanya akan memberi Anda perkiraan yang tidak bias tentang kesalahan yang diharapkan dari suatu model UNTUK UKURAN SAMPEL YANG TETAP. Buktinya hanya untuk protokol leave one out. Ini sebenarnya cukup lemah, karena tidak memberi Anda informasi tentang varians. Di sisi lain, validasi silang akan mengembalikan model yang dekat dengan solusi minimalisasi risiko struktural, yang merupakan solusi terbaik secara teoritis. Anda dapat menemukan buktinya dalam lampiran di sini: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf
Jadi bagaimana cara mendapatkan batasan generalisasi? (Ingat batas generalisasi pada dasarnya adalah interval prediksi tentang kesalahan generalisasi untuk model tertentu). Nah, batasan ini spesifik untuk algoritma. Sayangnya hanya ada satu buku teks yang menempatkan batas untuk semua algoritma yang umum digunakan dalam pembelajaran mesin (termasuk meningkatkan). Buku ini adalah Foundations of Machine Learning (2012) oleh Mohri, Rostamizadeh, dan Talwalkar. Untuk slide kuliah yang membahas materi, Anda dapat menemukannya di halaman web Mohri: http://www.cs.nyu.edu/~mohri/ml14/
Sementara Elemen Pembelajaran Statistik adalah buku yang penting dan agak membantu, itu tidak terlalu ketat dan menghilangkan banyak detail teknis yang sangat penting mengenai algoritma dan sepenuhnya menghilangkan segala bentuk batasan generalisasi. Yayasan Machine Learning adalah buku paling komprehensif untuk pembelajaran mesin (yang masuk akal melihat seperti yang ditulis oleh beberapa yang terbaik di lapangan). Namun, buku teksnya sudah canggih, jadi berhati-hatilah dengan detail teknis.
Batas generalisasi untuk meningkatkan dapat ditemukan (dengan bukti) di sini: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf
Saya harap itu adalah petunjuk yang cukup untuk menjawab pertanyaan Anda. Saya ragu memberikan jawaban yang lengkap karena akan membutuhkan sekitar 50 halaman untuk membahas semua rincian yang diperlukan, apalagi diskusi pendahuluan ...
Semoga berhasil!