Katakanlah saya memiliki dua metode pembelajaran untuk masalah klasifikasi , dan , dan bahwa saya memperkirakan kinerja generalisasi mereka dengan sesuatu seperti validasi silang berulang atau bootstrap. Dari proses ini saya mendapatkan distribusi skor dan untuk setiap metode di seluruh pengulangan ini (misalnya distribusi nilai AUC ROC untuk setiap model).
Melihat distribusi ini, bisa jadi itu tetapi itu (yaitu kinerja generalisasi yang diharapkan dari lebih tinggi dari , tetapi ada lebih banyak ketidakpastian tentang estimasi ini).
Saya pikir ini disebut dilema bias-varians dalam regresi.
Metode matematika apa yang dapat saya gunakan untuk membandingkan dan dan pada akhirnya membuat keputusan tentang model mana yang akan digunakan?
Catatan: Demi kesederhanaan, saya merujuk pada dua metode dan sini, tetapi saya tertarik pada metode yang dapat digunakan untuk membandingkan distribusi skor ~ 1000 metode pembelajaran (misalnya dari pencarian kotak) dan akhirnya membuat keputusan akhir tentang model mana yang akan digunakan.