Mengapa dengan Bayes classifier kita mencapai kinerja terbaik yang bisa dicapai? Apa bukti / penjelasan formal untuk ini?
Biasanya, dataset dianggap terdiri dari sampel i dari distribusi yang menghasilkan data Anda. Kemudian, Anda membangun model prediksi dari data yang diberikan: diberikan sampel , Anda memprediksi kelas , sedangkan kelas sampel sebenarnya adalah .Dnxixif ( x i )f^(xi)f(xi)
Namun, secara teori, Anda dapat memutuskan untuk tidak memilih satu model tertentu , melainkan mempertimbangkan semua model yang mungkin sekaligus dan menggabungkannya entah bagaimana menjadi satu model besar .f^chosen ff^F^
Tentu saja, mengingat data, banyak model yang lebih kecil bisa sangat tidak mungkin atau tidak sesuai (misalnya, model yang memprediksi hanya satu nilai target, meskipun ada beberapa nilai target dalam dataset ).D
Bagaimanapun, Anda ingin memprediksi nilai target sampel baru, yang diambil dari distribusi yang sama dengan . Sebuah baik ukuran kinerja model Anda akan
yaitu, probabilitas bahwa Anda memprediksi nilai target sebenarnya untuk sampel acak .xiee(model)=P[f(X)=model(X)],
X
Menggunakan rumus Bayes, Anda dapat menghitung, berapa probabilitas bahwa sampel memiliki nilai target , mengingat data :xvD
P(v∣D)=∑f^P(v∣f^)P(f^∣D).
Seseorang harus menekankan bahwa
- biasanya adalah atau , karena adalah fungsi deterministik dari ,P(v∣f^)011f^x
- tidak biasanya, tetapi hampir sepanjang waktu, tidak mungkin untuk memperkirakan (kecuali untuk kasus-kasus sepele yang disebutkan sebelumnya),P(f^∣D)
- tidak biasanya, tetapi hampir sepanjang waktu, jumlah model yang mungkin terlalu besar, untuk jumlah atas untuk dievaluasi.f^
Karenanya, sangat sulit untuk memperoleh / memperkirakan dalam sebagian besar kasus.P(v∣D)
Sekarang, kita lanjutkan ke pengklasifikasi Optimal Bayes. Untuk diberikan , ia memprediksi nilai
Karena ini adalah nilai yang paling mungkin di antara semua nilai target yang mungkin , classifier Optimal Bayes memaksimalkan ukuran kinerja .xv^=argmaxv∑f^P(v∣f^)P(f^∣D).
ve(f^)
Karena kami selalu menggunakan pengklasifikasi Bayes sebagai tolok ukur untuk membandingkan kinerja semua pengklasifikasi lainnya.
Mungkin, Anda menggunakan versi naif dari classifier Bayes. Mudah untuk diimplementasikan, bekerja dengan cukup baik hampir sepanjang waktu, tetapi hanya menghitung estimasi naif .P(v∣D)