Sebenarnya ini cukup sederhana: Bayes classifier memilih kelas yang memiliki kemungkinan kejadian posteriori terbesar (disebut maksimum estimasi posteriori ). The 0-1 kerugian menghukum fungsi kesalahan klasifikasi, yaitu akan menetapkan kerugian terkecil untuk solusi yang memiliki jumlah terbesar dari klasifikasi yang benar. Jadi dalam kedua kasus kita berbicara tentang mode estimasi . Ingat bahwa mode adalah nilai yang paling umum dalam dataset, atau nilai yang paling mungkin , sehingga memaksimalkan probabilitas posterior dan meminimalkan kehilangan 0-1 mengarah pada estimasi mode.
Jika Anda membutuhkan bukti formal, yang diberikan dalam makalah Pengantar Bayesian Decision Theory oleh Angela J. Yu:
Fungsi kerugian biner 0-1 memiliki bentuk berikut:
lx(s^,s∗)=1−δs^s∗={10ifs^≠s∗otherwise
di mana adalah fungsi Kronecker Delta. (...) kerugian yang diharapkan adalah:δ
Lx(s^)=∑s∗lx(s^,s∗)P(s=s∗∣x)=∑s∗(1−δs^s∗)P(s=s∗∣x)=∑s∗P(s=s∗∣x)ds∗−∑s∗δs^s∗P(s=s∗∣x)=1−P(s=s∗∣x)
Ini berlaku untuk estimasi posteriori maksimum secara umum. Jadi jika Anda mengetahui distribusi posterior, maka dengan asumsi 0-1 kerugian, aturan klasifikasi yang paling optimal adalah dengan mengambil mode distribusi posterior, kami menyebutnya classifier Bayes optimal . Dalam kehidupan nyata, kita biasanya tidak tahu distribusi posterior, tetapi kita memperkirakannya. Naive Bayes classifier mendekati penggolong optimal dengan melihat distribusi empiris dan dengan mengasumsikan independensi prediktor. Jadi pengklasifikasi naif Bayes itu sendiri tidak optimal, tetapi mendekati solusi optimal. Dalam pertanyaan Anda, Anda tampaknya membingungkan kedua hal itu.