Memahami Naif Bayes

Dari StatSoft, Inc. (2013), Electronic Statistics Textbook , "Naive Bayes Classifier" :

Untuk menunjukkan konsep Klasifikasi Naïve Bayes, perhatikan contoh yang ditampilkan dalam ilustrasi di atas. Seperti yang ditunjukkan, objek dapat diklasifikasikan sebagai GREEN atau RED. Tugas saya adalah untuk mengklasifikasikan kasus baru saat mereka tiba, yaitu memutuskan label kelas mana yang mereka miliki, berdasarkan objek yang saat ini keluar.

Karena ada dua kali lebih banyak objek HIJAU daripada RED, masuk akal untuk percaya bahwa kasus baru (yang belum diamati) memiliki kemungkinan dua kali lebih besar untuk memiliki keanggotaan HIJAU daripada RED. Dalam analisis Bayesian, kepercayaan ini dikenal sebagai probabilitas sebelumnya. Probabilitas sebelumnya didasarkan pada pengalaman sebelumnya, dalam hal ini persentase objek HIJAU dan MERAH, dan sering digunakan untuk memprediksi hasil sebelum mereka benar-benar terjadi.

Jadi, kita dapat menulis:

Karena ada total 60 objek, 40 di antaranya adalah GREEN dan 20 RED, probabilitas kami sebelumnya untuk keanggotaan kelas adalah:

Setelah merumuskan probabilitas sebelumnya, kami sekarang siap untuk mengklasifikasikan objek baru (lingkaran PUTIH). Karena objek dikelompokkan dengan baik, masuk akal untuk mengasumsikan bahwa semakin banyak objek HIJAU (atau MERAH) di sekitar X, semakin besar kemungkinan bahwa case baru tersebut memiliki warna tertentu. Untuk mengukur kemungkinan ini, kami menggambar sebuah lingkaran di sekitar X yang mencakup sejumlah (untuk dipilih a priori) dari poin terlepas dari label kelas mereka. Kemudian kami menghitung jumlah titik dalam lingkaran milik masing-masing label kelas. Dari ini kami menghitung kemungkinan:

Dari ilustrasi di atas, jelas bahwa Peluang X yang diberikan GREEN lebih kecil dari Peluang X yang diberikan MERAH, karena lingkaran mencakup 1 objek GREEN dan 3 yang MERAH. Jadi:

Meskipun probabilitas sebelumnya menunjukkan bahwa X mungkin milik GREEN (mengingat bahwa ada dua kali lebih banyak GREEN dibandingkan dengan RED), kemungkinan menunjukkan sebaliknya; bahwa keanggotaan kelas X adalah RED (mengingat bahwa ada lebih banyak objek RED di sekitar X daripada GREEN). Dalam analisis Bayesian, klasifikasi akhir dihasilkan dengan menggabungkan kedua sumber informasi, yaitu, sebelum dan kemungkinan, untuk membentuk probabilitas posterior menggunakan apa yang disebut aturan Bayes (dinamai menurut Pdt. Thomas Bayes 1702-1761).

Akhirnya, kami mengklasifikasikan X sebagai MERAH karena keanggotaan kelasnya mencapai probabilitas posterior terbesar.

Di sinilah kesulitan pemahaman matematika saya masuk

masukkan deskripsi gambar di sini

p (Cj | x1, x2, x ..., xd) adalah probabilitas posterior keanggotaan kelas, yaitu probabilitas bahwa X adalah milik Cj tetapi mengapa menuliskannya seperti ini?

Menghitung kemungkinan?

masukkan deskripsi gambar di sini

Probabilitas Posterior?

masukkan deskripsi gambar di sini

Saya tidak pernah mengambil matematika, tetapi pemahaman saya tentang bayes naif baik-baik saja saya pikir tepat ketika datang ke metode ini membusuk membingungkan saya. Bisakah seseorang membantu memvisualisasikan metode ini dan bagaimana menulis matematika dengan cara yang dapat dimengerti?

machine-learning naive-bayes

— G Gr
sumber

(+1) Saya mengagumi cara yang sangat hati-hati dan jelas di mana Anda mengajukan pertanyaan.

— rolando2

@ rolando2: semua angka dan hampir semua teks dari pertanyaan ini berasal dari statsoft.com/textbook/naive-bayes-classifier

— Franck Dernoncourt

Harap edit posting ini untuk mengaitkan materi dengan jelas dari tempat lain, sesuai Cara referensi materi yang ditulis oleh orang lain .

— Scortchi

Atribusi kutipan langsung yang tepat selalu menjadi persyaratan di situs Stack Exchange. Bagaimanapun, kelalaian itu mudah diperbaiki; & Saya sudah melakukannya. Tidak perlu menghapus akun Anda - harap pertimbangkan kembali.

— Scortchi

Jawaban:

Saya akan menjalankan seluruh proses Naif Bayes dari awal, karena tidak sepenuhnya jelas bagi saya di mana Anda digantung.

Kami ingin menemukan probabilitas bahwa contoh baru milik masing-masing kelas: ). Kami kemudian menghitung probabilitas itu untuk setiap kelas, dan memilih kelas yang paling mungkin. Masalahnya adalah kita biasanya tidak memiliki probabilitas tersebut. Namun, Teorema Bayes memungkinkan kita menulis ulang persamaan itu dalam bentuk yang lebih mudah ditelusur. $P(class|feature_1, feature_2,..., feature_n$

Bayes 'Thereom hanyalah atau dalam hal masalah kita:

P (A | B) = \frac{P (B | A) \cdot P (A)}{P (B)}

$P(A|B)=\frac{P(B|A) \cdot P(A)}{P(B)}$

P (c l a s s | f e a t u r e s) = \frac{P (f e a t u r e s | c l a s s) \cdot P (c l a s s)}{P (f e a t u r e s)}

$P(class|features)=\frac{P(features|class) \cdot P(class)}{P(features)}$

Kami dapat menyederhanakan ini dengan menghapus . Kita dapat melakukan ini karena kita akan memberi peringkat untuk setiap nilai ; akan sama setiap kali - tidak tergantung pada . Ini memberi kita $P(features)$ $P(class|features)$ $class$ $P(features)$ $class$

P (c l a s s | f e a t u r e s) \propto P (f e a t u r e s | c l a s s) \cdot P (c l a s s)

$P(class|features) \propto P(features|class) \cdot P(class)$

Probabilitas sebelumnya, , dapat dihitung seperti yang Anda jelaskan dalam pertanyaan Anda. $P(class)$

Itu meninggalkan . Kami ingin menghilangkan probabilitas bersama yang masif, dan mungkin sangat jarang . Jika setiap fitur independen, maka Bahkan jika mereka tidak benar-benar independen, kita dapat mengasumsikan mereka adalah (itulah " naif "bagian dari Bayes naif). Saya pribadi berpikir lebih mudah untuk memikirkan ini untuk variabel diskrit (yaitu, kategori), jadi mari kita gunakan versi contoh Anda yang sedikit berbeda. Di sini, saya telah membagi setiap dimensi fitur menjadi dua variabel kategori. $P(features|class)$ $P(feature_1, feature_2, ..., feature_n|class)$

P (f e a t u r e_{1}, f e a t u r e_{2}, . . ., f e a t u r e_{n} | c l a s s) = \prod_{i} P (f e a t u r e_{i} | c l a s s)

$P(feature_1, feature_2, ..., feature_n|class) = \prod_i{P(feature_i|class})$

Contoh Data Diskrit .

Contoh: Pelatihan sang pengklasifikasi

Untuk melatih pengklasifikasi, kami menghitung berbagai himpunan bagian dari poin dan menggunakannya untuk menghitung probabilitas sebelumnya dan kondisional.

Priornya sepele: Ada enam puluh total poin, empat puluh hijau, dan dua puluh merah. Jadi

P (c l a s s = g r e e n) = \frac{40}{60} = 2 / 3 and P (c l a s s = r e d) = \frac{20}{60} = 1 / 3

$P(class=green)=\frac{40}{60} = 2/3 \text{ and } P(class=red)=\frac{20}{60}=1/3$

Selanjutnya, kita harus menghitung probabilitas bersyarat dari setiap nilai fitur yang diberikan kelas. Di sini, ada dua fitur: dan , yang masing-masing mengambil satu dari dua nilai (A atau B untuk satu, X atau Y untuk yang lain). Karena itu kita perlu mengetahui hal-hal berikut: $feature_1$ $feature_2$

$P(feature_1=A|class=red)$
$P(feature_1=B|class=red)$
$P(feature_1=A|class=green)$
$P(feature_1=B|class=green)$
$P(feature_2=X|class=red)$
$P(feature_2=Y|class=red)$
$P(feature_2=X|class=green)$
$P(feature_2=Y|class=green)$
(jika tidak jelas, ini semua pasangan fitur-nilai dan kelas yang mungkin)

Ini mudah untuk dihitung dengan menghitung dan membagi juga. Misalnya, untuk , kami hanya melihat titik merah dan menghitung berapa banyak dari mereka yang berada di wilayah 'A' untuk . Ada dua puluh titik merah, yang semuanya berada di wilayah 'A', jadi . Tidak ada titik merah di wilayah B, jadi . Selanjutnya, kami melakukan hal yang sama, tetapi hanya mempertimbangkan titik hijau. Ini memberi kita dan . Kami ulangi proses itu untuk , untuk melengkapi tabel probabilitas. Dengan asumsi saya sudah menghitung dengan benar, kami mengerti $P(feature_1=A|class=red)$ $feature_1$ $P(feature_1=A|class=red)=20/20=1$ $P(feature_1|class=red)=0/20=0$ $P(feature_1=A|class=green)=5/40=1/8$ $P(feature_1=B|class=green)=35/40=7/8$ $feature_2$

$P(feature_1=A|class=red)=1$
$P(feature_1=B|class=red)=0$
$P(feature_1=A|class=green)=1/8$
$P(feature_1=B|class=green)=7/8$
$P(feature_2=X|class=red)=3/10$
$P(feature_2=Y|class=red)=7/10$
$P(feature_2=X|class=green)=8/10$
$P(feature_2=Y|class=green)=2/10$

Sepuluh probabilitas (dua prior ditambah delapan kondisional) adalah model kami

Mengklasifikasikan Contoh Baru

Mari kita klasifikasikan titik putih dari contoh Anda. Itu ada di wilayah "A" untuk dan wilayah "Y" untuk . Kami ingin menemukan probabilitas bahwa itu ada di setiap kelas. Mari kita mulai dengan warna merah. Dengan menggunakan rumus di atas, kita tahu bahwa: Subbing dalam probabilitas dari tabel, kita dapatkan $feature_1$ $feature_2$

P (c l a s s = r e d | e x a m p l e) \propto P (c l a s s = r e d) \cdot P (f e a t u r e_{1} = A | c l a s s = r e d) \cdot P (f e a t u r e_{2} = Y | c l a s s = r e d)

$P(class=red|example) \propto P(class=red) \cdot P(feature_1=A|class=red) \cdot P(feature_2=Y|class=red)$

P (c l a s s = r e d | e x a m p l e) \propto \frac{1}{3} \cdot 1 \cdot \frac{7}{10} = \frac{7}{30}

$P(class=red|example) \propto \frac{1}{3} \cdot 1 \cdot \frac{7}{10} = \frac{7}{30}$ Kami kemudian melakukan hal yang sama untuk hijau:

P (c l a s s = g r e e n | e x a m p l e) \propto P (c l a s s = g r e e n) \cdot P (f e a t u r e_{1} = A | c l a s s = g r e e n) \cdot P (f e a t u r e_{2} = Y | c l a s s = g r e e n)

$P(class=green|example) \propto P(class=green) \cdot P(feature_1=A|class=green) \cdot P(feature_2=Y|class=green)$

Subbing dalam nilai-nilai itu membuat kita 0 ( ). Akhirnya, kita melihat untuk melihat kelas mana yang memberi kita probabilitas tertinggi. Dalam hal ini, itu jelas kelas merah, jadi di situlah kita menetapkan intinya. $2/3 \cdot 0 \cdot 2/10$

Catatan

Dalam contoh asli Anda, fitur-fiturnya kontinu. Dalam hal ini, Anda perlu menemukan beberapa cara menetapkan P (fitur = nilai | kelas) untuk setiap kelas. Anda mungkin mempertimbangkan untuk menyesuaikan distribusi probabilitas yang diketahui (misalnya, seorang Gaussian). Selama pelatihan, Anda akan menemukan mean dan varians untuk setiap kelas di sepanjang setiap dimensi fitur. Untuk mengklasifikasikan suatu titik, Anda akan menemukan dengan memasukkan mean dan varians yang sesuai untuk setiap kelas. Distribusi lain mungkin lebih tepat, tergantung pada data Anda, tetapi seorang Gaussian akan menjadi titik awal yang baik. $P(feature=value|class)$

Saya tidak terlalu terbiasa dengan kumpulan data DARPA, tetapi pada dasarnya Anda akan melakukan hal yang sama. Anda mungkin akan berakhir menghitung sesuatu seperti P (serangan = TRUE | service = jari), P (serangan = false | layanan = jari), P (serangan = TRUE | layanan = ftp), dll. Dan kemudian menggabungkannya dalam sama seperti contohnya. Sebagai catatan, bagian dari trik di sini adalah menghadirkan fitur yang bagus. Sumber IP, misalnya, mungkin akan sangat jarang - Anda mungkin hanya memiliki satu atau dua contoh untuk IP yang diberikan. Anda mungkin melakukan jauh lebih baik jika Anda melakukan geolokasi IP dan menggunakan "Source_in_same_building_as_dest (true / false)" atau sesuatu sebagai fitur.

Saya harap itu membantu lebih banyak. Jika ada yang butuh klarifikasi, saya akan senang untuk mencoba lagi!

— Matt Krause
sumber

Tentu. Jika tidak apa-apa dengan Anda, saya akan mengedit jawaban saya sehingga ada lebih banyak ruang (dan saya dapat hal-hal LaTex).

— Matt Krause

Saya memperluas pelatihan dan bagian uji dan membuatnya menjadi bagian mereka sendiri. Paragraf pasangan pertama adalah sama ...

— Matt Krause

Matt, ini jauh lebih jelas daripada definisi buku teks tentang Naif Bayes yang saya temui. Ini mungkin jawaban terbaik untuk setiap pertanyaan yang saya lihat sejauh ini di situs web ini.

— Zhubarb

@Berkan, terima kasih; Anda baik sekali (walaupun ada banyak jawaban hebat lainnya juga!) Jika Anda punya saran, saya akan senang mencoba mengatasinya!

— Matt Krause

+1 dan stackoverflow.com/questions/10059594/… di mana ada penjelasan serupa

— Drey

Menyederhanakan notasi dengan menunjukkan data, kami ingin mencari yang mana dari berbagai yang terbesar. Sekarang, formula Bayes memberikan mana penyebut di benar sama untuk semua . Jika kita ingin menemukan , adalah yang terbesar, kita tentu saja dapat menghitung setiap dan membandingkan nilainya. Tetapi perhatikan bahwa perbandingan tidak benar-benar dipengaruhi oleh nilai yang sama dalam semua kasus. Kita juga bisa menghitung semua $D$ $P(C_j\mid D)$

P (C_{j} ∣ D) = \frac{P (D ∣ C_{j}) P (C_{j})}{P (D)}, j = 1, 2, \dots

$P(C_j\mid D) = \frac{P(D\mid C_j)P(C_j)}{P(D)}, ~ j = 1, 2, \ldots$

j

$j$

P (C_{1} ∣ D)

$P(C_1\mid D)$

P (C_{2} ∣ D), \dots

$P(C_2\mid D), \ldots$

P (C_{j} ∣ D)

$P(C_j\mid D)$

P (D)

$P(D)$

P (D ∣ C_{j}) P (C_{j})

$P(D\mid C_j)P(C_j)$ dan bandingkan (yaitu, tanpa repot-repot membagi masing-masing dengan sebelum perbandingan), dan sama akan dipilih memiliki probabilitas posterior terbesar. Dengan kata lain, posterior probabilitas adalah sebanding dengan kemungkinan kali probabilitas sebelum Akhirnya, ketika data adalah kumpulan pengamatan bersyarat) pengamatan independen diberikan , kami memiliki itu

P (D ∣ C_{j}) P (C_{j})

$P(D\mid C_j)P(C_j)$

P (D)

$P(D)$

C_{j}

$C_j$

P (C_{j} ∣ D)

$P(C_j\mid D)$ $P(D\mid C_j)$

P (C_{j})

$P(C_j)$

P (C_{j} ∣ D) \propto P (D ∣ C_{j}) P (C_{j}) .

$P(C_j\mid D) \propto P(D\mid C_j)P(C_j).$

D

$D$

(x_{1}, x_{2}, \dots, x_{d})

$(x_1, x_2, \ldots, x_d)$

C_{j})

$C_j)$

\begin{aligned} P (D ∣ C_{j}) & = P (x_{1}, x_{2}, \dots, x_{d} ∣ C_{j}) \\ = P (x_{1} ∣ C_{j}) P (x_{2} ∣ C_{j}) \dots P (x_{d} ∣ C_{j}) \\ = \prod_{1 = 1}^{d} P (x_{i} ∣ C_{j}) \end{aligned}

$\begin{align*} P(D\mid C_j) &= P(x_1, x_2, \ldots, x_d\mid C_j)\\ &= P(x_1\mid C_j)P(x_2\mid C_j)\cdots P(x_d\mid C_j)\\ &= \prod_{1=1}^d P(x_i\mid C_j) \end{align*}$

— Dilip Sarwate
sumber

Asumsi utama di balik model naive bayes adalah bahwa setiap fitur (x_i) tidak tergantung kondisi dari semua fitur lain yang diberikan kelas. Asumsi ini yang memungkinkan kami untuk menulis kemungkinan sebagai produk sederhana (seperti yang telah Anda tunjukkan).

Ini juga yang membantu model naif bayes menggeneralisasi dengan baik dalam praktik. Pertimbangkan fase pelatihan: jika kita tidak membuat asumsi ini, maka pembelajaran akan melibatkan memperkirakan distribusi dimensi yang rumit dan tinggi: p (x1, x2, ..., xn, c) di mana semua fitur didistribusikan bersama. Sebagai gantinya, kita dapat melatih dengan memperkirakan p (x1, c), p (x2, c), ..., p (xn, c), karena dengan mengetahui nilai c membuat nilai-nilai semua fitur lainnya menjadi tidak relevan (mereka menyediakan tidak ada informasi tambahan tentang x_i).

Saya tidak tahu cara yang baik untuk memvisualisasikan ini (selain notasi model grafis standar), tetapi untuk membuatnya lebih konkret Anda dapat menulis beberapa kode untuk mempelajari model Naif bayes ( Anda dapat mengambil beberapa contoh data di sini ). Latih dan uji. Sekarang lepaskan asumsi independensi bersyarat dan ubah kodenya. Latih, uji, dan bandingkan dengan model sebelumnya.

— Nick
sumber