Di Naif Bayes, mengapa repot-repot dengan Laplace smoothing ketika kita memiliki kata-kata yang tidak diketahui dalam set tes?

28

Saya membaca Klasifikasi Naif Bayes hari ini. Saya membaca, di bawah judul Estimasi Parameter dengan menambahkan 1 smoothing :

Mari $c$ merujuk ke kelas (seperti positif atau negatif), dan membiarkan $w$ mengacu pada tanda atau kata.

Estimasi kemungkinan maksimum untuk $P(w|c)$ adalah
$\frac{c Hai kamu n t (w, c)}{c Hai kamu n t (c)} = \frac{jumlah w di kelas c}{jumlah kata di kelas c} .$ $\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}.$

Estimasi $P(w|c)$ bisa bermasalah karena akan memberi kita probabilitas $0$ untuk dokumen dengan kata-kata yang tidak dikenal. Cara umum untuk menyelesaikan masalah ini adalah dengan menggunakan penghalusan Laplace.

Biarkan V menjadi himpunan kata dalam himpunan pelatihan, tambahkan elemen baru $UNK$ (untuk tidak diketahui) ke himpunan kata.

Tentukan
$P (w | c) = \frac{menghitung (w, c) + 1}{menghitung (c) + | V | + 1},$ $P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + 1},$

di mana $V$ mengacu pada kosakata (kata-kata dalam set pelatihan).

Secara khusus, setiap kata yang tidak dikenal akan memiliki probabilitas
$\frac{1}{menghitung (c) + | V | + 1} .$ $\frac{1}{\text{count}(c) + |V| + 1}.$

Pertanyaan saya adalah ini: mengapa kita repot-repot dengan smoothing Laplace ini sama sekali? Jika kata-kata tidak dikenal yang kita temui dalam set pengujian memiliki probabilitas yang jelas hampir nol, yaitu $\frac{1}{\text{count}(c) + |V| + 1}$ , apa gunanya termasuk dalam model? Mengapa tidak mengabaikan saja dan menghapusnya?

— Matt O'Brien
sumber

3

Jika Anda tidak maka pernyataan yang Anda temui mengandung kata yang sebelumnya tidak terlihat akan memiliki

. Ini berarti bahwa suatu peristiwa yang mustahil telah terjadi. Yang berarti model Anda sangat cocok. Juga dalam model Bayesian yang tepat ini tidak pernah bisa terjadi, karena probabilitas kata yang tidak diketahui akan memiliki pembilang yang diberikan oleh sebelumnya (mungkin bukan 1). Jadi saya tidak tahu mengapa ini membutuhkan nama mewah 'Laplace smoothing'.

p = 0

$p=0$

— dugaan

1

Dari mana teks bacaan itu berasal?

— kata

17

Anda selalu membutuhkan probabilitas 'gagal-aman' ini.

Untuk melihat mengapa mempertimbangkan kasus terburuk di mana tidak ada kata-kata dalam sampel pelatihan muncul dalam kalimat tes. Dalam hal ini, di bawah model Anda, kami akan menyimpulkan bahwa kalimat itu tidak mungkin tetapi jelas ada menciptakan kontradiksi.

Contoh ekstrem lainnya adalah kalimat ujian "Alex bertemu Steve." di mana "bertemu" muncul beberapa kali dalam sampel pelatihan tetapi "Alex" dan "Steve" tidak. Model Anda akan menyimpulkan pernyataan ini sangat mungkin yang tidak benar.

— Sid
sumber

Saya benci terdengar seperti orang tolol, tetapi apakah Anda keberatan menguraikan? Bagaimana cara menghapus "Alex" dan "Steve" mengubah kemungkinan pernyataan itu terjadi?

— Matt O'Brien

2

Jika kita mengasumsikan kemandirian kata P (Alex) P (Steve) P (bertemu) << P (bertemu)

— Sid

1

kita bisa membangun kosakata saat melatih model pada kumpulan data pelatihan, jadi mengapa tidak hanya menghapus semua kata baru yang tidak muncul dalam kosakata saat membuat prediksi pada kumpulan data uji?

— alpukat

15

Katakanlah Anda telah melatih Naive Bayes Classifier Anda pada 2 kelas, "Ham" dan "Spam" (yaitu, itu mengklasifikasikan email). Demi kesederhanaan, kami akan menganggap probabilitas sebelumnya menjadi 50/50.

Sekarang katakanlah Anda memiliki email $(w_1, w_2,...,w_n)$ yang tingkat classifier Anda sangat tinggi sebagai "Ham", mengatakan

P (H Sebuah m | w_{1}, w_{2}, . . . w_{n}) = .90

$P(Ham|w_1,w_2,...w_n) = .90$ dan

P (S hal Sebuah m | w_{1}, w_{2}, . . w_{n}) = .10

$P(Spam|w_1,w_2,..w_n) = .10$

Sejauh ini baik.

Sekarang katakanlah Anda memiliki email lain $(w_1, w_2, ...,w_n,w_{n+1})$ yang persis sama dengan email di atas kecuali bahwa ada satu kata di dalamnya yang tidak termasuk dalam kosa kata . Oleh karena itu, karena jumlah kata ini adalah 0,

P (H Sebuah m | w_{n + 1}) = P (S hal Sebuah m | w_{n + 1}) = 0

$P(Ham|w_{n+1}) = P(Spam|w_{n+1}) = 0$

Tiba-tiba,

P (H Sebuah m | w_{1}, w_{2}, . . . w_{n}, w_{n + 1}) = P (H Sebuah m | w_{1}, w_{2}, . . . w_{n}) * P (H Sebuah m | w_{n + 1}) = 0

$P(Ham|w_1,w_2,...w_n,w_{n+1}) = P(Ham|w_1,w_2,...w_n) * P(Ham|w_{n+1}) = 0$ dan

P (S hal Sebuah m | w_{1}, w_{2}, . . w_{n}, w_{n + 1}) = P (S hal Sebuah m | w_{1}, w_{2}, . . . w_{n}) * P (S hal Sebuah m | w_{n + 1}) = 0

$P(Spam|w_1,w_2,..w_n,w_{n+1}) = P(Spam|w_1,w_2,...w_n) * P(Spam|w_{n+1}) = 0$

Meskipun email ke-1 sangat terklasifikasi dalam satu kelas, email ke-2 ini dapat diklasifikasikan secara berbeda karena kata terakhir yang memiliki kemungkinan nol.

Laplace smoothing menyelesaikan ini dengan memberikan kata terakhir probabilitas kecil yang tidak nol untuk kedua kelas, sehingga probabilitas posterior tidak tiba-tiba turun ke nol.

— RVC
sumber

mengapa kita menyimpan kata yang tidak ada dalam kosakata sama sekali? mengapa tidak menghapusnya saja?

— alpukat

4

jika pengklasifikasi Anda memberi peringkat pada email sebagai ham, maka p (ham | w1, ..., wn) adalah 0,9, bukan p (w1, ..., wn | ham)

— braaterAfrikaaner

5

Pertanyaan ini agak sederhana jika Anda terbiasa dengan estimator Bayes, karena ini adalah kesimpulan langsung dari estimator Bayes.

Dalam pendekatan Bayesian, parameter dianggap kuantitas yang variasinya dapat digambarkan oleh distribusi probabilitas (atau distribusi sebelumnya).

Jadi, jika kita melihat prosedur pengambilan sebagai distribusi multinomial, maka kita dapat menyelesaikan pertanyaan dalam beberapa langkah.

Pertama, definisikan

m = | V |, n = \sum n_{saya}

$m = |V|, n = \sum n_i$

$p_i$

hal ({hal}_{1}, {hal}_{2}, . . ., {hal}_{m} | n_{1}, n_{2}, . . ., n_{m}) = \frac{Γ (n + m)}{\prod_{saya = 1}^{m} Γ (n_{saya} + 1)} \prod_{saya = 1}^{m} {hal}_{saya}^{n_{saya}}

$p(p_1,p_2,...,p_m|n_1,n_2,...,n_m) = \frac{\Gamma(n+m)}{\prod\limits_{i=1}^{m}\Gamma(n_i+1)}\prod\limits_{i=1}^{m}p_i^{n_i}$

$p_i$

E [{hal}_{saya}] = \frac{n_{saya} + 1}{n + m}

$E[p_i] = \frac{n_i+1}{n+m}$

$p_i$ $p_i$

{\hat{hal}}_{saya} = E [{hal}_{saya}]

$\hat p_i = E[p_i]$

Anda dapat melihat kami hanya menarik kesimpulan yang sama dengan Laplace Smoothing.

— Response777
sumber

4

Mengabaikan kata-kata itu adalah cara lain untuk menanganinya. Ini sesuai dengan rata-rata (mengintegrasikan) untuk semua variabel yang hilang. Jadi hasilnya berbeda. Bagaimana?

P (C^{*} | d) = \arg \underset{C}{maks} \frac{\prod_{saya} hal (t_{saya} | C) P (C)}{P (d)} \propto \arg \underset{C}{maks} \prod_{saya} hal (t_{saya} | C) P (C)

$P(C^{*}|d) = \arg\max_{C} \frac{\prod_{i}p(t_{i}|C)P(C)}{P(d)} \propto \arg\max_{C} \prod_{i}p(t_{i}|C)P(C)$

t_{i}

$t_{i}$

d

$d$

$t_{k}$ $t_{k}$

P (C^{*} | d) \propto \arg \underset{C}{maks} \sum_{t_{k}} \prod_{saya} hal (t_{saya} | C) P (C) = \arg \underset{C}{maks} P (C) \prod_{saya \neq k} hal (t_{saya} | C) \sum_{t_{k}} hal (t_{k} | C) = \arg \underset{C}{maks} P (C) \prod_{saya \neq k} hal (t_{saya} | C)

$P(C^{*}|d) \propto \arg\max_{C} \sum_{t_{k}} \prod_{i}p(t_{i}|C)P(C) = \arg\max_{C} P(C)\prod_{i \neq k}p(t_{i}|C) \sum_{t_{k}} p(t_{k}|C) = \arg\max_{C} P(C)\prod_{i \neq k}p(t_{i}|C)$

Namun dalam praktiknya orang lebih memilih pendekatan smoothing. Alih-alih mengabaikan token-token itu, Anda memberi mereka probabilitas rendah yang seperti berpikir: jika saya memiliki token yang tidak diketahui, itu lebih tidak mungkin adalah jenis dokumen yang seharusnya saya pikirkan.

— jpmuc
sumber

2

Anda ingin tahu mengapa kami repot-repot melicinkan sama sekali dalam classifier Naive Bayes (ketika kami dapat membuang fitur yang tidak diketahui sebagai gantinya).

Jawaban untuk pertanyaan Anda adalah: tidak semua kata harus tidak dikenal di semua kelas.

Katakanlah ada dua kelas M dan N dengan fitur A , B dan C , sebagai berikut:

M: A = 3, B = 1, C = 0

(Di kelas M , A muncul 3 kali dan B hanya sekali)

N: A = 0, B = 1, C = 3

(Di kelas N , C muncul 3 kali dan B hanya sekali)

Mari kita lihat apa yang terjadi ketika Anda membuang fitur yang muncul nol kali.

A) Membuang Fitur-Fitur Yang Tampil Nol Kali Di Kelas Apa Saja

Jika Anda membuang fitur A dan C karena mereka muncul nol kali di salah satu kelas, maka Anda hanya memiliki fitur B untuk mengklasifikasikan dokumen.

Dan kehilangan informasi itu adalah hal yang buruk seperti yang akan Anda lihat di bawah!

Jika Anda diberikan dokumen uji sebagai berikut:

B = 1, C = 3

(Ini mengandung B sekali dan C tiga kali)

Sekarang, karena Anda sudah dibuang fitur A dan B , Anda tidak akan dapat mengatakan apakah dokumen di atas milik kelas M atau kelas N .

Jadi, kehilangan semua informasi fitur adalah hal yang buruk!

B) Membuang Fitur-Fitur Yang Tampak Nol Kali Di Semua Kelas

Apakah mungkin untuk mengatasi masalah ini dengan hanya membuang fitur-fitur yang muncul nol kali di semua kelas?

Tidak, karena itu akan menciptakan masalah sendiri!

Dokumen uji berikut menggambarkan apa yang akan terjadi jika kami melakukan itu:

A = 3, B = 1, C = 1

Probabilitas M dan N akan menjadi nol (karena kami tidak membuang probabilitas nol A di kelas N dan probabilitas nol C di kelas M ).

C) Jangan Membuang Apa Pun - Gunakan Penghalus

Smoothing memungkinkan Anda untuk mengklasifikasikan kedua dokumen di atas dengan benar karena:

Anda tidak kehilangan informasi penghitungan di kelas di mana informasi tersebut tersedia dan
Anda tidak harus bersaing dengan jumlah nol.

Dalam Praktek Penari Naif Bayes

Klasifikasi Naive Bayes di NLTK digunakan untuk membuang fitur yang tidak memiliki hitungan di salah satu kelas.

Ini digunakan untuk membuatnya berkinerja buruk ketika dilatih menggunakan prosedur EM keras (di mana classifier di-bootstrap dari data pelatihan yang sangat sedikit).

— Aiaioo Labs
sumber

2

@ Aiaioo Labs Anda gagal menyadari bahwa dia merujuk pada kata-kata yang tidak muncul di set pelatihan sama sekali, misalnya, dia merujuk untuk mengatakan jika D muncul, masalahnya bukan dengan laplace smoothing pada perhitungan dari set pelatihan dan bukan set tes. Menggunakan laplace smoothing pada kata-kata yang tidak dikenal dari set TEST menyebabkan kemungkinan untuk condong ke kelas mana yang memiliki jumlah token paling sedikit karena 0 + 1/2 + 3 lebih besar dari 0 + 1/3 + 3 (jika salah satu kelas memiliki 3 token dan yang lainnya punya 2). ...

2

Ini benar-benar dapat mengubah klasifikasi yang benar menjadi klasifikasi yang salah jika kata-kata yang tidak dikenal cukup dihaluskan ke dalam persamaan. Laplace smoothing tidak masalah untuk perhitungan set Pelatihan, tetapi merugikan untuk menguji analisis set. Juga bayangkan Anda memiliki set tes dengan semua kata-kata yang tidak dikenal, itu harus segera diklasifikasikan ke kelas dengan probabilitas tertinggi, tetapi sebenarnya itu dapat dan biasanya, tidak akan diklasifikasikan seperti itu, dan biasanya diklasifikasikan sebagai kelas dengan jumlah terendah token.

@DrakeThatcher, sangat setuju dengan Anda, ya jika kami tidak menghapus kata-kata yang tidak ada dalam kosakata, maka kemungkinan proba akan condong ke kelas dengan jumlah kata yang paling sedikit.

— alpukat

1

Saya juga menemukan masalah yang sama saat mempelajari Naif Bayes.

Menurut saya, setiap kali kita menemukan contoh uji yang tidak kita temui selama pelatihan, maka probabilitas Posterior akan menjadi 0.

Jadi menambahkan 1, bahkan jika kita tidak pernah melatih pada fitur / kelas tertentu, probabilitas Posterior tidak akan pernah menjadi 0.

— Sarthak Khanna
sumber

1

Matt Anda benar, Anda menaikkan poin yang sangat bagus - ya Laplace Smoothing sebenarnya tidak masuk akal! Hanya dengan membuang fitur-fitur itu bisa menjadi pendekatan yang valid, terutama ketika penyebutnya juga sedikit - tidak ada cukup bukti untuk mendukung estimasi probabilitas.

Saya memiliki keengganan yang kuat untuk memecahkan masalah apa pun melalui penggunaan beberapa penyesuaian sewenang-wenang. Masalahnya di sini adalah nol, "solusi" adalah dengan hanya "menambahkan beberapa nilai kecil ke nol sehingga tidak nol lagi - MAGIC masalahnya tidak ada lagi". Tentu saja itu sepenuhnya sewenang-wenang.

Saran Anda untuk memilih fitur yang lebih baik untuk memulai adalah pendekatan yang tidak terlalu sembarangan dan IME meningkatkan kinerja. Lebih lanjut Laplace Smoothing bersama dengan naive Bayes sebagai model dalam pengalaman saya memperburuk masalah granularity - yaitu masalah di mana skor skor cenderung mendekati 1,0 atau 0,0 (jika jumlah fitur tidak terbatas maka setiap skor akan menjadi 1,0 atau 0,0 - ini adalah konsekuensi dari asumsi independensi).

Sekarang teknik alternatif untuk estimasi probabilitas ada (selain kemungkinan maksimum + Laplace smoothing), tetapi secara masif didokumentasikan. Bahkan ada seluruh bidang yang disebut Logika Induktif dan Proses Inferensi yang menggunakan banyak alat dari Teori Informasi.

Apa yang kami gunakan dalam praktik adalah Pembaruan Entropi Silang Minimum yang merupakan perpanjangan dari Pembaruan Jeffrey di mana kami mendefinisikan wilayah cembung ruang probabilitas yang konsisten dengan bukti sebagai wilayah sedemikian sehingga suatu titik di dalamnya berarti estimasi Kemungkinan Maksimum berada di dalam Diharapkan Penyimpangan Absolut dari titik tersebut.

Ini memiliki properti yang bagus karena jumlah titik data mengurangi estimasi secara damai mendekati sebelumnya - dan karena itu pengaruhnya dalam perhitungan Bayesian adalah nol. Laplace smoothing di sisi lain membuat setiap pendekatan mendekati titik Entropy Maksimum yang mungkin bukan yang sebelumnya dan karena itu efek dalam perhitungan tidak nol dan hanya akan menambah noise.

— samthebest
sumber