Pemodelan bahasa: mengapa menambahkan hingga 1 begitu penting?

Dalam banyak aplikasi pemrosesan bahasa alami seperti koreksi ejaan, terjemahan mesin, dan pengenalan suara, kami menggunakan model bahasa. Model bahasa biasanya dibuat dengan menghitung seberapa sering urutan kata-kata (n-gram) terjadi dalam korpus besar dan menormalkan hitungan untuk menciptakan probabilitas. Untuk menghitung n-gram yang tidak terlihat, kami menggunakan metode penghalusan (lihat beberapa yang tercantum di sini ) yang mengambil sebagian probabilitas dari n-gram yang dibuktikan dalam model dan mendistribusikan massa ini di antara n-gram orde rendah (urutan kata yang lebih pendek) ) probabilitas backoff.

Banyak teknik penghalusan menjadi kompleks secara matematis karena kendala bahwa perhitungan harus menjaga distribusi sebagai probabilitas (harus menambahkan hingga 1).

Apa alasan dari kendala ini? Apa keuntungan menggunakan probabilitas ketat untuk prediksi daripada skor apa pun?

PS Referensi yang terkait dengan tautan tersebut adalah [Stanley F. Chen dan Joshua Goodman (1998), "Sebuah Studi Empiris tentang Teknik Perataan untuk Pemodelan Bahasa"].

— user9617
sumber

Saya tidak bekerja di bidang ini, tapi saya tidak melihat mengapa menjumlahkan nilai-nilai yang diamati & kemudian membagi setiap nilai dengan total harus membuat algoritma menjadi berat. Tampak bagi saya bahwa jika model terlalu kompleks, lambat, atau tidak stabil secara numerik (dll.), Masalah kemungkinan besar terjadi di tempat lain.

— gung - Pasang kembali Monica

Tidak membagi jumlah di tempat pertama tidak begitu buruk. Semakin rumit ketika Anda melakukan smoothing. Katz, misalnya: en.wikipedia.org/wiki/Katz's_back-off_model

— user9617

@ user9617 tautan Anda sudah mati, bisakah Anda memperbaruinya atau lebih baik menambahkan referensi sehingga orang masih dapat Google sumber daya di masa depan? Terima kasih sebelumnya

— Antoine

@ Antineine selesai. Saya tidak begitu mengerti apa yang terjadi pada PDF yang saya tautkan sebelumnya, tetapi yang ini sama baiknya.

— user9617

@ user9617 Terima kasih +1! Saya menambahkan referensi yang sesuai jika link mati lagi di masa depan.

— Antoine

Keuntungan utama menggunakan probabilitas yang ketat adalah a) kemudahan interpretasi angka-angka; dan b) dapat menggunakan teorema Bayes dan metode probabilistik lainnya dalam analisis selanjutnya. Namun dalam beberapa situasi, itu tidak perlu. Misalnya jika Anda hanya ingin memberi peringkat hasil tanpa analisis lebih lanjut, maka tidak perlu untuk menormalkan skor.

— dcorney
sumber