Inilah yang saya pelajari baru-baru ini.
Jelas, ketika berbicara tentang RNN pembuatan teks kita berbicara tentang model bahasa RNN. Ketika bertanya tentang kata / berbasis-char RNNs generasi teks, kita bertanya tentang kata / berbasis-char model bahasa RNN (LM).
LM berbasis kata menampilkan akurasi lebih tinggi dan biaya komputasi lebih rendah daripada LM berbasis char.
Penurunan kinerja ini tidak mungkin karena kesulitan untuk model tingkat karakter untuk menangkap memori jangka pendek yang lebih lama, karena juga jaringan berulang Memori Jangka Pendek (LSTM) yang lebih lama bekerja lebih baik dengan input berbasis kata.
Ini karena RNN LM berbasis char membutuhkan lapisan tersembunyi yang jauh lebih besar untuk berhasil memodelkan dependensi jangka panjang yang berarti biaya komputasi lebih tinggi.
Karena itu, kita dapat mengatakan itu
salah satu perbedaan mendasar antara model level kata dan level karakter adalah dalam jumlah parameter yang harus diakses RNN selama pelatihan dan tes. Semakin kecil adalah lapisan input dan output RNN, semakin besar kebutuhan untuk lapisan tersembunyi yang terhubung sepenuhnya, yang membuat pelatihan model mahal.
Namun, bahasa berbasis RNN LM yang lebih baik memodelkan bahasa dengan morfologi yang kaya seperti Selesai, Turki, Rusia dll. Menggunakan berbasis kata RNN LM kata untuk memodelkan bahasa semacam itu sulit jika memungkinkan sama sekali dan tidak disarankan.
Analisis di atas masuk akal terutama ketika Anda melihat teks output, yang dihasilkan oleh RNNs berbasis char:
Para investor yang terkejut tidak akan mengumpulkan uang. Saya bukan perusahaan dengan waktu semua ada yang menarik dengan cepat, tidak harus turun dari programmer yang sama.
Sementara LM Maximum Likelihood berbasis char sederhana dengan jendela 13-karakter memberikan ini:
Dan ketika dia membuat banyak batu bata padat. Dia menumpuknya di tumpukan dan menginjak kakinya. Dokter mendiagnosis dia dengan kelelawar. Gadis dan pacarnya mengajaknya kencan.
Tentu saja saya memilih contohnya (sebenarnya sebagian besar contoh LM ML terlihat lebih baik daripada teks yang dihasilkan RNN yang pernah saya baca sejauh ini) dan ML LM mungil ini dilatih dengan corpus yang lebih sederhana tetapi Anda mendapatkan ide: probabilitas kondisional langsung menghasilkan lebih baik teks daripada RNN berbasis char jauh lebih kompleks .
RNN LM berbasis Char dapat meniru urutan tata bahasa yang benar untuk berbagai bahasa, membutuhkan lapisan tersembunyi yang lebih besar dan komputasi lebih mahal sementara RNN LM berbasis kata melatih lebih cepat dan menghasilkan teks yang lebih koheren, namun bahkan teks yang dihasilkan ini masih jauh dari masuk akal. .