Saya sering menemukan file teks (seperti file subtitle dalam bahasa ibu saya, Persia ) dengan masalah pengkodean karakter. File-file ini dibuat pada Windows, dan disimpan dengan pengkodean yang tidak cocok (tampaknya ANSI), yang terlihat omong kosong dan tidak dapat dibaca, seperti ini:
Di Windows, orang dapat memperbaikinya dengan mudah menggunakan Notepad ++ untuk mengkonversi pengkodean ke UTF-8, seperti di bawah ini:
Dan hasil yang dapat dibaca adalah seperti ini:
Saya telah mencari banyak solusi serupa di GNU / Linux, tetapi sayangnya solusi yang disarankan (mis. Pertanyaan ini ) tidak berfungsi. Yang paling penting, saya telah melihat orang-orang menyarankan iconv
dan recode
tetapi saya tidak beruntung dengan alat-alat ini. Saya telah menguji banyak perintah, termasuk yang berikut, dan semuanya gagal:
$ recode ISO-8859-15..UTF8 file.txt
$ iconv -f ISO8859-15 -t UTF-8 file.txt > out.txt
$ iconv -f WINDOWS-1252 -t UTF-8 file.txt > out.txt
Tidak ada yang berhasil!
Saya menggunakan Ubuntu-14.04 dan saya sedang mencari solusi sederhana (baik GUI atau CLI) yang berfungsi seperti halnya Notepad ++.
Salah satu aspek penting dari menjadi "sederhana" adalah bahwa pengguna tidak diharuskan untuk menentukan pengkodean sumber; alih-alih pengkodean sumber harus secara otomatis dideteksi oleh alat dan hanya pengodean target yang harus disediakan oleh pengguna. Namun demikian, saya juga akan senang mengetahui tentang solusi yang membutuhkan sumber pengkodean untuk disediakan.
Jika seseorang memerlukan test case untuk memeriksa solusi yang berbeda, contoh di atas dapat diakses melalui tautan ini .
iso-639
tetapi itu tampaknya tidak tersedia dalam salah satu iconv
atau recode
. Setidaknya, saya tidak melihatnya di keluaran iconv -l
.
vim
tetapi tidak berhasil.
vim '+set fileencoding=utf-8' '+wq' file.txt
.