file
memberi tahu Anda "Teks ASCII yang diperluas non-ISO" karena mendeteksi bahwa ini adalah:
- kemungkinan besar file "teks" dari kurangnya karakter kontrol (nilai byte 0–31) selain jeda baris;
- “Extended-ASCII” karena ada karakter di luar rentang ASCII (nilai byte ≥128);
- "Non-ISO" karena ada karakter dalam rentang 128–159 ( ISO 8859 menyimpan rentang ini untuk karakter kontrol).
Anda harus mencari tahu di mana penyandian file ini tampaknya. Anda dapat mencoba pengenalan otomatis Enca . Anda mungkin perlu mendorongnya ke arah yang benar dengan mengatakannya dalam bahasa apa teks itu.
enca x.txt
enca -L polish x.txt
Untuk mengonversi file, berikan -x
opsi:enca -L polish x.txt -x utf8 >x.utf8.txt
Jika Anda tidak dapat atau tidak ingin menggunakan Enca, Anda dapat menebak pengodeannya secara manual. Sedikit melihat sekeliling memberi tahu saya bahwa ini adalah teks Polandia dan kata-katanya trwały, stały, usuważ, jadi kami sedang mencari terjemahan mana ³
→ ł
dan æ
→ ż
. Ini terlihat seperti latin-2 atau latin-10 atau lebih mungkin (diberikan "non-ISO" CP1250 yang Anda lihat sebagai latin1 . Untuk mengonversi file ke UTF-8, Anda dapat menggunakan recode atau iconv .
recode CP1250..utf8 <x.txt >x.utf8.txt
iconv -f CP1250 -t UTF-8 <x.txt >x.utf8.txt