Ada banyak file teks biasa yang dikodekan dalam rangkaian varian.
Saya ingin mengonversikan semuanya menjadi UTF-8, tetapi sebelum menjalankan ikonv, saya perlu mengetahui penyandian aslinya. Sebagian besar browser memiliki Auto Detect
opsi dalam penyandian, namun, saya tidak dapat memeriksa file teks itu satu per satu karena ada terlalu banyak.
Hanya setelah mengetahui pengodean asli, saya kemudian dapat mengonversi teks dengan iconv -f DETECTED_CHARSET -t utf-8
.
Apakah ada utilitas untuk mendeteksi penyandian file teks biasa? TIDAK HARUS 100% sempurna, saya tidak keberatan jika ada 100 file yang salah dikonversi dalam 1.000.000 file.
python-chardet
dalam repo alam semesta Ubuntu.