Saya memiliki file di UTF-8 yang berisi teks dalam berbagai bahasa. Banyak dari itu adalah nama orang. Saya perlu mengubahnya menjadi ASCII dan saya perlu hasilnya agar terlihat layak.
Ada banyak cara bagaimana pendekatan mengkonversi dari pengkodean yang lebih luas ke yang lebih sempit. Transformasi paling sederhana adalah mengganti semua karakter non-ASCII dengan placeholder, seperti '_'. Jika saya tahu bahasa file yang ditulis, ada kemungkinan tambahan, seperti romanisasi.
Apa alat Unix atau pustaka bahasa pemrograman yang tersedia di Unix dapat memberi saya konversi (upaya terbaik) yang layak dari UTF-8 ke ASCII?
Sebagian besar teks dalam bahasa Eropa, jenis bahasa latin.
iconv
dan tr
, ada Unidecode . Saya tidak terbiasa dengan itu, tetapi mungkin melakukan apa yang Anda inginkan, jika Anda dapat menggunakan Python.