perlu menyingkirkan simbol aneh dalam teks


1

Saya perlu memproses teks berikut untuk menghilangkan simbol aneh seperti:

â<80><99> â<80><9c> â<80>?

Teks contoh:

Dengan misteri yang tidak dapat dijelaskan, Hyatt mencoba memberi rasa aman kepada tamunya dengan memasang penjaga di lobi. Tapi Wolf tidak bisa <80> <99> mengesampingkan anggapan bahwa pencuri bisa memasuki kamarnya kapan saja. â <80> <9c> Aku bermimpi tentang hal itu selama beberapa malam, â <80>? kata Wolf, 66 tahun konsultan layanan IT Dell bepergian di Houston untuk bisnis.

Adakah yang bisa membantu saya dengan itu? Saya berharap untuk secara manual menghapusnya dengan beberapa perintah di Vi atau melakukannya dengan skrip.

vi 

Sepertinya Anda mengedit file UTF-8 di vi yang tidak mengerti UTF-8, coba gunakan vim sebagai gantinya.

Anda mungkin perlu mengubah dukungan bahasa untuk UTF-8tersedia di Window Preferences dari aplikasi yang Anda gunakan.

@muistooshort vi menjadi vim setidaknya 25 tahun yang lalu.
Shiplu Mokaddim

@Shiplu vimhanya dirilis secara publik 21 tahun yang lalu. Beberapa OS masih digunakan visebagai default (IIRC, ini termasuk FreeBSD). Itu saran yang valid.
Bob

Jawaban:


0

Saya menemukan teks yang dipertanyakan di sini: http://www.forbes.com/sites/andygreenberg/2012/11/26/security-flaw-in-common-keycard-locks-exploited-in-string-of-hotel- kamar-break-in /

Karakter yang menyebabkan masalah adalah tanda kutip mewah dan tanda kutip, yang bukan simbol ascii standar untuk tanda kutip dan tanda kutip.

Saya menempelkan teks itu ke salinan vim saya, dan itu menangani karakter-karakter itu dengan baik.

Tetapi inilah cara yang harus dilakukan untuk menggantikan ketika hal semacam ini terjadi: http://aditya.sublucid.com/2008/01/18/replacing-those-pesky-smart-quotes-in-vim/


Terimakasih banyak! Ini bekerja dan hanya apa yang saya butuhkan. Saya tidak bermaksud menginspirasi minat pada konten teks. Pelajaran yang dipelajari :)

0

Sebagian besar masalah ini akan terjadi jika Anda mentransfer file Anda dari mesin Windows atau DOS. Untuk menghilangkan karakter khusus yang tidak diinginkan tersebut gunakan utilitas "dos2unix"

mkannan@talksense-dr:~/tmp$ dos2unix test.sh 
dos2unix: converting file test.sh to UNIX format ...

dos2unixmengonversi akhiran baris (dari CR+ LFmenjadi adil LF). Ini lebih seperti masalah dengan pengkodean kutipan. (@querystack dikonfirmasi dalam komentar pada jawaban lain bahwa itu adalah masalah dengan 'kutipan pintar', yang bukan bagian dari rangkaian karakter ASCII.)
Bob
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.