Di Linux, saya memiliki direktori dengan banyak file. Beberapa dari mereka memiliki karakter non-ASCII, tetapi semuanya adalah UTF-8 yang valid . Satu program memiliki bug yang mencegahnya bekerja dengan nama file non-ASCII, dan saya harus mencari tahu berapa banyak yang terpengaruh. Saya akan melakukan ini dengan find
dan kemudian melakukan grep untuk mencetak karakter non-ASCII, dan kemudian melakukan a wc -l
untuk menemukan nomornya. Tidak harus grep; Saya dapat menggunakan ekspresi reguler standar Unix , seperti Perl , sed , AWK , dll.
Namun, apakah ada ekspresi reguler untuk 'karakter apa pun yang bukan karakter ASCII'?
/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]