Saya menulis crawler di Ruby (1.9) yang mengkonsumsi banyak HTML dari banyak situs acak.
Ketika mencoba mengekstrak tautan, saya memutuskan untuk menggunakan saja .scan(/href="(.*?)"/i)
daripada nokogiri / hpricot (percepatan besar). Masalahnya adalah sekarang saya menerima banyak " invalid byte sequence in UTF-8
" kesalahan.
Dari apa yang saya pahami, net/http
perpustakaan tidak memiliki opsi khusus pengkodean dan hal-hal yang masuk pada dasarnya tidak diberi tag dengan benar.
Apa cara terbaik untuk benar-benar bekerja dengan data yang masuk itu? Saya mencoba .encode
dengan set opsi ganti dan tidak valid, tetapi sejauh ini tidak berhasil ...
'U*'
membatalkan 'C*'
?