Saya mengekstraksi URL dari situs web menggunakan cURL seperti di bawah ini.
curl www.somesite.com | grep "<a href=.*title=" > new.txt
File new.txt saya adalah seperti di bawah ini.
<a href="http://website1.com" title="something">
<a href="http://website1.com" information="something" title="something">
<a href="http://website2.com" title="some_other_thing">
<a href="http://website2.com" information="something" title="something">
<a href="http://websitenotneeded.com" title="something NOTNEEDED">
Namun, saya hanya perlu mengekstrak informasi di bawah ini.
<a href="http://website1.com" title="something">
<a href="http://website2.com" information="something" title="something">
Saya mencoba untuk mengabaikan <a href
yang memiliki informasi di dalamnya dan yang judulnya diakhiri dengan NOTNEEDED .
Bagaimana saya bisa mengubah pernyataan grep saya?
Apakah output yang Anda tunjukkan di sini benar? Teks yang menggambarkannya tidak masuk akal bersamaan dengan contoh ini.
—
slm
Apakah kamu tidak mencari
—
terdon
curl www.somesite.com | grep "<a href=.*title=" | grep -v NOTNEEDED > new.txt
?
@terdon, tepat itulah yang saya cari. Saya dapat menerimanya sebagai jawaban jika Anda mempostingnya.
—
Ramesh
Ramesh, itu pada dasarnya jawaban @ slm. Saya baru saja mengeditnya sehingga Anda dapat menerimanya.
—
terdon
oh ya, saya tidak menyadari pipa sekuat ini. Saya menerimanya sebagai jawaban. Terima kasih!
—
Ramesh