Bagaimana cara mengekstrak semua tautan eksternal halaman web dan menyimpannya ke file?


11

Bagaimana cara mengekstrak semua tautan eksternal halaman web dan menyimpannya ke file?

Jika Anda memiliki alat baris perintah yang bagus.

Jawaban:


18

Anda membutuhkan 2 alat, lynx dan awk , coba ini:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Jika Anda membutuhkan garis penomoran, gunakan perintah nl , coba ini:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Saya tidak berpikir ini akan berfungsi untuk url relatif
Sridhar Sarnobat

8

Berikut ini adalah peningkatan pada jawaban lelton: Anda tidak perlu awk sama sekali karena lynx punya beberapa opsi berguna.

lynx -listonly -nonumbers -dump http://www.google.com.br

jika Anda ingin nomor

lynx -listonly -dump http://www.google.com.br

0
  1. Gunakan Beautiful Soup untuk mengambil halaman web yang dimaksud.
  2. Gunakan awk untuk menemukan semua URL yang tidak mengarah ke domain Anda

Saya akan merekomendasikan Beautiful Soup melalui teknik menggores layar.


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.