Anda hampir tidak bisa mendapatkan hasil yang baik dengan menggunakan pendekatan brute force yang diberikan sebagian besar perintah satu-liner (meskipun saya menggunakan opsi wget untuk mendapatkan seluruh situs banyak)
Saya menyarankan Anda untuk membuat skrip yang menggunakan beberapa bentuk seleksi bersyarat dan loop untuk benar-benar cocok dan mengikuti jenis tautan yang membawa Anda ke gambar yang Anda inginkan.
Strategi yang biasanya saya ikuti:
- Di browser, buka halaman pertama yang diminati dan perlihatkan kode sumber;
- Klik kanan gambar - & gt; "Properti gambar" - & gt; temukan atribut 'src =' dan tag gambar.
- Dapatkan pola keseluruhan dari tag / tautan / href ini, dan gunakan beberapa regex (
grep -o
) untuk mem-parsing tautan;
- Gunakan tautan ini dengan beberapa perintah untuk mengunduh gambar;
- Dapatkan juga tautan pada halaman yang menuju ke halaman lain;
- Ulangi.
Ini memang jauh lebih rumit daripada satu-liner yang mengambil semuanya, tetapi pengalaman itu mencerahkan. Webscraping adalah seni tersendiri.
Untuk itu, saya juga akan merekomendasikan Python, walaupun sangat mungkin untuk melakukannya dengan Shell Script (bash) jika Anda suka, atau bahasa scripting apa pun (Ruby, PHP, perl, dll.).
Semoga ini membantu.