Unduh semua tautan PDF di halaman web? [Tutup]


Jawaban:


36

Anda dapat menggunakan wget dan menjalankan perintah seperti ini:

wget --recursive --level=1 --no-directories --no-host-directories --accept pdf http://example.com

Atau dengan opsi pendek:

wget -r -l 1 -nd -nH -A pdf http://example.com

UPDATE: Karena pembaruan Anda mengatakan Anda menjalankan Windows 7: gunakan wget untuk Windows dari cmdprompt.

UPDATE 2: Untuk solusi grafis - meskipun mungkin berlebihan karena mendapat file lain juga DownThemAll


terima kasih kevin atas saran Anda, wget terlihat bagus, toh saya lebih suka perangkat lunak 'grafis', baris non-perintah. :)
iAsk

2
Ini bahkan menolak halaman .html awal. Pernahkah diuji?
dan3

Pertanyaannya adalah tentang mengunduh semua tautan PDF, jadi ya, halaman .html awal akan diabaikan.
Kevin Worthington

Apakah ada kemungkinan untuk melakukan hal yang sama di Windows 7 menggunakan Power Shell?
Benedikt Buchert

1
Saya juga menyarankan untuk menunda paling tidak beberapa detik antara unduhan file agar menyenangkan dan tidak membanjiri server jarak jauh. e, g, untuk wget, tambahkan bendera-w 5
KJH

6
  1. Di browser Anda, tekan CTRL+ SHIFT+ J, dan masukkan

    var pdflinks = []; Array.prototype.map. call (document.querySelectorAll ("a [href $ = \". pdf \ "]"), fungsi (e, i) {if ((pdflinks || []). indexOf (e.href) == - 1) {pdflinks.push (e.href);}}); console.log (pdflinks.join (""));

    Ini akan kembali di konsol:

    " /superuser/tagged/somepdf1.pdf " " /superuser/tagged/somepdf2.pdf " " /superuser/tagged/somepdf3.pdf "

  2. Sekarang gunakan wgetdengan opsi baris perintahwget url1 url2 ...

Salin dan tempel ini, buka konsol masuk, wgettekan tombol kanan mouse untuk memasukkan konten clipboard Anda dan tekan enter.

Untuk menggunakan file unduhan, gabungkan baris dengan "\ n" dan gunakan parameter sebagai berikut wget -i mydownload.txt

Perhatikan bahwa sebagian besar program unduhan (GUI) lain juga menerima untuk dipanggil dengan daftar URL yang dipisahkan oleh spasi.

Semoga ini membantu. Inilah yang biasanya saya lakukan. Ini lebih cepat dan lebih fleksibel daripada ekstensi apa pun dengan antarmuka grafis, saya harus belajar dan tetap terbiasa.


1
Lebih baik lagi, console.log('"' + pdflinks.join('" "') + '"')- jika tidak, Anda tidak akan mendapatkan URL yang dikutip
dan3

1

Jika Anda ingin tetap berada di browser, saya telah menulis ekstensi web untuk tujuan ini - saya sedang berusaha menambahkan kemampuan untuk menyimpan artikel ilmiah PDF dengan judul yang diformat dengan benar tetapi jika Anda hanya ingin mengunduh semuanya sempurna untuk ini.

Ini disebut Tab Save dan di toko web Chrome di sini . Anda bahkan tidak perlu memasukkan daftar URL jika Anda hanya membuka semuanya di tab (tetapi untuk sejumlah besar file ini mungkin memperlambat komputer, jadi saya menambahkan opsi untuk menambahkan Anda sendiri).


0

Saya baru-baru ini menggunakan uGet (di Windows) untuk ini. Ini memiliki GUI, dan Anda dapat memfilter file yang ingin Anda unduh.

Menghemat mencoba mengingat semua itu


0

Di Google Chrome, dimungkinkan untuk menggunakan ekstensi seperti:

  • Unduh Master

    Dengan ekstensi ini Anda dapat mengunduh semua gambar, video, pdf, doc, dan file apa pun lain yang tertaut pada halaman web yang Anda kunjungi.


0

Google

Ada beberapa alat Python yang memungkinkan mengunduh tautan PDF dari situs web berdasarkan hasil pencarian Google.

Misalnya

  • google_dlskrip (disarankan).

    Pemakaian:

    ./google_dl -s http://www.example.com/ -f pdf ""
    
  • gsrchDwnskrip (berdasarkan skrip neo ).

    Pemakaian:

    ./gsrchDwn.py --query "site:http://www.example.com/" --ftype pdf
    

Catatan: Saya adalah pengelola kedua skrip yang disebutkan.

Keduanya menerapkan xgoogleperpustakaan Python. Garpu saya dari perpustakaan ini didasarkan pada pkrumins/xgoogleversi .


Terkait: Pencarian web dari baris perintah Linux .

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.