Unduh semua tautan PDF di halaman web? [Tutup]

23

Apakah Anda tahu perangkat lunak yang bagus untuk mengunduh semua tautan PDF di halaman web ??

Sistem operasinya adalah Windows 7.

— aku bertanya
sumber

36

Anda dapat menggunakan wget dan menjalankan perintah seperti ini:

wget --recursive --level=1 --no-directories --no-host-directories --accept pdf http://example.com

Atau dengan opsi pendek:

wget -r -l 1 -nd -nH -A pdf http://example.com

UPDATE: Karena pembaruan Anda mengatakan Anda menjalankan Windows 7: gunakan wget untuk Windows dari cmdprompt.

UPDATE 2: Untuk solusi grafis - meskipun mungkin berlebihan karena mendapat file lain juga DownThemAll

— Kevin Worthington
sumber

terima kasih kevin atas saran Anda, wget terlihat bagus, toh saya lebih suka perangkat lunak 'grafis', baris non-perintah. :)

— iAsk

2

Ini bahkan menolak halaman .html awal. Pernahkah diuji?

— dan3

Pertanyaannya adalah tentang mengunduh semua tautan PDF, jadi ya, halaman .html awal akan diabaikan.

— Kevin Worthington

Apakah ada kemungkinan untuk melakukan hal yang sama di Windows 7 menggunakan Power Shell?

— Benedikt Buchert

1

Saya juga menyarankan untuk menunda paling tidak beberapa detik antara unduhan file agar menyenangkan dan tidak membanjiri server jarak jauh. e, g, untuk wget, tambahkan bendera-w 5

— KJH

6

Di browser Anda, tekan CTRL+ SHIFT+ J, dan masukkan

var pdflinks = []; Array.prototype.map. call (document.querySelectorAll ("a [href $ = \". pdf \ "]"), fungsi (e, i) {if ((pdflinks || []). indexOf (e.href) == - 1) {pdflinks.push (e.href);}}); console.log (pdflinks.join (""));

Ini akan kembali di konsol:

" /superuser/tagged/somepdf1.pdf " " /superuser/tagged/somepdf2.pdf " " /superuser/tagged/somepdf3.pdf "
Sekarang gunakan wgetdengan opsi baris perintahwget url1 url2 ...

Salin dan tempel ini, buka konsol masuk, wgettekan tombol kanan mouse untuk memasukkan konten clipboard Anda dan tekan enter.

Untuk menggunakan file unduhan, gabungkan baris dengan "\ n" dan gunakan parameter sebagai berikut wget -i mydownload.txt

Perhatikan bahwa sebagian besar program unduhan (GUI) lain juga menerima untuk dipanggil dengan daftar URL yang dipisahkan oleh spasi.

Semoga ini membantu. Inilah yang biasanya saya lakukan. Ini lebih cepat dan lebih fleksibel daripada ekstensi apa pun dengan antarmuka grafis, saya harus belajar dan tetap terbiasa.

— Lorenz Lo Sauer
sumber

1

Lebih baik lagi, console.log('"' + pdflinks.join('" "') + '"')- jika tidak, Anda tidak akan mendapatkan URL yang dikutip

— dan3

1

Jika Anda ingin tetap berada di browser, saya telah menulis ekstensi web untuk tujuan ini - saya sedang berusaha menambahkan kemampuan untuk menyimpan artikel ilmiah PDF dengan judul yang diformat dengan benar tetapi jika Anda hanya ingin mengunduh semuanya sempurna untuk ini.

Ini disebut Tab Save dan di toko web Chrome di sini . Anda bahkan tidak perlu memasukkan daftar URL jika Anda hanya membuka semuanya di tab (tetapi untuk sejumlah besar file ini mungkin memperlambat komputer, jadi saya menambahkan opsi untuk menambahkan Anda sendiri).

— Louis Maddox
sumber

0

Saya baru-baru ini menggunakan uGet (di Windows) untuk ini. Ini memiliki GUI, dan Anda dapat memfilter file yang ingin Anda unduh.

Menghemat mencoba mengingat semua itu

— Berhubung dgn pemikiran
sumber

0

Di Google Chrome, dimungkinkan untuk menggunakan ekstensi seperti:

Unduh Master

Dengan ekstensi ini Anda dapat mengunduh semua gambar, video, pdf, doc, dan file apa pun lain yang tertaut pada halaman web yang Anda kunjungi.

— kenorb
sumber

0

Google

Ada beberapa alat Python yang memungkinkan mengunduh tautan PDF dari situs web berdasarkan hasil pencarian Google.

Misalnya

google_dlskrip (disarankan).

Pemakaian:

./google_dl -s http://www.example.com/ -f pdf ""

gsrchDwnskrip (berdasarkan skrip neo ).

Pemakaian:

./gsrchDwn.py --query "site:http://www.example.com/" --ftype pdf

^{Catatan: Saya adalah pengelola kedua skrip yang disebutkan.}

Keduanya menerapkan xgoogleperpustakaan Python. Garpu saya dari perpustakaan ini didasarkan pada pkrumins/xgoogleversi .

Terkait: Pencarian web dari baris perintah Linux .

— kenorb
sumber