Jawaban:
Menurut Informasi Tentang Akses Robot ke Halaman kami :
Akses robot ke situs kami harus dibiarkan sebagai sumber terakhir, ketika semuanya gagal. Juga, ingat bahwa situs web Project Gutenberg memiliki hak cipta.
Namun, ada harapan :
Alternatif yang Lebih Baik
- Dapatkan versi offline situs web Project Gutenberg.
- Dapatkan semua file ebook Project Gutenberg.
- Dapatkan data katalog Project Gutenberg.
Dan:
[...] Anda bisa mendapatkan semua eBuku kami dalam file zip dengan mengarahkan robot Anda di http://www.gutenberg.org/robot/harvest
[...] Membongkar file zip akan menghasilkan 70.000 file lainnya.
Ini adalah contoh cara mendapatkan semua file menggunakan
wget
:wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] Jika Anda hanya menginginkan beberapa jenis file, katakan:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] Jika Anda hanya menginginkan file dalam bahasa tertentu katakan:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
Jadi, saya akan bertanya:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
. Tapi saya kira Anda lebih baik membiarkan untuk membatalkan dan me-restart: coba --level 9999 --no-clobber
, yang akan melewati file yang sudah Anda miliki (dengan asumsi Anda masih di folder yang sama pada disk).
-c
opsi, tapi tetap saja. Saya memberi offset=xxx
URL untuk dicerminkan tetapi tetap mengunduh dari halaman pertama.
Anda dapat mengunduh seluruh koleksi buku berbahasa Inggris Gutenberg dan bahasa lainnya dalam satu file ZIM, yang sangat terkompresi dan kemudian dapat dibuka dengan Kiwix baik di desktop maupun Android. Buku-buku bahasa Inggris adalah 40 GB.
Meskipun jawaban yang dipilih benar, kemungkinan akan menyebabkan dua masalah:
wget
perintah itu akan gagal, itu cek berulang pada mengunduh file dari mirror eksternal.Solusi di bawah ini memperbaiki masalah ini:
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
Anda mungkin ingin mengubah string agen referensi dan agen pengguna untuk memberikan sedikit keacakan.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso memiliki beberapa opsi bagus.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso adalah file 8GB yang cukup untuk kebutuhan Anda.
Ada informasi lebih lanjut di sini:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , ini memberikan semua pilihan untuk mengunduh arsip, termasuk FTP dan BitTorrent.
Opsi lain adalah alat hebat di http://pgiso.pglaf.org/ .
Mengapa tidak menggunakan semua keterampilan dan pengetahuan pemrograman Anda yang terlalu rumit dan ditampilkan di atas untuk membuat tombol sederhana yang menautkan semua tindakan itu dan mengatakan "Unduh Semua Buku Saat Ini" - dengan tab opsi bahasa saat Anda mengkliknya.
Saya yakin sebagian besar pengguna yang datang ke situs ini adalah pengumpul e-book, dan secara manual mengunduh buku-buku tertentu tentang topik-topik yang menarik bagi mereka adalah OK untuk 1 atau 2 buku. Tetapi membuat koleksi yang lebih besar secara manual adalah hambatan. Namun demikian jika mereka membutuhkannya untuk penelitian atau hanya ingin memiliki perpustakaan buku digital yang sangat besar di PC mereka sendiri. Kebanyakan orang dimatikan dan tersebar jauh dari situs ketika mereka menyadari bahwa mereka harus menjadi Computer Wizard untuk melakukan ini. Jadi tombol "Unduh Semua Buku Saat Ini" akan menguntungkan situs proyek dan penggunanya, dan itu pasti akan menghasilkan bahkan lebih banyak pengunjung ke situs tersebut. Jadi dengan begitu semua orang senang.