Bagaimana cara mengunduh situs web dari Mesin Wayback archive.org?


84

Saya ingin mendapatkan semua file untuk situs web yang diberikan di archive.org. Alasannya mungkin termasuk:

  • penulis asli tidak mengarsipkan situs web sendiri dan sekarang offline, saya ingin membuat cache publik dari itu
  • Saya adalah penulis asli dari beberapa situs web dan kehilangan beberapa konten. Saya ingin memulihkannya
  • ...

Bagaimana aku melakukan itu ?

Mempertimbangkan bahwa mesin wayback archive.org sangat istimewa: tautan laman web tidak menunjuk ke arsip itu sendiri, tetapi ke laman web yang mungkin tidak lagi ada di sana. JavaScript digunakan sisi klien untuk memperbarui tautan, tetapi trik seperti wget rekursif tidak akan berfungsi.


14
Saya telah menemukan masalah yang sama dan saya telah membuat kode permata. Untuk menginstal: gem install wayback_machine_downloader. Jalankan wayback_machine_downloader dengan url dasar situs web yang ingin Anda ambil sebagai parameter: wayback_machine_downloader http://example.comInformasi lebih lanjut: github.com/hartator/wayback_machine_downloader
Hartator

3
Bantuan langkah demi langkah untuk pengguna windows (win8.1 64bit untuk saya) yang baru untuk Ruby, berikut adalah apa yang saya lakukan untuk membuatnya bekerja: 1) Saya menginstal rubyinstaller.org/downloads kemudian menjalankan "rubyinstaller-2.2.3-x64 .exe "2) mengunduh file zip github.com/hartator/wayback-machine-downloader/archive/… 3) unzip zip di komputer saya 4) cari di menu start windows untuk" Start command prompt with Ruby "(menjadi lanjutan)
Erb

3
5) ikuti instruksi dari github.com/hartator/wayback_machine_downloader (e; .g: salin tempel "permata install wayback_machine_downloader" ini ke prompt. Tekan enter dan itu akan menginstal program ... lalu ikuti pedoman "Penggunaan"). 6) setelah situs web Anda ditangkap, Anda akan menemukan file-file itu ke dalam C: \ Users \ YOURusernameername \ websites
Erb

Jawaban:


64

Saya mencoba berbagai cara untuk mengunduh suatu situs dan akhirnya saya menemukan pengunduh mesin wayback - yang disebutkan oleh Hartator sebelumnya (tolong, semua kredit diberikan kepadanya), tetapi saya tidak memperhatikan komentarnya terhadap pertanyaan tersebut. Untuk menghemat waktu Anda, saya memutuskan untuk menambahkan permata wayback_machine_downloader sebagai jawaban terpisah di sini.

Situs di http://www.archiveteam.org/index.php?title=Restoring mendaftar cara-cara ini untuk mengunduh dari archive.org:

  • Wayback Machine Downloader , alat kecil di Ruby untuk mengunduh situs web apa pun dari Wayback Machine. Gratis dan sumber terbuka. Pilihan saya!
  • Warrick - Situs utama tampaknya turun.
  • Pengunduh wayback , layanan yang akan mengunduh situs Anda dari Mesin Wayback dan bahkan menambahkan plugin untuk Wordpress. Tidak gratis

saya juga menulis "wayback downloader", di php, mengunduh sumber daya, menyesuaikan tautan, dll: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans, Di halaman yang Anda tautkan, apa yang dimaksud dengan ambil Tim Arsip ??
Pacerier

1
Oktober 2018, Wayback Machine Downloader masih berfungsi.
Orang Brazil itu,

@Pacerier artinya (set) file WARC yang dihasilkan oleh Tim Arsip (dan biasanya dimasukkan ke mesin wayback Internet Archive), lihat archive.org/details/archiveteam
Nemo

13

Ini dapat dilakukan menggunakan skrip bash shell yang dikombinasikan denganwget .

Idenya adalah untuk menggunakan beberapa fitur URL dari mesin wayback:

  • http://web.archive.org/web/*/http://domain/*akan mendaftar semua halaman yang disimpan http://domain/secara rekursif. Ini dapat digunakan untuk membuat indeks halaman untuk diunduh dan menghindari heuristik untuk mendeteksi tautan di halaman web. Untuk setiap tautan, ada juga tanggal versi pertama dan versi terakhir.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pageakan mencantumkan semua versi http://domain/pageuntuk tahun YYYY. Di dalam halaman itu, tautan spesifik ke versi dapat ditemukan (dengan stempel waktu yang tepat)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pageakan mengembalikan halaman yang tidak dimodifikasi http://domain/pagepada stempel waktu yang diberikan. Perhatikan token id_ .

Ini adalah dasar-dasar untuk membuat skrip untuk mengunduh semuanya dari domain yang diberikan.


7
Anda harus benar-benar menggunakan API, bukan archive.org/help/wayback_api.php Halaman bantuan Wikipedia adalah untuk editor, bukan untuk masyarakat umum. Sehingga halaman tersebut difokuskan pada antarmuka grafis, yang digantikan dan tidak memadai untuk tugas ini.
Nemo

Mungkin akan lebih mudah untuk hanya mengatakan ambil URL (seperti http://web.archive.org/web/19981202230410/http://www.google.com/) dan tambahkan id_ke akhir "angka tanggal". Maka, Anda akan mendapatkan sesuatu seperti http://web.archive.org/web/19981202230410id_/http://www.google.com/.
haykam

1
Sebuah skrip python juga dapat ditemukan di sini: gist.github.com/ingamedeo/…
Amedeo Baragiola

4

Ada alat yang dirancang khusus untuk tujuan ini, Warrick: https://code.google.com/p/warrick/

Ini didasarkan pada protokol Memento.


3
Sejauh saya berhasil menggunakan ini (pada Mei 2017), itu hanya memulihkan apa yang dipegang archive.is, dan cukup banyak mengabaikan apa yang ada di archive.org; itu juga mencoba untuk mendapatkan dokumen dan gambar dari cache Google / Yahoo tetapi sama sekali gagal. Warrick telah dikloning beberapa kali di GitHub sejak Google Code ditutup, mungkin ada beberapa versi yang lebih baik di sana.
Gwyneth Llewelyn

0

Anda dapat melakukannya dengan mudah wget.

wget -rc --accept-regex '.*ROOT.*' START

Di mana ROOTURL akar situs web dan STARTmerupakan URL awal. Sebagai contoh:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Perhatikan bahwa Anda harus memotong bingkai pembungkus arsip Web untuk STARTURL. Di sebagian besar browser, Anda dapat mengklik kanan pada halaman dan memilih "Show Only This Frame".

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.