Sebenarnya ada 2 masalah di sini:
- Akankah
robots.txt
di situs Anda Larang (blokir) jalan mundur dari perayapan situs Anda.
- Akan Wayback merayapi situs Anda.
Untuk poin # 1:
Seperti yang dikatakan orang lain, entri yang benar untuk robots.txt adalah:
User-agent: ia_archiver
Disallow:
Ingatlah bahwa mungkin butuh waktu cukup lama (mungkin cukup lama), bagi Wayback untuk melihat perubahan apa pun yang telah Anda buat pada robots.txt.
Untuk memeriksa apakah robots.txt
di situs Anda akan memungkinkan Wayback untuk merayapi situs Anda:
- Buka URL ini: https://archive.org/web/
- Di kotak di TOP halaman, masukkan URL halaman di situs Anda, dan klik
"Browse History"
tombol.
- Atau, dalam kotak di bawah "Simpan Halaman Sekarang" (saat ini di dekat bagian bawah di sebelah kanan), dan masukkan URL halaman di situs Anda, dan klik
"Save Page"
tombol.
Pada titik ini, Anda harus melihat 1 dari 3 hal:
- Anda akan melihat pesan kesalahan yang menunjukkan bahwa Wayback tidak dapat mengakses halaman di situs itu karena "robots.txt".
- Anda akan melihat "kalender" titik penyimpanan historis untuk halaman di situs Anda. Dalam hal ini, Anda tahu bahwa Wayback TIDAK diblokir dari merayapi situs Anda.
- Atau, Anda akan melihat pesan yang menunjukkan bahwa Wayback tidak memiliki arsip halaman itu, dan tawaran untuk mengklik tautan untuk menambahkan halaman ke Wayback. Dalam hal ini juga, Anda tahu bahwa Wayback TIDAK diblokir dari merayapi situs Anda.
Sekarang, untuk poin # 2:
Akankah Wayback merayapi situs Anda?
Hanya karena Anda Izinkan Wayback untuk merayapi situs Anda, tidak berarti mereka akan merayapi situs Anda.
Menurut FAQ Wayback (penekanan ditambahkan):
Sebagian besar data web arsip kami berasal dari perayapan kami sendiri atau dari perayapan Alexa Internet. Tidak ada organisasi yang memiliki "jelajahi situs saya sekarang!" proses pengiriman. Perayapan Arsip Internet cenderung menemukan situs yang tertaut dengan baik dari situs lain . Cara terbaik untuk memastikan bahwa kami menemukan situs web Anda adalah dengan memastikannya disertakan dalam direktori online dan tautan serupa / situs terkait ke Anda.
Alexa Internet menggunakan metode sendiri untuk menemukan situs untuk dijelajahi. Mungkin bermanfaat untuk menginstal toolbar Alexa gratis dan mengunjungi situs yang ingin Anda jelajahi untuk memastikan mereka mengetahuinya.
Terlepas dari siapa yang merayapi situs, Anda harus memastikan bahwa aturan 'robots.txt' dan arahan robot META di halaman Anda tidak memberi tahu perayap untuk menghindari situs Anda.
Pembaruan: 09-Mei-2017
Yang lain telah meninggalkan komentar / jawaban yang menunjukkan bahwa Archive.org tidak lagi menghormati robots.txt. Mungkin ini adalah "pekerjaan dalam proses" dan pada akhirnya akan terjadi, tetapi saya belum melihat perilaku baru ini.
Kasus untuk ini tampaknya berasal dari artikel ini: Robots.txt: ROBOTS.TXT ADALAH CATATAN SUICIDE oleh archiveteam.org
. Walaupun halaman itu memiliki sedikit jika ada yang baik untuk dikatakan tentang "Robots.txt", itu tidak menyebutkan di mana pun bahwa Archive.org tidak akan lagi menghormati robots.txt.
Juga dari catatan: artikel itu dihosting di archiveteam.org
, yang pasti tidak archive.org
, dan saya tidak yakin ada hubungan (resmi) antara archive.org
dan archiveteam.org
.
Bahkan, halaman tentang Tim Arsip ini , tampaknya menyatakan perbedaan antara dan (penekanan ditambahkan):archive.org
archive.org
archiveteam.org
Dibentuk pada tahun 2009, Tim Arsip ( jangan dikelirukan dengan arsip.org Tim Archive-It) adalah kelompok arsiparis jahat yang didedikasikan untuk menyimpan salinan situs web yang sekarat atau dihapus dengan cepat demi sejarah dan warisan digital. ...
Bagaimanapun, saya memutuskan untuk mencoba ini, dan saya menemukan bahwa, setidaknya pada saat ini, Archive.org MASIH menghormati robots.txt:
- Saya menemukan item acak di eBay: Item #: 131795294232
- Klik untuk melihat barang yang dijual:
- Halaman "Item terjual" terbuka: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Salin tautan ke clipboard.
- Goto web.archive.org , dan tempel tautan dari eBay.
- Anda akan melihat bahwa ini
archive.org
menunjukkan bahwa "Halaman tidak dapat ditampilkan karena robots.txt."
Jadi, saat ini, saya tetap tidak yakin, tetapi saya ingin dibuktikan salah ... akan lebih bagus jika itu benar.