Bagaimana cara (dis) mengizinkan bot archive.org? Apakah semuanya berubah, jika demikian kapan?

10

Saya memiliki situs web yang kebanyakan saya tidak ingin diindeks oleh mesin pencari, tetapi saya ingin mempertahankannya untuk selamanya di archive.org. Jadi saya robots.txtmulai dengan ini:

User-agent: *
Disallow: /

Hari ini, menurut archive.org saya harus menambahkan yang berikut di saya robots.txtuntuk memungkinkan bot mereka:

User-agent: ia_archiver
Disallow:

Tapi, saya sudah melakukan apa yang mereka indikasikan beberapa tahun yang lalu, setidaknya, saya menambahkan yang berikut:

User-agent: archive.org_bot
Disallow:

Lalu ada sumber lain yang mengklaim bahwa Anda harus menambahkan kedua di atas Disallow, ditambah yang lain:

User-agent: ia_archiver-web.archive.org 
Disallow:

Perhatikan bahwa Anda harus meletakkannya Disallow: /jika Anda tidak ingin bot mengarsipkan situs Anda.

Apakah ada perubahan dengan bot IA? Jika ya, kapan?

Apa cara yang disarankan? Haruskah saya mengizinkan ketiganya untuk saat ini dan berharap IA tidak akan mengubah nama bot mereka lagi di masa depan?

web-crawlers robots.txt internet-archive

— kqw
sumber

Saya hanya menyadari ia_archiver. Yang lain mengejutkan saya. Apakah Anda memiliki tautan untuk ini? Alasan saya bertanya adalah archive.org mengunjungi situs saya dan saya harus memblokirnya dengan alamat IP. Anda juga menyebutkan bahwa Anda Apakah ingin memperbolehkan archive.org tapi kemudian berbicara tentang menghalangi itu. Saya hanya ingin lebih jelas tentang ini dan tautannya dapat membantu kita semua. Terima kasih sebelumnya!

— closetnoc

Memperbarui pertanyaan. Semoga ini lebih jelas sekarang. Versi mungil: Saya tidak ingin bot mesin pencari di situs ini, saya ingin bot archive.org. Tapi mungkin saya harus membalikkan pertanyaan karena itulah yang dicari kebanyakan orang?

— kqw

Sebenarnya, jika Anda tidak menggunakan ini, Anda mengizinkan archive.org asalkan Anda tidak memblokir pernyataan selimut.

— closetnoc

Hanya menggunakan "ia_archiver" juga harus memblokir "ia_archiver-web.archive.org", jadi nanti sepertinya tidak perlu (asalkan bot ini mengikuti standar).

— MrWhite

Apakah Anda melihat bot ia-archiver (atau archive.org_bot) di log akses Anda?

— MrWhite

9

Pembaruan : Seperti yang dicatat oleh @KevinFegan dalam komentar, dokumentasi mereka berubah. Bagian di bawah ini menjelaskan bagaimana Internet Archive menanganinya di masa lalu (setidaknya di 2014).

FAQ mereka Bagaimana saya bisa membuat halaman situs saya dikeluarkan dari Wayback Machine? mengacu pada Menghapus Dokumen Dari Mesin Wayback , yang mendokumentasikan bot mereka dipanggil ia_archiver.

Jadi, catatan ini harus memungkinkan bot mereka merayapi seluruh situs Anda:

User-agent: ia_archiver
Disallow:

— unor
sumber

Urutan kelompok seharusnya tidak masalah. The paling spesifik (yaitu. Terpanjang) agen pengguna yang cocok adalah salah satu yang menang. The *group hanya cocok bila tidak ada kelompok lain yang cocok.

— MrWhite

@ w3d: Anda benar, saya menghapus bagian ini. Terima kasih atas informasinya :)

— unor

1

Rupanya, ini telah berubah seiring waktu. Saya tidak dapat menemukan "ia_archiver" di Halaman FAQ yang Anda berikan, dan di halaman Blog Archive.org ini sejak 25 April 2017, Mark Graham mengatakan: Agen Pengguna "ia_archiver" digunakan oleh Alexa Internet, bukan Internet Archive.

— Kevin Fegan

@KevinFegan: Terima kasih atas perhatian Anda! Saya memperbarui jawaban saya untuk menautkan ke versi arsip dokumentasi yang berisi nama.

— unor

Saya suka bagaimana mereka dengan sengaja membuat sesuatu menjadi rumit sehingga mereka bisa pergi!

— Ultralisk

5

Sebenarnya ada 2 masalah di sini:

Akankah robots.txtdi situs Anda Larang (blokir) jalan mundur dari perayapan situs Anda.
Akan Wayback merayapi situs Anda.

Untuk poin # 1:
Seperti yang dikatakan orang lain, entri yang benar untuk robots.txt adalah:

User-agent: ia_archiver
Disallow:

Ingatlah bahwa mungkin butuh waktu cukup lama (mungkin cukup lama), bagi Wayback untuk melihat perubahan apa pun yang telah Anda buat pada robots.txt.

Untuk memeriksa apakah robots.txtdi situs Anda akan memungkinkan Wayback untuk merayapi situs Anda:

Buka URL ini: https://archive.org/web/
Di kotak di TOP halaman, masukkan URL halaman di situs Anda, dan klik "Browse History"tombol.
Atau, dalam kotak di bawah "Simpan Halaman Sekarang" (saat ini di dekat bagian bawah di sebelah kanan), dan masukkan URL halaman di situs Anda, dan klik "Save Page"tombol.

Pada titik ini, Anda harus melihat 1 dari 3 hal:

Anda akan melihat pesan kesalahan yang menunjukkan bahwa Wayback tidak dapat mengakses halaman di situs itu karena "robots.txt".
Anda akan melihat "kalender" titik penyimpanan historis untuk halaman di situs Anda. Dalam hal ini, Anda tahu bahwa Wayback TIDAK diblokir dari merayapi situs Anda.
Atau, Anda akan melihat pesan yang menunjukkan bahwa Wayback tidak memiliki arsip halaman itu, dan tawaran untuk mengklik tautan untuk menambahkan halaman ke Wayback. Dalam hal ini juga, Anda tahu bahwa Wayback TIDAK diblokir dari merayapi situs Anda.

Sekarang, untuk poin # 2:

Akankah Wayback merayapi situs Anda?

Hanya karena Anda Izinkan Wayback untuk merayapi situs Anda, tidak berarti mereka akan merayapi situs Anda.

Menurut FAQ Wayback (penekanan ditambahkan):

Bagaimana saya bisa memasukkan situs saya ke dalam Wayback Machine?

Sebagian besar data web arsip kami berasal dari perayapan kami sendiri atau dari perayapan Alexa Internet. Tidak ada organisasi yang memiliki "jelajahi situs saya sekarang!" proses pengiriman. Perayapan Arsip Internet cenderung menemukan situs yang tertaut dengan baik dari situs lain . Cara terbaik untuk memastikan bahwa kami menemukan situs web Anda adalah dengan memastikannya disertakan dalam direktori online dan tautan serupa / situs terkait ke Anda.

Alexa Internet menggunakan metode sendiri untuk menemukan situs untuk dijelajahi. Mungkin bermanfaat untuk menginstal toolbar Alexa gratis dan mengunjungi situs yang ingin Anda jelajahi untuk memastikan mereka mengetahuinya.

Terlepas dari siapa yang merayapi situs, Anda harus memastikan bahwa aturan 'robots.txt' dan arahan robot META di halaman Anda tidak memberi tahu perayap untuk menghindari situs Anda.

Pembaruan: 09-Mei-2017

Yang lain telah meninggalkan komentar / jawaban yang menunjukkan bahwa Archive.org tidak lagi menghormati robots.txt. Mungkin ini adalah "pekerjaan dalam proses" dan pada akhirnya akan terjadi, tetapi saya belum melihat perilaku baru ini.

Kasus untuk ini tampaknya berasal dari artikel ini: Robots.txt: ROBOTS.TXT ADALAH CATATAN SUICIDE oleh archiveteam.org. Walaupun halaman itu memiliki sedikit jika ada yang baik untuk dikatakan tentang "Robots.txt", itu tidak menyebutkan di mana pun bahwa Archive.org tidak akan lagi menghormati robots.txt.

Juga dari catatan: artikel itu dihosting di archiveteam.org, yang pasti tidak archive.org, dan saya tidak yakin ada hubungan (resmi) antara archive.orgdan archiveteam.org.

Bahkan, halaman tentang Tim Arsip ini , tampaknya menyatakan perbedaan antara dan (penekanan ditambahkan):archive.org archive.orgarchiveteam.org

Dibentuk pada tahun 2009, Tim Arsip ( jangan dikelirukan dengan arsip.org Tim Archive-It) adalah kelompok arsiparis jahat yang didedikasikan untuk menyimpan salinan situs web yang sekarat atau dihapus dengan cepat demi sejarah dan warisan digital. ...

Bagaimanapun, saya memutuskan untuk mencoba ini, dan saya menemukan bahwa, setidaknya pada saat ini, Archive.org MASIH menghormati robots.txt:

Saya menemukan item acak di eBay: Item #: 131795294232
Klik untuk melihat barang yang dijual:

Halaman "Item terjual" terbuka: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Salin tautan ke clipboard.
Goto web.archive.org , dan tempel tautan dari eBay.
Anda akan melihat bahwa ini archive.orgmenunjukkan bahwa "Halaman tidak dapat ditampilkan karena robots.txt."

Jadi, saat ini, saya tetap tidak yakin, tetapi saya ingin dibuktikan salah ... akan lebih bagus jika itu benar.

— Kevin Fegan
sumber

Mengunci archive.org dengan robots.txt tidak akan berfungsi lagi:

— wortwart

@wortwart - Itu akan lebih baik jika demikian (lihat pembaruan yang saya tambahkan ke jawaban saya). Apakah Anda memiliki tautan ke info tentang ini?

— Kevin Fegan

Tentu: blog.archive.org/2017/04/17/... "Beberapa bulan yang lalu kami berhenti merujuk pada file robots.txt di situs web pemerintah dan militer AS (...) Kami sekarang mencari untuk melakukan ini secara lebih luas. "

— Perjalanan

4

Perbarui 2017

Bot arsip sekarang tidak peduli dengan robots.txt Anda.

Jika Anda benar-benar ingin memblokirnya, kirimi mereka email sesuai dengan halaman ini , atau cekal alamat IP mereka melalui htaccess.

— Goyllo
sumber

2

Lihat Mei 2017 update ke jawaban saya: Bagaimana benar (dis) memungkinkan bot archive.org ...? . Bot Arsip masih peduli tentang file robots.txt, kecuali situs web pemerintah. Perhatikan artikel yang Anda sebutkan berasal dari www.archiveteam.org, yang tidak terkait dengan Archive.org. --->

— Kevin Fegan

---> Sementara halaman itu memiliki sedikit jika ada sesuatu yang baik untuk dikatakan tentang "Robots.txt", itu tidak menyebutkan di mana pun bahwa Archive.org tidak akan lagi menghormati robots.txt. Artikel Archive.org yang relevan adalah: Robots.txt dimaksudkan untuk mesin pencari tidak berfungsi dengan baik untuk arsip web . "Beberapa bulan yang lalu kami berhenti merujuk ke file robots.txt di situs web pemerintah dan militer AS (...) Kami sekarang mencari untuk melakukan ini secara lebih luas."

— Kevin Fegan

Iya. Sekarang Arsip benar-benar mengabaikan permintaan penghapusan.

— Ultralisk

3

Robots.txt ia_archiver Melarang entri (dengan "/") harus sesuai dengan kebutuhan yang Anda jelaskan (untuk "melestarikan keabadian", tetapi belum secara publik).

Saya baru saja melakukan tes cepat, mengomentari entri ia_archiver Disallow untuk situs yang memilikinya setidaknya selama 10 tahun terakhir. Kemudian saya melihat situs itu di archive.org/web, dan muncul situs yang telah dikumpulkan pada tahun 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 dan 2017! Ini berarti bahwa Archive.org tidak pernah secara ketat menghormati apa yang orang lain anggap sebagai pernyataan "jangan diarsipkan" selama tahun-tahun ini, itu hanya tidak mengekspos salinan yang diarsipkan.

— mikrofon
sumber

2

"ia_archiver" sekarang (ab) digunakan oleh Alexa, beberapa sumber mengatakan: 1 , 2 .
Archive.org sekarang (2018) TIDAK menghormati "robots.txt" sama sekali. 3 Tidak hanya untuk halaman mil / gov, tetapi untuk semua halaman. Seperti yang dialami dengan situs web pribadi saya sendiri, yang memiliki dan memiliki robots.txt besarbesaran sejak 2012; dan sekarang saya tiba-tiba tahu bahwa itu telah dirayapi dan diselamatkan oleh mereka selama bertahun-tahun dan sekarang seluruh sejarah dapat dilihat. Perasaan dikhianati. > :-(

— Carl
sumber

1

Saya mencoba robots.txtmetode ini dan tidak berhasil. Jadi saya menghubungi situs webnya di email mereka info@archive.org:

Halo,

Bisakah Anda menghapus situs web pribadi saya dimitarnestorov.com dari arsip Anda?

Terima kasih!

Dimitar

Dan saya mendapat jawaban berikut:

Halo,

Internet Archive dapat mengecualikan situs web dari Wayback Machine (web.archive.org), tetapi pertama-tama kami dengan hormat meminta Anda membantu kami memverifikasi bahwa Anda adalah pemilik situs atau penulis konten dimitarnestorov.com dengan melakukan salah satu dari yang berikut:

(Catatan: Beberapa opsi ini dapat merujuk pada konten yang terdapat dalam penangkapan Wayback Machine sebelumnya, dan / atau dokumentasi yang mungkin Anda miliki terkait dengan periode waktu yang ditentukan.)

posting permintaan Anda pada versi situs saat ini (dan kirimkan tautan kepada kami).

kirim permintaan Anda dari kontak email utama yang tercantum di situs dan tunjukkan kami di mana ia dapat ditemukan (jika ada).

mengirim permintaan dari email pendaftar (jika dapat dilihat secara publik pada pencarian WHOIS Anda dapat menautkan kami ke) atau email webmaster yang terdaftar di situs.

arahkan kami ke tempat informasi pribadi Anda (nama, titik kontak, gambar diri) muncul di situs dengan cara yang mengidentifikasi Anda sebagai pemilik situs atau penulis konten yang ingin Anda kecualikan - dalam hal ini, kami meminta untuk memverifikasi identitas Anda melalui pemindaian ID foto yang valid (informasi sensitif seperti tanggal lahir, alamat, atau nomor telepon dapat dihilangkan).

meneruskan kepada kami komunikasi dari perusahaan hosting atau pencatat yang ditujukan kepada Anda sebagai pemilik domain.

(Catatan: Penyebutan sederhana nama / nama pengguna seseorang, dan / atau hyperlink / redirect antara situs / halaman / akun itu sendiri biasanya tidak cukup untuk membuat arsip dikecualikan.)

Jika tidak ada opsi ini yang tersedia untuk Anda, beri tahu kami dalam balasan email ini.

Kami akan berterima kasih jika Anda akan membantu kami melestarikan sebanyak mungkin arsip. Oleh karena itu, beri tahu kami jika hanya ada URL atau direktori spesifik yang menjadi perhatian Anda sehingga kami dapat membiarkan sisa arsip tersedia.

Seperti yang Anda ketahui, Internet Archive adalah perpustakaan digital nirlaba, yang berupaya mempertahankan melalui Wayback Machine, catatan sejarah Internet yang dapat diakses secara bebas. Materi dalam arsip tidak dieksploitasi oleh Internet Archive untuk keuntungan komersial.

Tim Arsip Internet

Saya buat wayback-removal-request.htmldengan konten berikut (bahkan HTML yang tidak valid):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

Mengunggahnya dan membalas email mereka dengan URL dari mana halaman web tersedia dan kemudian saya menerima balasan berikut:

Halo,

Situs / URL yang direferensikan dalam email Anda di bawah sekarang telah dikirim untuk dikeluarkan dari Wayback Machine di http://www.archive.org (terkait dengan semua tangkapan masa lalu):

dimitarnestorov.com

Silakan tunggu hingga satu hari untuk bagian otomatis dari proses untuk menjalankan kursus mereka dan agar perubahan berlaku.

Tim Arsip Internet

Ketika saya memeriksa beberapa jam kemudian situs web saya dihapus.

— Dimitar Nestorov
sumber