Saya adalah perancang utama dan penulis perayap web berskala cukup besar (lihat metadatalabs.com/mlbot (tautan arsip) ). Apa yang Anda tanyakan menyentuh topik yang sangat penting bagi kami - mungkin bagian terpenting menjalankan perayap: topik kesopanan.
Pertama: alasan untuk "Mozilla" adalah untuk memberi tahu situs apa kemampuan browser Anda. Jika bot Anda tidak mencoba bertindak seperti browser, tidak ada alasan khusus Anda perlu memasukkan hal "Mozilla".
Adapun string agen pengguna Anda dan item terkait kesopanan lainnya:
Pilih nama yang Anda tahu tidak digunakan orang lain. Saya menduga bahwa jika Anda menggunakan "Goofybot", Anda akan baik-baik saja. Tapi saya akan memeriksanya untuk memastikan.
String agen pengguna Anda harus menyertakan tautan ke informasi lebih lanjut tentang bot. Misalnya, string kami bertuliskan "MLBot (www.metadatalabs.com/mlbot)".
Pastikan bahwa jika seseorang mencari "Goofybot", halaman itu tinggi (lebih disukai pertama) dalam hasil pencarian.
Halaman Anda tentang bot harus mengatakan untuk apa Anda menggunakan informasi tersebut, dari alamat IP apa Anda merangkak, dan menyertakan cara agar orang-orang menghubungi Anda tentang masalah dengan bot tersebut.
Anda harus menjawab pertanyaan atau keluhan dengan cepat, menggunakan filosofi "pelanggan selalu benar". Ingat, jika bot Anda menyebabkan masalah yang dikeluhkan orang ini, maka mungkin menyebabkan masalah pada selusin situs lain yang tidak dikeluhkan oleh siapa pun. Mereka tidak melihat masalah atau mereka hanya memblokir alamat IP Anda.
Anda harus membangun fasilitas untuk mencegah bot Anda mengakses nama domain tertentu. Beberapa orang tidak ingin Anda merangkak sama sekali dan tidak memiliki akses atau kemampuan teknis untuk membuat robots.txt atau memblokir di .htaccess. Kami menemukan bahwa kemampuan ini memungkinkan kami memberi tahu seseorang, "Maaf MLBot yang menyebabkan masalah. Kami telah menginstruksikannya untuk tidak merayapi situs Anda lagi." Mungkin tidak mengherankan, itu menenangkan orang dengan sangat cepat.
Jika Anda belum menghormati robots.txt, lakukanlah. Tidak ada yang akan membuat Anda mendapatkan reputasi buruk lebih cepat daripada mengabaikan robots.txt.
Wow. Itu berlangsung lebih lama dari yang saya harapkan. Dalam empat tahun terakhir, saya telah membuat semua kesalahan yang saya singgung di atas, dan lainnya. Namun, kami menemukan bahwa jika kami terbuka tentang apa yang kami lakukan dan berkomunikasi dengan jujur (termasuk memposting informasi tentang kesalahan sebelum kami mendapat keluhan), mayoritas Webmaster memandang kami sebagai warga internet yang baik.