Agen pengguna apa yang harus saya atur?


18

Ada Ask bot, yang mengatur tajuk ini:

Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 

Mempertimbangkan hal ini, saya memiliki pertanyaan-pertanyaan berikut:

  • Jika saya menulis crawler web bernama Goofy, agen pengguna apa yang harus saya gunakan?
  • Apa bedanya jika saya meletakkan Mozilla/2.0atau Mozilla/5.0?

Saran lain tentang bagaimana saya harus memformat agen pengguna saya untuk mematuhi standar saat ini lebih dari diterima.

Jawaban:


32

Saya adalah perancang utama dan penulis perayap web berskala cukup besar (lihat metadatalabs.com/mlbot (tautan arsip) ). Apa yang Anda tanyakan menyentuh topik yang sangat penting bagi kami - mungkin bagian terpenting menjalankan perayap: topik kesopanan.

Pertama: alasan untuk "Mozilla" adalah untuk memberi tahu situs apa kemampuan browser Anda. Jika bot Anda tidak mencoba bertindak seperti browser, tidak ada alasan khusus Anda perlu memasukkan hal "Mozilla".

Adapun string agen pengguna Anda dan item terkait kesopanan lainnya:

  1. Pilih nama yang Anda tahu tidak digunakan orang lain. Saya menduga bahwa jika Anda menggunakan "Goofybot", Anda akan baik-baik saja. Tapi saya akan memeriksanya untuk memastikan.

  2. String agen pengguna Anda harus menyertakan tautan ke informasi lebih lanjut tentang bot. Misalnya, string kami bertuliskan "MLBot (www.metadatalabs.com/mlbot)".

  3. Pastikan bahwa jika seseorang mencari "Goofybot", halaman itu tinggi (lebih disukai pertama) dalam hasil pencarian.

  4. Halaman Anda tentang bot harus mengatakan untuk apa Anda menggunakan informasi tersebut, dari alamat IP apa Anda merangkak, dan menyertakan cara agar orang-orang menghubungi Anda tentang masalah dengan bot tersebut.

  5. Anda harus menjawab pertanyaan atau keluhan dengan cepat, menggunakan filosofi "pelanggan selalu benar". Ingat, jika bot Anda menyebabkan masalah yang dikeluhkan orang ini, maka mungkin menyebabkan masalah pada selusin situs lain yang tidak dikeluhkan oleh siapa pun. Mereka tidak melihat masalah atau mereka hanya memblokir alamat IP Anda.

  6. Anda harus membangun fasilitas untuk mencegah bot Anda mengakses nama domain tertentu. Beberapa orang tidak ingin Anda merangkak sama sekali dan tidak memiliki akses atau kemampuan teknis untuk membuat robots.txt atau memblokir di .htaccess. Kami menemukan bahwa kemampuan ini memungkinkan kami memberi tahu seseorang, "Maaf MLBot yang menyebabkan masalah. Kami telah menginstruksikannya untuk tidak merayapi situs Anda lagi." Mungkin tidak mengherankan, itu menenangkan orang dengan sangat cepat.

  7. Jika Anda belum menghormati robots.txt, lakukanlah. Tidak ada yang akan membuat Anda mendapatkan reputasi buruk lebih cepat daripada mengabaikan robots.txt.

Wow. Itu berlangsung lebih lama dari yang saya harapkan. Dalam empat tahun terakhir, saya telah membuat semua kesalahan yang saya singgung di atas, dan lainnya. Namun, kami menemukan bahwa jika kami terbuka tentang apa yang kami lakukan dan berkomunikasi dengan jujur ​​(termasuk memposting informasi tentang kesalahan sebelum kami mendapat keluhan), mayoritas Webmaster memandang kami sebagai warga internet yang baik.


Tautan contoh di atas ( metadatalabs.com/mlbot ) Hanya menunjukkan ("Sedang dibangun") ....
starbeamrainbowlabs

2
@starbeamrainbowlabs Jawaban itu ditulis pada 2010. Metadata Labs ditutup pada 2012.
Jim Mischel

Apakah ada alternatif sama sekali?
starbeamrainbowlabs

@ starbeamrainbowlabs alternatif untuk apa?
Jim Mischel

Ke apa pun yang ditautkan ke halaman lab Metadata yang ditampilkan. Karena saya tidak dapat melihatnya, saya tidak dapat menyarankan alternatif: P
starbeamrainbowlabs

8

Mozilla / 2.0 dan Mozilla / 5.0 keduanya referensi ke browser Mozilla. Sebagian besar menjadi tidak berarti, dengan banyak perayap menggunakannya, tetapi harus memberi tahu situs untuk memperlakukan perayap Anda seperti halnya perambanan acak yang dilakukan pengguna dengan peramban biasa.

Namun etiket yang baik untuk memasukkan URL yang menghubungkan ke halaman tentang siapa Anda dan mengapa Anda merangkak di bagian berikut. Tanyakan Jeeves bisa lolos hanya dengan nama, tetapi Anda harus memasukkan URL.

Misalnya

Mozilla/5.0 (compatible; http://example.org/)

Ini akan memungkinkan admin web untuk mencari tahu mengapa Anda merayapi situs mereka dan juga untuk menghubungi Anda jika ada masalah dengan bagaimana perayap Anda berperilaku.


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.