Bot apa yang benar-benar layak untuk dimasukkan ke situs?


11

Setelah menulis sejumlah bot, dan melihat sejumlah besar bot acak yang merayapi sebuah situs, saya bertanya-tanya sebagai seorang webmaster, bot apa yang benar-benar layak dibiarkan masuk ke sebuah situs?

Pikiran pertama saya adalah membiarkan bot ke situs berpotensi membawa lalu lintas nyata ke sana. Apakah ada alasan untuk mengizinkan bot yang tidak diketahui mengirimkan lalu lintas nyata ke situs, dan bagaimana Anda melihat bot "baik" ini?


1
+1: pertanyaan bagus; Namun sulit untuk menjawab pertanyaan Anda karena ada banyak bot.
Zistoloen

@Zistoloen: Ya, saya sadar ini pertanyaan yang sulit; sebenarnya, alasan saya bertanya adalah karena mesin pencari non-utama yang saya tahu yang telah mengindeks miliaran halaman mengeluh tentang bagaimana mereka tidak dapat mengakses sejumlah besar web karena situs berusaha memblokir mesin pencari non-utama.
kesalahan


@ blunder Terima kasih telah meluangkan waktu. Saya akan mengeditnya sendiri jika saya dapat mengurai pertanyaan :)
DisgruntledGoat

@DisgruntledGoat: Tidak masalah, terima kasih atas suntingannya!
kesalahan

Jawaban:


11

Dalam ranah bot normal, semuanya tergantung pada apa yang Anda hargai dan hanya Anda yang bisa memutuskan itu. Tentu saja ada Google, Bing / MSN / Yahoo !, Baidu, dan Yandex. Ini adalah mesin pencari utama. Ada juga berbagai situs SEO dan backlink. Benar atau salah, saya mengizinkan beberapa yang besar memiliki akses ke situs saya, tetapi umumnya, itu adalah situs yang tidak berguna. Saya memblokir archive.org tidak hanya di robots.txt, tetapi dengan nama domain dan alamat IP. Ini karena mereka mengabaikan waktu robots.txt! Ini adalah sesuatu yang perlu Anda rasakan. Jangan tertipu oleh nama agen. Seringkali mereka ditempa oleh orang jahat. Sekarang, saya mendapat ribuan permintaan halaman dari sumber yang mengklaim sebagai Baidu, tetapi tidak. Kenali laba-laba ini dengan nama domain dan blok alamat IP dan pelajari cara menanganinya di tingkat itu. Yang baik mematuhi robots.txt.

Tapi saya harus memperingatkan Anda, ada TON bot siluman, bot nakal, pencakar, dan sebagainya sehingga Anda ingin sering mencari analisis log dan memblokir. 5uck5 ini! Tapi ini harus dilakukan. Ancaman terbesar dari mereka hari ini adalah tautan berkualitas rendah ke situs Anda. Kode keamanan anti-bot saya yang diperbarui yang saya terapkan tahun ini telah menjatuhkan 7700 tautan berkualitas rendah secara otomatis. Tentu saja, kode saya masih perlu bekerja, tetapi Anda mengerti maksudnya. Bot buruk masih mencuri potensi situs.

Tidak akan lama sebelum Anda terbiasa.


1

Saya punya masalah dengan bot Baidu memperlambat server saya sementara mesin pencari mengirim hampir tidak ada lalu lintas. Bot ini tidak menghormati file robots.txt sehingga untuk memblokir bot Baidu cukup tempel berikut ini ke file htccess Anda.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

Saya juga punya masalah dengan laba-laba Bing / Microsoft yang merangkak terlalu cepat, tidak seperti Baidu mereka begitu menghargai file robots.txt;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.