Hanya izinkan Google dan Bing bot merayapi situs

Saya menggunakan file robots.txt berikut untuk sebuah situs: Target adalah untuk memungkinkan googlebot dan bingbot untuk mengakses situs kecuali halaman /bedven/bedrijf/*dan memblokir semua bot lain dari merayapi situs.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

Apakah aturan terakhir User-agent: * Disallow: /melarang semua bot merayapi setiap halaman di situs?

web-crawlers robots.txt

— Konsole
sumber

Seluruh tugas ini menyangkut saya. Ada mesin pencari lain, dan siapa pun yang menggunakannya tidak akan melihat situs Anda. theeword.co.uk/info/search_engine_market mengatakan bahwa 4,99% dari internet tidak ada di mesin pencari Anda. Itu banyak orang. Metode yang lebih baik adalah memantau lalu lintas Anda dan melihat apakah ada bot yang benar-benar menyebabkan masalah, lalu blokir secara khusus.

— GKFX

Sebuah bot nakal bisa saja benar-benar mengabaikan Anda robots.txtlagian

— Nick T

Bot yang benar-benar buruk tidak peduli dengan robots.txt

— Osvaldo

@NickT, di dunia nyata, tidak ada kekurangan bot berperilaku buruk yang mengikuti robots.txt, atau setidaknya Disallow: /aturan. Jika situs web pribadi Anda dipalu ke tanah karena seorang programmer bot tidak pernah mempertimbangkan bahwa server mungkin Raspberry Pi di ujung yang salah dari koneksi 256 kbit, pengecualian selimut seperti ini bermanfaat.

— Markus

@Console mengapa?

— o0 '.

Jawaban:

Catatan terakhir (dimulai oleh User-agent: *) akan diikuti oleh semua bot sopan yang tidak mengidentifikasi diri mereka sebagai "googlebot", "google", "bingbot" atau "bing".
Dan ya, itu berarti mereka tidak diizinkan merangkak apa pun.

Anda mungkin ingin menghilangkan *dalam /bedven/bedrijf/*.
Dalam spesifikasi robots.txt asli, *tidak memiliki arti khusus, itu hanya karakter seperti yang lainnya. Jadi itu hanya akan melarang perayapan halaman yang benar-benar memiliki karakter *di URL mereka.
Meskipun Google tidak mengikuti spesifikasi robots.txt dalam hal itu, karena mereka digunakan *sebagai wildcard untuk "urutan karakter apa pun", itu tidak diperlukan untuk mereka dalam kasus ini: /bedven/bedrijf/*dan /bedven/bedrijf/akan berarti persis sama: blok semua URL yang jalurnya dimulai dengan /bedven/bedrijf/.

Dan akhirnya, Anda dapat mengurangi robots.txt menjadi dua catatan, karena catatan dapat memiliki beberapa User-agentbaris :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

— unor
sumber

Perhatikan bahwa Google mengabaikan arahan keterlambatan perayapan di robots.txt. Anda harus mengaturnya di Alat Webmaster Google sebagai gantinya.

— DisgruntledGoat

-2

Bot, terutama yang buruk, dapat mengabaikan file robots.txt. Jadi, apa pun yang tertulis di sana, beberapa bot dapat merayapi situs Anda.

— Atis Luguzs
sumber