Saya menggunakan file robots.txt berikut untuk sebuah situs: Target adalah untuk memungkinkan googlebot dan bingbot untuk mengakses situs kecuali halaman /bedven/bedrijf/*
dan memblokir semua bot lain dari merayapi situs.
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
Apakah aturan terakhir User-agent: * Disallow: /
melarang semua bot merayapi setiap halaman di situs?
robots.txt
lagian
robots.txt
, atau setidaknya Disallow: /
aturan. Jika situs web pribadi Anda dipalu ke tanah karena seorang programmer bot tidak pernah mempertimbangkan bahwa server mungkin Raspberry Pi di ujung yang salah dari koneksi 256 kbit, pengecualian selimut seperti ini bermanfaat.