Selain mematuhi robots.txt, patuhi nofollow
dan noindex
dalam <meta>
elemen serta tautan:
Ada banyak yang percaya robots.txt bukan cara yang tepat untuk memblokir pengindeksan dan karena sudut pandang itu, telah menginstruksikan banyak pemilik situs untuk mengandalkan <meta name="robots" content="noindex">
tag untuk memberi tahu perayap web agar tidak mengindeks halaman.
Jika Anda mencoba membuat grafik koneksi antara situs web (mirip dengan PageRank),
(dan <meta name="robots" content="nofollow">
) seharusnya menunjukkan situs sumber tidak cukup mempercayai situs tujuan untuk memberikan dukungan yang tepat. Jadi, sementara Anda dapat mengindeks situs tujuan, Anda tidak harus menyimpan hubungan antara kedua situs.
SEO lebih merupakan seni daripada sains nyata, dan dipraktikkan oleh banyak orang yang tahu apa yang mereka lakukan, dan banyak orang yang membaca ringkasan eksekutif orang-orang yang tahu apa yang mereka lakukan. Anda akan mengalami masalah di mana Anda akan diblokir dari situs untuk melakukan hal-hal yang menurut situs lain dapat diterima karena beberapa aturan yang didengar seseorang atau dibaca dalam posting blog tentang SEOmoz yang mungkin atau mungkin tidak ditafsirkan dengan benar.
Karena elemen manusia itu, kecuali Anda adalah Google, Microsoft, atau Yahoo !, Anda dianggap jahat kecuali terbukti sebaliknya. Anda perlu lebih berhati-hati untuk bertindak seolah-olah Anda bukan ancaman bagi pemilik situs web, dan bertindak sesuai dengan bagaimana Anda menginginkan perayap yang berpotensi jahat (tapi mudah-mudahan tidak berbahaya) untuk bertindak:
- berhenti merayapi situs setelah Anda mendeteksi bahwa Anda diblokir: 403 / 401d pada halaman yang Anda ketahui berfungsi, pelambatan, waktu habis, dll.
- hindari perayapan lengkap dalam periode waktu yang relatif singkat: perayapan sebagian situs, dan kembali lagi nanti (beberapa hari kemudian) untuk merayapi bagian lain. Jangan membuat permintaan paralel.
- hindari merayapi area yang berpotensi sensitif: URL dengan
/admin/
di dalamnya, misalnya.
Meskipun demikian, ini akan menjadi pertempuran yang berat kecuali jika Anda menggunakan teknik topi hitam seperti spoofing UA atau dengan sengaja menutupi pola perayapan Anda: banyak pemilik situs, untuk alasan yang sama di atas, akan memblokir perayap yang tidak dikenal saat melihat daripada mengambil kemungkinan ada seseorang yang tidak mencoba "meretas situs mereka". Bersiaplah untuk banyak kegagalan.
Satu hal yang dapat Anda lakukan untuk memerangi gambar negatif yang akan dimiliki perayap tak dikenal adalah membuatnya jelas dalam string agen pengguna Anda siapa Anda:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Di mana http://example.com/aarobot.html
menjelaskan apa yang Anda coba capai dan mengapa Anda bukan ancaman. Halaman itu harus memiliki beberapa hal:
- Informasi tentang cara menghubungi Anda secara langsung
- Informasi tentang apa yang dikumpulkan perayap dan mengapa ia mengumpulkannya
- Informasi tentang cara menyisih dan data yang dikumpulkan terhapus
Yang terakhir adalah kunci: penolakan yang baik adalah seperti Jaminan Uang Kembali ™ dan skor niat baik yang tidak masuk akal. Itu harus manusiawi: satu langkah sederhana (baik alamat email atau, idealnya, formulir) dan komprehensif (tidak boleh ada "gotcha": opt-out berarti Anda berhenti merangkak tanpa kecuali).