Bot dan laba-laba mana yang harus saya blokir di robots.txt?


Jawaban:


17

Tidak ada bot yang memanen email atau menguji kerentanan situs Anda akan menghormati robots.txt Anda. Faktanya, bot jahat ini melihat robots.txt untuk memetakan situs Anda dengan lebih baik. Jika ada poin Anda memiliki Disallow:ini akan digunakan untuk menyerang situs Anda dengan lebih baik. Seorang peretas yang secara manual melihat situs Anda harus menghabiskan waktu ekstra untuk memeriksa semua file / direktori yang Anda coba batalkan.


3
Poin yang menarik. Saya bertanya-tanya apakah masuk akal untuk menambahkan halaman palsu ke daftar Larang yang tujuan utamanya adalah menangkap bot seperti itu dalam tindakan sehingga mereka dapat diblokir secara otomatis.
Steven Sudit

5
@ Seven Sudit itu bukan ide yang buruk. Ini akan disebut pot madu.
Benteng 9-10

Ya, itu benar sekali, walaupun saya lebih memikirkan trik standar dari kompiler direktori (buku telepon, dll) untuk menambahkan sejumlah kecil entri palsu untuk mendeteksi pencurian grosir.
Steven Sudit

Jika Anda juga menggunakan honeypot itu sebagai tarpit, itu juga akan mengganggu pengindeks ilegal. Ini sebenarnya cukup umum dilakukan untuk spammer - tinggalkan alamat email honeypot yang dapat diindeks yang mengarah ke server email tarpit.
Mark Henderson

@Farseeker Saya tidak melihat masalah dengan menghukum orang-orang yang melanggar aturan. Meskipun menipu spammer dengan data buruk adalah twist yang menarik.
Benteng

4

robots.txt tidak akan meningkatkan keamanan situs web Anda atau mencegah pengambilan alamat email. robots.txt adalah panduan bagi mesin pencari untuk melewati bagian situs web Anda. Ini tidak akan diindeks dan harus digunakan untuk setiap bagian yang Anda tidak ingin muncul di mesin pencari publik.

Namun, ini sama sekali tidak akan mencegah bot lain mengunduh seluruh situs Anda untuk meningkatkan keamanan atau mencegah pengambilan email. Untuk meningkatkan keamanan, Anda perlu menambahkan otentikasi dan hanya mengizinkan pengguna yang diautentikasi di luar bagian yang diamankan. Untuk mencegah pengambilan alamat email jangan masukkan email dalam teks biasa (atau teks yang mudah diuraikan) pada situs web.


1

robots.txt tidak akan membantu Anda dengan keamanan. Bot apa pun yang ingin melakukan sesuatu yang teduh akan mengabaikannya.


0

File robots.txt hanya berfungsi sebagai permintaan agar bot dan spider meninggalkan konten tertentu saja; itu sebenarnya tidak dapat mencegah akses mereka. Bot "baik" akan menghormatinya, tetapi bot "buruk" (mungkin yang ingin Anda blokir) akan mengabaikannya dan tetap melanjutkan.


-1

Alih-alih robots.txt, mungkin Anda perlu menggunakan kode CAPTCHA.


Kode CAPTCHA tidak ada hubungannya dengan perayap web (yang merupakan alamat robots.txt).
user48838

Itu adalah kesalahan pemilihan yang salah. Intinya adalah bahwa perayap dapat mengabaikan robots.txt, tetapi kode CAPTCHA setidaknya akan memperlambatnya, jika tidak langsung memblokirnya. Terima kasih telah salah.
Steven Sudit
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.