Robots.txt vs Sitemap - Siapa yang menang dalam suatu Konflik

8

Jika saya memblokir direktori / foo di robots.txt, tetapi sitemap xml saya berisi URL dengan / foo, akankah URL di sitemap diambil oleh Google dan mesin pencari lainnya? Dengan kata lain, apakah sitemap truf robots.txt? Saya kira begitu, tetapi saya tidak yakin.

robots.txt xml-sitemap

— Nathan
sumber

12

Tidak ada mesin pencari yang sesuai dengan Protokol Pengecualian Robot yang dapat merayapi URL apa pun yang dilarang di robots.txt, di mana pun itu mungkin terdaftar.

Namun, Google tidak harus merayapi URL Anda untuk mengindeksnya. Jika mereka percaya bahwa mereka memiliki bukti yang cukup bahwa sebenarnya ada halaman di URL itu (dan daftar sitemap sangat mungkin dianggap sebagai bukti seperti itu) maka mereka dapat memutuskan untuk menambahkan URL ke indeks mereka tanpa konten apa pun. Mengutip halaman bantuan Alat Webmaster Google :

"Meskipun Google tidak akan merayapi atau mengindeks konten halaman yang diblokir oleh robots.txt, kami masih dapat mengindeks URL jika kami menemukannya di halaman lain di web. Akibatnya, URL halaman dan, berpotensi, lainnya informasi yang tersedia untuk umum seperti teks jangkar di tautan ke situs, atau judul dari Proyek Direktori Terbuka (www.dmoz.org), dapat muncul di hasil pencarian Google. "

Halaman tersebut dapat muncul sebagai hasil pencarian misalnya untuk kata-kata yang termasuk dalam URL itu sendiri, atau untuk kata-kata yang digunakan dalam tautan yang menunjuk ke halaman.

Jadi, jika Anda berdua mencantumkan halaman dalam sitemap dan melarangnya di robots.txt, kemungkinan Google akan mengindeks URL halaman itu - tetapi bukan kontennya.

— Ilmari Karonen
sumber

Jadi itu akan membuat jawaban Anda Ya bukannya Tidak, bukan? :) Karena mengambil URL meskipun direktori diblokir di robots.txt, dan Anda tampaknya setuju dengan itu.

— Henrik Erlandsson

3

Robots.txt mendefinisikan bot yang sesuai apa yang diizinkan atau tidak untuk diminta. Bahkan jika tautan tertentu ada dalam peta situs, bot tidak diizinkan untuk memintanya jika robots.txt melarangnya.

Ingat bahwa peta situs tidak diperlukan dan bahkan jika disediakan, crawler dapat mengabaikan URL dan merangkak yang tidak ada. Jika dapat melihat ini di Alat Webmaster Google yang menunjukkan bahwa tidak semua URL dalam peta situs bisa dirayapi dan jika beberapa URL di- robot .

— Itai
sumber

3

Jawaban Itai benar, jadi tidak ada yang terlalu penting untuk ditambahkan, tetapi sebagai balasan untuk pertanyaan spesifik Anda ...

Sitemap tidak dapat mengalahkan robots.txt, sitemap tidak memberikan instruksi / arahan untuk crawler di situs web. Mereka bahkan tidak dapat dibandingkan. Jika Anda telah menginstruksikan robot untuk tidak mengunjungi / mengikuti /foomaka setiap bot yang mematuhi arahan robot Anda tidak akan mengunjungi direktori itu terlepas dari jalan apa yang mereka ambil untuk sampai ke sana (sitemap atau sebaliknya).

— zigojacko
sumber

Erm ... Ini yang dikatakan Google dalam dokumentasi mereka tentang cara mereka menangani perayapan. [absoluteURL] menunjuk ke peta situs, file indeks peta situs atau URL yang setara. URL tidak harus berada di host yang sama dengan file robots.txt. Beberapa entri sitemap mungkin ada. Sebagai catatan non-anggota grup, ini tidak terikat pada agen pengguna tertentu dan dapat diikuti oleh semua perayap, asalkan tidak dilarang .

— zigojacko

3

Saat Google dapat memproses file robots.txt dengan benar, URL yang disebutkan dalam file Peta Situs tidak akan pernah mengunggulkan arahan penolakan yang valid dalam file robots.txt. URL yang dilarang merangkak tidak boleh dirayapi oleh Googlebot.

— John Mueller

0

Di Google webmaster: Ini menunjukkan kesalahan dalam sitemap XML Anda bahwa "Anda telah meletakkan tautan yang dicegah Merayapi dalam file robots.txt Anda. Google lebih suka file robots.txt daripada Sitemap.

— Asif Faridi
sumber