Jawaban:
Tidak ada mesin pencari yang sesuai dengan Protokol Pengecualian Robot yang dapat merayapi URL apa pun yang dilarang di robots.txt, di mana pun itu mungkin terdaftar.
Namun, Google tidak harus merayapi URL Anda untuk mengindeksnya. Jika mereka percaya bahwa mereka memiliki bukti yang cukup bahwa sebenarnya ada halaman di URL itu (dan daftar sitemap sangat mungkin dianggap sebagai bukti seperti itu) maka mereka dapat memutuskan untuk menambahkan URL ke indeks mereka tanpa konten apa pun. Mengutip halaman bantuan Alat Webmaster Google :
"Meskipun Google tidak akan merayapi atau mengindeks konten halaman yang diblokir oleh robots.txt, kami masih dapat mengindeks URL jika kami menemukannya di halaman lain di web. Akibatnya, URL halaman dan, berpotensi, lainnya informasi yang tersedia untuk umum seperti teks jangkar di tautan ke situs, atau judul dari Proyek Direktori Terbuka (www.dmoz.org), dapat muncul di hasil pencarian Google. "
Halaman tersebut dapat muncul sebagai hasil pencarian misalnya untuk kata-kata yang termasuk dalam URL itu sendiri, atau untuk kata-kata yang digunakan dalam tautan yang menunjuk ke halaman.
Jadi, jika Anda berdua mencantumkan halaman dalam sitemap dan melarangnya di robots.txt, kemungkinan Google akan mengindeks URL halaman itu - tetapi bukan kontennya.
Robots.txt mendefinisikan bot yang sesuai apa yang diizinkan atau tidak untuk diminta. Bahkan jika tautan tertentu ada dalam peta situs, bot tidak diizinkan untuk memintanya jika robots.txt melarangnya.
Ingat bahwa peta situs tidak diperlukan dan bahkan jika disediakan, crawler dapat mengabaikan URL dan merangkak yang tidak ada. Jika dapat melihat ini di Alat Webmaster Google yang menunjukkan bahwa tidak semua URL dalam peta situs bisa dirayapi dan jika beberapa URL di- robot .
Jawaban Itai benar, jadi tidak ada yang terlalu penting untuk ditambahkan, tetapi sebagai balasan untuk pertanyaan spesifik Anda ...
Sitemap tidak dapat mengalahkan robots.txt, sitemap tidak memberikan instruksi / arahan untuk crawler di situs web. Mereka bahkan tidak dapat dibandingkan. Jika Anda telah menginstruksikan robot untuk tidak mengunjungi / mengikuti /foo
maka setiap bot yang mematuhi arahan robot Anda tidak akan mengunjungi direktori itu terlepas dari jalan apa yang mereka ambil untuk sampai ke sana (sitemap atau sebaliknya).
Di Google webmaster: Ini menunjukkan kesalahan dalam sitemap XML Anda bahwa "Anda telah meletakkan tautan yang dicegah Merayapi dalam file robots.txt Anda. Google lebih suka file robots.txt daripada Sitemap.