Mengapa hasil pencarian Google menyertakan halaman yang tidak diizinkan di robots.txt?

18

Saya memiliki beberapa halaman di situs saya yang saya ingin jauhkan dari mesin pencari, jadi saya melarangnya di robots.txtfile saya seperti ini:

User-Agent: *
Disallow: /email

Namun saya baru-baru ini memperhatikan bahwa Google terkadang masih mengembalikan tautan ke halaman-halaman itu dalam hasil pencarian mereka. Mengapa ini terjadi, dan bagaimana saya bisa menghentikannya?

Latar Belakang:

Beberapa tahun yang lalu, saya membuat situs web sederhana untuk klub yang melibatkan kerabat saya. Mereka ingin memiliki tautan email di halaman mereka, jadi, untuk mencoba dan menjaga agar alamat email tersebut tidak berakhir pada terlalu banyak daftar spam, alih-alih menggunakan mailto:tautan langsung, saya membuat tautan-tautan itu menunjuk ke skrip perangkap pemanen / alamat sederhana yang berjalan di situs saya sendiri. Skrip ini akan mengembalikan 301 redirect ke mailto:URL aktual , atau, jika mendeteksi pola akses yang mencurigakan, halaman yang berisi banyak alamat email palsu dan tautan palsu ke lebih banyak halaman seperti itu. Untuk menjauhkan bot pencarian yang sah dari jebakan, saya membuat robots.txtaturan yang ditunjukkan di atas, melarang seluruh ruang tautan redirector dan halaman jebakan yang sah.

Namun, baru-baru ini, salah satu orang di klub mencari nama mereka di Google dan cukup terkejut ketika salah satu hasil di halaman pertama adalah tautan ke skrip pengalih, dengan judul yang terdiri dari alamat email mereka diikuti dengan nama saya Tentu saja, mereka segera mengirimi saya email dan ingin tahu cara mengeluarkan alamat mereka dari indeks Google. Saya juga cukup terkejut, karena saya tidak tahu bahwa Google akan mengindeks URL semacam itu sama sekali, yang tampaknya melanggar robots.txtaturan saya .

Saya berhasil mengirim permintaan penghapusan ke Google, dan tampaknya berhasil, tetapi saya ingin tahu mengapa dan bagaimana Google mengelak robots.txtseperti saya itu dan bagaimana memastikan bahwa tidak ada halaman yang dilarang akan muncul di halaman mereka. Hasil Pencarian.

Ps. Saya benar-benar menemukan penjelasan dan solusi yang mungkin, yang akan saya posting di bawah, sambil menyiapkan pertanyaan ini, tetapi saya pikir saya akan menanyakannya kalau -kalau ada orang lain yang memiliki masalah yang sama. Silahkan mengirimkan jawaban Anda sendiri. Saya juga tertarik untuk mengetahui apakah mesin pencari lain juga melakukan ini, dan apakah solusi yang sama juga berlaku untuk mereka.

google-search robots.txt

— Ilmari Karonen
sumber

1

"dan bagaimana Google mengelak dari robot-robot saya.txt" Saya kira Anda sudah mengetahui hal ini (atau bagaimana Anda bisa membuat situs di tempat pertama) tetapi jika ada orang-orang bodoh yang mondar-mandir dengan ... The robots.txtfile seperti "Dilarang" tanda kecil di samping jalan seseorang. Itu bukan sihir, dan (kecuali jika pengunjung secara eksplisit mencarinya) mereka dapat berkeliaran di properti Anda tanpa sedikit pun terpengaruh oleh keberadaannya. Ada internet yang setara dengan lampu sorot dan pagar razorwire, tetapi jika itu yang Anda inginkan, robots.txtbukan?

— Parthian Shot

25

Tampaknya Google sengaja memasukkan URL yang tidak diizinkan dalam robots.txtindeks mereka jika ada tautan ke URL itu dari halaman lain yang telah mereka jelajahi. Mengutip halaman bantuan Alat Webmaster mereka :

"Meskipun Google tidak akan merayapi atau mengindeks konten halaman yang diblokir oleh robots.txt, kami masih dapat mengindeks URL jika kami menemukannya di halaman lain di web. Akibatnya, URL halaman dan, berpotensi, lainnya informasi yang tersedia untuk umum seperti teks jangkar di tautan ke situs, atau judul dari Proyek Direktori Terbuka (www.dmoz.org), dapat muncul di hasil pencarian Google. "

Tampaknya, Google menafsirkan Disallowarahan robots.txtsebagai larangan merayapi halaman, bukan menentang mengindeksnya . Saya kira itu secara teknis interpretasi yang valid, bahkan jika itu menampar aturan yang memihak saya.

Dalam artikel wawancara ini , Matt Cutts dari Google memberikan sedikit lebih banyak latar belakang dan memang memberikan penjelasan yang masuk akal mengapa mereka melakukan ini:

"Pada masa-masa awal, banyak situs web yang sangat populer tidak ingin dirayapi sama sekali. Misalnya, eBay dan New York Times tidak mengizinkan mesin pencari apa pun, atau setidaknya Google tidak merayapi halaman apa pun darinya. Library of Congress memiliki berbagai bagian yang mengatakan bahwa Anda tidak diizinkan menjelajah dengan mesin pencari. Jadi, ketika seseorang datang ke Google dan mereka mengetik di eBay, dan kami belum merangkak di eBay, dan kami tidak dapat kembali ke eBay, kami terlihat agak suboptimal. Jadi, kompromi yang kami putuskan adalah, kami tidak akan merayapi Anda dari robots.txt, tetapi kami dapat mengembalikan referensi URL yang kami lihat. "

Solusi yang disarankan pada kedua halaman tersebut adalah menambahkan noindexmeta tag ke halaman yang tidak ingin Anda indeks. ( X-Robots-TagTajuk HTTP juga harus berfungsi untuk halaman non-HTML. Namun, saya tidak yakin apakah itu berfungsi pada arahan ulang.) Secara paradoks, ini berarti Anda harus mengizinkan Googlebot untuk merayapi halaman tersebut (baik dengan menghapusnya dari robots.txtseluruhnya, atau dengan menambahkan seperangkat aturan yang terpisah dan lebih permisif untuk Googlebot), karena jika tidak, ia tidak dapat melihat tag meta sejak awal.

Saya telah mengedit skrip pengalihan / spider saya untuk mengirim meta tag dan X-Robots-Tagheader dengan nilainya noindex,nofollowdan memungkinkan Googlebot merayapi URL skrip di saya robots.txt. Kami akan melihat apakah itu berfungsi setelah Google mengindeks ulang situs saya.

— Ilmari Karonen
sumber

5

Memang benar bahwa sementara ini harus mencegah Google (dan bot yang baik) dari merayapi halaman ini dan membaca konten mereka, mereka masih bisa menampilkan tautan URL saja di SERPs jika mereka ditautkan ke, dari formulir:

Tautan URL saja di Google SERPs

Seperti yang Anda lihat, tidak ada judul atau deskripsi, secara harfiah hanya URL. Biasanya jenis hasil ini biasanya dihilangkan dari SERPs, kecuali jika Anda mencarinya secara eksplisit.

Dan seperti yang Anda sebutkan dalam jawaban Anda, jika Anda tidak ingin URL muncul sama sekali di SERP, maka Anda perlu mengizinkan robot, tetapi sertakan tag meta noindex.

— TuanWhite
sumber