Bagaimana mencegah file PDF diindeks oleh mesin pencari?

27

Saya memiliki tautan ke dokumen PDF di halaman web publik. Bagaimana saya mencegah mesin pencari mengindeks tautan ini dan dokumen PDF?

Satu-satunya ide yang saya pikirkan adalah menggunakan CAPTCHA. Namun, saya bertanya-tanya apakah ada kata-kata ajaib yang memberitahu mesin pencari untuk tidak mengindeks tautan dan dokumen PDF? Pilihan menggunakan PHP atau JavaScript juga baik-baik saja.

Hanya untuk memperjelasnya. Saya tidak ingin mengenkripsi PDF dan melindunginya dengan kata sandi. Saya hanya ingin membuatnya tidak terlihat untuk mesin pencari, tetapi tidak untuk pengguna.

search-engine-indexing pdf

— unor
sumber

32

Untuk mencegah file PDF Anda (atau file non HTML) dicantumkan dalam hasil pencarian, satu-satunya cara adalah dengan menggunakan X-Robots-Tagheader respons HTTP , misalnya:

X-Robots-Tag: noindex

Anda dapat melakukan ini dengan menambahkan potongan berikut ke root .htaccess file situs atau file httpd.conf:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Perhatikan bahwa agar cara di atas berfungsi, Anda harus dapat mengubah header HTTP file yang dimaksud. Dengan demikian, Anda mungkin tidak dapat melakukan ini, misalnya, pada Halaman GitHub .

Juga mencatat bahwa robots.txt tidak tidak mencegah halaman Anda dari yang tercantum dalam hasil pencarian.

Apa yang dilakukannya adalah menghentikan bot dari merayapi halaman Anda, tetapi jika pihak ketiga menautkan ke file PDF Anda dari situs web mereka , halaman Anda akan tetap terdaftar.

Jika Anda menghentikan bot dari merayapi halaman Anda menggunakan robots.txt , itu tidak akan memiliki kesempatan untuk melihat X-Robots-Tag: noindextag respons. Karenanya, jangan pernah melarang halaman dalam robots.txt jika Anda menggunakan X-Robots-Tagheader. Info lebih lanjut dapat ditemukan di Google Developers: Robots Meta Tag .

— Pacerier
sumber

Saya tidak mengikuti bagaimana robots.txt dengan entri untuk halaman akan mencegah X-Robots-Tag dihormati / dipatuhi jika halaman dengan X-Robots-Tag diminta di masa mendatang.

— Don Cheadle

1

Saya pikir ketika halaman diminta, itu ("Google") akan melihat header X-Robots-Tag, dan kemudian tahu untuk tidak mengindeksnya ... tetapi sepertinya X-Robots-Tag hanya berguna untuk perayap yang kemudian tahu untuk tidak mengindeksnya developers.google.com/webmasters/control-crawl-index/docs/…

— Don Cheadle

Karena Anda menggunakan Filesarahan yang diaktifkan regex , Anda harus mempertimbangkan untuk menggunakannya sebagai FilesMatchgantinya, seperti yang disarankan di sini stackoverflow.com/q/14792381/1262357

— Gruber

15

Ada beberapa cara untuk melakukan ini (menggabungkannya jelas merupakan cara yang pasti untuk mencapai ini):

1) Gunakan robots.txt untuk memblokir file dari crawler mesin pencari:

User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf  # Block pdf files. Non-standard but works for major search engines.

2) Gunakan rel="nofollow"pada tautan ke PDF itu

<a href="something.pdf" rel="nofollow">Download PDF</a>

3) Gunakan x-robots-tag: noindexheader HTTP untuk mencegah crawler mengindeksnya. Tempatkan kode ini di file .htaccess Anda :

<FilesMatch "\.pdf$">
  header set x-robots-tag: noindex
</FilesMatch>

— John Conde
sumber

2

Sebaliknya, menggunakan keduanya x-robots-tagdan robots.txtpada saat yang sama bukanlah ide yang baik dan dapat menyebabkan konten diindeks. Jika Anda menggunakan keduanya robots.txtdan x-robots-tag: noindex, crawler tidak akan pernah merangkak atau melihat x-robots-tagkarena itu pertama kali menghormati robots.txt. robots.txttidak mencegah sumber daya diindeks, hanya dari dirayapi, jadi solusi terbaik adalah dengan menggunakan x-robots-tagtajuk, namun memungkinkan mesin pencari untuk merayapi dan menemukan tajuk itu dengan meninggalkan Anda robots.txtsendiri.

— Maximillian Laumeister

1

Anda dapat menggunakan file robots.txt . Anda dapat membaca lebih lanjut di sini .

— enoyhs
sumber

3

Menggunakan robots.txt tidak mencegah pengindeksan . Itu hanya mencegah perayapan . Lihat jawaban Pacerier untuk solusi yang benar.

— toxalot

1

Tidak yakin apakah kusen ini mungkin membawa nilai bagi siapa pun, tetapi kami baru-baru ini menghadapi masalah bahwa kotak GSA di tempat kami tidak mau mengindeks file PDF.

Dukungan Google bekerja dengan masalah ini dan jawabannya adalah terkait dengan fakta bahwa dokumen PDF ini memiliki set properti kustom (File -> Document Properties -> Custom (tab))

name: robots
value: noindex

yang mencegahnya diindeks dengan benar oleh GSA.

Jika Anda memiliki akses ke dokumen dan dapat memodifikasi propertinya, ini mungkin berfungsi ... dengan disewakan untuk GSA.

— ChiTec
sumber

1

Jika Anda menemukan contoh pengembangan bertenaga muncul di hasil pencarian Google, ada cara cepat dan mudah untuk mencegah mesin pencari dari merayapi situs Anda. Tambahkan baris berikut ke blok lokasi file konfigurasi virtualhost Anda untuk blok yang Anda inginkan untuk mencegah perayapan.

add_header  X-Robots-Tag "noindex, nofollow, nosnippet, noarchive";

— James M
sumber

-2

Anda dapat menggunakan file robots.txt. Mesin pencari yang menghormati file itu tidak akan mengindeks PDF. Cukup gunakan perintah untuk melarang pengindeksan file dan tentukan folder atau file PDF mana yang Anda tidak ingin indeks mesin pencari diindeks.

— Rudolf Olah
sumber

4

Menggunakan robots.txt tidak mencegah pengindeksan . Itu hanya mencegah perayapan . Lihat jawaban Pacerier untuk solusi yang benar. Saya memang membaca baru-baru ini tentang menggunakan direktif noindex (bukan melarang) di dalam file robots.txt, tetapi tidak terdokumentasi dan tidak standar. Dan sekarang saya tidak dapat menemukan di mana saya membacanya.

— toxalot

Kami memiliki pertanyaan tentang hal itu: Bagaimana cara "Noindex:" di robots.txt berfungsi?

— Stephen Ostermiller