Bagaimana saya bisa membuat Google mengindeks dokumen PDF saya?


14

Kami kesulitan membuat Google untuk mengindeks file PDF di situs kami. Ada sekitar 50 PDF dan kisaran ukuran untuk 20 KB hingga sedikit di bawah dua MB. Mereka tidak dilindungi, dapat dibaca secara anonim, dan di dalam PDF Reader, Anda dapat mencari dokumen.

Mereka terdaftar di SiteMap.xml. Saya bahkan dapat melihat log IIS dan melihat Googlebot membaca file PDF, tetapi, kecuali lima, mereka tidak pernah dimasukkan dalam hasil pencarian.

Jika saya melakukan filetye: pdf, hanya lima PDF muncul. Jika saya mencari teks yang saya tahu ada di dalam PDF, PDF tidak akan pernah muncul (kecuali lima yang diindeks).

Adakah yang tahu mengapa lebih dari 45+ dokumen PDF tidak dimasukkan dalam indeks, meskipun mereka ada di sitemap dan Googlebot membacanya?


Apakah Anda menentukan tipe konten untuk Google?
Chris Ballance

Jawaban:


4

apakah semua pdf terletak di tempat yang sama? Saya pernah punya masalah bahwa salah satu lokasi pdf saya ada di dalam folder yang dikecualikan oleh robots.txt. Kirim sitemap Anda langsung ke situs-situs web google-webmaster dan Anda mungkin mendapatkan informasi berharga tentang mengapa pdf tidak muncul. dalam kasus saya google mengatakan 'hei, 54 dokumen pdf ini ada di sitemap Anda tetapi karena pembatasan robots.txt, kami tidak dapat mengindeksnya'. jadi itu cukup membantu. tetapi apa kata komentator, perlu waktu sampai informasi ini muncul.

Alat Webmaster Google: https://www.google.com/webmasters/tools


Saya hanya akan menambahkan bahwa Alat Webmaster Google tidak memberikan semua informasi secara real time. Ini masih merupakan sumber vital.
Liam

Tidak, PDF berada di beberapa tempat berbeda di situs. Saya telah memeriksa dan tidak ada yang diblokir oleh robots.txt. Saya telah menggunakan Alat Webmaster dan mengirimkan Peta Situs, dan akan segera melakukannya. Terima kasih atas umpan balik Anda. Jim

1

Mungkin ada jeda yang cukup lama antara google pada awalnya membaca konten Anda dan itu muncul dalam indeks. Kami baru-baru ini meluncurkan kembali sebuah situs, mengirimkan peta situs ke google pada saat peluncuran, dan butuh sekitar 3 minggu bagi halaman baru untuk mulai muncul dalam hasil pencarian.

Berapa lama Anda mengirimkan PDF ini melalui peta situs Anda?

(kecuali untuk lima yang diindeks)

Kedengarannya seperti PDF Anda sedang diindeks, tetapi butuh waktu. Menganggap bahwa tidak ada perbedaan dalam cara PDF yang tidak diindeks telah dihasilkan, maka saya menduga hanya perlu waktu beberapa saat untuk memperbarui.

Dengan sedikit bersinggungan, satu alat yang berguna yang saya rekomendasikan untuk mendaftar adalah Google Webmaster - ini menunjukkan kepada Anda tingkat perayapan, masalah dengan situs Anda, peta situs, dan pengindeksan dalam satu hari atau lebih dari Googlebot yang mengenai situs Anda. Ini bisa menghemat sedikit waktu Anda melalui log IIS Anda.


Sudah sekitar empat minggu sejak kami pertama kali mengirimkan peta situs kami. Saya hanya memperhatikan bahwa tadi malam mereka mengindeks empat lagi; jadi mungkin saya hanya perlu menunggu :)

Ketika Anda meluncurkan kembali situs, jika butuh 3 minggu untuk halaman baru mulai muncul dalam pencarian pencarian, bukankah itu berarti bahwa selama 3 minggu, pencarian mengembalikan hasil ke halaman yang tidak lagi ada di situs Anda? bukankah ini menghasilkan banyak kondisi 'halaman tidak ditemukan'?

Dalam situasi kami, peluncuran ulang bersamaan dengan peluncuran bagian baru, tautan lama masih berfungsi - 3 minggu adalah waktu bagi bagian baru untuk mulai muncul. Waktu tunggu acak bisa sedikit frustasi, oke!
ConroyP

0

Apakah file PDF Anda OCR dipindai sehingga teks dapat dipilih dan dicari? Atau apakah file PDF dipindai tanpa OCR, dalam hal ini teks akan disimpan sebagai gambar besar? Jika PDF adalah semua gambar, saya pikir Google belum dapat mengindeksnya (belum). Atau apakah Google sudah menemukan halaman Anda sekarang?


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.