Pertanyaan yang diberi tag «web-crawlers»

Program komputer yang mengakses halaman web untuk berbagai keperluan (untuk mengikis konten, untuk menyediakan mesin pencari dengan informasi tentang situs Anda, dll.)

4
Status Ajax yang Dapat Dirayapi?
Saya melihat bahwa Google memiliki proposal / standar yang bagus untuk membuat aplikasi Ajax dapat dijelajahi, melalui #! (hash bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Pertanyaan saya adalah: Apakah mereka saat ini menggunakan "proposal" ini di dunia nyata? Apakah mesin pencari lain - Bing secara khusus, juga menggunakan atau berencana menggunakannya?




2
Alat Webmaster Google memberi tahu saya bahwa robot memblokir akses ke peta situs
Ini adalah robots.txt saya : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Tetapi Alat Webmaster Google memberi tahu saya bahwa robot memblokir akses ke peta situs: Kami mengalami kesalahan saat mencoba mengakses Peta Situs Anda. Harap pastikan Peta Situs Anda mengikuti pedoman kami dan dapat diakses di lokasi yang …


6
Apa cara terbaik untuk mengeluarkan bot dari jumlah tampilan?
Situs web saya menghitung tampilan pengunjung pada halaman tertentu. Saya perhatikan bahwa Google dan Bot lainnya "mengklik" ke situs saya seperti orang gila dan beberapa halaman mendapatkan jumlah tampilan yang tidak realistis (dibandingkan dengan yang diproduksi oleh manusia). Saya meminta praktik terbaik untuk mengecualikan bot tersebut dari jumlah pandangan saya. …


1
Bagaimana "Noindex:" di robots.txt berfungsi?
Saya menemukan artikel ini dalam berita SEO saya hari ini. Tampaknya menyiratkan bahwa Anda dapat menggunakan Noindex:arahan selain Disallow:arahan standar di robots.txt . Disallow: /page-one.html Noindex: /page-two.html Sepertinya itu akan mencegah mesin pencari dari merayapi halaman satu, dan mencegah mereka mengindeks halaman dua. Apakah arahan robots.txt ini didukung oleh Google …

2
Hanya izinkan Google dan Bing bot merayapi situs
Saya menggunakan file robots.txt berikut untuk sebuah situs: Target adalah untuk memungkinkan googlebot dan bingbot untuk mengakses situs kecuali halaman /bedven/bedrijf/*dan memblokir semua bot lain dari merayapi situs. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* …

1
Gabungkan agen-pengguna di robots.txt
Bisakah agen pengguna didaftar bersama, diikuti oleh aturan umum mereka seperti di robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

2
Plus masuk di depan URL di agen pengguna
Saya menjalankan crawler web kecil dan harus memutuskan agen pengguna apa yang akan digunakan untuk itu. Daftar agen perayap serta Wikipedia menyarankan format berikut: examplebot/1.2 (+http://www.example.com/bot.html) Namun beberapa bot menghilangkan tanda plus di depan URL. Dan saya ingin tahu apa artinya itu, tetapi tidak dapat menemukan penjelasan. RFC 2616 menganggap …

1
Bagaimana Google berhasil merayapi 403 halaman saya?
Saya punya beberapa file pribadi dalam direktori di folder sekolah saya. Anda dapat melihat bahwa file ada dengan membuka myschool.edu/myusername/myfolder, tetapi mencoba mengakses file itu sendiri melalui myschool.edu/myusername/myfolder/myfile.html mengembalikan kesalahan 403. Namun Google entah bagaimana berhasil mengambil konten dari file pribadi itu dan menyimpannya di cache! Bagaimana ini mungkin? [Sejak …

6
Bagaimana cara (dis) mengizinkan bot archive.org? Apakah semuanya berubah, jika demikian kapan?
Saya memiliki situs web yang kebanyakan saya tidak ingin diindeks oleh mesin pencari, tetapi saya ingin mempertahankannya untuk selamanya di archive.org. Jadi saya robots.txtmulai dengan ini: User-agent: * Disallow: / Hari ini, menurut archive.org saya harus menambahkan yang berikut di saya robots.txtuntuk memungkinkan bot mereka: User-agent: ia_archiver Disallow: Tapi, saya …

2
Haruskah kita menghentikan skema perayapan AJAX?
Jadi sekarang Google telah menghentikan skema perayapan AJAX . Mereka mengatakan tidak perlu repot mengimplementasikannya di situs web baru, karena itu tidak lagi diperlukan karena Googlebot sekarang tidak memiliki masalah menonton konten dinamis. Haruskah kita segera mempercayai pernyataan ini, atau lebih baik mematuhi standar yang sudah usang untuk sementara waktu?

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.