Pertanyaan yang diberi tag «robots.txt»

Robots.txt adalah file teks yang digunakan oleh pemilik situs web untuk memberikan instruksi tentang situs mereka ke robot web. Pada dasarnya ia memberi tahu robot bagian mana dari situs yang terbuka dan bagian mana yang ditutup. Ini disebut Protokol Pengecualian Robot.


3
Apakah Pratinjau Google mematuhi Robots.txt?
Karena memang terlihat seperti itu. Untuk situs saya, kami melarang direktori gambar dan pratinjau semua gambar yang hilang yang membuat situs terlihat miring. Apakah ini masalahnya dan apakah ada cara untuk memungkinkan bot pratinjau hanya untuk mengakses gambar menggunakan robots.txt? EDIT: Sepertinya pratinjau dihasilkan oleh Google Bot normal dan oleh …

3
Bisakah indeks sitemap mengandung indeks sitemap lainnya?
Saya memiliki situs web dua bahasa dengan indeks sitemap untuk setiap bahasa yang menghubungkan ke beberapa peta situs yang berbeda (satu untuk video, satu untuk konten statis, dan satu untuk artikel). Saya ingin memperkenalkan sitemap lain yang menautkan indeks sitemap, sehingga saya bisa menautkan sitemap itu di robots.txt di root …

1
Bagaimana "Noindex:" di robots.txt berfungsi?
Saya menemukan artikel ini dalam berita SEO saya hari ini. Tampaknya menyiratkan bahwa Anda dapat menggunakan Noindex:arahan selain Disallow:arahan standar di robots.txt . Disallow: /page-one.html Noindex: /page-two.html Sepertinya itu akan mencegah mesin pencari dari merayapi halaman satu, dan mencegah mereka mengindeks halaman dua. Apakah arahan robots.txt ini didukung oleh Google …

2
Hanya izinkan Google dan Bing bot merayapi situs
Saya menggunakan file robots.txt berikut untuk sebuah situs: Target adalah untuk memungkinkan googlebot dan bingbot untuk mengakses situs kecuali halaman /bedven/bedrijf/*dan memblokir semua bot lain dari merayapi situs. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* …

1
Gabungkan agen-pengguna di robots.txt
Bisakah agen pengguna didaftar bersama, diikuti oleh aturan umum mereka seperti di robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

3
Bagaimana saya bisa menggunakan robots.txt untuk melarang subdomain saja?
Kode dasar saya dibagi antara beberapa lingkungan (hidup, pementasan, dev) & sub-domain ( staging.example, dev.example, dll) dan hanya dua harus diizinkan untuk dijelajahi (yaitu. www.exampleDan example). Biasanya saya akan memodifikasi /robots.txtdan menambahkan Disallow: /, tetapi karena basis kode bersama saya tidak dapat memodifikasi /robots.txttanpa mempengaruhi semua (sub) domain. Ada ide …

6
Bagaimana cara (dis) mengizinkan bot archive.org? Apakah semuanya berubah, jika demikian kapan?
Saya memiliki situs web yang kebanyakan saya tidak ingin diindeks oleh mesin pencari, tetapi saya ingin mempertahankannya untuk selamanya di archive.org. Jadi saya robots.txtmulai dengan ini: User-agent: * Disallow: / Hari ini, menurut archive.org saya harus menambahkan yang berikut di saya robots.txtuntuk memungkinkan bot mereka: User-agent: ia_archiver Disallow: Tapi, saya …

10
Perlu Menghentikan Bot dari Membunuh Server Web saya
Saya mengalami masalah bot EXTREME di beberapa situs web saya dalam akun hosting saya. Bot menggunakan lebih dari 98% sumber daya CPU saya dan 99% dari bandwidth saya untuk seluruh akun hosting saya. Bot ini menghasilkan lebih dari 1 GB lalu lintas per jam untuk situs saya. Lalu lintas manusia …

1
Haruskah saya memblokir halaman arsip Wordpress dari mesin pencari?
Saya menggunakan WordPress dan /sample-post/URL untuk posting saya dan /yyyy/mm/untuk arsip. Google telah mengindeks situs sepenuhnya. Karena arsip saat ini menampilkan posting lengkap, saya berpikir bahwa saya tidak boleh membiarkan Google mengindeks halaman arsip karena mengandung posting penuh dan itu akan menjadi duplikat konten. Jadi robots.txt saya berisi: Disallow: /2009/ …

4
Robot yang ditolak oleh domain masih tercantum dalam hasil pencarian
Jadi, di semua situs kami yang tidak berhadapan dengan pencarian, kami telah menerapkan file robots.txt (per Bagaimana cara mengecualikan situs web dari hasil pencarian Google real-time?, Atau pertanyaan serupa lainnya). Namun, jika istilah pencarian cukup spesifik, domain itu sendiri dapat ditemukan melalui hasil. Contoh dari ini dapat ditemukan di sini …
9 seo  robots.txt 

3
Saat Anda memindahkan situs melalui pengalihan 301, haruskah Anda menyiapkan robots.txt yang melarang robot untuk merayapi alamat lama?
Situs yang saya kerjakan memindahkan subdomain ke subdomain lain melalui pengalihan 301. Namun ketika memeriksa robots.txt dari subdomain lama, ia memiliki robots.txt yang melarang perayap web mesin pencari untuk merayapnya. Apakah ini langkah yang tepat? Saya percaya tidak karena perayap tidak akan dapat menjelajahi situs lama untuk melihat kode status …

5
Haruskah kita memodifikasi Joomla robots.txt setelah pengumuman Google tentang perayapan CSS dan JavaScript?
Telah menemukan pengumuman dari Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html Ini menyatakan: Untuk rendering dan pengindeksan yang optimal, pedoman baru kami menetapkan bahwa Anda harus mengizinkan Googlebot mengakses file JavaScript, CSS, dan gambar yang digunakan halaman Anda. Ini memberi Anda rendering dan pengindeksan yang optimal untuk situs Anda. Menolak perayapan file Javascript atau CSS …


2
Apa cara yang tepat untuk menangani Bolehkan dan Larang di robots.txt?
Saya menjalankan crawler Web skala besar. Kami berusaha sangat keras untuk mengoperasikan perayap dalam standar komunitas yang diterima, dan itu termasuk menghormati robots.txt. Kami mendapat sedikit keluhan tentang perayap, tetapi ketika kami melakukannya sebagian besar tentang penanganan kami atas robots.txt. Paling sering Webmaster membuat kesalahan di robots.txt dan kami dengan …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.