Bagaimana cara mengkonfigurasi robots.txt untuk mengizinkan semuanya?


116

Saya robots.txtdi Alat Webmaster Google menunjukkan nilai berikut:

User-agent: *
Allow: /

Apa artinya? Saya tidak memiliki cukup pengetahuan tentang itu, jadi mencari bantuan Anda. Saya ingin mengizinkan semua robot merayapi situs web saya, apakah ini konfigurasi yang benar?


Izinkan tidak dipahami oleh semua perayap web, sebagai gantinya gunakan penolakan: (yaitu, tanpa url setelah:). Ini lebih aman (lihat: youtu.be/G29Zt-UH_Ko )
Jérôme Verstrynge

Jawaban:


153

File itu akan mengizinkan semua akses crawler

User-agent: *
Allow: /

Ini pada dasarnya memungkinkan semua agen pengguna (*) ke semua bagian situs (/).


11
Benar, kecuali Anda perlu meniadakan bagian yang diizinkan. Tidak ada "izinkan" jadi buatlah: "Agen-pengguna: * Larang:" seperti yang ditampilkan di sini: robotstxt.org/robotstxt.html
vsdev

Ada bagian yang diizinkan. Periksa dokumen resmi Google developers.google.com/search/reference/robots_txt#allow
Hasan Sefa Ozalp

60

Jika Anda ingin mengizinkan setiap bot merayapi semuanya, ini adalah cara terbaik untuk menentukannya di robots.txt Anda:

User-agent: *
Disallow:

Perhatikan bahwa Disallowfield tersebut memiliki nilai kosong yang artinya sesuai dengan spesifikasinya :

Setiap nilai kosong, menunjukkan bahwa semua URL dapat diambil.


Cara Anda (dengan Allow: /alih - alih Disallow:) berfungsi juga, tetapi Allowbukan bagian dari spesifikasi robots.txt asli , jadi tidak didukung oleh semua bot (meskipun banyak bot populer yang mendukungnya, seperti Googlebot ). Meskipun demikian, bidang yang tidak dikenali harus diabaikan, dan untuk bot yang tidak mengenali Allow, hasilnya akan sama dalam kasus ini: jika tidak ada yang dilarang untuk dirayapi (dengan Disallow), semuanya diizinkan untuk dirayapi.
Namun, secara formal (sesuai spesifikasi asli) ini adalah catatan yang tidak valid, karena setidaknya Disallowdiperlukan satu bidang:

Setidaknya satu bidang Disallow harus ada dalam rekaman.


17

Saya mengerti bahwa ini adalah pertanyaan yang cukup lama dan memiliki jawaban yang cukup bagus. Tapi, ini dua sen saya demi kelengkapan.

Sesuai dokumentasi resmi , ada empat cara, Anda dapat mengizinkan akses penuh untuk robot untuk mengakses situs Anda.

Bersih:

Tentukan pencocok global dengan segmen larang seperti yang disebutkan oleh @unor. Jadi /robots.txtpenampilan Anda seperti ini.

User-agent: *
Disallow:

Retasan:

Buat /robots.txtfile tanpa konten di dalamnya. Yang akan secara default mengizinkan semua untuk semua jenis Bots.

Saya tidak peduli:

Jangan buat /robots.txtsama sekali. Yang seharusnya menghasilkan hasil yang sama persis dengan dua di atas.

Jelek:

Dari dokumentasi robot untuk tag meta , Anda dapat menggunakan tag meta berikut pada semua halaman Anda di situs Anda untuk memberi Botstahu bahwa halaman ini tidak seharusnya diindeks.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Agar ini diterapkan ke seluruh situs Anda, Anda harus menambahkan tag meta ini untuk semua halaman Anda. Dan tag ini harus ditempatkan secara ketat di bawah HEADtag halaman Anda. Lebih lanjut tentang tag meta ini di sini .


Tidak ada robots.txt dan Wordpress adalah kombinasi yang buruk, karena WordPress menghasilkan robot.txt virtual. Kecuali Anda senang dengan yang dihasilkan WordPress.
Jesper

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.