Bagaimana saya bisa membuat Github Wiki saya dapat dijelajahi oleh mesin pencari? robots.txt tampaknya melarangnya


9

Saat menggunakan pemeriksa tautan W3C , saya menemukan bahwa Github Wiki saya tidak dapat dirayapi:

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
Status: (T / A) Dilarang oleh robots.txt

Ini sangat disayangkan, karena saya ingin orang-orang dengan mudah menemukan Wiki ini di mesin pencari.

PERTANYAAN: Bagaimana cara membuat Github Wiki saya dapat dijelajahi oleh mesin pencari?
Atau apakah saya salah dan robots.txt Github sebenarnya OK?


1
Saya kira jawabannya kira-kira sama dengan pertanyaan serupa ini .
John C

Jawaban:


9

GitHub robots.txt tidak secara eksplisit melarang perayapan halaman wiki, misalnya di bagian Googlebot:

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

Karena ini adalah file robot di seluruh situs, tidak ada gunanya mengelak.

Ini adalah pilihan yang menarik, karena GitHub menggambarkan wiki sebagai tempat untuk "berbagi konten bentuk panjang tentang proyek Anda". Karena wiki publik default dapat diedit oleh pengguna mana pun, mungkin itu adalah perlindungan berat dari spammer.


0

Wiki GitHub dapat dicari oleh mesin yang mendukungnya. Lihat dua baris pertama https://github.com/robots.txt :

# If you would like to crawl GitHub contact us at support@github.com.
# We also provide an extensive API: https://developer.github.com/

Itu mungkin untuk parsing berbagai format wiki dll.

Misalnya mencari di Google untuk "protokol broker openrefine" dan klik pertama adalah halaman di bawah wiki proyek Github.


Hmm, jadi mengapa Google mengindeks wiki Broker-Protocol , dan bukan wiki OP?
Vidar S. Ramdal
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.