Bagaimana cara mendapatkan puluhan juta halaman diindeks oleh Google bot?


12

Kami sedang mengembangkan situs yang saat ini memiliki 8 juta halaman unik yang akan tumbuh menjadi sekitar 20 juta segera, dan akhirnya menjadi sekitar 50 juta atau lebih.

Sebelum Anda mengkritik ... Ya, itu menyediakan konten yang unik dan bermanfaat. Kami terus memproses data mentah dari catatan publik dan dengan melakukan beberapa penggosokan data, rollup entitas, dan pemetaan hubungan, kami dapat menghasilkan konten berkualitas, mengembangkan situs yang cukup berguna dan juga unik, sebagian karena luasnya data.

Ini PR adalah 0 (domain baru, tidak ada tautan), dan kami mendapatkan spidering dengan kecepatan sekitar 500 halaman per hari, menempatkan kami di sekitar 30.000 halaman yang diindeks sejauh ini. Pada tingkat ini, akan diperlukan lebih dari 400 tahun untuk mengindeks semua data kami.

Saya punya dua pertanyaan:

  1. Apakah tingkat pengindeksan berkorelasi langsung dengan PR, dan maksud saya apakah itu berkorelasi cukup bahwa dengan membeli domain lama dengan PR yang baik akan membawa kita ke tingkat pengindeksan yang bisa diterapkan (di lingkungan 100.000 halaman per hari).
  2. Apakah ada konsultan SEO yang berspesialisasi dalam membantu proses pengindeksan itu sendiri. Kami sebaliknya melakukannya dengan sangat baik dengan SEO, terutama pada halaman, di samping itu, persaingan untuk frasa kata kunci "ekor panjang" kami cukup rendah, sehingga keberhasilan kami sebagian besar bergantung pada jumlah halaman yang diindeks.

Pesaing utama kami telah mencapai sekitar 20 MM halaman yang diindeks hanya dalam waktu satu tahun, bersama dengan peringkat Alexa 2000-ish.

Kualitas penting yang kami miliki:

  • kecepatan unduhan halaman cukup bagus (250-500 ms)
  • tidak ada kesalahan (tidak ada kesalahan 404 atau 500 saat spider)
  • kami menggunakan alat webmaster Google dan masuk setiap hari
  • URL ramah di tempat
  • Saya takut mengirimkan peta situs. Beberapa posting komunitas SEO menyarankan situs baru dengan jutaan halaman dan tidak ada PR yang mencurigakan. Ada video Google dari Matt Cutts yang berbicara tentang naik on-boarding situs-situs besar , juga, untuk menghindari peningkatan pengawasan (sekitar 2:30 dalam video).

  • Tautan situs yang dapat diklik mengirimkan semua halaman, tidak lebih dari empat halaman dan biasanya tidak lebih dari 250 (-ish) tautan internal pada satu halaman.
  • Teks jangkar untuk tautan internal adalah logis dan menambahkan relevansi secara hierarkis dengan data pada halaman detail.
  • Kami sebelumnya telah menetapkan tingkat perayapan ke tertinggi pada alat webmaster (hanya sekitar satu halaman setiap dua detik, maks). Baru-baru ini saya mengembalikannya ke "biarkan Google memutuskan" yang disarankan.


6
Saya benar-benar ingin melihat 50 juta halaman memberikan konten bermanfaat yang unik. Itu keren Wikipedia tidak memiliki banyak pengetahuan dibandingkan dengan situs Anda, hanya 3,5 juta halaman hari ini [ref. en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
Marco Demaio

3
:) Melihat melewati sarkasme ... bukan jumlah halaman yang membuat Wikipedia menjadi sumber pengetahuan yang luar biasa - jelas, ya - lebih bermanfaat. Situs kami menghasilkan halaman untuk setiap catatan seseorang dan halaman untuk setiap catatan perusahaan dalam database kami. Kami menggunakan analisis dan penggosokan data untuk menghasilkan hubungan yang dinamis di antara mitra bisnis, yang menggambarkan jaringan bisnis orang-orang dan perusahaan terkait. Jumlah halaman adalah fungsi dari jumlah data yang kita miliki. Menjadikannya dapat ditemukan melalui pencarian membuatnya lebih bermanfaat untuk semua. Terima kasih atas komentarmu.
Chris Adragna

1
Dapatkan lebih banyak pagerank, dengan mendapatkan lebih banyak inlink. Tautan ke halaman Anda dari halaman yang memiliki pagerank.
Alex Black

Jawaban:


20

Beberapa strategi potensial:

  • Alat Webmaster Google memungkinkan Anda untuk meminta tingkat perayapan yang meningkat. Coba lakukan itu jika Anda belum melakukannya.
  • Lihatlah arsitektur navigasi Anda untuk melihat apakah Anda tidak dapat meningkatkan akses ke lebih banyak konten Anda. Lihatlah dari sudut pandang pengguna: Jika sulit bagi pengguna untuk menemukan informasi tertentu, mungkin akan sulit juga untuk mesin pencari.
  • Pastikan Anda tidak memiliki konten duplikat karena parameter URL yang tidak konsisten atau penggunaan garis miring yang tidak benar. Dengan menghilangkan konten duplikat, Anda mengurangi waktu yang dihabiskan Googlebot untuk merayapi sesuatu yang sudah diindeks.
  • Gunakan tautan konten terkait dan tautan di dalam situs dalam konten Anda bila memungkinkan.
  • Acak beberapa tautan Anda. Bilah sisi dengan konten internal acak adalah pola yang bagus untuk digunakan.
  • Gunakan tanggal dan mikroformats lainnya .
  • Gunakan umpan RSS sedapat mungkin. Umpan RSS akan berfungsi hampir sama dengan peta situs (pada kenyataannya, Alat Webmaster memungkinkan Anda mengirimkan umpan sebagai peta situs).
  • Mengenai peta situs, lihat pertanyaan ini .
  • Temukan cara untuk mendapatkan tautan eksternal ke konten Anda. Ini dapat mempercepat prosesnya diindeks. Jika sesuai dengan jenis konten, membuatnya mudah untuk dibagikan secara sosial atau melalui email akan membantu mengatasi hal ini.
  • Berikan API untuk mendorong penggunaan data dan tautan eksternal ke data Anda. Anda dapat memiliki tautan atribusi sebagai persyaratan untuk penggunaan data.
  • Rangkul komunitas. Jika Anda menjangkau orang yang tepat dengan cara yang benar, Anda akan mendapatkan tautan eksternal melalui blog dan Twitter.
  • Cari cara untuk membuat komunitas di sekitar data Anda. Temukan cara untuk menjadikannya sosial. API, mashup, widget sosial semuanya membantu, tetapi demikian juga blog, pameran komunitas, forum, dan mekanisme permainan (juga, lihat video ini ).
  • Prioritaskan konten mana yang telah Anda indeks. Dengan data sebanyak itu, tidak semuanya akan menjadi sangat vital. Buat keputusan strategis untuk konten apa yang paling penting, mis., Itu akan menjadi paling populer, memiliki peluang terbaik di ROI, itu akan menjadi yang paling berguna, dll. Dan pastikan bahwa konten diindeks terlebih dahulu.
  • Lakukan analisis terperinci tentang apa yang dilakukan pesaing Anda agar konten mereka diindeks. Lihatlah arsitektur situs mereka, navigasi mereka, tautan eksternal mereka, dll.

Akhirnya, saya harus mengatakan ini. SEO dan pengindeksan hanya bagian kecil untuk menjalankan situs bisnis. Jangan kehilangan fokus pada ROI demi SEO. Meskipun Anda memiliki banyak lalu lintas dari Google, tidak masalah jika Anda tidak dapat mengubahnya. SEO itu penting, tetapi perlu dijaga agar tetap dalam perspektif.

Edit :

Sebagai tambahan untuk kasus penggunaan Anda: Anda dapat mempertimbangkan untuk menawarkan ulasan atau testimonial untuk setiap orang atau bisnis. Juga, memberikan lencana pengguna seperti StackOverflow memang bisa memikat setidaknya beberapa orang untuk menautkan ke profil mereka sendiri di situs Anda. Itu akan mendorong beberapa orang luar menautkan ke halaman Anda yang dalam, yang bisa diindeks lebih cepat.


1
+1 - Selalu menyebutkan bahwa SEO adalah mikrokosmos dari masalah yang lebih besar dalam mempromosikan bisnis; itu juga yang paling mudah (untuk orang yang berpikiran teknis, setidaknya) untuk tersesat. Lebih banyak orang menonton TV sekarang daripada pada titik waktu sebelumnya dalam sejarah - tergantung pada apa yang Anda tawarkan, iklan TV mungkin memiliki yang lebih baik ROI daripada PPC ...
danlefree

Ide bagus tentang Microformats. Ini bukan peluru perak, tetapi kami memiliki sejumlah tempat di mana markup semantik menggunakan standar mikroformat dapat membantu.
Chris Adragna

1
Saya tidak tahu apakah ada Microformats (selain mungkin cap waktu) berarti diindeks lebih cepat, tetapi mungkin ada manfaat SEO lainnya dalam menggunakannya. Paling tidak, itu membuat halaman Anda lebih mudah untuk dijelajahi dan dapat membantu membuat entri Anda menonjol pada halaman hasil mesin pencari (tergantung pada mikroformat).
Virtuosi Media

5

Bagaimana cara mendapatkan puluhan juta halaman diindeks oleh Google bot?

Namun, itu tidak akan terjadi dalam semalam, saya jamin Anda akan melihat lebih banyak halaman Anda jelajahi lebih cepat jika tautan masuk ke konten yang dalam (khususnya halaman sitemap atau indeks direktori yang mengarah ke konten yang lebih dalam) ditambahkan dari situs-situs serupa yang juga telah ada untuk sementara waktu.

Apakah domain yang lebih lama cukup untuk mendapatkan 100.000 halaman diindeks per hari?

Diragukan, kecuali jika Anda berbicara tentang domain lama yang memiliki aktivitas signifikan di dalamnya (mis., Akumulasi konten dan tautan masuk) selama bertahun-tahun.

Apakah ada konsultan SEO yang berspesialisasi dalam membantu proses pengindeksan itu sendiri.

Ketika Anda mengajukan pertanyaan seperti itu, saya yakin Anda akan menemukan banyak SEO yang dengan keras menyatakan "ya!" tetapi, pada akhirnya, saran Virtuosi Media adalah saran yang baik yang akan Anda dapatkan dari salah satu dari mereka (untuk mengatakan tidak ada saran yang berpotensi buruk).

Dari situ, Anda harus mempertimbangkan memanfaatkan pengembangan bisnis dan saluran hubungan masyarakat untuk membangun peringkat situs Anda pada titik ini - dapatkan lebih banyak tautan ke konten Anda (lebih disukai dengan bermitra dengan situs yang ada yang menawarkan konten bertarget kawasan untuk terhubung ke Anda konten yang dibagi secara regional, misalnya), membuat lebih banyak orang menjelajah ke situs Anda (beberapa akan menginstal toolbar Google sehingga lalu lintas mereka dapat mengarah ke penemuan halaman), dan, jika mungkin, membuat bisnis Anda dibicarakan di berita atau di komunitas orang yang membutuhkannya (jika Anda berencana mengenakan biaya untuk layanan tertentu, pertimbangkan untuk mengiklankan periode uji coba gratis untuk menarik minat).


3

Ada dua pilihan yang saya tahu tentang bantuan.

Satu: Trik kecil yang saya coba dengan sebuah situs web yang memiliki tiga juta halaman yang bekerja dengan sangat baik adalah apa yang rekan saya buat sebagai loop perayapan. Anda mungkin harus memanipulasi idenya sedikit agar sesuai dengan situs Anda.

Pada dasarnya kami menetapkan hari di mana kami tidak berpikir kami akan mendapatkan banyak lalu lintas (natal) dan kami benar-benar menyalin daftar setiap tautan tunggal di situs kami dan menempelkan setiap satu ke dalam file php yang dipanggil pada setiap halaman web tunggal. (File php bilah sisi)

Kami kemudian terpaksa pergi ke google search console (sebelumnya google webmaster tools) dan menyuruh google untuk mengambil url dan merayapi setiap tautan di halaman url itu.

Karena Anda memiliki begitu banyak tautan, dan halaman-halaman yang memiliki tautan juga memiliki jumlah tautan yang melimpah, Google melakukan sedikit perulangan dan menjelajah situs dengan cara yang jauh lebih cepat. Awalnya saya skeptis tetapi itu bekerja seperti pesona.

Sebelum Anda melakukan ini, Anda harus memastikan bahwa Anda memiliki pengaturan database yang sangat efisien dan server yang sangat kuat jika tidak dapat membebani server atau melukai SEO Anda karena waktu buka halaman yang lambat.

Jika itu bukan pilihan bagi Anda, Anda selalu dapat melihat ke apis konsol cloud Google. Mereka memiliki api konsol pencarian sehingga Anda dapat menulis skrip untuk menambahkan setiap halaman web sebagai contoh situs web sendiri di konsol pencarian atau membuat google mengambil setiap url Anda.

Apis bisa menjadi rumit dengan sangat cepat tetapi merupakan alat yang luar biasa bila digunakan dengan benar.

Semoga berhasil!


1
Menghubungkan halaman Anda bersama adalah strategi yang bagus untuk membuat mereka semua dijelajahi. Jauh lebih baik daripada mencoba mengandalkan sitemap XML. Namun, saya akan membiarkan tautan-tautan itu tetap di tempat sepanjang waktu daripada pada hari Natal. Segera setelah Anda menurunkan tautan, Google akan melihat halaman kehilangan tautan dan berhenti mengindeksnya.
Stephen Ostermiller

2

Game sistem tidak pernah merupakan ide yang baik jika Anda menjalankan bisnis yang sah yang menghargai reputasi online-nya. Juga, jika situs Anda benar-benar memberikan nilai, maka semakin lama (saya menganggap Anda melakukan beberapa bentuk pemasaran?) Semakin banyak backlink akan bertambah, sehingga PR Anda akan naik dan tingkat perayapan Anda akan naik.

Juga, jika Anda memiliki struktur tautan yang baik di situs Anda (semua halaman Anda dapat ditemukan dalam jumlah klik / tautan yang masuk akal), maka Anda hanya perlu mengirimkan indeks utama melalui sitemap. Setelah halaman-halaman itu diindeks oleh Google, mereka akan dirayapi oleh Google, dan Google akan mengindeks sisa halaman itu sendiri.


+1 RE: game sistem - meskipun saya pikir perlu dicatat bahwa ada banyak alternatif untuk game sistem yang memungkinkan webmaster untuk menghasilkan backlink yang sah (yang akan berguna bagi pengunjung) ke situsnya.
danlefree

@danlefree: Pasti. Saya hanya merujuk untuk membeli nama domain kadaluwarsa untuk mendapatkan sisa PR / traffic. Tetapi jika Anda dapat mengiklankan situs Anda, mengirimkan siaran pers untuk publikasi perdagangan, situs ulasan aplikasi, dll. Maka itu adalah cara yang sangat baik untuk menghasilkan backlink yang sah.
Lèse majesté

2

Satu hal yang saya perhatikan dari alat webmaster google adalah bahwa mereka memulai dengan memungkinkan tingkat perayapan maksimum sekitar dua permintaan per detik. Kemudian sekitar seminggu kemudian, jika mereka menemukan bahwa situs web tersebut sering diakses, maka mereka akan memungkinkan Anda untuk meningkatkan batas Anda.

Saya ikut menjalankan situs web yang menampung lebih dari 500.000 gambar asli dan kadang-kadang, batas maksimum saya adalah 10 permintaan per detik karena saya mendapatkan setidaknya 700 hingga 1.000 klik sehari jika tidak lebih.

Jadi yang mungkin ingin Anda lakukan adalah memeriksa dengan alat webmaster setiap minggu untuk melihat apakah Anda dapat meningkatkan batas perayapan. Ketika Anda mengubah batas perayapan, google akan mengatur ulang kembali ke pengaturan yang mereka sukai setelah hari tertentu berlalu (yang akan ditunjukkan oleh antarmuka Anda). Kemudian pada hari itu, naikkan batas lagi.


2

Saya baru saja mengalami situs semacam ini. Saya menjalankan direktori artikel bertahun-tahun yang lalu dan% halaman yang diindeks dan yang lebih penting sebenarnya berkinerja cukup banyak berkorelasi langsung dengan jumlah domain pengarah - yaitu jumlah situs web unik yang terhubung. Sebuah situs besar dengan jutaan halaman membutuhkan beberapa 1.000 domain wajar yang menautkan untuk melakukan sendiri.

Ini tidak akan terjadi dalam semalam, tetapi jika Anda membangun 5-10 tautan yang baik per hari, maka itu akan mulai terjadi, maka Anda akan berada dalam posisi untuk menghasilkan pendapatan dan menggunakannya untuk membayar pakaian SEO profesional untuk membangun tautan untukmu.

Saya sedang membangun situs kaya informasi serupa pada saat ini, ini adalah hari-hari awal tetapi saya memiliki masalah yang sama dengan itu sekitar 4 juta halaman konten dengan tingkat perayapan 700-1.000 halaman per hari.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.