Google masih merayapi dan mengindeks halaman pengujian saya yang lama, dummy, yang sekarang tidak ditemukan


19

Saya telah menyiapkan situs saya dengan halaman contoh dan data (lorem ipsum, dll.) Dan Google telah merayapi halaman ini. Saya menghapus semua halaman ini dan benar-benar menambahkan konten nyata tetapi dalam alat webmaster, saya masih mendapatkan banyak 404 kesalahan yang Google coba perayapan halaman ini. Saya telah mengatur mereka untuk "menandai sebagai terselesaikan" tetapi beberapa halaman masih kembali sebagai 404.

Selain itu, saya masih memiliki banyak halaman sampel yang terdaftar ketika saya melakukan pencarian situs saya di Google. Cara menghapusnya. Saya pikir halaman yang tidak relevan ini merusak peringkat saya.

Saya sebenarnya ingin menghapus semua halaman ini dan mulai membuat situs saya diindeks sebagai yang baru, tetapi saya membacanya tidak mungkin? (Saya telah mengirimkan peta situs dan menggunakan "Ambil sebagai Google.")

Jawaban:


17

Baik. Hal pertama yang pertama. Jangan tandai 404 Anda sebagai diperbaiki . Anda sebenarnya memperpanjang masalah. Google akan mencoba dan mengambil halaman yang mengembalikan 404 beberapa kali sebelum menyerah. Ini karena kesalahan 404 menunjukkan situasi sementara di mana kesalahan 410 mengatakan halaman hilang . Jadi, setiap kali Anda menandai 404 sebagai diperbaiki , Anda sebenarnya memberi tahu Google untuk mencoba lagi sehingga memulai proses eliminasi lagi.

Biarkan saja halaman-halaman ini 404 untuk sementara waktu dan Google akan berhenti mencari mereka dan akan menjatuhkan halaman dari indeks. Ini akan memakan waktu, tetapi kekurangan 410 kesalahan, ini adalah cara termudah. Kesalahan 410 akan membuat proses lebih cepat, tetapi lebih sulit untuk menyajikan kesalahan 410 dan 404 adalah default menjadikannya solusi yang lebih mudah dan alami.

Halaman Anda yang dihapus akan menghilang dalam waktu sekitar 30-60 hari jika Anda bisa menunggu. Itu tergantung pada seberapa sering Google mengunjungi halaman Anda. Ini bisa memakan waktu lebih lama, tetapi sekali 404 ditemukan, Google suka memeriksa tempat pertama kali, kemudian tergantung pada berapa banyak 404 ada, mungkin laba-laba situs Anda lebih agresif.

Menggunakan sitemap sebenarnya umumnya tidak memperbaiki masalah dengan indeks. Itu hanya membuat hidup lebih sederhana untuk mesin pencari. Itu tidak pernah dianggap sebagai daftar semua-semua-akhir dari semua situs yang dimiliki. Jika mesin pencari membaca sitemap dan masih menemukan halaman yang tidak tercantum dalam sitemap, itu akan terus mengindeks halaman tersebut.

Satu opsi jika masuk akal untuk dilakukan, adalah mendaftar halaman-halaman ini dalam file robots.txt Anda. Jika tidak terlalu banyak (berarti sesuatu yang dapat Anda lakukan dan file robots.txt Anda tidak akan terlalu lama), itu akan menjadi solusi yang lebih cepat. Kalau tidak, saya hanya akan menunggu dan membiarkan 404 kesalahan berakhir sendiri.

Satu kata terakhir. Kamu akan baik baik saja. Sangat. Itu semua akan bekerja dengan baik untuk Anda jika Anda sabar.


1
Menambahkan 404 halaman ke robots.txt terdengar seperti praktik yang buruk. Ini hanya akan membingungkan perayap dan membutuhkan banyak pembersihan yang sama sekali tidak perlu.
Dorus

@ Dorus Tidak sama sekali. Yang satu tidak ada hubungannya dengan yang lain. Menambahkan halaman apa pun ke file robots.txt akan menghapus halaman dari indeks dengan sangat cepat. Juga, mesin pencari tidak akan mencoba dan mengakses file dan karenanya tidak ada 404.
closetnoc

1
Seperti yang Anda katakan, jika Anda menambahkannya ke robots.txt, mesin pencari tidak akan mencoba mengakses ke halaman tersebut, tetapi halaman tersebut akan tetap ada. Jadi, jika suatu hari Anda menghapusnya dari robot, pengindeksan akan kembali. Ini adalah praktik yang lebih baik untuk membiarkan 404 atau 410 melakukan pekerjaan.

@closetnoc Apa maksudmu dengan it is harder to present a 410 error?
Evgeniy

@Evgeniy Kesalahan 404 adalah apa yang diberikan secara default (setidaknya Apache dan IIS yang lebih lama). Kesalahan 410 harus disengaja dan membutuhkan beberapa pekerjaan untuk mewujudkannya. Secara teknis, ini bukan tugas yang sulit, namun memang membutuhkan keahlian meskipun tidak banyak. Bersulang!!
closetnoc

8

Setelah Anda menerbitkan halaman, Google tidak akan pernah melupakannya. Saya memiliki situs tempat saya menghapus halaman 15 tahun yang lalu. Googlebot masih kembali dan memeriksa halaman-halaman itu sesekali.

Untuk mencegah halaman muncul di mesin pencari, 404 kesalahan Anda akan melakukan pekerjaan. Mungkin Google membutuhkan waktu sehari untuk menghapus halaman dari indeks setelah Googlebot merayapnya berikutnya. Jika Anda ingin menghapusnya lebih cepat, kembalikan status "410 Gone". Google menghapus 410 halaman segera setelah merangkaknya alih-alih menunggu sehari. Google tidak segera menghapus 404 halaman untuk mencegah master web menembak diri mereka sendiri seperti yang dijelaskan oleh Matt Cutts :

Jadi dengan 404-an, bersama dengan saya pikir 401-an dan mungkin 403-an, jika kita melihat halaman dan kita mendapatkan 404, kita akan melindungi halaman itu selama 24 jam dalam sistem perayapan, jadi kita semacam menunggu dan kita katakan mungkin itu adalah sementara 404, mungkin itu benar-benar tidak dimaksudkan untuk menjadi halaman yang tidak ditemukan.

Metode lain yang dapat Anda pertimbangkan adalah pengalihan. 301 mengalihkan halaman lama ke pengganti akan mencegahnya muncul sebagai kesalahan di Alat Webmaster Google. Ini hanya mungkin jika ada beberapa halaman baru untuk masing-masing halaman lama. Mengarahkan semua halaman pengujian ke halaman rumah Anda tidak akan membantu, karena Google menganggap pengalihan ke halaman rumah sebagai kesalahan "soft 404" yang masih akan muncul dalam laporan itu.

Memiliki 404 kesalahan di Alat Webmaster tidak akan menyakiti Anda. Memiliki 404 kesalahan di situs Anda bahkan dapat membantu Anda karena ini menunjukkan kepada Googlebot bahwa situs Anda dikonfigurasi dengan benar. Berikut adalah apa yang dikatakan John Mueller dari Google (yang bekerja di Alat Webmaster dan Peta Situs) tentang 404 kesalahan yang muncul di alat Webmaster :

TOLONG! SITUS SAYA MEMILIKI 939 CRAWL ERRORS !!

Saya melihat pertanyaan semacam ini beberapa kali seminggu; Anda tidak sendirian - banyak situs web memiliki kesalahan perayapan.

  1. 404 kesalahan pada URL yang tidak valid tidak merusak indeks atau peringkat situs Anda dengan cara apa pun. Tidak masalah jika ada 100 atau 10 juta, mereka tidak akan membahayakan peringkat situs Anda. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. Dalam beberapa kasus, kesalahan perayapan mungkin berasal dari masalah struktural yang sah dalam situs web atau CMS Anda. Bagaimana Anda tahu Periksa kembali asal galat perayapan. Jika ada tautan rusak di situs Anda, di HTML statis halaman Anda, maka itu selalu layak diperbaiki. (terima kasih + Martino Mosna )
  3. Bagaimana dengan URL funky yang “jelas-jelas rusak?” Ketika algoritme kami menyukai situs Anda, mereka mungkin mencoba menemukan lebih banyak konten hebat di dalamnya, misalnya dengan mencoba menemukan URL baru di JavaScript. Jika kami mencoba "URL" itu dan menemukan 404, itu bagus dan diharapkan. Kami hanya tidak ingin ketinggalan sesuatu yang penting (masukkan meme Googlebot yang terlampir di sini). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Anda tidak perlu memperbaiki kesalahan perayapan di Alat Webmaster. Fitur "tandai sebagai tetap" hanya untuk membantu Anda, jika Anda ingin melacak kemajuan Anda di sana; itu tidak mengubah apa pun dalam pipa pencarian web kami, jadi silakan abaikan saja jika Anda tidak membutuhkannya. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Kami mencantumkan kesalahan perayapan di Alat Webmaster menurut prioritas, yang didasarkan pada beberapa faktor. Jika halaman pertama kesalahan perayapan jelas tidak relevan, Anda mungkin tidak akan menemukan kesalahan perayapan penting di halaman selanjutnya. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Tidak perlu "memperbaiki" kesalahan perayapan di situs web Anda. Menemukan 404 adalah normal dan diharapkan dari situs web yang sehat dan terkonfigurasi dengan baik. Jika Anda memiliki URL baru yang setara, maka mengalihkan ke itu adalah praktik yang baik. Jika tidak, Anda tidak boleh membuat konten palsu, Anda tidak boleh mengarahkan ulang ke beranda Anda, Anda tidak boleh robots.txt melarang URL tersebut - semua hal ini mempersulit kami untuk mengenali struktur situs Anda dan memprosesnya dengan benar. Kami menyebut kesalahan "soft 404" ini. http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Jelas - jika kesalahan perayapan ini muncul untuk URL yang Anda pedulikan, mungkin URL di file Peta Situs Anda, maka itu adalah sesuatu yang harus segera Anda ambil tindakan. Jika Googlebot tidak dapat menjelajah URL penting Anda, maka URL itu mungkin akan turun dari hasil pencarian kami, dan pengguna mungkin tidak dapat mengaksesnya juga.

1
Itu sama sekali bukan pengalaman saya. Google menginginkan indeks baru dan menghapus halaman dengan cukup cepat. Apa yang saya lihat yang tampaknya mirip dengan apa yang Anda gambarkan, adalah di mana situs-situs lain menggunakan Google API di masa lalu, jangan menyegarkan kembali datanya dan akan mengutip karya lama Anda. Ini sering merupakan situs spam / sampah dan kutipan ini dapat muncul / tetap / hilang / muncul kembali. Alasan utama yang saya lihat untuk ini adalah karena Google API dulu agak tidak pilih-pilih dan tidak lagi sehingga data spam jauh lebih tua karena data yang lebih baru sangat sulit didapat terutama jika Anda telah mem-spammed di masa lalu.
closetnoc

1
Googlebot memiliki mode perayapan yang saya sebut "kami menemukan kotak URL di ruang bawah tanah". Dalam mode perayapan ini, ia dapat merayapi seribu URL dari situs Anda berturut-turut, tidak ada yang pernah Anda gunakan selama bertahun-tahun. URL biasanya tidak memiliki tautan masuk, bahkan dari situs scraper. Mereka dirayapi dalam urutan panjang, URL yang lebih pendek dirayapi terlebih dahulu.
Stephen Ostermiller

Itu mungkin benar. Google jelas merupakan data besar. Basis data besar memiliki kebisingan di dalamnya. Itu tidak bisa dihindari. Itu mungkin yang Anda alami. Mungkin saja berbagai database sedang direkonsiliasi. Itu masuk akal. Tetapi saya juga memperingatkan Anda bahwa situs sampah hanya dapat muncul selama 2 jam dengan tautan lama dan kutipan lama. Saya melihat ini setiap hari. Mereka berada di Rusia dan Polandia terutama. Situs-situs ini digunakan untuk memainkan mesin pencari lokal, tetapi memengaruhi lalu lintas ke situs mana pun dan dapat diambil oleh Google. Saya mendapatkan sekitar 12 di database saya setiap hari. Secara umum, hanya 1 dari 12 situs yang tersisa untuk periode apa pun.
closetnoc

Apa kesalahan 939?
Greg Nickoloff

939 adalah jumlah kesalahan, itu bukan jenis kesalahan.
Stephen Ostermiller

5

Google kemungkinan akan terus mencoba merayapi halaman ini untuk waktu yang lama. Webmaster membuat kesalahan, atau situs menjadi tidak tersedia karena alasan apa pun, sehingga Google tidak akan menghapus konten pada tanda pertama 404.

Atau Anda bisa melayani 410 Gone saja. Ini adalah sinyal yang jauh lebih kuat (mis. Disengaja) bahwa halaman tersebut secara harfiah telah "hilang" dan tidak akan kembali. Ini bisa mendorong Google untuk menghapus halaman dari SERPs lebih cepat.

Saya telah mengatur mereka untuk "menandai sebagai terselesaikan" tetapi beberapa halaman masih kembali sebagai 404.

Mereka hanya "diselesaikan" jika Anda telah mengembalikan halaman. Jika Anda menandainya sebagai terselesaikan dan halaman tersebut tidak ada maka kesalahan crawl hanya akan berulang. Jika halaman itu tidak ada maka biarkan saja apa adanya.

Asli 404 tidak membahayakan peringkat pencarian Anda. Laporan 404 di GWT terutama untuk keuntungan Anda sehingga Anda dapat melihat ketika ada yang salah ... saat laman tidak dapat ditemukan yang seharusnya ditemukan!

Halaman-halaman yang tidak relevan dalam SERP ini mungkin sedikit mengganggu bagi pengguna Anda, namun, apa yang mereka cari untuk menemukan lorem ipsum Anda ?

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.