Apakah mungkin untuk memperlambat frekuensi perayapan Baiduspider?


18

Frekuensi perayapan laba-laba Baidu telah banyak dibuat. Itu benar: "Baiduspider merangkak seperti orang gila."

Saya mengalami fenomena ini di situs tempat saya bekerja. Setidaknya dalam satu contoh, saya telah menemukan bahwa Baiduspider merangkak pada frekuensi yang sama dengan Googlebot, meskipun Baidu memberikan lalu lintas sekitar 0,1% lebih banyak daripada Google.

Saya ingin menyimpan kunjungan itu di situs saya, sesedikit mungkin (mungkin suatu hari nanti akan bertambah?), Tetapi saya tidak dapat membenarkan membiarkan beban yang begitu banyak di server saya.

Jawaban yang diterima untuk pertanyaan yang ditautkan di atas menunjukkan Baidu Webmaster Tools menawarkan kesempatan untuk membatasi tingkat perayapan, tapi saya ragu untuk membuka bahwa kaleng (hanya khusus Cina) dari cacing.

Adakah yang punya pengalaman membatasi Baiduspider crawl rate dengan BWT? Apakah ada cara lain untuk membatasi beban ini?

Jawaban:


11

Pertanyaan yang bagus, dan satu banyak webmaster mungkin tertarik karena laba-laba Baidu sangat agresif dan dapat menyaring sumber daya dari server ...

Seperti yang ditunjukkan dalam berita Pencarian Web Baidu, laba-laba Baidu tidak mendukung pengaturan notifikasi keterlambatan perayapan , dan sebaliknya mengharuskan Anda untuk mendaftar dan memverifikasi situs Anda dengan platform Baidu Alat Webmaster, seperti yang dinyatakan di sini di situsnya. Tampaknya ini adalah satu-satunya pilihan untuk mengontrol frekuensi perayapan secara langsung dengan Baidu.

Masalahnya adalah bahwa bot spam lain menggunakan agen-pengguna Baidu (tercantum di sini di bawah nomor 2) untuk spider situs Anda, seperti yang ditunjukkan dalam FAQ mereka di sini di bawah nomor 4. Jadi meminta laju perayapan yang lebih lambat dengan Baidu mungkin tidak menyelesaikan semuanya.

Oleh karena itu, jika Anda memutuskan untuk menggunakan Alat Webmaster Baidu, mungkin juga bijaksana untuk membandingkan agen penggunanya dengan IP yang diketahui terkait dengan mereka dengan menggunakan sumber daya seperti Bots vs Browser Browser Database , atau menggunakan reverse DNS lookup

Satu-satunya pilihan lain adalah memblokir semua agen pengguna Baidu, dan dengan demikian mengorbankan potensi lalu lintas dari Baidu, atau berupaya membatasi permintaan berlebihan menggunakan sesuatu seperti mod_qos untuk Apache, yang mengklaim mengelola:

  • Jumlah maksimum permintaan bersamaan untuk lokasi / sumber daya (URL) atau host virtual.
  • Batasan bandwidth seperti jumlah permintaan maksimum yang dibolehkan per detik untuk URL atau maksimum / minimum kbytes yang diunduh per detik.
  • Membatasi jumlah acara permintaan per detik (kondisi permintaan khusus).
  • Itu juga dapat "mendeteksi" orang-orang yang sangat penting (VIP) yang dapat mengakses server web tanpa atau dengan batasan lebih sedikit.
  • Baris permintaan umum dan filter header untuk menolak operasi yang tidak sah. Meminta pembatasan dan pemfilteran data tubuh (memerlukan mod_parp).
  • Keterbatasan pada level koneksi TCP, mis., Jumlah maksimum koneksi yang diperbolehkan dari satu alamat sumber IP atau kontrol keep-hidup dinamis.
  • Lebih suka alamat IP yang dikenal ketika server kehabisan koneksi TCP gratis.

Saya belum menemukan pengalaman yang dilaporkan dengan Baidu Webmaster Tools, yang lambat dimuat dan memiliki masalah terjemahan (tidak ada versi bahasa Inggris juga). Itu mungkin membantu, tapi tentu saja berdasarkan opini.


1
Ini sangat membantu @Dan. Mencoba beberapa solusi ini (Baidu Webmaster Tools sungguh menyebalkan.) Akan melaporkan kembali.
samthebrand

1
Terima kasih! Hebat - Saya akan memperbarui ini jika saya menemukan opsi lain juga. Pertanyaan ini mencerminkan banyak frustrasi webmaster dengan bot yang agresif, dan kekhawatiran dengan berinteraksi dengan mereka (misalnya, Baidu Webmaster Tools). Semoga bot yang sah akan mempertimbangkan hal ini, dan alat / opsi yang lebih baik akan tersedia.
dan

@samthebrand dan dan - tolong laporkan kembali! Sudahkah Anda menemukan solusi lain yang dapat Anda rekomendasikan?
lazysoundsystem

5

Setelah banyak penelitian dan percobaan dengan ini, saya akhirnya menggigit peluru dan membuat akun Alat Baidu Webmaster. Cukup mudah digunakan ketika dipersenjatai dengan Google Translate di jendela lain. Anda mungkin perlu mengaktifkan pembakar agar dapat menyalin dan menempel teks Cina dari tombol yang tidak dapat Anda ambil dari mode browser normal.

Setelah Anda menyiapkan, Anda perlu menunggu beberapa hari hingga data perayapan muncul dan kemudian Anda dapat menyesuaikan tingkat perayapan. Itu muncul di bagian yang disebut "Tekanan" yang harus Anda dapatkan dengan URL ini:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Perhatikan bahwa Anda hanya akan dapat menggunakan URL ini jika Anda memiliki pengaturan akun Alat Baidu Webmaster dan Anda telah mengaitkan URL situs web Anda dengan akun Anda untuk situs web yang dimaksud). Di sini Anda akan melihat slider dengan laju perayapan Anda saat ini di tengah (dalam kasus saya 12676 permintaan per hari. Geser ke kiri untuk mengurangi laju perayapan.

Saya belum tahu apakah itu benar-benar menghormati permintaan Anda. Ini memberi Anda peringatan yang mengatakan sesuatu seperti ini. "Kami menyarankan Anda untuk menggunakan situs standar Baidu tingkat perayapan. Hanya jika situs web Anda memiliki masalah dengan perayapan kami kemudian gunakan alat ini untuk menyesuaikannya. Untuk mempertahankan perayapan normal situs Anda, Baidu akan mengambil penyesuaian tingkat perayapan ke dalam akun dengan aktual kondisi situs dan karena itu tidak dapat menjamin untuk menyesuaikan sesuai dengan permintaan Anda. "


1
Saya yakin saya bukan satu-satunya yang akan menghargai pembaruan tentang ini - apakah itu menghormati permintaan? Apakah Anda menyarankan untuk membuat akun?
lazysoundsystem

Baru saja memperbarui URL langsung ke halaman penyesuaian frekuensi merangkak, karena telah lebih terkubur di Alat Webmaster sekarang (tidak ada dalam menu lagi). Google translate membuatnya sangat sulit ditemukan karena terjemahan yang membingungkan ;-)
odony

-1

Ya, Anda dapat menggunakan Crawl-delayparameter di robots.txt untuk menetapkan jumlah detik untuk menunggu antara permintaan berturut-turut ke server yang sama.

User-agent: Baiduspider
Crawl-delay: 100

Baris pertama hanya kirim perayap Web Baidu untuk menghormati perintah. Baris ke-2 adalah waktu untuk menunggu dalam hitungan detik antara permintaan ke server. Anda dapat menambahkan waktu tunda yang Anda inginkan untuk kebutuhan Anda.

Anda perlu menambahkan perintah-perintah ini ke file robots.txt Anda yang sudah ada . Jika Anda belum memiliki file robots.txt , tambahkan kode di atas ke file teks, simpan file sebagai robots.txt dan unggah ke folder root situs web Anda, sehingga muncul di alamat di bawah ini:

www.examplesite.com/robots.txt

2
Baiduspider tidak mendukung Crawl-Delay. Lihat di sini .
samthebrand

Aduh, sudah melihatnya di beberapa situs file robots.txt jadi anggaplah begitu! Bagaimana pepatah itu?
Maks
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.