Mengapa Google mengunduh binari dari situs web saya dan menggunakan bandwidth?


9

Sejak sekitar pertengahan Agustus 2014, beberapa server Google telah mengunduh semua (sangat) file biner besar di situs web saya, sekitar seminggu sekali. Semua IP ditampilkan sebagai milik Google, dan terlihat seperti ini: google-proxy-66-249-88-199.google.com. Ini adalah permintaan GET, dan mereka sangat mempengaruhi lalu lintas server saya.

Sebelum ini, saya tidak melihat lalu lintas dari IP proxy Google ini, jadi ini sepertinya sesuatu yang relatif baru. Saya memang melihat semua jenis lalu lintas dari IP Google lain, semuanya googlebot dan permintaan HEAD saja.

Saya tidak akan khawatir tentang ini kecuali bahwa semua file ini sedang diunduh oleh Google sekitar setiap minggu. Bandwidth yang digunakan mulai menjadi berlebihan.

Saya berspekulasi bahwa karena banyak dari file-file ini yang dapat dieksekusi Windows, mungkin Google mengunduhnya untuk melakukan pemindaian malware. Bahkan jika itu benar, apakah itu benar-benar perlu terjadi setiap minggu?

Contoh lalu lintas dari IP proxy google pada bulan November sejauh ini:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

Pembaruan # 1: Saya lupa menyebutkan bahwa file yang dimaksud sudah ada di file robots.txt situs. Untuk menuntut konfigurasi robots.txt berfungsi dengan baik, saya juga menggunakan tester robots.txt di Google Webmaster Tools, yang menunjukkan bahwa file-file tersebut pasti sedang diblokir untuk semua bot Google, dengan satu pengecualian: Adsbot-Google. Saya juga tidak yakin tentang apa itu. DAN aku mencari Google untuk beberapa file, dan mereka TIDAK muncul di hasil pencarian.

Pembaruan # 2: Contoh: antara 5:12 dan 5:18 pagi PST pada 17 November, sekitar setengah lusin IP (semua google-proxy) melakukan GET pada semua file biner yang dipertanyakan, 27 total. Pada 4 November antara 14:09 dan 14:15 PST, IP yang sama pada dasarnya melakukan hal yang sama.

Pembaruan # 3: Pada titik ini tampak jelas bahwa meskipun ini adalah IP Google yang valid, mereka adalah bagian dari layanan proxy Google, dan bukan bagian dari sistem perayapan web Google. Karena ini adalah alamat proxy, tidak ada cara untuk menentukan dari mana sebenarnya permintaan GET berasal, atau apakah mereka berasal dari satu tempat atau banyak. Berdasarkan sifat sporadis GET, tampaknya tidak ada sesuatu yang jahat terjadi; kemungkinan hanya seseorang yang memutuskan untuk mengunduh semua binari saat menggunakan layanan proxy Google. Sayangnya, layanan itu tampaknya sepenuhnya tidak berdokumen, yang tidak membantu. Dari sudut pandang administrator situs, proksi agak menjengkelkan. Saya tidak ingin memblokir mereka, karena mereka memiliki kegunaan yang sah. Tapi mereka juga bisa disalahgunakan.


Pertanyaan bagus. Saya memilihnya! Anda pasti ingin memblokir ini menggunakan robots.txt. Mengapa Google mengunduh file yang dapat dieksekusi adalah di luar saya. Teori Anda sepertinya bagus, tetapi entah bagaimana, karena seringnya saya tidak yakin. Sepertinya agak aneh. Ini tampaknya alamat IP Googlebot yang valid, meskipun saya tidak memiliki google-proxy-66-102-6-104.google.com dalam daftar saya.
closetnoc

Saya lupa menyebutkan bahwa file yang dimaksud sudah ada di file robots.txt situs. Lihat Perbarui # 1 di atas.
boot13

Kamu membuatku bingung. Saya mempunyai kontraktor yang diharapkan sebentar lagi jadi saya harus memikirkan hal ini. Google telah melakukan hal-hal lucu dengan nama domain dan alokasi alamat IP mereka dan ada beberapa tumpang tindih dengan berbagai layanan Google termasuk hosting dan lainnya di mana bot orang dapat muncul di ruang alamat IP Google, namun, saya belum melihatnya menggunakan alamat IP Googlebot ruang. Saya berharap Google akan mengalokasikan ruang yang jelas untuk berbagai proses pencarian tanpa atau sedikit tumpang tindih sehingga sistem keamanan dapat mempercayai alamat IP ini dengan benar.
closetnoc

Jawaban:


3

Saya melakukan riset untuk pertanyaan ini dan menemukan beberapa tipis yang menarik, seperti:

1. Apakah ini crawler palsu? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

Kesimpulan dari pengguna:

'Perayap' ini bukan perayap tetapi merupakan bagian dari pratinjau situs web langsung yang digunakan dalam mesin pencari Google.

Saya telah mencoba ini, untuk menunjukkan salah satu situs web saya di pratinjau dan ya, itu dia, menerima pesan yang diblokir.

Jika Anda ingin pengguna dapat melihat pratinjau situs web Anda, Anda harus menerima 'perayap' ini.

Seperti kata orang lain: "domain root dari URL itu adalah google.com dan itu tidak dapat dengan mudah dipalsukan".

Kesimpulan: Anda dapat mempercayai bot ini atau perayap dan ini digunakan untuk menampilkan pratinjau di pencarian google.

Kami tahu pratinjau langsung tidak mengunduh file Anda, jadi mari kita beralih ke pertanyaan 2.

2. Apakah itu bagian dari layanan Google? -> Apakah proksi Google ini crawler palsu: google-proxy-66-249-81-131.google.com?

Kesimpulan:

Saya pikir, beberapa orang menggunakan layanan Google (seperti Google translate, Google mobile, dll.) Untuk mengakses (memblokir) situs web (di sekolah, dll.) Tetapi juga untuk serangan DOS dan aktivitas serupa.

Tebakan saya pada ini sama dengan yang di atas. Seseorang mencoba menggunakan layanan Google untuk mengakses file Anda, seperti penerjemah.

Jika, seperti yang Anda katakan, file sudah diblokir oleh robots.txt, ini hanya bisa menjadi permintaan manual.

EDIT: Untuk membahas Komentar OP secara luas:

Bisakah crawler mengabaikan robots.txt? Iya. Berikut daftar yang menurut saya tidak dilakukan oleh Google, yang artinya itu adalah bot lain yang menggunakan proxy Google.

Bisakah itu menjadi bot buruk? Ya, dan untuk itu saya sarankan:

.htaccess banning:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

Kode ini dapat mencekal IP atau agen Pengguna.

Atau gunakan Spider Trap, yang ditampilkan di sini

Saya menjaga pendapat saya bahwa ini adalah permintaan manual.


Saya melihat jawaban-jawaban itu juga, tetapi sepertinya tidak membahas masalah spesifik saya. Anda mungkin benar bahwa Google Proxy entah bagaimana disalahgunakan, dalam hal ini kemungkinan besar saya akan memblokirnya sepenuhnya, yang agak lumpuh. Pemahaman saya tentang robots.txt adalah bahwa perangkat lunak perayap dapat memilih untuk mengabaikannya. Bot yang bersahabat seharusnya menghormatinya, dan sebagian besar melakukannya, tetapi proksi (saya kira) berbeda.
boot13

1
@ boot13 Hati-hati. Ini adalah alamat IP Googlebot yang valid. Jadi, jika Anda memblokirnya, blokir hanya untuk file-file ini. Dengan asumsi bahwa Anda menggunakan Apache, Anda harus dapat melakukan ini dengan .htaccess. Tapi itu mungkin menyebabkan masalah lain jadi pastikan Anda memperhatikan Alat Webmaster Google untuk pesan.
closetnoc

@ boot13 Saya telah memperbarui jawaban saya. Bisakah Anda memeriksa apakah akses dilakukan pada hari / jam yang sama atau acak?
nunorbatista

@nunorbatista: mereka tampak acak. Saya telah memperbarui pertanyaan saya beberapa kali.
boot13

@nunorbatista: lihat Perbarui # 3 di atas. Ini bukan Googlebot atau perayap lainnya, ini adalah layanan proxy Google. Ini tidak terkait dengan pratinjau situs langsung Google. Sepertinya satu atau lebih orang baru saja mengunduh binari melalui Google Proxy, mungkin untuk mengatasi blok lokal atau pembatasan. Saran perangkap laba-laba tidak mungkin membantu karena lalu lintas tampaknya bukan bot. Saya ingin memblokir IP Google Proxy dari mengakses folder yang berisi binari; Saya akan mencoba menggunakan kode htaccess, tetapi tentu saja pengunduh selalu dapat beralih ke proksi lain, jadi mungkin tidak ada gunanya.
boot13
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.