Sejak sekitar pertengahan Agustus 2014, beberapa server Google telah mengunduh semua (sangat) file biner besar di situs web saya, sekitar seminggu sekali. Semua IP ditampilkan sebagai milik Google, dan terlihat seperti ini: google-proxy-66-249-88-199.google.com. Ini adalah permintaan GET, dan mereka sangat mempengaruhi lalu lintas server saya.
Sebelum ini, saya tidak melihat lalu lintas dari IP proxy Google ini, jadi ini sepertinya sesuatu yang relatif baru. Saya memang melihat semua jenis lalu lintas dari IP Google lain, semuanya googlebot dan permintaan HEAD saja.
Saya tidak akan khawatir tentang ini kecuali bahwa semua file ini sedang diunduh oleh Google sekitar setiap minggu. Bandwidth yang digunakan mulai menjadi berlebihan.
Saya berspekulasi bahwa karena banyak dari file-file ini yang dapat dieksekusi Windows, mungkin Google mengunduhnya untuk melakukan pemindaian malware. Bahkan jika itu benar, apakah itu benar-benar perlu terjadi setiap minggu?
Contoh lalu lintas dari IP proxy google pada bulan November sejauh ini:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Pembaruan # 1: Saya lupa menyebutkan bahwa file yang dimaksud sudah ada di file robots.txt situs. Untuk menuntut konfigurasi robots.txt berfungsi dengan baik, saya juga menggunakan tester robots.txt di Google Webmaster Tools, yang menunjukkan bahwa file-file tersebut pasti sedang diblokir untuk semua bot Google, dengan satu pengecualian: Adsbot-Google. Saya juga tidak yakin tentang apa itu. DAN aku mencari Google untuk beberapa file, dan mereka TIDAK muncul di hasil pencarian.
Pembaruan # 2: Contoh: antara 5:12 dan 5:18 pagi PST pada 17 November, sekitar setengah lusin IP (semua google-proxy) melakukan GET pada semua file biner yang dipertanyakan, 27 total. Pada 4 November antara 14:09 dan 14:15 PST, IP yang sama pada dasarnya melakukan hal yang sama.
Pembaruan # 3: Pada titik ini tampak jelas bahwa meskipun ini adalah IP Google yang valid, mereka adalah bagian dari layanan proxy Google, dan bukan bagian dari sistem perayapan web Google. Karena ini adalah alamat proxy, tidak ada cara untuk menentukan dari mana sebenarnya permintaan GET berasal, atau apakah mereka berasal dari satu tempat atau banyak. Berdasarkan sifat sporadis GET, tampaknya tidak ada sesuatu yang jahat terjadi; kemungkinan hanya seseorang yang memutuskan untuk mengunduh semua binari saat menggunakan layanan proxy Google. Sayangnya, layanan itu tampaknya sepenuhnya tidak berdokumen, yang tidak membantu. Dari sudut pandang administrator situs, proksi agak menjengkelkan. Saya tidak ingin memblokir mereka, karena mereka memiliki kegunaan yang sah. Tapi mereka juga bisa disalahgunakan.