Saya perhatikan bahwa Alat Webmaster Google melaporkan banyak sumber daya yang diblokir di situs web saya. Saat ini semua "sumber daya yang diblokir" adalah .css, .js, dan gambar (.jpg, .png) yang saya layani dari Cloudfront CDN.
Saya telah menghabiskan banyak waktu pengujian dan mencoba mencari tahu mengapa google tidak merayapi file-file ini dan melaporkan status "blok sumber daya".
Saat ini saya melayani file-file ini dari beberapa nama host seperti: cdn1.example.com, cdn2.example.com,…
cdn1, cdn2 dan yang lainnya adalah CNAME untuk nama distribusi cloudfront.
Pengujian: Saya sudah mencoba menggunakan langsung distribusi cloudfront (tidak ada CNAME) tetapi masalahnya tetap ada.
Saat ini robots.txt saya terlihat seperti ini:
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
#Google images
User-agent: Googlebot-Image
Disallow: /
User-agent: *
Disallow: /homepage
Disallow: /index.php*
Disallow: /uncategorized*
Disallow: /tag/*
Disallow: *feed
Disallow: */page/*
Disallow: *author*
Disallow: *archive*
Disallow: */category*
Disallow: *tag=*
Disallow: /test*
Allow: /
Dan contoh file diblokir dalam satu halaman contoh:
cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css
cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css ,wp-content/themes/magazine/css/responsif .css
cdn5.example.com/wp-content/themes/magazine/images/nobg.png
cdn6.example.com/wp-content/plugins/floating-social-bar/images/fsb-sprite.png
cdn5.example.com/wp-content/uploads/2013/11/Design-Hotel-3-80x80.jpg
cdn5.example.com/wp-content/uploads/2013/11/Marta-Hotel-7-270x225.jpg
Saya bahkan sudah mencoba mengizinkan semuanya dalam robots.txt tetapi saya selalu memiliki hasil yang sama.
Saya juga telah melihat dengan hati-hati pada pengaturan CloudFront di Amazon dan tidak melihat apa pun yang dapat dikaitkan (Saya tidak menggunakan dan tidak pernah menggunakan opsi: "Batasi Akses Penampil (Gunakan URL yang Ditandatangani atau Cookie yang Ditandatangani)".
Saat ini saya telah menghabiskan banyak waktu untuk menyelidiki hal ini dan tidak memiliki ide lagi.
Adakah yang bisa memikirkan alasan mengapa Googlebot akan diblokir dari merayapi file yang dihosting di Amazon CloudFront?
*
di akhir "awalan" URL. /test*
sama dengan /test
.