(Selain jawaban @ John.)
Apakah ada cara untuk memberi tahu Google agar tidak mengindeks situs itu?
Agak penasaran bahwa sementara mereka tampaknya telah mengkloning segalanya (termasuk peta situs XML Anda * 1 ), mereka belum mengkloning file robots.txt Anda. Bahkan, robots.txt pada yang situs aktif blok merangkak dari segala sesuatu! Jadi sepertinya tidak ada yang bisa dilakukan dalam hal ini. Melakukan pencarian situs di bahwa domain kembali hanya domain telanjang dan pemberitahuan yang menyatakan bahwa yang diblokir oleh robots.txt.
(Agak penasaran apa niat mereka dalam melakukan ini? Anda mungkin bisa berasumsi bahwa mereka melakukan kesalahan dengan robot.txt - dan mungkin begitu - tetapi ini lebih seperti pengecualian yang disengaja bagi saya?)
Selain itu, sementara peta situs XML Anda dikloning, mereka tidak memperbarui URL di dalamnya (seperti yang mereka lakukan di halaman situs utama), jadi mereka masih menunjuk kembali ke situs Anda.
* 1 Mengenai peta situs XML. Di situs Anda "sitemap.xml" sebenarnya merupakan pengalihan ke "sitemap_index.xml" dan situs yang dikloning sebenarnya telah mengkloning pengalihan ... yang mengarahkan kembali ke situs Anda! (Tentunya kesalahan di pihak mereka.) "Sitemap_index.xml" hanyalah sebuah indeks, yang terhubung ke 4 sitemaps lainnya. Jika salah satu dari peta situs aktual ini diminta langsung di situs yang dikloning maka mereka akan dikloning dengan benar dan URL diperbarui. Namun, saya akan mengatakan bahwa peta situs ini tidak mungkin ditemukan di situs yang dikloning karena pengalihan awal "sitemap.xml". (?) Meskipun jika mereka mengirimkan "sitemap_index.xml" secara langsung maka itu jelas akan mengatasi redirect.