Saya ingin menolak archive.is
memiliki akses ke situs web saya. (Saya tidak ingin situs web ini men-cache milik saya tanpa persetujuan saya).
Apakah Anda tahu itu mungkin?
Saya ingin menolak archive.is
memiliki akses ke situs web saya. (Saya tidak ingin situs web ini men-cache milik saya tanpa persetujuan saya).
Apakah Anda tahu itu mungkin?
Jawaban:
Baik. Ini yang baru (setidaknya untuk saya) dan sejauh ini cukup menarik. Saya tidak akan membahas hal ini.
Ketika saya menulis ini, saya bekerja pada sedikit atau tidak ada tidur. Saya melewatkan beberapa hal yang telah ditunjukkan dengan baik oleh @unor dan karenanya saya harus melunakkan jawaban saya dan memberikan kredit di mana kredit seharusnya jatuh tempo. @Unor terima kasih!
Archive.is terdaftar di Denis Petrov yang menggunakan akun Google webhost di alamat IP 104.196.7.222 [AS15169 GOOGLE - Google Inc.] menurut Domain Tools, meskipun saya memilikinya di 46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV]. Kemungkinan perusahaan induk baru-baru ini berubah.
Archive.today juga dimiliki oleh Denis Petrov dan mirip dengan Archive.is jika tidak identik. Untuk keperluan jawaban ini, saya akan membahas Archive.is dan Anda dapat berasumsi bahwa itu berlaku untuk Archive.today. Archive.today memang ada pada alamat IP lain 78.108.190.21 [AS62160 GM-AS Ya Networks Unlimited Ltd]. Harap mengerti bahwa Denis Petrov memiliki 70 domain. Tanpa menggali lebih dalam, ada kemungkinan bahwa ada lebih banyak situs yang perlu dikhawatirkan. Saya akan memberikan kode pemblokiran untuk ketiga alamat IP.
Archive.is diarahkan oleh pengguna. Diasumsikan bahwa Anda mengarsipkan halaman Anda sendiri. Selain skenario ini, Archive.is dapat dianggap sebagai situs spam pengikis konten.
Archive.is berjalan di garis berbahaya. Itu menggunakan konten situs lain melalui pengikisan halaman tunggal. Pada akhirnya, potensi pencarian konten asli setidaknya terdilusi dan berpotensi diambil sama sekali. Lebih buruk lagi, situs asli tidak disebut sebagai pencetus konten. Archive.is menggunakan tag kanonik, tetapi itu untuk situs / halaman itu sendiri.
Contoh: <link rel="canonical" href="http://archive.is/Eo267"/>
Ini ditambah dengan kurangnya kontrol atas siapa yang mengirimkan situs dan apakah mereka memiliki hak untuk situs, kurangnya informasi penghapusan yang jelas, dan mekanisme kontak yang agak kabur dan berpotensi lemah, Archive.is memiliki potensi nyata Masalah.
Anda dapat menemukan informasi alamat IP lebih lanjut di sini: https://www.robtex.com/#!dns=archive.is
Menggunakan Cisco Firewall.
access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any
** Catatan: Anda dapat mengganti [nama acl yang disediakan] dengan nama ACL pilihan Anda.
Menggunakan Nginx.
Edit nginx.conf dan masukkan include blockips.conf; jika tidak ada. Edit blockips.conf dan tambahkan berikut ini:
deny 78.108.190.21/32;
Menggunakan Linux IPTables Firewall. ** Catatan: Gunakan dengan hati-hati.
/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP
Menggunakan Microsoft IIS Web Server
<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
</conditions>
<action type="AbortRequest" />
</rule>
Menggunakan Apache .htaccess.
RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]
Menggunakan Cisco Firewall.
access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any
** Catatan: Anda dapat mengganti [nama acl yang disediakan] dengan nama ACL pilihan Anda.
Menggunakan Nginx.
Edit nginx.conf dan masukkan include blockips.conf; jika tidak ada. Edit blockips.conf dan tambahkan berikut ini:
deny 46.17.100.191/32;
Menggunakan Linux IPTables Firewall. ** Catatan: Gunakan dengan hati-hati.
/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP
Menggunakan Microsoft IIS Web Server
<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
</conditions>
<action type="AbortRequest" />
</rule>
Menggunakan Apache .htaccess.
RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]
Menggunakan Cisco Firewall.
access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any
** Catatan: Anda dapat mengganti [nama acl yang disediakan] dengan nama ACL pilihan Anda.
Menggunakan Nginx.
Edit nginx.conf dan masukkan include blockips.conf; jika tidak ada. Edit blockips.conf dan tambahkan berikut ini:
deny 104.196.7.222/32;
Menggunakan Linux IPTables Firewall. ** Catatan: Gunakan dengan hati-hati.
/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP
Menggunakan Microsoft IIS Web Server
<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
</conditions>
<action type="AbortRequest" />
</rule>
Menggunakan Apache .htaccess.
RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]
Anda mungkin perlu memblokir lebih dari satu alamat IP dari serangkaian kode apa pun. Itu tidak jelas.
archive.org loses copyright lawsuit
tampaknya tidak membuat artikel yang relevan tentang putusan.
robots.txt
Archive.is tidak menggunakan bot yang merayapi laman secara otonom (misalnya, dengan mengikuti hyperlink), jadi robots.txt
tidak berlaku, karena selalu pengguna yang memberikan perintah untuk mengarsipkan laman tertentu.
Untuk alasan yang sama, layanan seperti Feedfetcher Google ( Mengapa Feedfetcher tidak mematuhi file robots.txt saya? ) Dan Validator W3C ( detail ) tidak mematuhinya robots.txt
.
Lihat FAQ archive.is: Mengapa archive.is tidak mematuhi robots.txt?
meta
- robots
/X-Robots-Tag
Saya tidak yakin apakah archive.is seharusnya (idealnya) menghargai noindex
atau noarchive
menghargai meta
- robots
/ X-Robots-Tag
, atau apakah teknologi ini juga berlaku untuk bot otonom saja. Tetapi karena archive.is tidak mendokumentasikannya, mereka sepertinya tidak mendukungnya saat ini.
(FWIW, setiap halaman yang diarsipkan tampaknya mendapatkan <meta name="robots" content="index,noarchive"/>
.)
User-Agent
archive.is tidak mendokumentasikan bahwa tertentu User-Agent
digunakan (mereka mungkin tidak mengidentifikasi diri mereka sendiri, untuk mendapatkan halaman seolah-olah dilihat oleh browser biasa), jadi Anda tidak dapat menggunakannya untuk memblokir akses mereka di tingkat server .
Sehingga tidak robots.txt
atau meta
- robots
/ X-Robots-Tag
bekerja di sini, dan Anda tidak dapat memblokir mereka melalui mereka User-Agent
, Anda harus memblokir akses dari archive.is IP. Lihat jawaban closetnoc tentang pemblokiran IP , tetapi perhatikan bahwa ini mungkin memblokir lebih dari yang dimaksudkan, dan Anda mungkin tidak akan pernah mendapatkan semua IP mereka (dan / atau tetap up to date).
Setiap versi arsip menautkan ke formulir di mana Anda dapat melaporkan kemungkinan penyalahgunaan (tambahkan /abuse
), misalnya, dengan alasan "Masalah SEO" atau "Hak Cipta". Tetapi saya tidak tahu apakah atau bagaimana mereka menangani kasus-kasus ini.
Untuk memblokir praktik pencurian yang menjijikkan dari archive.is (mengabaikan robots.txt, mengabaikan tautan kanonik, agen pengguna palsu, tidak ada cara untuk melakukan penghapusan di seluruh situs), saya ingin menambahkan yang berikut ke solusi di atas.
Untuk menemukan alamat ip mereka, kirimkan url kepada mereka yang berada di bawah kendali Anda sehingga Anda dapat memonitor log server web Anda untuk melihat siapa yang mengaksesnya url itu. URL bahkan tidak harus ada, asalkan server web menerima permintaan. (Jadi lebih baik menggunakan halaman / url kosong yang tidak ada.) Misalnya, gunakan url seperti: http://example.com/fuck-you-archive.is
Kemudian periksa log Anda untuk melihat siapa yang mengakses url. Anda dapat menggunakan grep untuk memeriksanya:
grep "fuck-you-archive.is" web-server-log.txt
Setelah memiliki alamat IP, Anda dapat memblokirnya menggunakan solusi dari jawaban lain. Dan kemudian ulangi proses itu lagi untuk menemukan alamat IP lain yang mereka gunakan. Anda perlu menentukan url yang berbeda, untuk membuatnya melakukan permintaan HTTP lagi, misalnya, cukup ubah http://example.com/fuck-you-archive.is menjadi http://example.com/fuck-you- archive.is?2 dll.
Jika Anda sama sekali tidak ingin membuka situs web Anda ketika mencoba mencari alamat IP-nya, Anda mungkin ingin menggunakan situs web permintaan HTTP yang praktis ini: https://requestb.in Langkah-langkah yang harus dilakukan adalah: membuat RequestBin> kirimkan "BinURL" ke Archive.is dengan "? SomeRandomNumber" ditambahkan ke BinURL> gunakan "? inspect" dari RequestBin untuk memantau permintaan yang masuk dari Archive.is dan lihat alamat IP mereka di "Cf-Connecting-Ip "Tajuk HTTP. (Pastikan Anda tidak mengirimkan "? Periksa" url ke Archive.is.) Daripada mengulangi untuk menemukan alamat IP lainnya dengan mengubah "? SomeRandomNumber" ke nomor lain.
Perhatikan bahwa dengan IP-tables Anda dapat memblokir menggunakan
/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP
tetapi seringkali rantai 'INPUT' disetel ke kebijakan 'DROP' dengan penerimaan lalu lintas HTTP. Dalam hal ini, Anda mungkin perlu menggunakan operasi prepend (insert) alih-alih operasi append, jika tidak tidak diblokir sama sekali:
/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP
Namun, mereka memiliki banyak alamat IP, jadi mungkin lebih mudah untuk memblokir rentang IP lengkap. Anda dapat melakukan ini dengan nyaman dengan IPTables (tanpa perlu menentukan subnetmasks) menggunakan:
iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP
Kisaran ini (46.166.139.110-46.166.139.180) sebagian besar dimiliki oleh mereka, karena saya telah melihat banyak alamat antara 46.166.139.110 dan 46.166.139.173.
Mereka saat ini menggunakan NFOrce sebagai host web. Lihat https://www.nforce.com/abuse tentang cara mengajukan keluhan tentang Archive.is. Sebutkan: 1) url halaman web Anda yang archive.is telah dicuri, 2) sebutkan url di archive.is yang berisi konten curian, dan 3) sebutkan alamat IP yang mereka gunakan.
Anda juga mungkin ingin mengeluh di Cloudflare, CDN mereka, yang menyimpan halaman dan gambar curian mereka karena alasan kinerja. https://www.cloudflare.com/abuse/
Seperti yang bisa kita lihat, archive.is menggunakan DNS anycasting.
Jika Anda menggunakan server nama yang berbeda (mis. Dari https://www.lifewire.com/free-and-public-dns-servers-2626062 ) saat ini Anda (2018-09-10) mendapatkan alamat ip yang berbeda untuk "archive.is" ( menggali @ NAMESERVER archive.is A)
104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236
Saya menggunakan abuse-contacts.abusix.org ( https://www.abusix.com/contactdb ) untuk mendapatkan kontak penyalahgunaan untuk alamat ip ini:
abuse@as42926.net
abuse@cloudflare.com
abuse@cogentco.com
abuse@isppro.de
abuse@nbiserv.de
abuse@netcup.de
abuse@ovh.net
abuse@serverastra.com
abuse@staff.aruba.it
abuseto@adminvps.ru
noc@baxet.ru
Seperti yang dilaporkan Cloudflare, archive.is menyalahgunakan "layanan" mereka dengan menggunakan DNS A-record yang tidak memiliki fungsi!
Juga pertimbangkan untuk Menghubungi pendaftar di www.isnic.is, Registry Domain Islandia. isnic at isnic dot is
Islandia memiliki undang-undang hak cipta, dan Registry mengenalinya. Registry telah ada sejak akhir 1980-an, dan tidak di bawah ICANN.