8

Saya ingin menolak archive.ismemiliki akses ke situs web saya. (Saya tidak ingin situs web ini men-cache milik saya tanpa persetujuan saya).

Apakah Anda tahu itu mungkin?

web-crawlers noarchive

— seseorang2332
sumber

6

Baik. Ini yang baru (setidaknya untuk saya) dan sejauh ini cukup menarik. Saya tidak akan membahas hal ini.

Ketika saya menulis ini, saya bekerja pada sedikit atau tidak ada tidur. Saya melewatkan beberapa hal yang telah ditunjukkan dengan baik oleh @unor dan karenanya saya harus melunakkan jawaban saya dan memberikan kredit di mana kredit seharusnya jatuh tempo. @Unor terima kasih!

Archive.is terdaftar di Denis Petrov yang menggunakan akun Google webhost di alamat IP 104.196.7.222 [AS15169 GOOGLE - Google Inc.] menurut Domain Tools, meskipun saya memilikinya di 46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV]. Kemungkinan perusahaan induk baru-baru ini berubah.

Archive.today juga dimiliki oleh Denis Petrov dan mirip dengan Archive.is jika tidak identik. Untuk keperluan jawaban ini, saya akan membahas Archive.is dan Anda dapat berasumsi bahwa itu berlaku untuk Archive.today. Archive.today memang ada pada alamat IP lain 78.108.190.21 [AS62160 GM-AS Ya Networks Unlimited Ltd]. Harap mengerti bahwa Denis Petrov memiliki 70 domain. Tanpa menggali lebih dalam, ada kemungkinan bahwa ada lebih banyak situs yang perlu dikhawatirkan. Saya akan memberikan kode pemblokiran untuk ketiga alamat IP.

Archive.is diarahkan oleh pengguna. Diasumsikan bahwa Anda mengarsipkan halaman Anda sendiri. Selain skenario ini, Archive.is dapat dianggap sebagai situs spam pengikis konten.

Archive.is berjalan di garis berbahaya. Itu menggunakan konten situs lain melalui pengikisan halaman tunggal. Pada akhirnya, potensi pencarian konten asli setidaknya terdilusi dan berpotensi diambil sama sekali. Lebih buruk lagi, situs asli tidak disebut sebagai pencetus konten. Archive.is menggunakan tag kanonik, tetapi itu untuk situs / halaman itu sendiri.

Contoh: <link rel="canonical" href="http://archive.is/Eo267"/>

Ini ditambah dengan kurangnya kontrol atas siapa yang mengirimkan situs dan apakah mereka memiliki hak untuk situs, kurangnya informasi penghapusan yang jelas, dan mekanisme kontak yang agak kabur dan berpotensi lemah, Archive.is memiliki potensi nyata Masalah.

Anda dapat menemukan informasi alamat IP lebih lanjut di sini: https://www.robtex.com/#!dns=archive.is

Cara memblokir menurut alamat IP 78.108.190.21.

Menggunakan Cisco Firewall.

access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any

** Catatan: Anda dapat mengganti [nama acl yang disediakan] dengan nama ACL pilihan Anda.

Menggunakan Nginx.

Edit nginx.conf dan masukkan include blockips.conf; jika tidak ada. Edit blockips.conf dan tambahkan berikut ini:

deny 78.108.190.21/32;

Menggunakan Linux IPTables Firewall. ** Catatan: Gunakan dengan hati-hati.

/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP

Menggunakan Microsoft IIS Web Server

<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Menggunakan Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]

Cara memblokir menurut alamat IP 46.17.100.191.

Menggunakan Cisco Firewall.

access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any

** Catatan: Anda dapat mengganti [nama acl yang disediakan] dengan nama ACL pilihan Anda.

Menggunakan Nginx.

Edit nginx.conf dan masukkan include blockips.conf; jika tidak ada. Edit blockips.conf dan tambahkan berikut ini:

deny 46.17.100.191/32;

Menggunakan Linux IPTables Firewall. ** Catatan: Gunakan dengan hati-hati.

/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP

Menggunakan Microsoft IIS Web Server

<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Menggunakan Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]

Cara memblokir menurut alamat IP 104.196.7.222.

Menggunakan Cisco Firewall.

access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any

** Catatan: Anda dapat mengganti [nama acl yang disediakan] dengan nama ACL pilihan Anda.

Menggunakan Nginx.

Edit nginx.conf dan masukkan include blockips.conf; jika tidak ada. Edit blockips.conf dan tambahkan berikut ini:

deny 104.196.7.222/32;

Menggunakan Linux IPTables Firewall. ** Catatan: Gunakan dengan hati-hati.

/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP

Menggunakan Microsoft IIS Web Server

<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

Menggunakan Apache .htaccess.

RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]

Anda mungkin perlu memblokir lebih dari satu alamat IP dari serangkaian kode apa pun. Itu tidak jelas.

— closetnoc
sumber

Sangat informatif! Saya 100% setuju dengan Anda, tetapi saya khawatir situs web ini menggunakan lebih banyak alamat IP. Anda memperhatikan ini saat Anda mengarsipkan halaman yang menyediakan IP pengunjung (seperti wtfismyip.com/). Sejauh ini saya telah menemukan: 2a01: 4f8: 190: 5388 :: 2: 2, 2a01: 4f8: 190: 6388 :: 2: 2, 2a01: 4f8: 190: 638c :: 2: 2, 46.17.100.191, 78.46 .174.144, 78.108.190.21, 104.196.7.222

— someone2332

Satu lagi: 2a01: 4f8: 190: 6396 :: 2: 2. Saya ingin memblokir semua alamat IPv6 yang dimulai dengan "2a01: 4f8: 190:". Apakah Anda tahu bagaimana saya bisa melakukan itu? Terima kasih!

— seseorang2332

Ketika saya menghadapi masalah ini setahun yang lalu, saya mengirimi Denis pemberitahuan pemberitahuan hak cipta ke webmaster-at-archive-dot-is dan terkejut melihat semua konten yang menyinggung dihapus pada hari berikutnya. Hanya akan memposting ini sebagai jawaban lain, tetapi saya memeriksa situsnya dan melihat konten saya kembali! Saya sekarang memiliki bukti kuat untuk mengetahui, pelanggaran hak cipta yang disengaja. Ah yah, IPTables itu. Dia bersama OVH tahun lalu dan mereka sangat membantu dengan masalah masa lalu, tidak yakin di mana dia menjadi host sekarang.

— Tom Brossman

Juga, lihat Tanya Jawab terkait ini dari Superuser Januari lalu: superuser.com/a/868368 (perhatikan IP berbeda yang digunakan saat itu, jadi ini akan membutuhkan pemantauan dan pembaruan daftar blokir Anda secara konstan untuk tetap efektif ...).

— Tom Brossman

1

"Archive.org, yang merupakan situs serupa, telah berkali-kali digugat dan hilang" Ke kasus mana yang Anda rujuk? Google archive.org loses copyright lawsuittampaknya tidak membuat artikel yang relevan tentang putusan.

— Damian Yerrick

3

`robots.txt`

Archive.is tidak menggunakan bot yang merayapi laman secara otonom (misalnya, dengan mengikuti hyperlink), jadi robots.txttidak berlaku, karena selalu pengguna yang memberikan perintah untuk mengarsipkan laman tertentu.

Untuk alasan yang sama, layanan seperti Feedfetcher Google ( Mengapa Feedfetcher tidak mematuhi file robots.txt saya? ) Dan Validator W3C ( detail ) tidak mematuhinya robots.txt.

Lihat FAQ archive.is: Mengapa archive.is tidak mematuhi robots.txt?

`meta`- `robots`/`X-Robots-Tag`

Saya tidak yakin apakah archive.is seharusnya (idealnya) menghargai noindexatau noarchivemenghargai meta- robots/ X-Robots-Tag, atau apakah teknologi ini juga berlaku untuk bot otonom saja. Tetapi karena archive.is tidak mendokumentasikannya, mereka sepertinya tidak mendukungnya saat ini.

(FWIW, setiap halaman yang diarsipkan tampaknya mendapatkan <meta name="robots" content="index,noarchive"/>.)

`User-Agent`

archive.is tidak mendokumentasikan bahwa tertentu User-Agentdigunakan (mereka mungkin tidak mengidentifikasi diri mereka sendiri, untuk mendapatkan halaman seolah-olah dilihat oleh browser biasa), jadi Anda tidak dapat menggunakannya untuk memblokir akses mereka di tingkat server .

Memblokir alamat IP mereka

Sehingga tidak robots.txtatau meta- robots/ X-Robots-Tagbekerja di sini, dan Anda tidak dapat memblokir mereka melalui mereka User-Agent, Anda harus memblokir akses dari archive.is IP. Lihat jawaban closetnoc tentang pemblokiran IP , tetapi perhatikan bahwa ini mungkin memblokir lebih dari yang dimaksudkan, dan Anda mungkin tidak akan pernah mendapatkan semua IP mereka (dan / atau tetap up to date).

Catatan samping: Fungsi laporan

Setiap versi arsip menautkan ke formulir di mana Anda dapat melaporkan kemungkinan penyalahgunaan (tambahkan /abuse), misalnya, dengan alasan "Masalah SEO" atau "Hak Cipta". Tetapi saya tidak tahu apakah atau bagaimana mereka menangani kasus-kasus ini.

— unor
sumber

Saya sedang bekerja pada tidak atau sedikit tidur dan sepenuhnya melewatkan beberapa hal yang Anda tunjukkan dengan benar. Akibatnya, saya marah jawaban saya. Duh! Saya sedikit terbawa suasana seperti yang kadang-kadang bisa saya lakukan. ;-) Ooopppsss !! Itu masih sedikit di atas. Saya menghargai jawaban Anda di sini. Saya berharap saya dapat memilih untuk menjadikan ini jawaban teratas. Saya menyarankan orang untuk memilih jawaban ini dengan mouse mereka jika mereka setuju dengan sentimen saya.

— closetnoc

1

Untuk memblokir praktik pencurian yang menjijikkan dari archive.is (mengabaikan robots.txt, mengabaikan tautan kanonik, agen pengguna palsu, tidak ada cara untuk melakukan penghapusan di seluruh situs), saya ingin menambahkan yang berikut ke solusi di atas.

Temukan alamat IP mereka

Untuk menemukan alamat ip mereka, kirimkan url kepada mereka yang berada di bawah kendali Anda sehingga Anda dapat memonitor log server web Anda untuk melihat siapa yang mengaksesnya url itu. URL bahkan tidak harus ada, asalkan server web menerima permintaan. (Jadi lebih baik menggunakan halaman / url kosong yang tidak ada.) Misalnya, gunakan url seperti: http://example.com/fuck-you-archive.is

Kemudian periksa log Anda untuk melihat siapa yang mengakses url. Anda dapat menggunakan grep untuk memeriksanya:

grep "fuck-you-archive.is" web-server-log.txt

Setelah memiliki alamat IP, Anda dapat memblokirnya menggunakan solusi dari jawaban lain. Dan kemudian ulangi proses itu lagi untuk menemukan alamat IP lain yang mereka gunakan. Anda perlu menentukan url yang berbeda, untuk membuatnya melakukan permintaan HTTP lagi, misalnya, cukup ubah http://example.com/fuck-you-archive.is menjadi http://example.com/fuck-you- archive.is?2 dll.

Jika Anda sama sekali tidak ingin membuka situs web Anda ketika mencoba mencari alamat IP-nya, Anda mungkin ingin menggunakan situs web permintaan HTTP yang praktis ini: https://requestb.in Langkah-langkah yang harus dilakukan adalah: membuat RequestBin> kirimkan "BinURL" ke Archive.is dengan "? SomeRandomNumber" ditambahkan ke BinURL> gunakan "? inspect" dari RequestBin untuk memantau permintaan yang masuk dari Archive.is dan lihat alamat IP mereka di "Cf-Connecting-Ip "Tajuk HTTP. (Pastikan Anda tidak mengirimkan "? Periksa" url ke Archive.is.) Daripada mengulangi untuk menemukan alamat IP lainnya dengan mengubah "? SomeRandomNumber" ke nomor lain.

Blokir alamat ip mereka

Perhatikan bahwa dengan IP-tables Anda dapat memblokir menggunakan

/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP

tetapi seringkali rantai 'INPUT' disetel ke kebijakan 'DROP' dengan penerimaan lalu lintas HTTP. Dalam hal ini, Anda mungkin perlu menggunakan operasi prepend (insert) alih-alih operasi append, jika tidak tidak diblokir sama sekali:

/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP

Namun, mereka memiliki banyak alamat IP, jadi mungkin lebih mudah untuk memblokir rentang IP lengkap. Anda dapat melakukan ini dengan nyaman dengan IPTables (tanpa perlu menentukan subnetmasks) menggunakan:

iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP

Kisaran ini (46.166.139.110-46.166.139.180) sebagian besar dimiliki oleh mereka, karena saya telah melihat banyak alamat antara 46.166.139.110 dan 46.166.139.173.

Kirim keluhan penyalahgunaan ke host web mereka

Mereka saat ini menggunakan NFOrce sebagai host web. Lihat https://www.nforce.com/abuse tentang cara mengajukan keluhan tentang Archive.is. Sebutkan: 1) url halaman web Anda yang archive.is telah dicuri, 2) sebutkan url di archive.is yang berisi konten curian, dan 3) sebutkan alamat IP yang mereka gunakan.

Anda juga mungkin ingin mengeluh di Cloudflare, CDN mereka, yang menyimpan halaman dan gambar curian mereka karena alasan kinerja. https://www.cloudflare.com/abuse/

— Devabc
sumber

1

Seperti yang bisa kita lihat, archive.is menggunakan DNS anycasting.

Jika Anda menggunakan server nama yang berbeda (mis. Dari https://www.lifewire.com/free-and-public-dns-servers-2626062 ) saat ini Anda (2018-09-10) mendapatkan alamat ip yang berbeda untuk "archive.is" ( menggali @ NAMESERVER archive.is A)

104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236

Saya menggunakan abuse-contacts.abusix.org ( https://www.abusix.com/contactdb ) untuk mendapatkan kontak penyalahgunaan untuk alamat ip ini:

abuse@as42926.net
abuse@cloudflare.com
abuse@cogentco.com
abuse@isppro.de
abuse@nbiserv.de
abuse@netcup.de
abuse@ovh.net
abuse@serverastra.com
abuse@staff.aruba.it
abuseto@adminvps.ru
noc@baxet.ru

Seperti yang dilaporkan Cloudflare, archive.is menyalahgunakan "layanan" mereka dengan menggunakan DNS A-record yang tidak memiliki fungsi!

— Schubi Duah
sumber

0

Juga pertimbangkan untuk Menghubungi pendaftar di www.isnic.is, Registry Domain Islandia. isnic at isnic dot is

Islandia memiliki undang-undang hak cipta, dan Registry mengenalinya. Registry telah ada sejak akhir 1980-an, dan tidak di bawah ICANN.

— menghormati hak cipta
sumber

Tolak akses ke Archive.is

Cara memblokir menurut alamat IP 78.108.190.21.

Cara memblokir menurut alamat IP 46.17.100.191.

Cara memblokir menurut alamat IP 104.196.7.222.

robots.txt

meta- robots/X-Robots-Tag

User-Agent

Memblokir alamat IP mereka

Catatan samping: Fungsi laporan

Temukan alamat IP mereka

Blokir alamat ip mereka

Kirim keluhan penyalahgunaan ke host web mereka

`robots.txt`

`meta`- `robots`/`X-Robots-Tag`

`User-Agent`