Baik. Ini akan menjadi salah satu kasus di mana saya akan bekerja melalui proses sehingga menjadi lebih jelas. Ini akan agak panjang, tapi semoga tidak terlalu lama.
Mari kita mulai dari awal.
Dimulai dengan apa yang kita ketahui tentang cara kerja Google berdasarkan pada awalnya dengan makalah penelitian oleh Brin dan Page pada tahun 1997, kita tahu beberapa hal yang sangat mungkin masih dimainkan saat ini.
Google memiliki URL dalam indeksnya dan mengambil antrian dan mengambil halaman. Kode untuk halaman disimpan dalam basis datanya untuk berbagai bentuk pemrosesan. Salah satu prosesnya adalah menemukan tautan baru. Tautan apa pun yang telah ditemukan oleh Google akan berada pertama kali dalam indeks tautan jika ada. Jika tidak, maka tautan akan ditambahkan ke tabel tautan dan ditambahkan ke antrian ambil.
Setiap tautan dalam tabel tautan setidaknya memiliki elemen-elemen ini, URL tautan, URL sumber, dan teks tautan. Kemungkinan ada elemen data lain, namun ini tidak memajukan diskusi. Setiap tautan yang ditambahkan ke tabel tautan telah memverifikasi URL sumber, tetapi belum tentu URL target. Menggunakan database relasional sebagai contoh, sumber dan URL target bisa berupa ID URL di dalam tabel URL dan tabel gabungan akan bergabung dengan URL sumber tabel tautan dan elemen URL target menggunakan ID yang kembali ke tabel URL. Bingung? Jangan jadi.
Untuk setiap kasus di mana halaman target belum diambil, tautan di dalam tabel tautan dikatakan sebagai tautan menggantung. Setelah halaman diambil, maka tautan di dalam tabel tautan selesai. Jika halaman target tidak ada, maka tautan di dalam tabel tautan adalah tautan yang terputus. Sederhana?
Hanya tautan lengkap yang dapat memberikan nilai. Algoritma PageRank membutuhkan tautan lengkap untuk menghitung nilai. Semua tautan yang menggantung dan terputus akan menghentikan perhitungan apa pun menggunakan tautan tersebut. Sebelumnya, PR adalah proses rekursif yang akan menghitung nilai tautan menggunakan tabel tautan berulang-ulang sampai nilai yang dapat disesuaikan dengan tautan apa pun berada dalam nilai numerik yang sangat kecil sehingga tidak akan membuat perbedaan. Saya yakin ini masih terjadi sebagai proses pemeliharaan rumah. Namun, PR saat ini dihitung menggunakan metode lain yang mirip dengan hop di jaringan yang mengukur jarak dari satu halaman ke halaman lainnya dengan kepentingan relatif. Ini didasarkan pada model jaringan kepercayaan yang merupakan bagaimana model PageRank asli dirancang untuk ditiru. Tautan adalah suara perwalian dari satu entitas ke entitas lainnya. Sementara itu menjadi lebih rumit dari ini, Anda mendapatkan gambar. Ini secara efektif melakukan hal yang sama seperti proses rekursif menggunakan perhitungan yang lebih real-time meskipun kemungkinan kurang tepat tetapi cukup tepat untuk dapat diandalkan. Ini membutuhkan tautan lengkap karena nilai kepercayaan (menggunakan model jaringan kepercayaan) tidak dapat diteruskan jika kepercayaan tidak dibuat. Ingatlah bahwa tautan adalah suara perwalian atau tautan dalam model jaringan perwalian. PageRank direpresentasikan sebagai nilai kepercayaan dalam jaringan kepercayaan.
Sekarang Anda memahami tautan dan betapa pentingnya tautan itu, mari beralih.
Untuk mesin pencari, tidak masuk akal untuk menghapus URL apa pun. Jika URL tidak ada dalam tabel URL, maka Anda tidak dapat mengetahui apa pun tentang URL dan akan bingung. URL kemungkinan tidak dihapus secara umum kecuali jika masuk akal untuk, misalnya, jika URL tidak ada lagi. Namun, ketika halaman diatur ke NOINDEX, maka mesin pencari telah secara eksplisit diinstruksikan untuk TIDAK mengindeks halaman. Karena halaman web dalam indeks terdiri dari dua hal, URL dan kode sumber HTML, NOINDEX secara efektif menghapus halaman pada saat ini. Tautan ke halaman NOINDEX setidaknya menjuntai.
Sekarang Anda tahu seperti apa halaman yang diindeks, mari bergerak lebih jauh.
Ada banyak cara bahwa mesin pencari akan menghukum halaman web atau situs. Salah satunya adalah delisting. Ini adalah hukuman paling berat dari semua hukuman dan membutuhkan waktu lama untuk pulih. Kategori penalti ini bisa Anda buktikan karena halaman tidak akan dan tidak dapat ditemukan. Selain itu, Konsol Penelusuran Googles akan memberi tahu Anda bahwa laman sedang dihapus dari daftar. Dari penalti yang tersisa, hukuman tersebut diterapkan dalam filter SERP.
Ketika permintaan pencarian dilakukan, sebenarnya ada beberapa permintaan terhadap indeks sekaligus yang kemudian dicampur menjadi hasil yang ditetapkan berdasarkan sebagian dari algoritma. Algoritme yang tersisa, yang sering kita sebut sebagai entitas tunggal, adalah serangkaian algoritma SERP yang relatif sederhana. Algoritme utama yang akan menyusun ulang hasil yang ditetapkan berdasarkan metrik waktu nyata seperti tren. Dari algoritma, yang menghapus entri dari set hasil atau menurunkan peringkat penempatan entri dalam set hasil disebut filter. Salah satu yang diterapkan adalah filter yang menangani DMCA sebagaimana dibuktikan dengan...we have removed 1 result(s) from this page...
Jadi sekarang Anda tahu bagaimana hukuman diterapkan, apakah tautan, PR, dan filter DMCA terhubung?
Dengan ini, kami tahu filter telah diterapkan, namun, ini tidak ada hubungannya dengan indeks tautan yang menghitung bagaimana PageRank. Sejauh ini dihapus dari proses tautan / PR yang bisa didapat. Tautan dan PR berada di awal proses pengindeksan sedangkan menghapus halaman yang dikenakan sanksi DMCA adalah di akhir proses kueri. Sebenarnya, ini adalah dua mesin yang sepenuhnya terpisah. Jadi sementara halaman dapat dihapus karena keluhan DMCA, itu sebenarnya tidak dihapus dari indeks dan karena itu tautan ke dan dari halaman masih dihitung.
Jelas seperti lumpur? Saya harap saya menjelaskan ini dengan baik. Tolong beri tahu saya jika saya dapat mengklarifikasi sesuatu untuk Anda.
[Memperbarui]
Pengecualian yang tidak berlaku untuk skenario OP.
@StephenOstermiller menampilkan poin bagus yang tidak merusak di atas, namun, saya ingin menambahkannya untuk kelengkapan.
Seperti yang Anda ketahui, mencetak situs atau halaman dalam pencarian membutuhkan banyak faktor. Walaupun ini tidak se-teknis atau mistis seperti yang Anda bayangkan, masih banyak atau banyak faktor yang harus dipertimbangkan. Saya lupa tentang pengaruh skor kepercayaan sebagian besar karena itu tidak berlaku dalam kasus OP. Jadi saya menambahkannya di sini.
Jelas ada situs yang tidak baik seperti, situs spam. Dalam klasifikasi ini, situs adalah situs yang merupakan penyalahguna kebiasaan dari konten hak cipta. Ini adalah masalah besar beberapa tahun yang lalu di mana pencakar konten akan membangun situs dari kerja keras Anda. Untuk waktu yang lama, tidak ada yang dilakukan. Situs dengan konten asli akan kalah dari situs scraper cukup konsisten. Saya harus tahu. Saya memiliki dua situs PR 8 yang kehilangan hampir semua lalu lintas karena situs pengikis sama sekali tidak ada jalan lain.
Namun banyak hal telah berubah. Dan itu baru sekitar empat tahun sejak perubahan signifikan telah dimulai.
Untuk klasifikasi situs khusus ini, skor kepercayaan situs dapat dikurangi secara signifikan. Ini sudah terkenal. Dibutuhkan bertahun-tahun untuk membangun kembali skor kepercayaan dan untuk beberapa situs, ini mungkin tidak pernah terjadi. Mengapa, misalnya, menurut Anda monetizer domain sangat bersedia untuk benar-benar membuang situs dengan ratusan ribu menunggu di sayap untuk penyalahgunaan yang sama? Itu karena kenyataannya adalah bahwa domain dapat merusak nilainya melebihi penebusan.
Ada banyak faktor yang membangun kepercayaan. Saya tidak akan membahasnya di sini. Namun, ketahuilah bahwa kepercayaan adalah komponen utama dalam membangun peringkat untuk situs apa pun.
Yang mengatakan, untuk setiap situs yang merupakan pelanggar serius DMCA dengan track record yang cukup luas, akan melihat ketukan serius dalam skor kepercayaan itu. Ini bukan skenario yang OP jelaskan. Namun, ini skenario yang saya asumsikan di sini.
Tautan dan pembentukan PageRank memiliki lebih dari satu komponen. Salah satunya adalah PageRank (otoritas) dari halaman itu sendiri. Untuk halaman yang sangat otoritatif, ada batasan otoritas. Halaman PR 8 tidak akan membagikan nilai 8 di antara tautan di halaman itu. Ini adalah bagian dari algoritma PageRank asli yang dimaksudkan untuk menempatkan kurva yang lebih alami ke dalam PR. Kalau tidak, hampir tidak mungkin bagi halaman baru untuk bersaing dengan halaman dengan otoritas tinggi bahkan setelah periode waktu yang lama. Nilai tautan itu sendiri dinilai menggunakan beberapa faktor termasuk nilai semantik teks tautan, URL tautan, lokasi tautan (keunggulan), nilai semantik blok konten yang berisi tautan jika berlaku, dll. Semua tautan diberi skor dari 0 hingga 0,9. Penghitungan skor otoritas dan tautan adalah nilai yang diberikan oleh tautan apa pun.
Baik dan bagus. Jadi bagaimana hal ini mempengaruhi situs yang merupakan pelanggar DMCA yang signifikan?
Nilai tautan masuk apa pun tidak perlu dipengaruhi oleh skor kepercayaan situs target karena nilai tautan berasal dari situs sumber. Namun, tautan keluar apa pun bisa. Otoritas situs apa pun yang merupakan pelaku DMCA yang signifikan akan dipengaruhi oleh skor kepercayaan. Bagaimanapun, otoritas berasal dari kepercayaan. Jadi dengan cara ini, nilai tautan masuk tidak akan melewati tautan keluar tanpa terdegradasi tergantung pada skor kepercayaan.
Ini sedikit mengubah jawaban.
Meskipun tidak berlaku untuk skenario OP, ada skenario di mana nilai tautan masuk tidak sepenuhnya melewati situs dengan pelanggaran DMCA. Namun, ini adalah kasus yang sulit dan oleh karena itu ambang sebelum ini terjadi adalah signifikan.