Bagaimana cara mengetahui usia suatu halaman?


15

Saya pikir Google lebih atau kurang akurat dalam menentukan siapa yang memposting teks pertama dan siapa yang menyalin. Namun, ketika saya menggunakan "alat pencarian: interval khusus" hasilnya cukup aneh. Saya telah menemukan halaman yang berasal dari tahun 2002 untuk situs web yang hanya saya miliki selama beberapa tahun.

Jadi Google tidak akurat untuk mengetahui siapa yang disalin dan siapa yang menulis aslinya. Apa yang?

masukkan deskripsi gambar di sini

Jika stackexchange.comdibuat pada tahun 2009 lalu bagaimana ini mungkin? hermeneutics.selebih tua dari Stack Overflow!


Apakah seseorang memiliki nama domain sebelum Anda? Apa halaman yang Anda bandingkan di Google?
closetnoc

Saya memperbarui pertanyaan dengan data SE. Prangko waktu tidak akurat.
Renan

2
Wow. Saya tidak yakin. Saya memahami mekanisme ini secara normal, tetapi apa yang dilakukan Google masih merupakan misteri. Ada sangat sedikit info di internet tentang bagaimana Google menentukan tanggal. Kami memiliki pertanyaan tentang bagaimana Google menentukan tanggal yang dimodifikasi beberapa waktu yang lalu. Saya melakukan riset dan hampir tidak ada. Tetap saja, saya akan melihat lagi. Tetapi mungkin perlu beberapa hari. Perlu diingat bahwa perangkat lunak CMS dan kemungkinan kode SE tidak kembali membuat dan mengubah tanggal seperti yang akan dilakukan Apache untuk halaman HTML. Dan ini mungkin jawabannya.
closetnoc

Tidak harus Google tetapi saya benar-benar ingin tahu apakah pengguna saya menjiplak atau menjiplak. = /
Renan

Sejauh ini, sepertinya Google tidak memahami format tanggal dalam HTML tetapi ini tidak konklusif. Kode sumber dari halaman contoh pertama tidak memberikan petunjuk tanggal yang jelas untuk Google. Google (setidaknya) terlihat atau tanggal dalam urutan ini: URL, judul, isi (konten), tag meta, tanggal modifikasi terakhir dari respons HTTP. Permintaan HEAD mengembalikan tanggal pembuatan dan tanggal modifikasi terakhir. Juga, GET dengan if-modified-since mengembalikan sumber daya dengan 200 Ok atau mengembalikan 304 Not Modified. Kode SE mungkin tidak mengembalikan ini dan hanya URL, judul, konten, dan tag meta yang tersedia.
closetnoc

Jawaban:


12

Saya meneliti jawaban untuk pertanyaan ini dengan cara ini: menggunakan Google karena ini adalah contoh yang saya miliki, bagaimana Google mendapatkan tanggal pembuatan dan tanggal modifikasi, dan format tanggal yang dikenali Google. Harap dipahami bahwa informasi ini tidak ada hanya pada beberapa halaman dan saya harus mencari tahu data dari banyak sumber yang beberapa di antaranya tampaknya tidak berlaku secara langsung dan menyatukannya. Dalam beberapa kasus, informasi tersebut berasal dari beberapa sumber dan tidak selalu dapat dikutip.

Google mencari tanggal halaman dalam urutan ini; URL, tag judul, badan (konten), meta-tag, tajuk respons HTTP setidaknya sejauh menyangkut alat pencarian Google. Dalam paragraf lain dalam dokumen lain, tidak ada pesanan yang didokumentasikan, tetapi daftar tersebut didiskusikan dan sepertinya mengkonfirmasi daftar tersebut. Jika Anda memikirkannya, ini mencerminkan urutan yang akan dilakukan oleh mesin pencari; satu - temukan halaman Anda (tautan), dan dua - baca halaman Anda dari atas ke bawah (judul, badan, dan meta-tag) dengan pengecualian meta-tag (detail kecil) dan header respons HTTP. Berikut adalah daftar yang berkaitan dengan alat:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Catatan: Tanggal awal adalah tanggal halaman pertama kali diminta oleh Google. Dengan tidak adanya tanggal pembuatan, tanggal awal digunakan.

1] Setiap mesin pencari dapat meminta sumber daya melalui permintaan GET HTTP dan server web mengembalikan tanggal modifikasi terakhir dalam header respons dengan sumber daya dalam paket data.

2] Mesin pencari apa pun dapat meminta informasi tajuk sumber daya melalui permintaan HEAD HTTP dan server web mengembalikan tanggal yang diubah dalam tajuk respons tanpa sumber daya dalam paket data.

3] Setiap mesin pencari dapat meminta jika sumber daya telah dimodifikasi sejak tanggal tertentu dengan meminta sumber daya dengan HTTP GET dengan jika-dimodifikasi-sejak diatur ke tanggal. Jika sumber daya telah dimodifikasi sejak tanggal yang ditetapkan, server web merespons dengan respons 200 Ok dan mengembalikan sumber daya atau jika sumber daya belum dimodifikasi sejak tanggal yang ditetapkan, server web merespons dengan 304 Tidak Dimodifikasi tanpa mengembalikan sumber daya. .

Google membuat banyak permintaan menggunakan metode # 3 untuk menghemat bandwidth. Anda akan melihatnya di file log server web Anda.

Catatan: Ada kemungkinan bahwa sistem manajemen konten (CMS) atau perangkat lunak lain tidak dapat memberikan tanggal secara tepat dalam header respons.

Contoh tanggal ini juga berasal dari dokumentasi alat Google tetapi juga ada di tempat lain mengenai pencarian umum. Saya mengambil detail ini dari dokumentasi alat hanya karena bisa dipotong dan disisipkan sebagai daftar di mana di tempat lain itu tidak rapi.

4] Google mencari tanggal dalam URL. Itu mencari format berikut; YYYMMDDHH - YYYY - YYYYMM.

5] Google mencari tanggal dalam tag judul. Itu mencari format berikut; YYYMMDDHH - YYYY - YYYYMM meskipun saya curiga format lain dapat dikenali. Lihat di bawah.

6] Google mencari tanggal dalam tag tubuh (konten). Itu mencari format berikut; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY meskipun saya menduga format lain dapat dikenali. Lihat di bawah.

Catatan: Diketahui bahwa Google mencari tanggal tertentu tepat di bawah H1tag pertama . Ini karena blog sering memberi tanggal pada lokasi ini.

7] Google mencari meta-tag seperti ini. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Google juga dikatakan mengenali format tanggal berikut.

YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MM.DD - YY / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - ​​YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - DD-MM-YY - MM-DD-YY - DD / MM / YY - MM / DD / YY - YYYYMMDDHH - YYYYMMDD - YYYYMM - YYYYMM - YYYY - DDMMYYYY - MMDDYYYY - YYMMDD - DDMMYY - MMDDY -

Penelitian yang saya temukan tidak menjawab pertanyaan waktu.

Dalam kasus contoh yang dikutip, halaman tidak memberikan petunjuk tanggal kecuali dalam tag rentang yang dapat diabaikan. Ada kemungkinan bahwa perangkat lunak SE / server web tidak dapat mengembalikan tanggal pembuatan dan modifikasi dalam header respons apa pun.

Mengapa dan bagaimana Google memperoleh tanggal-tanggal ini adalah pertanyaan bagus yang mungkin tidak pernah diselesaikan. Saya akan terus mencari.


3
Apakah Anda memiliki referensi untuk "Google mencari tanggal halaman dalam urutan ini; URL, tag judul, isi (konten), meta-tag, header respons HTTP."? Apakah Anda memiliki angka atau statistik untuk penelitian ini? Jika Anda dapat memposting referensi untuk apa yang Anda posting di sini, itu akan jauh lebih baik bagi kita semua.
Patoma

Saya menghargai Anda menanyakan ini. Banyak dari apa yang saya temukan adalah berkeping-keping. Daftar itu ditemukan di beberapa tempat, tetapi urutannya ditemukan dalam dokumentasi untuk alat pencarian Google dan tampaknya didukung dalam paragraf di tempat lain. Saya benar-benar melihat beberapa lusin dokumen yang membutuhkan sedikit waktu untuk menemukannya. Saya mencoba berhati-hati untuk mengatakan bahwa saya harus mengumpulkan data dari berbagai sumber karena sepertinya tidak ada info langsung mengenai hal ini. Saya akan mengedit pernyataan untuk membuatnya lebih jelas.
closetnoc

Saya juga dapat mengonfirmasi bahwa string format tanggal berikut yang terdapat pada article.post > div.post-content > h2 > ptingkat tertentu baru-baru ini diambil oleh Google dan digunakan untuk menampilkan tanggal: "Terakhir diperbarui: 7 Oktober 2018"
Matt

-2

Jika Anda ingin melihat usia domain, cari di Google untuk mesin wayback . Situs ini adalah yang Anda cari: http://archive.org/web/ .

Jika Anda ingin mendeteksi plagiarisme, tautan ini akan membantu Anda: http://copyscape.com/signup.php?pro=0&o=f

Juga, cari di Google untuk "pemeriksa plagiarisme".

Semoga saya bisa membantu.


3
Dengan hormat, Anda perlu membaca kembali pertanyaannya.
closetnoc

Pertanyaannya adalah "Bagaimana cara mengetahui berapa usia suatu halaman?" Silakan ikuti tautan saya dan Anda akan melihat bahwa jawabannya baik. Terima kasih sudah membaca ini.
Pascut

3
Anda tidak membaca pertanyaannya. Anda sedang membaca judulnya. Mesin jalan kembali tidak menjawab pertanyaan.
closetnoc

Anda benar, saya telah mengedit pertanyaan saya ..
Pascut

1
Mesin wayback melacak halaman di domain. Tidak bermanfaat membandingkan tanggal antara halaman tertentu. Saya mencari cara yang akurat untuk mengetahui mana yang diposting pertama kali.
Renan
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.