Saya meneliti jawaban untuk pertanyaan ini dengan cara ini: menggunakan Google karena ini adalah contoh yang saya miliki, bagaimana Google mendapatkan tanggal pembuatan dan tanggal modifikasi, dan format tanggal yang dikenali Google. Harap dipahami bahwa informasi ini tidak ada hanya pada beberapa halaman dan saya harus mencari tahu data dari banyak sumber yang beberapa di antaranya tampaknya tidak berlaku secara langsung dan menyatukannya. Dalam beberapa kasus, informasi tersebut berasal dari beberapa sumber dan tidak selalu dapat dikutip.
Google mencari tanggal halaman dalam urutan ini; URL, tag judul, badan (konten), meta-tag, tajuk respons HTTP setidaknya sejauh menyangkut alat pencarian Google. Dalam paragraf lain dalam dokumen lain, tidak ada pesanan yang didokumentasikan, tetapi daftar tersebut didiskusikan dan sepertinya mengkonfirmasi daftar tersebut. Jika Anda memikirkannya, ini mencerminkan urutan yang akan dilakukan oleh mesin pencari; satu - temukan halaman Anda (tautan), dan dua - baca halaman Anda dari atas ke bawah (judul, badan, dan meta-tag) dengan pengecualian meta-tag (detail kecil) dan header respons HTTP. Berikut adalah daftar yang berkaitan dengan alat:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
Catatan: Tanggal awal adalah tanggal halaman pertama kali diminta oleh Google. Dengan tidak adanya tanggal pembuatan, tanggal awal digunakan.
1] Setiap mesin pencari dapat meminta sumber daya melalui permintaan GET HTTP dan server web mengembalikan tanggal modifikasi terakhir dalam header respons dengan sumber daya dalam paket data.
2] Mesin pencari apa pun dapat meminta informasi tajuk sumber daya melalui permintaan HEAD HTTP dan server web mengembalikan tanggal yang diubah dalam tajuk respons tanpa sumber daya dalam paket data.
3] Setiap mesin pencari dapat meminta jika sumber daya telah dimodifikasi sejak tanggal tertentu dengan meminta sumber daya dengan HTTP GET dengan jika-dimodifikasi-sejak diatur ke tanggal. Jika sumber daya telah dimodifikasi sejak tanggal yang ditetapkan, server web merespons dengan respons 200 Ok dan mengembalikan sumber daya atau jika sumber daya belum dimodifikasi sejak tanggal yang ditetapkan, server web merespons dengan 304 Tidak Dimodifikasi tanpa mengembalikan sumber daya. .
Google membuat banyak permintaan menggunakan metode # 3 untuk menghemat bandwidth. Anda akan melihatnya di file log server web Anda.
Catatan: Ada kemungkinan bahwa sistem manajemen konten (CMS) atau perangkat lunak lain tidak dapat memberikan tanggal secara tepat dalam header respons.
Contoh tanggal ini juga berasal dari dokumentasi alat Google tetapi juga ada di tempat lain mengenai pencarian umum. Saya mengambil detail ini dari dokumentasi alat hanya karena bisa dipotong dan disisipkan sebagai daftar di mana di tempat lain itu tidak rapi.
4] Google mencari tanggal dalam URL. Itu mencari format berikut; YYYMMDDHH - YYYY - YYYYMM.
5] Google mencari tanggal dalam tag judul. Itu mencari format berikut; YYYMMDDHH - YYYY - YYYYMM meskipun saya curiga format lain dapat dikenali. Lihat di bawah.
6] Google mencari tanggal dalam tag tubuh (konten). Itu mencari format berikut; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY meskipun saya menduga format lain dapat dikenali. Lihat di bawah.
Catatan: Diketahui bahwa Google mencari tanggal tertentu tepat di bawah H1
tag pertama . Ini karena blog sering memberi tanggal pada lokasi ini.
7] Google mencari meta-tag seperti ini. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
Google juga dikatakan mengenali format tanggal berikut.
YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MM.DD - YY / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - DD-MM-YY - MM-DD-YY - DD / MM / YY - MM / DD / YY - YYYYMMDDHH - YYYYMMDD - YYYYMM - YYYYMM - YYYY - DDMMYYYY - MMDDYYYY - YYMMDD - DDMMYY - MMDDY -
Penelitian yang saya temukan tidak menjawab pertanyaan waktu.
Dalam kasus contoh yang dikutip, halaman tidak memberikan petunjuk tanggal kecuali dalam tag rentang yang dapat diabaikan. Ada kemungkinan bahwa perangkat lunak SE / server web tidak dapat mengembalikan tanggal pembuatan dan modifikasi dalam header respons apa pun.
Mengapa dan bagaimana Google memperoleh tanggal-tanggal ini adalah pertanyaan bagus yang mungkin tidak pernah diselesaikan. Saya akan terus mencari.