Cara wayback
URL diformat adalah sebagai berikut:
http://$BASEURL/$TIMESTAMP/$TARGET
Ini BASEURL
biasanya http://web.archive.org/web
(saya katakan biasanya karena saya tidak yakin apakah itu satu-satunya BASEURL)
TARGET
cukup jelas (dalam kasus Anda http://nature.com
, atau URL serupa)
TIMESTAMP
adalah YYYYmmddHHMMss
saat penangkapan dilakukan (dalam UTC):
YYYY
: Tahun
mm
: Bulan (2 digit - 01 hingga 12)
dd
: Hari dalam sebulan (2 digit - 01 hingga 31)
HH
: Jam (2 digit - 00 hingga 23)
MM
: Menit (2 digit - 00 hingga 59)
ss
: Kedua (2 digit - 00 hingga 59)
Jika Anda meminta waktu penangkapan yang tidak ada, mesin wayback mengalihkan ke tangkapan terdekat untuk URL itu, apakah di masa depan atau di masa lalu.
Anda dapat menggunakan fitur itu untuk mendapatkan setiap URL harian menggunakan curl -I
(HTTP HEAD
) untuk mendapatkan set URL:
BASEURL='http://web.archive.org/web'
TARGET="SET_THIS"
START=1325419200 # Jan 1 2012 12:00:00 UTC (Noon)
END=1356998400 # Tue Jan 1 00:00:00 UTC 2013
if uname -s |grep -q 'Darwin' ; then
DATECMD="date -u '+%Y%m%d%H%M%S' -r "
elif uname -s |grep -q 'Linux'; then
DATECMD="date -u +%Y%m%d%H%M%S -d @"
fi
while [[ $START -lt $END ]]; do
TIMESTAMP=$(${DATECMD}$START)
REDIRECT="$(curl -sI "$BASEURL/$TIMESTAMP/$TARGET" |awk '/^Location/ {print $2}')"
if [[ -z "$REDIRECT" ]]; then
echo "$BASEURL/$TIMESTAMP/$TARGET"
else
echo $REDIRECT
fi
START=$((START + 86400)) # add 24 hours
done
Ini memberi Anda URL yang paling dekat dengan siang hari pada setiap hari 2012. Cukup hapus duplikatnya, dan, dan unduh halaman-halamannya.
Catatan: Skrip di atas mungkin dapat sangat ditingkatkan untuk melompat maju jika REDIRECT
itu untuk URL lebih dari 1 hari di masa depan, tetapi kemudian membutuhkan mendekonstruksi URL yang dikembalikan, dan menyesuaikan START
dengan nilai tanggal yang benar.