Cara waybackURL diformat adalah sebagai berikut:
http://$BASEURL/$TIMESTAMP/$TARGET
Ini BASEURLbiasanya http://web.archive.org/web(saya katakan biasanya karena saya tidak yakin apakah itu satu-satunya BASEURL)
TARGETcukup jelas (dalam kasus Anda http://nature.com, atau URL serupa)
TIMESTAMPadalah YYYYmmddHHMMsssaat penangkapan dilakukan (dalam UTC):
YYYY: Tahun
mm: Bulan (2 digit - 01 hingga 12)
dd: Hari dalam sebulan (2 digit - 01 hingga 31)
HH: Jam (2 digit - 00 hingga 23)
MM: Menit (2 digit - 00 hingga 59)
ss: Kedua (2 digit - 00 hingga 59)
Jika Anda meminta waktu penangkapan yang tidak ada, mesin wayback mengalihkan ke tangkapan terdekat untuk URL itu, apakah di masa depan atau di masa lalu.
Anda dapat menggunakan fitur itu untuk mendapatkan setiap URL harian menggunakan curl -I(HTTP HEAD) untuk mendapatkan set URL:
BASEURL='http://web.archive.org/web'
TARGET="SET_THIS"
START=1325419200 # Jan 1 2012 12:00:00 UTC (Noon)
END=1356998400 # Tue Jan 1 00:00:00 UTC 2013
if uname -s |grep -q 'Darwin' ; then
DATECMD="date -u '+%Y%m%d%H%M%S' -r "
elif uname -s |grep -q 'Linux'; then
DATECMD="date -u +%Y%m%d%H%M%S -d @"
fi
while [[ $START -lt $END ]]; do
TIMESTAMP=$(${DATECMD}$START)
REDIRECT="$(curl -sI "$BASEURL/$TIMESTAMP/$TARGET" |awk '/^Location/ {print $2}')"
if [[ -z "$REDIRECT" ]]; then
echo "$BASEURL/$TIMESTAMP/$TARGET"
else
echo $REDIRECT
fi
START=$((START + 86400)) # add 24 hours
done
Ini memberi Anda URL yang paling dekat dengan siang hari pada setiap hari 2012. Cukup hapus duplikatnya, dan, dan unduh halaman-halamannya.
Catatan: Skrip di atas mungkin dapat sangat ditingkatkan untuk melompat maju jika REDIRECTitu untuk URL lebih dari 1 hari di masa depan, tetapi kemudian membutuhkan mendekonstruksi URL yang dikembalikan, dan menyesuaikan STARTdengan nilai tanggal yang benar.