Saya menemukan diri saya harus menggunakan skrip Python untuk mengakses arsip web.
Apa yang saya miliki adalah file arsip web 'megawarc' http://archive.org/details/archiveteam-fanfiction-warc-11. Saya perlu membatalkan megawarc ini, menggunakan skrip Python yang ditemukan di https://github.com/alard/megawarc .
Saya mencoba menjalankan restoreperintah, dan saya memiliki tiga file yang diperlukan (FILE.warc.gz, FILE.tar, dan FILE.json.gz) dari tautan pertama.
Saya sudah menginstal Python 2.7 dan 3.3.
Memperbarui:
Saya telah menjalankan kedua metode ini:
python megawarc restore FILE
Dan metode ini:
Pastikan Anda memiliki file
megawarcdanordereddict.pydalam direktori yang sama, dengan file yang ingin Anda konversi. Ganti nama filemegawarcuntukmegawarc.pyBuka konsol Python di direktori iniKetikkan kode berikut (baris demi baris):
import sys
sys.argv = ['megawarc','restore','FILE']
import megawarc
megawarc.main () menggunakan python 2.7, dan ini yang saya dapatkan ..
c:\Python27>python megawarc restore FILETraceback (panggilan terakhir terakhir): File "megawarc", line 563, di main ()
File "megawarc", baris 552, di mwr.process utama ()
File "megawarc", baris 460, dalam proses self.process_entry (entri, tar_out)
File "megawarc", baris 478, dalam entri process_entry ["target"] ["offset"], entri ["target" ["size"])
File "megawarc", baris 128, di copy_to_stream meningkatkan Pengecualian ("Akhir file:% d byte diharapkan, tetapi% d byte membaca."% (Buf_size, l))
Pengecualian: Akhir file: 4096 byte diharapkan, tetapi 236 byte dibaca.
Apakah ada hal lain yang saya lewatkan?
Saya memiliki semua file berikut C:\python27:
FILE.tar.megawarc.json.gzFILE.tar.megawarc.tarFILE.tar.megawarc.warc.gzmegawarcordereddict.py
Apakah ini beberapa jenis kesalahan file yang rusak? Beberapa jenis kesalahan buffer? Apakah ada sesuatu yang saya lewatkan?