Saya menemukan diri saya harus menggunakan skrip Python untuk mengakses arsip web.
Apa yang saya miliki adalah file arsip web 'megawarc' http://archive.org/details/archiveteam-fanfiction-warc-11
. Saya perlu membatalkan megawarc ini, menggunakan skrip Python yang ditemukan di https://github.com/alard/megawarc .
Saya mencoba menjalankan restore
perintah, dan saya memiliki tiga file yang diperlukan (FILE.warc.gz, FILE.tar, dan FILE.json.gz) dari tautan pertama.
Saya sudah menginstal Python 2.7 dan 3.3.
Memperbarui:
Saya telah menjalankan kedua metode ini:
python megawarc restore FILE
Dan metode ini:
Pastikan Anda memiliki file
megawarc
danordereddict.py
dalam direktori yang sama, dengan file yang ingin Anda konversi. Ganti nama filemegawarc
untukmegawarc.py
Buka konsol Python di direktori iniKetikkan kode berikut (baris demi baris):
import sys
sys.argv = ['megawarc','restore','FILE']
import megawarc
megawarc.main () menggunakan python 2.7, dan ini yang saya dapatkan ..
c:\Python27>python megawarc restore FILE
Traceback (panggilan terakhir terakhir): File "megawarc", line 563, di main ()
File "megawarc", baris 552, di mwr.process utama ()
File "megawarc", baris 460, dalam proses self.process_entry (entri, tar_out)
File "megawarc", baris 478, dalam entri process_entry ["target"] ["offset"], entri ["target" ["size"])
File "megawarc", baris 128, di copy_to_stream meningkatkan Pengecualian ("Akhir file:% d byte diharapkan, tetapi% d byte membaca."% (Buf_size, l))
Pengecualian: Akhir file: 4096 byte diharapkan, tetapi 236 byte dibaca.
Apakah ada hal lain yang saya lewatkan?
Saya memiliki semua file berikut C:\python27
:
FILE.tar.megawarc.json.gz
FILE.tar.megawarc.tar
FILE.tar.megawarc.warc.gz
megawarc
ordereddict.py
Apakah ini beberapa jenis kesalahan file yang rusak? Beberapa jenis kesalahan buffer? Apakah ada sesuatu yang saya lewatkan?