Windows 7, skrip Python untuk menggunakan perintah untuk mengakses file arsip web megawarc,

Saya menemukan diri saya harus menggunakan skrip Python untuk mengakses arsip web.

Apa yang saya miliki adalah file arsip web 'megawarc' http://archive.org/details/archiveteam-fanfiction-warc-11. Saya perlu membatalkan megawarc ini, menggunakan skrip Python yang ditemukan di https://github.com/alard/megawarc .

Saya mencoba menjalankan restoreperintah, dan saya memiliki tiga file yang diperlukan (FILE.warc.gz, FILE.tar, dan FILE.json.gz) dari tautan pertama.

Saya sudah menginstal Python 2.7 dan 3.3.

Memperbarui:

Saya telah menjalankan kedua metode ini:

python megawarc restore FILE

Dan metode ini:

Pastikan Anda memiliki file megawarcdan ordereddict.pydalam direktori yang sama, dengan file yang ingin Anda konversi. Ganti nama file megawarcuntuk megawarc.pyBuka konsol Python di direktori ini

Ketikkan kode berikut (baris demi baris):

import sys

sys.argv = ['megawarc','restore','FILE']

import megawarc

megawarc.main () menggunakan python 2.7, dan ini yang saya dapatkan ..

c:\Python27>python megawarc restore FILE

Traceback (panggilan terakhir terakhir): File "megawarc", line 563, di main ()

File "megawarc", baris 552, di mwr.process utama ()

File "megawarc", baris 460, dalam proses self.process_entry (entri, tar_out)

File "megawarc", baris 478, dalam entri process_entry ["target"] ["offset"], entri ["target" ["size"])

File "megawarc", baris 128, di copy_to_stream meningkatkan Pengecualian ("Akhir file:% d byte diharapkan, tetapi% d byte membaca."% (Buf_size, l))

Pengecualian: Akhir file: 4096 byte diharapkan, tetapi 236 byte dibaca.

Apakah ada hal lain yang saya lewatkan?

Saya memiliki semua file berikut C:\python27:

FILE.tar.megawarc.json.gz
FILE.tar.megawarc.tar
FILE.tar.megawarc.warc.gz
megawarc
ordereddict.py

Apakah ini beberapa jenis kesalahan file yang rusak? Beberapa jenis kesalahan buffer? Apakah ada sesuatu yang saya lewatkan?

windows python

— sarahwaters
sumber