Saya memiliki file .msg yang agak besar yang diformat dalam format UIEE.
$ wc -l big_db.msg
8726593 big_db.msg
Pada dasarnya, file terdiri dari entri dengan panjang berbeda yang terlihat seperti ini:
UR|1
AA|Condon, Richard
TI|Prizzi's Family
CN|Collectable- Good/Good
MT|FICTION
PU|G.P. Putnam & Sons
DP|1986
ED|First Printing.
BD|Hard Cover
NT|0399132104
KE|MAFIA
KE|FICTION
PR|44.9
XA|4
XB|1
XC|BO
XD|S
UR|10
AA|Gariepy, Henry
TI|Portraits of Perseverance
CN|Good/No Jacket
MT|SOLD
PU|Victor Books
DP|1989
BD|Mass Market Paperback
NT|1989 tpb g 100 meditations from the Book of Job "This book...help you
NT| persevere through the struggles of your life..."
KE|Bible
KE|religion
KE|Job
KE|meditations
PR|28.4
XA|4
XB|5
XC|BO
XD|S
Ini adalah contoh dari dua entri, dipisahkan oleh baris kosong. Saya ingin membagi file besar ini menjadi file yang lebih kecil tanpa memecah entri menjadi dua file.
Setiap entri individual dipisahkan oleh baris baru (baris yang benar-benar kosong) dalam file. Saya ingin memecah 8,7 juta file baris ini menjadi 15 file. Saya mengerti bahwa alat-alat seperti split
ada tetapi saya tidak yakin bagaimana cara membagi file tetapi hanya membaginya pada baris baru sehingga satu entri tidak bisa dipecah menjadi beberapa file.
|
(seperti UR
, AA
, TI
) relevan untuk hitungan file, bahkan sama tepatnya?
csplit
juga ada.