Bagian penting dari jenis pendekatan ini adalah memiliki akses ke database kata-kata bahasa Inggris yang baik. Ada file ini di sistem saya, /usr/share/dict/words
yang memiliki banyak kata, tetapi sumber lain dapat digunakan sebagai gantinya.
Pendekatan
Pendekatan umum saya adalah menggunakan grep
seperti:
$ grep -vwf /usr/share/dict/words sample.txt
Di mana contoh output Anda berada sample.txt
.
Dalam pengujian terbatas saya, ukuran words
kamus tampaknya grep
macet. Versi saya memiliki 400k + baris di dalamnya. Jadi saya mulai melakukan sesuatu seperti ini untuk memecahnya sedikit:
$ head -10000 /usr/share/dict/words > ~/10000words
Pengerjaan sampel (10k)
Jalankan file Anda dengan menggunakan kata 10k pertama dari "kamus".
$ grep -vwf ~/10000words sample.txt
714
01:11:22,267 --> 01:11:27,731
Auch wenn noch viele Generationen auf einen Wechsel hoffen,
715
01:11:27,732 --> 01:11:31,920
werde ich mein Bestes geben
und hoffe, dass andere das gleiche tun.
I'm giving mine, I'm doing my best
hoping the other will do the same
716
01:11:31,921 --> 01:11:36,278
Wir haben eine harte Arbeit vor uns,
um den Lauf der Dinge zu ändern.
it's going to be hard work
for things to turn around.
717
01:11:36,879 --> 01:11:42,881
Wenn man die Zentren künstlicher Besamung,
die Zuchtlaboratorien und die modernen Kuhställe besichtigt,
When visiting artificial insemination centers,
the selection center, modern stables,
CATATAN: Pendekatan ini berjalan dalam ~ 1,5 detik, di laptop i5 saya.
Tampaknya menjadi pendekatan yang layak. Ketika saya menabraknya hingga 100k baris itu mulai memakan waktu lama, saya membatalkannya sebelum selesai, sehingga Anda dapat memecah words
kamus menjadi beberapa file.
CATATAN: Ketika saya memundurkannya ke garis 50k butuh waktu 32 detik.
Menyelam lebih dalam (garis 50k)
Ketika saya mulai memperluas kamus hingga 50k saya mengalami masalah yang saya takuti, tumpang tindih antara bahasa.
$ grep -vwf ~/50000words sample.txt
714
01:11:22,267 --> 01:11:27,731
715
01:11:27,732 --> 01:11:31,920
werde ich mein Bestes geben
und hoffe, dass andere das gleiche tun.
hoping the other will do the same
716
01:11:31,921 --> 01:11:36,278
Wir haben eine harte Arbeit vor uns,
um den Lauf der Dinge zu ändern.
717
01:11:36,879 --> 01:11:42,881
Wenn man die Zentren künstlicher Besamung,
die Zuchtlaboratorien und die modernen Kuhställe besichtigt,
the selection center, modern stables,
Menganalisis masalah
Satu hal yang baik dengan pendekatan ini adalah Anda dapat menghapus -v
dan melihat di mana tumpang tindihnya adalah:
$ grep -wf ~/50000words sample.txt
Auch wenn noch viele Generationen auf einen Wechsel hoffen,
Even if it takes many generations hoping for a change,
I'm giving mine, I'm doing my best
it's going to be hard work
for things to turn around.
When visiting artificial insemination centers,
Kata auf
ini tampaknya dalam kedua bahasa ... paling tidak itu ada dalam words
file saya , jadi ini mungkin sedikit pendekatan coba-coba untuk memperbaiki daftar kata yang diperlukan.
CATATAN: Saya tahu itu adalah kata auf
karena grep
diwarnai merah, yang tidak muncul dalam output di atas karena sifat SE SE yang terbatas).
$ grep auf ~/50000words
auf
aufait
aufgabe
aufklarung
auftakt
baufrey
Beaufert
beaufet
beaufin
Beauford
Beaufort
beaufort
bechauffeur