Saya berakhir di tempat kakek saya akhir pekan lalu. Nenek saya mengeluarkan buku sejarah keluarganya yang besar (~ 1400 halaman) ini sekitar tahun 1630. Kutu buku raksasa seperti saya, saya pikir akan licin untuk memiliki semua informasi yang disimpan dalam database dan tersedia dari web. Saya dapat menangani semua pemrograman web dan ekspresi reguler dan apa yang tidak, tetapi yang saya tidak tahu adalah cara terbaik untuk mendapatkan teks dari buku ke komputer.
Saya tahu beberapa jenis OCR akan diperlukan, dari sedikit riset yang telah saya lakukan, sepertinya pilihan saya adalah:
- ambil gambar setiap halaman dengan kamera, lalu proses gambar dengan perangkat lunak OCR
- gunakan pemindai untuk memindai setiap halaman, lalu proses dengan perangkat lunak OCR
- gunakan beberapa jenis alat genggam, seperti ini .
Adakah yang punya ide tentang cara terbaik untuk mengatasi masalah ini? Saya tidak ingin menghancurkan buku itu, karena sejauh yang saya tahu, itu tidak dapat diganti. Ini mungkin satu-satunya waktu saya akan memindai buku besar, jadi saya tidak berpikir saya ingin menghabiskan lebih dari $ 250 untuk semua jenis perangkat. Saya tidak keberatan dengan upaya manual di sini (saya menyadari ini kemungkinan besar akan memakan waktu berbulan-bulan), tetapi saya ingin menemukan metode yang paling efisien.
Catatan tentang buku itu: Baru berusia sekitar 20 tahun, jadi dalam kondisi yang cukup baik. Ini monokrom dan halaman belum mulai menguning. Karena begitu besar, saya khawatir tentang kemungkinan bayangan ketika teks mendekati ikatan.