Solusi OCR praktis untuk mengonversi buku besar ke format digital?

12

Saya berakhir di tempat kakek saya akhir pekan lalu. Nenek saya mengeluarkan buku sejarah keluarganya yang besar (~ 1400 halaman) ini sekitar tahun 1630. Kutu buku raksasa seperti saya, saya pikir akan licin untuk memiliki semua informasi yang disimpan dalam database dan tersedia dari web. Saya dapat menangani semua pemrograman web dan ekspresi reguler dan apa yang tidak, tetapi yang saya tidak tahu adalah cara terbaik untuk mendapatkan teks dari buku ke komputer.

Saya tahu beberapa jenis OCR akan diperlukan, dari sedikit riset yang telah saya lakukan, sepertinya pilihan saya adalah:

ambil gambar setiap halaman dengan kamera, lalu proses gambar dengan perangkat lunak OCR
gunakan pemindai untuk memindai setiap halaman, lalu proses dengan perangkat lunak OCR
gunakan beberapa jenis alat genggam, seperti ini .

Adakah yang punya ide tentang cara terbaik untuk mengatasi masalah ini? Saya tidak ingin menghancurkan buku itu, karena sejauh yang saya tahu, itu tidak dapat diganti. Ini mungkin satu-satunya waktu saya akan memindai buku besar, jadi saya tidak berpikir saya ingin menghabiskan lebih dari $ 250 untuk semua jenis perangkat. Saya tidak keberatan dengan upaya manual di sini (saya menyadari ini kemungkinan besar akan memakan waktu berbulan-bulan), tetapi saya ingin menemukan metode yang paling efisien.

Catatan tentang buku itu: Baru berusia sekitar 20 tahun, jadi dalam kondisi yang cukup baik. Ini monokrom dan halaman belum mulai menguning. Karena begitu besar, saya khawatir tentang kemungkinan bayangan ketika teks mendekati ikatan.

ocr

1

Di samping catatan, jika buku itu baru berumur 20 tahun dan informasinya kembali ke tahun 1600-an, di mana bahan sumber aslinya? Itu mungkin bagus untuk ditangkap juga!

— Craig

Ya, itu akan keren juga. Saya akan melihat apakah saya dapat melacak penulis asli.

8

Saya menemukan ini di Lifehacker beberapa waktu lalu, dan itu telah menjadi salah satu proyek DIY terbaik saya sejak itu.

masukkan deskripsi gambar di sini

Ganti iPhone dengan kamera atau pencitraan apa pun, dan Anda mendapatkan setumpuk resolusi tinggi yang bagus yang siap untuk Anda gunakan OCR dengan perangkat lunak apa pun, bahkan (urk!) MS Office ...;)

Murah. Efektif. DIY. Anda tidak bisa mengalahkan ide seperti ini.

EDIT: Komentar mengangkat beberapa poin tentang bayangan, keriting halaman, dll. Cukup mudah diselesaikan bagi siapa saja yang memiliki teks pustaka yang disalin foto.

Tambahkan beberapa sumber cahaya untuk menerangi buku, dan hilangkan bayangan.

miringkan buku pada 90 derajat ke halaman tidak meringkuk ke arah binding di tengah. Ini juga menjaga ikatan.

Saya akan melihat apakah saya bisa memberikan contoh dan mengaturnya sendiri.

EDIT 2: contoh yang diunggah tentang bagaimana Anda harus memegang buku, dan juga perhatikan sumber cahaya dari kiri.

masukkan deskripsi gambar di sini

— pemarah
sumber

Itu sangat keren! Berharap saya bisa melakukan itu :)

— alex

Namun, Anda memerlukan kamera nyata untuk melakukan itu, dan kualitas yang baik, atau Anda akan berakhir dengan gambar yang tidak dapat Anda manfaatkan, terutama dari buku yang sangat lama. Jadi itu jauh dari murah.

— Gnoupi

Sangat menarik. Saya bertanya-tanya bagaimana ini akan bekerja dengan sebuah buku, mengingat bayangan mungkin akan ada di antara halaman.

Jika halaman bengkok atau memiliki bayangan, Anda akan mengalami masalah dalam mendapatkan perangkat lunak OCR untuk mengenali huruf.

— alex

tambahkan beberapa sumber cahaya untuk menerangi buku, dan hilangkan bayangan. miringkan buku pada 90 derajat sehingga halaman tidak melengkung ke arah binding di tengah. Ini akal sehat sederhana, kami melakukan itu sepanjang waktu di perguruan tinggi mengambil foto teks perpustakaan.

— caliban

3

Dari yang saya tahu, ABBYY membuat perangkat lunak OCR terbaik, tetapi tidak gratis. Anda harus mencoba menggunakan versi percobaan ABBYY FineReader , mungkin itu akan membantu Anda.

— alex
sumber

1

Anda harus mengambil gambar itu entah bagaimana. Berbagai layanan ada untuk melakukan ini untuk Anda. Anda juga akan membutuhkan seseorang yang terbiasa dengan konten teks untuk mengoreksi karena OCR belum sempurna. Apalagi dengan tulisan tangan apa saja.

Yang lain sedang mendiskusikan pertanyaan Anda di sini: http://ask.metafilter.com/92506/scan-my-books

Beberapa perusahaan akan melakukan ini untuk Anda: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Beberapa Perangkat Lunak Bebas: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

— NickSentowski
sumber

1

Untuk proyek besar dan penting bagi Anda dan keluarga Anda seperti ini, Pemindai Buku DIY mungkin cara yang tepat, beberapa desain bahkan pergantian halaman olahraga - http://www.diybookscanner.org/ Yang ini tidak mendukung OCR secara asli , tetapi menembak 600 halaman per jam dan Anda dapat menjalankannya melalui OCR setelah fakta http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/

— Xaq Fixx
sumber

0

Anda mungkin ingin melihat apakah sebuah universitas di dekat Anda memiliki pemindai seluruh buku dan kemudian meminta / menyuap seorang siswa untuk meletakkan buku Anda melalui itu.

— Chris Nava
sumber

0

Saya akan merekomendasikan pemindai flatbed untuk pemindaian buku atau pemindai seluruh buku seperti yang disebutkan oleh Chris.

Jika Anda bisa, dapatkan gambar Anda dikompilasi ke dalam format TIFF karena itu adalah standar industri ketika datang ke sistem manajemen dokumen.

Untuk melakukan OCR, saya akan merekomendasikan OCR tesseract karena itu adalah kerangka kerja Google diuraikan untuk proyek buku mereka.

— Greg Buehler
sumber

0

walaupun kedengarannya menggoda untuk mengotomatiskan prosesnya, Anda mungkin ingin menginvestasikan lebih banyak waktu dan pekerjaan karena buku khusus ini adalah masalah pribadi. OCR akan melakukan sebagian besar tetapi Anda harus mengoreksi halaman demi halaman dan membandingkannya dengan yang asli. perlu diingat, kesalahan penulis adalah bagian dari kesepakatan, jangan memperbaikinya (buat catatan kaki jika Anda merasa sangat cenderung). Luangkan waktu Anda, jangan taruh diri Anda di bawah tekanan, pemindaian buku adalah pekerjaan keledai tetapi ketelitian membayar dan Anda akan berakhir dengan salinan digital yang baik dari kronis keluarga Anda. semoga sukses dengan usaha Anda :)

sebenarnya, itu poin yang sangat bagus. Saya belum mempertimbangkan untuk membuat konten asli buku tersedia secara digital, tetapi selama saya memilikinya, saya mungkin juga membuat versi .pdf.

mengapa PDF? pikirkan HTML. dan Anda sebaiknya menyimpan pindaian asli meskipun Anda akan mendapatkan banyak data.

Ide saya adalah untuk memiliki semua info kelahiran / garis keturunan dalam database, jadi saya bisa membuat web frontend yang akan membuat navigasi / pencarian / pembaruan lebih mudah. Saya berencana mengerjakan kesalahan ketik apa pun dari versi itu. Juga, saya punya beberapa sepupu yang tidak ada di sana dan akan menyenangkan untuk menambahkannya. Saya sedang berpikir pdf karena akan menyenangkan untuk memiliki sesuatu yang akan terlihat seperti buku asli dengan nomor halaman asli dan utuh. Versi itu saya akan tinggalkan sendiri dan menyimpan semua kesalahan ketik dari buku.

0

Di tempat kerja kami menggunakan pemindai buku Plustek Optibook 3600 yang sekitar $ 250 .
Ini pada dasarnya merupakan pemindai flat bed tetapi dengan pelat kaca mengarah ke tepi pemindai sehingga halaman buku dapat diletakkan rata di atas piring. Ini menghilangkan bayangan tulang belakang dan menghindari buku yang merusak.

masukkan deskripsi gambar di sini

— pelms
sumber

Pernahkah Anda mencoba menggunakannya dengan buku yang sangat tebal? Ini seperti 3 inci tebal.

Jika Anda dapat membukanya 90 ° dengan halaman yang cukup rata seharusnya tidak masalah. Coba di ujung meja.

— Pelms