Распознавание и оцифровка книг
Сегодня мы все больше предпочитаем использовать цифровые носители и источники информации вместо аналоговых. Это и удобнее, и проще, и дешевле. Вместе со всем миром меняются и книги. Единственным способом перевести обычную, аналоговую книгу в электронный вид – это сначала отсканировать все страницы книги, а затем специализированным программным обеспечением распознать на них текст.
Что можно получить после распознавания книги?
- Документ Word со всеми текстами и иллюстрациями, готовый к редактированию.
- Простой файл в формате TXT
После дополнительной обработки:
- Электронную книгу в формате epub, fb2 (и другие форматы для использования на мобильных и планшетных устройствах)
- PDF- документ
- HTMLдокумент готовый к использованию в Internet
Как происходит распознавание книг?
Весь процесс распознавания книги делится на два главных этапа.
Сканирование книги
Сканирование книги имеет свои особенности, связанные в первую очередь с тем, что книги сшиты и не подлежат расшиванию, это значит - взять от туда отдельный лист для сканирования не получится.
Для сканирования книг используют специальные книжные сканеры. Сканирование можно сделать и на обычном сканере, но качество работы будет хуже, а сама работа будет идти дольше. Так что, использовать книжный сканер и быстрее и дешевле.
В результате сканирования мы получаем изображения всех страниц книги.
Распознавание изображений страниц книги
На этом этапе с помощью специализированного программного обеспечения мы распознаем изображения страниц книги, получая в результате текст в электронном виде.
Весь этап распознавания контролируется и проверяется оператором, который исправляет возможные ошибки. Ни одно программное обеспечение сегодня не может выполнить со 100% качеством, работа оператора необходима для достижения 100% качества.
Что еще надо знать для распознавания книг?
Оптимальное качество сканирования для распознавания книг – 300 dpi. Делать сканирование более качественно нет необходимости, а вот уменьшить этот параметр – значит уменьшить общий итог качества работы.
При сканировании и распознавании книг можно выполнять эту процедуру не только для текста, но и для формул, таблиц и изображений.
Страница сгенерирована за 0.01 секунд !