Как происходит оцифровка книг
С наступлением компьютерной эры приобрели популярность электронные книги, учебники, справочники. Читать их можно с обычного компьютера, ноутбука, планшета, мобильного телефона, а также с букридера – специального устройства, созданного для чтения электронных книг.
Особенности книжных сканеров
В недавнем прошлом для создания книги в электронном виде применялся ручной набор текста. Сейчас широкое распространение получил такой процесс, как оцифровка книг. Он осуществляется с помощью специальных сканеров, которые бывают трех видов:
- планшетные;
- планетарные;
- промышленные (роботизированные).
Планшетные сканеры, сконструированные для сканирования книг, применяются в быту, они имеют довольно низкую производительность. Планетарные устройства способны отсканировать до 1 000 страниц в час. Промышленные сканеры имеют производительность в пределах 3 000 страниц в час. Роботизированный сканер оснащен специальным устройством для автоматического перелистывания отсканированных страниц.
Качественную оцифровку можно произвести в специализированной компании, имеющей современное оборудование. Оно позволяет отсканировать переплетенные книги и сшитые листы. Нормой для преобразования книжных текстов в цифровой вид считается сканирование 300 точек на дюйм.
Методика оцифровки книг
Процесс оцифровки включает три различных подхода.
- Обязательный. В этом случае получаются электронные копии страниц в виде графических изображений. Они хранятся в каком-либо формате графических файлов. Данная методика позволяет сохранить верстку книги и исключить ошибки. Недостатком этого метода является невозможность поиска и извлечения фрагментов текста, к примеру, для цитирования.
- Опциональный. Этот подход предполагает использование технологии оптического распознавания символов с сохранением текста в одном из форматов электронных книг. В результате становятся возможными полнотекстовый поиск и извлечение массивов электронной книги. Однако при этом затруднено воспроизведение оригинальной верстки книги, а также рисунков, схем, графиков, формул; ошибки распознавания практически неизбежны.
- Смешанный. С появлением формата DjVu стал возможным смешанный подход, предполагающий совмещение преимуществ двух основных методик. Текст распознается в автоматическом режиме, затем он подкладывается под оригинальные растровые изображения страниц.
Страница сгенерирована за 0.02 секунд !