метро Текстильщики, Волгоградский проспект, дом 42, корпус 42А

Вселенная цифрового формата

Для чего нужно распознавание текста?

В современном офисе электронный документооборот является само собой разумеющимся делом. Процесс перевода бумажной документации в электронный формат (оцифровка), как правило, не ограничивается простым сканированием документов. Одновременно производится распознавание текста документов. Что же это такое?

При обычном сканировании текстовых документов его листы как бы фотографируются сканером. На выходе получается совокупность листов в виде картинок. На них можно лишь смотреть: никакого редактирования отсканированного текста произвести нельзя. Это обстоятельство резко снижает привлекательность электронного документа.

Следует также учесть, что хранение документов в виде картинок достаточно затратно с точки зрения расхода дискового пространства. Поэтому распознавание текста документов целесообразно производить даже в тех случаях, когда отсутствует необходимость в их последующем редактировании.

Последовательность процесса распознавания:

  • сканирование входного документа;
  • распознавание структуры документа;
  • распознавание текста;
  • проверка правильности распознавания и ручная коррекция неправильно распознанных символов (при необходимости);
  • сохранение выходного документа в нужном формате.

Программы распознавания

Для оптического распознавания символов (по англ. – optical character recognition) используются специальные программные средства, называемые OSR-программами. Обычно они работают, взаимодействуя со сканером.

Бесплатные OSR-программы обладают скромными возможностями: они распознают текст документов хорошего качества только на самых распространенных языках. Платные программы распознают документы на десятках и даже сотнях языков. Их распознавание не ограничивается простым текстом: документы могут содержать таблицы, формулы, а сам текст может быть и рукописным.

Самой известной программой распознавания является ABBYY FineReader. Эта программа обладает самыми широкими возможностями распознавания. Она может распознавать документы, написанные почти на двух сотнях языков, включая малораспространенные, мертвые и искусственные (типа эсперанто), а также языки программирования. Кроме сканера, начальное изображение можно взять с фотокамеры мобильного телефона или с цифрового фотоаппарата. Выходной документ можно сохранить в текстовом редакторе Word, в формате PDF, в других офисных программах, а также в форматах электронных книг.


Страница сгенерирована за 0.01 секунд !