метро Текстильщики, Волгоградский проспект, дом 42, корпус 42А E-mail:inf@redocs.ru
Филиал в г. Нижний Новгород,

Сканирование текста с распознаванием

С появлением и глобальным распространением персональных компьютеров, большинство документов создается непосредственно в электронном виде, однако до полного перехода на электронный документооборот еще далеко.  Обычно в среднестатистической компании принят электронный документооборот на каком либо уровне, однако без отказа от традиционного на бумажных носителях. Обмен документацией между предприятиями и организациями и  вовсе остается в подавляющем объеме только в виде бумажных документов.

Назревает проблема снижения эффективности бизнес процессов, основанных на использовании бумажных документов. Ускорить многократно документооборот, а также получить беспрепятственный доступ к информационным ресурсам, накопленным человечеством, помогут новейшие технологии по оцифровке и распознавании документов, перевод в цифровой вид всех документов представляющих ценность, как для всего человечества, так и для отдельно взятого предприятия или даже человека.

Самым распространённым, быстрым и простым методом оцифровки является сканирование документов с помощью специального оборудования – сканеров. Результирующий цифровой файл представляет из себя растровое изображение, то есть попросту фотографию оригинала. Естественно, редактировать (а нас интересует перевод в цифровой вид только с возможностью редактирования) такой файл будет затруднительно. Ибо поскольку, цифровой файл является графическим, то и для обработки и редактирования такого файла потребуется не текстовый, а графический редактор. Что приведет к увеличению времени на редакцию и к сведению всех удобств использования цифрового формата на нет, в связи не рациональностью затраченного времени на его редакцию. Поэтому этот вариант использования цифрового изображения мы даже не рассматриваем. Нас интересует перевод бумажного документа именно в цифровой текстовый документ с возможностью редактирования. Эту возможность нам дает сканирование и распознавание текста. Произведя распознавание на выходе мы получаем документ который можно редактировать в обычном текстовом редакторе.

Что же мы должны сделать, чтобы получить такой результат? Во-первых, до оцифровки оригинала мы должны его подготовить. Если это многостраничная брошюра, журнал или книга, то по возможности документ нужно разброшюровать, уcтранить возможные механические повреждения, устранить заломы и замятости. Надо помнить что чем лучше состояние оригинала тем лучше будет его цифровая  копия на стадии сканирования и тем проще будет произвести процесс распознавания. Сам процесс сканирования должен производиться на современном качественном оборудовании, подходящим для выполнения операций именно с такого типа документами. Сканер, расcчитанный на сканирование документов А4, никак не поможет вам в работе с чертежами формата А2 или толстенной  древней книгой, разброшюровка которой не допускается в принципе. Для каждого вида документа существует свой тип сканера, которым и стоит пользоваться для достижения качественного результата. Следующий этап это редактирование полученного изображения в графическом редакторе если это необходимо. Пожелтевшая старая бумага, выцветший шрифт и так далее, все это негативно влияет на качество  распознавания. Поэтому все  недочеты растрового документа стоит исправить в графической программе на этом этапе и затем уже приступить к распознаванию документа. Распознавание текста достаточно уверенно происходит с помощью специальных компьютерных программ. Однако, к сожалению, распознавание рукописного текста все еще остается проблемным. Разпознав текст и получив редактируемую версию, приступаем к проверке результатов, и при необходимости, корректируем и редактируем конечный файл. Получив нужный нам результат, мы можем сохранить файл в  любой, удобный для использования в будущем, формат. Теперь мы можем использовать свои оцифрованные документы практически без всяких ограничений. Копировать, редактировать, размещать в интернете, распечатывать необходимое количество бумажных копий.

При большом количестве цифровой документаций, так или иначе встает вопрос о систематизировании и упорядочивании материала. Лучшим решением этих задач становиться создание электронного архива документов.


Страница сгенерирована за 0.03 секунд !