Сканирование текста с распознаванием
С появлением и глобальным распространением персональных компьютеров, большинство документов создается непосредственно в электронном виде, однако до полного перехода на электронный документооборот еще далеко. Обычно в среднестатистической компании принят электронный документооборот на каком либо уровне, однако без отказа от традиционного на бумажных носителях. Обмен документацией между предприятиями и организациями и вовсе остается в подавляющем объеме только в виде бумажных документов.
Назревает проблема снижения эффективности бизнес процессов, основанных на использовании бумажных документов. Ускорить многократно документооборот, а также получить беспрепятственный доступ к информационным ресурсам, накопленным человечеством, помогут новейшие технологии по оцифровке и распознавании документов, перевод в цифровой вид всех документов представляющих ценность, как для всего человечества, так и для отдельно взятого предприятия или даже человека.
Самым распространённым, быстрым и простым методом оцифровки является сканирование документов с помощью специального оборудования – сканеров. Результирующий цифровой файл представляет из себя растровое изображение, то есть попросту фотографию оригинала. Естественно, редактировать (а нас интересует перевод в цифровой вид только с возможностью редактирования) такой файл будет затруднительно. Ибо поскольку, цифровой файл является графическим, то и для обработки и редактирования такого файла потребуется не текстовый, а графический редактор. Что приведет к увеличению времени на редакцию и к сведению всех удобств использования цифрового формата на нет, в связи не рациональностью затраченного времени на его редакцию. Поэтому этот вариант использования цифрового изображения мы даже не рассматриваем. Нас интересует перевод бумажного документа именно в цифровой текстовый документ с возможностью редактирования. Эту возможность нам дает сканирование и распознавание текста. Произведя распознавание на выходе мы получаем документ который можно редактировать в обычном текстовом редакторе.
Что же мы должны сделать, чтобы получить такой результат? Во-первых, до оцифровки оригинала мы должны его подготовить. Если это многостраничная брошюра, журнал или книга, то по возможности документ нужно разброшюровать, уcтранить возможные механические повреждения, устранить заломы и замятости. Надо помнить что чем лучше состояние оригинала тем лучше будет его цифровая копия на стадии сканирования и тем проще будет произвести процесс распознавания. Сам процесс сканирования должен производиться на современном качественном оборудовании, подходящим для выполнения операций именно с такого типа документами. Сканер, расcчитанный на сканирование документов А4, никак не поможет вам в работе с чертежами формата А2 или толстенной древней книгой, разброшюровка которой не допускается в принципе. Для каждого вида документа существует свой тип сканера, которым и стоит пользоваться для достижения качественного результата. Следующий этап это редактирование полученного изображения в графическом редакторе если это необходимо. Пожелтевшая старая бумага, выцветший шрифт и так далее, все это негативно влияет на качество распознавания. Поэтому все недочеты растрового документа стоит исправить в графической программе на этом этапе и затем уже приступить к распознаванию документа. Распознавание текста достаточно уверенно происходит с помощью специальных компьютерных программ. Однако, к сожалению, распознавание рукописного текста все еще остается проблемным. Разпознав текст и получив редактируемую версию, приступаем к проверке результатов, и при необходимости, корректируем и редактируем конечный файл. Получив нужный нам результат, мы можем сохранить файл в любой, удобный для использования в будущем, формат. Теперь мы можем использовать свои оцифрованные документы практически без всяких ограничений. Копировать, редактировать, размещать в интернете, распечатывать необходимое количество бумажных копий.
При большом количестве цифровой документаций, так или иначе встает вопрос о систематизировании и упорядочивании материала. Лучшим решением этих задач становиться создание электронного архива документов.
Страница сгенерирована за 0.02 секунд !