метро Текстильщики, Волгоградский проспект, дом 42, корпус 42А

Распознать документ

Зачастую у многих по долгу службы или же просто по необходимости возникает  вопрос «как распознать текст?» Многие люди, особенно далекие от компьютерных технологий, полагают, что отсканировав текст его можно редактировать в обычном редакторе.  Но, к большому сожалению, это не так.

Обычно нам нужно получить редактируемую версию какого либо документа, электронная версия которого утеряна или просто недоступна. В дальнейшем с помощью редактирования и обработки уже оцифрованного и распознанного  документа мы добиваемся своей цели, будь то электронный вариант книги, бухгалтерская документация, бланки, анкеты, формуляры и так далее. Более того мы можем осуществлять поиск внутри документа по ключевым словам или фразам, копировать отдельные фрагменты, распечатывать и делиться в интернете без потери качества.

Вариант простого набора по образцу подходит лишь при очень небольших объемах, однако если требуется сохранить структуру документа, фотографии, графики и прочее, то задача становится сложнее. Если говорить о больших объемах, то перенабор текста представляется совсем уж не реальным. Как же быть?

На выручку приходит сканирование документов и  последующее оптическое распознавание символов с помощью специального программного обеспечения. Если распознать нужно не редактируемый файл типа PDF, то его придется перевести в растровый формат, минуя процесс сканирования. То же касается, если оригинал уже в виде файла в растровом формате. В этом случае процесс подготовки оригинала и процесс самого сканирование мы опускаем, при условии, что цифровой оригинал отвечает всем требованиям для успешного распознавания.

Итак, запустив программу распознавания и получив ее результат можно считать, что половина дела сделана. Почему только половина, спросите Вы? Все потому, что хотя прогресс и не стоит на месте, но многое еще не подвластно даже самому современному компьютеру и самой лучшей программе распознавания. И хотя процент корректного распознавания с хорошего оригинала стремится к 100%, но все же на последнем этапе в работу включается человек. Корректировать возможные ошибки распознавания придется вручную. Но тем не менее весь процесс распознавания и коррекции  с сотни раз быстрее нежели ручной набор по оригиналу более менее солидного по объему документа. Современные средства распознавания «владеют»  несколькими языками, сохраняют не только текст, но и фотографии, чертежи, сохраняя при этом верстку и формат документа. Оцифрованный и распознанный документ Вы вольны изменять и редактировать уже по своему усмотрению, конвертируя его в любой удобный для вас формат.

От чего же зависит успешное распознавание документа? Наверное, оцифровка документа и его последующее распознавание, тот редкий случай, когда копия по всем параметром будет лучше оригинала. Но для этого нужно выполнить несколько условий. Во-первых исходный материал, а именно оригинальный документ, должен быть максимально хорошего качества. Мятая, надорванная бумага, плохо пропечатанный или выгоревший текст, «хитрый» шрифт (а тем более рукописный) все это ведет к ухудшению результата распознавания. Во-вторых, сканер или другое устройство (в некоторых случаях используются специальные фотоаппараты) получения оптической копии должен выдавать результат с хорошим разрешением и (если требуется) цветопередачей. В третьих, программное и компьютерное обеспечение должно позволять  получить максимально возможный процент распознавания документа. Не выполнение хотя бы одного из этих условий снижает процент распознавания в разы, а это значит, что больше времени потребуется для ручной корректировки документа.

Для чего же могут потребоваться оцифрованный и распознанные документы? Создание электронных архивов и библиотек, всевозможные картотеки и каталоги, базы данных, распространение электронных версий изданий и книг, публикация в интернете, продажа и обмен электронных версий документов и архивов. Оцифровка и распознавание древнейших библиотек дает нам доступ к огромному опыту человечества практически из любой точки планеты. Область применения цифровых технологий становится поистине безгранична. 


Страница сгенерирована за 0.03 секунд !