метро Текстильщики, Волгоградский проспект, дом 42, корпус 42А E-mail:inf@redocs.ru
Филиал в г. Нижний Новгород,

Распознавание текста документов

Перечень услуг компании Редокс  включает  работы  по переносу информации с бумажных носителей в различные электронные форматы. Оцифровка  документов проводится в несколько этапов:

  1. Сканирование оригинала. Обычно этот процесс осуществляется в черно-белом режиме, однако при необходимости  мы выполняем его в цвете или градациях серого.
  2. Распознавание структуры страниц. Для этого наши специалисты используют  специальное программное обеспечение —  Abbyy Finereader. На данный момент эта система  считается лучшей, и ее алгоритм непрерывно совершенствуется,  что позволяет обрабатывать документы любой сложности и практически в любом состоянии.
  3. Распознавание текста. На этом этапе особенно важно правильно установить параметры программы Abbyy Finereader, чтобы минимизировать ошибки распознавания. Их количество зависит от таких факторов, как  полиграфическое качество исходника, размер и контрастность текста, сложность взаимного размещения элементов на странице.
  4. Проверка правильности распознавания. Выполняется визуально с целью выявления неправильно распознанных символов.
  5. Проверка орфографических ошибок. На четвертом этапе, как правило, не удается избавиться от всех ошибок, поэтому дополнительно мы проверяем орфографию, например, в текстовом редакторе Microsoft Word.
  6. Форматирование и оформление электронного документа. В текстовом редакторе Microsoft Word  устанавливается  единый формат и стиль документа, размер и тип шрифта, производится размещение и структурирование таблиц. При необходимости вручную вводится текст,  формулы, таблицы, которые не удалось распознать автоматически. Мы не выполняем полностью автоматическое распознавание документа, а работаем в полуавтоматическом режиме с обязательным проведением корректировки после каждого этапа обработки. В результате,  в электронной версии не полностью сохраняется форматирование оригинала, но на выходе получается качественный, легко читаемый документ.

Работая с системой распознавания Abbyy Finereader много лет, наши специалисты детально изучили ее функционал  и выработали  особые приемы и методы обработки исходников, позволяющие проводить  распознавание документов различных типов и в любом состоянии. 

Благодаря  современному оборудованию, идеально настроенному программному обеспечению и четко отработанному технологическому процессу  себестоимость работ значительно  уменьшилась, поэтому мы имеем возможность предложить заказчикам весьма привлекательные цены. 

Наши цены

Распознавание текста.

Автоматическое распознавание за страницу (без проверки и корректировки результатов) 3р.
Распознавание. Простая страница* (за страницу) 16р.
Распознавание. Стандартная страница* (за страницу) 23р.
Распознавание. Сложная страница 1 степени* (за страницу) 39р.
Распознавание. Сложная страница 2 степени* (за страницу) 56р.
Распознавание. Сложная страница 3 степени* (за страницу) 85р.
Распознавание. Сложная страница 4 степени* (за страницу) 115р.
Сверхсложная страница* (за страницу) 190р.

Наценки
к базовой стоимости распознавания текста

* Порядок определения сложности страницы при распознавании текста

Тип сложности страницы определяется в зависимости от количества баллов рассчитанных для страницы

Кол-во баллов Тип страницы
от до
0 0 Простая страница
1 3 Стандартная страница
4 6 Сложная страница 1 
7 10 Сложная страница 2
11 16 Сложная страница 3
17 25 Сложная страница 4
26   Сверхсложная страница

Количество баллов сложности для страницы вычисляется суммированием значений расчетных баллов для каждого элемента страницы

Элемент страницы Кол-во расчетных баллов Комментарий
Простой рисунок 1  
Простая таблица 2 Небольшая таблица без объединения ячеек
Сложная таблица 6 Таблица на всю страницу, или таблица с объединением ячеек
Наличие сносок 4  
Верхний или нижний регистр 0,5  
Мелкий текст 6  

Типы исходных материалов для определения стоимости оцифровки

Простой текст — единый текстовый фрагмент с простым стилем оформления.

Простая таблица — структура данных из 1-12 строк,  с однотипным форматированием ячеек и текстом в них.

Сложная таблица — структура данных, занимающая всю страницу, не разбитая на ячейки либо с неоднородными (объединенными) ячейками и текстом.

Рисунок — графический элемент, как правило, с подписью.

Формула — комбинация сложных символов и элементов, отображение которой возможно только с помощью специального редактора формул.

Окончательная стоимость оцифровки документа зависит от степени обработки оригинала. Вы можете заказать, например, выполнение только таких операций как сканирование А2, А3, А4 или любых других форматов, и распознавание документов, а остальные этапы провести самостоятельно. Однако чем больше работы вы поручите квалифицированным специалистам, тем качественнее и быстрее будет результат.

Приведем пример:

Для работы с фрагментами текста из книг и других документов вам  необходимо преобразовать в электронную форму 50 печатных страниц.  Предположим, что оборудование для сканирования и программное обеспечение для распознавания текста есть в наличии.  Если вы  не занимаетесь этим  регулярно, то на выполнение работы вам потребуется не менее 9 часов.

Однако вы можете предоставить исходные материалы нашим специалистам и:

  1. получить качественный результат на следующий день в удобной вам форме.
  2. подождать  около 20 минут (время сканирования) и забрать оригиналы, а готовый электронный документ получить на указанный адрес электронной почты или скачать с нашего FTP-сервера.

Стоимость наших услуг составит приблизительно 800р.2000р. для 50 страниц в зависимости качества исходников.

Таким образом, при самостоятельном выполнении этой работы вы сэкономите 90-230 рублей за один час своей работы. 

Решайте сами, стоит ли эта сумма потраченного времени.


Страница сгенерирована за 0.07 секунд !