Распознавание текста документов
Перечень услуг компании Редокс включает работы по переносу информации с бумажных носителей в различные электронные форматы. Оцифровка документов проводится в несколько этапов:
- Сканирование оригинала. Обычно этот процесс осуществляется в черно-белом режиме, однако при необходимости мы выполняем его в цвете или градациях серого.
- Распознавание структуры страниц. Для этого наши специалисты используют специальное программное обеспечение — Abbyy Finereader. На данный момент эта система считается лучшей, и ее алгоритм непрерывно совершенствуется, что позволяет обрабатывать документы любой сложности и практически в любом состоянии.
- Распознавание текста. На этом этапе особенно важно правильно установить параметры программы Abbyy Finereader, чтобы минимизировать ошибки распознавания. Их количество зависит от таких факторов, как полиграфическое качество исходника, размер и контрастность текста, сложность взаимного размещения элементов на странице.
- Проверка правильности распознавания. Выполняется визуально с целью выявления неправильно распознанных символов.
- Проверка орфографических ошибок. На четвертом этапе, как правило, не удается избавиться от всех ошибок, поэтому дополнительно мы проверяем орфографию, например, в текстовом редакторе Microsoft Word.
- Форматирование и оформление электронного документа. В текстовом редакторе Microsoft Word устанавливается единый формат и стиль документа, размер и тип шрифта, производится размещение и структурирование таблиц. При необходимости вручную вводится текст, формулы, таблицы, которые не удалось распознать автоматически. Мы не выполняем полностью автоматическое распознавание документа, а работаем в полуавтоматическом режиме с обязательным проведением корректировки после каждого этапа обработки. В результате, в электронной версии не полностью сохраняется форматирование оригинала, но на выходе получается качественный, легко читаемый документ.
Работая с системой распознавания Abbyy Finereader много лет, наши специалисты детально изучили ее функционал и выработали особые приемы и методы обработки исходников, позволяющие проводить распознавание документов различных типов и в любом состоянии.
Благодаря современному оборудованию, идеально настроенному программному обеспечению и четко отработанному технологическому процессу себестоимость работ значительно уменьшилась, поэтому мы имеем возможность предложить заказчикам весьма привлекательные цены.
Распознавание текста. Наценки Тип сложности страницы определяется в зависимости от количества баллов
рассчитанных для страницы Количество баллов сложности для страницы вычисляется суммированием значений
расчетных баллов для каждого элемента страницыНаши цены
Свернуть
Автоматическое распознавание за страницу (без проверки и корректировки результатов)
3р.
Распознавание. Простая страница* (за страницу)
16р.
Распознавание. Стандартная страница* (за страницу)
23р.
Распознавание. Сложная страница 1 степени* (за страницу)
39р.
Распознавание. Сложная страница 2 степени* (за страницу)
56р.
Распознавание. Сложная страница 3 степени* (за страницу)
85р.
Распознавание. Сложная страница 4 степени* (за страницу)
115р.
Сверхсложная страница* (за страницу)
190р.
к базовой стоимости распознавания текстаРазвернуть
* Порядок определения сложности страницы при распознавании текста
Кол-во баллов
Тип
страницы
от
до
0
0
Простая страница
1
3
Стандартная страница
4
6
Сложная страница 1
7
10
Сложная страница 2
11
16
Сложная страница 3
17
25
Сложная страница 4
26
Сверхсложная страница
Элемент
страницы
Кол-во расчетных
баллов
Комментарий
Простой рисунок
1
Простая таблица
2
Небольшая таблица без объединения ячеек
Сложная таблица
6
Таблица на всю страницу, или таблица с объединением
ячеек
Наличие сносок
4
Верхний или нижний регистр
0,5
Мелкий текст
6
Типы исходных материалов для определения стоимости оцифровки
Простой текст — единый текстовый фрагмент с простым стилем оформления.
Простая таблица — структура данных из 1-12 строк, с однотипным форматированием ячеек и текстом в них.
Сложная таблица — структура данных, занимающая всю страницу, не разбитая на ячейки либо с неоднородными (объединенными) ячейками и текстом.
Рисунок — графический элемент, как правило, с подписью.
Формула — комбинация сложных символов и элементов, отображение которой возможно только с помощью специального редактора формул.
Окончательная стоимость оцифровки документа зависит от степени обработки оригинала. Вы можете заказать, например, выполнение только таких операций как сканирование А2, А3, А4 или любых других форматов, и распознавание документов, а остальные этапы провести самостоятельно. Однако чем больше работы вы поручите квалифицированным специалистам, тем качественнее и быстрее будет результат.
Приведем пример:
Для работы с фрагментами текста из книг и других документов вам необходимо преобразовать в электронную форму 50 печатных страниц. Предположим, что оборудование для сканирования и программное обеспечение для распознавания текста есть в наличии. Если вы не занимаетесь этим регулярно, то на выполнение работы вам потребуется не менее 9 часов.
Однако вы можете предоставить исходные материалы нашим специалистам и:
- получить качественный результат на следующий день в удобной вам форме.
- подождать около 20 минут (время сканирования) и забрать оригиналы, а готовый электронный документ получить на указанный адрес электронной почты или скачать с нашего FTP-сервера.
Стоимость наших услуг составит приблизительно 800р. - 2000р. для 50 страниц в зависимости качества исходников.
Таким образом, при самостоятельном выполнении этой работы вы сэкономите 90-230 рублей за один час своей работы.
Решайте сами, стоит ли эта сумма потраченного времени.
Страница сгенерирована за 0.02 секунд !