Распознавание текста документов
Распознавание текста (Optical Character Recognition) предназначено для перевода информации с изображений в редактируемый текстовый вид.
После сканирования документа вы получаете изображение его страниц в растровом формате. По сути это просто фотография документа, состоящее из точек (пикселей) разного цвета.
Распознавание текста применяется тогда, когда вам нужно использовать текстовую информацию с такого изображения. Например, вам нужно использовать весь текст или фрагменты текста в своих работах или нужна возможность поиска внутри текста.
Для распознавания текста применяют специальные программы, которые анализируют загруженные в них растровые документы и пытаются определить элементы и текст на изображениях. Результатом их работы, как правило, являются файлы формата DOC, XLS или текстовый PDF.
Виды распознавания
Мы выделяем два основных вида распознавания:
- Автоматическое распознавание
- Распознавание с ручной настройкой, проверкой и форматированием результата
При автоматическом распознавании всю работу делает программа. При этом она может ошибочно определить структуру документа, неправильно распознать символы или последовательность текстовых блоков. Процент ошибок зависит от исходного изображения и может достигать 30-40%. Полученный таким образом документ желательно проверить и откорректировать.
Распознавание с ручной настройкой, проверкой и форматированием производится с участием оператора. Оператор перепроверяет работу программы, делает предварительную настройку, проверку и редактирование с форматированием в текстовом редакторе. На выходе вы получаете структурированный, редактируемый, качественный документ в нужном формате (Word, Excel).
Стоимость распознавания текста
Стоимость автоматического распознавания не зависит от исходного документа и составляет
3 руб. за одну страницу исходного документа.
Стоимость распознавания с ручной настройкой, проверкой и форматированием в среднем составляет
от 16 руб. до 39 руб. за одну страницу исходного документа.
Она зависит от времени потраченного оператором на обработку одной страницы, которое в свою очередь зависит от состояния исходного изображения (сильный фон, копия, недостаточная контрастность) и сложности структуры самого документа (наличие таблиц, рисунков, сносок, многоязычность и т.п.)
В таблице представлены примеры изображений и стоимости их распознавания:
Исходная страница |
Характеристика |
Стоимость |
Простая страница |
16 руб. за страницу |
|
Стандартная страница |
23 руб. за страницу |
|
Сложная страница 1 степени |
39 руб. за страницу |
Сроки
В среднем на распознавание одного документа в 200-300 страниц, или книги такого же объёма уходит от 2 до 5 рабочих дней.
На крупных проектах большой штат позволяет нам обрабатывать до нескольких тысяч страниц в день.
Почему мы?
Наша компания профессионально предоставляет услуги распознавания текста документов, начиная с 2006 года. За это время мы распознали сотни тысяч страниц документов.
Наши клиенты, как правило, обращаются к нам снова и снова и вот почему:
- Большой опыт (наши операторы имеют стаж работы от 2-х до 10 лет)
- Высокое качество
- Разумные цены
- Постоплата (вы получаете результат и только после этого оплачиваете)
- Бережное обращение с документами
Этапы распознавания текста
Распознавание текста документов проводится в несколько этапов:
- Сканирование оригинала. Обычно этот процесс осуществляется в черно-белом режиме, однако при необходимости мы выполняем его в цвете или градациях серого.
- Распознавание структуры страниц. Для этого наши специалисты используют специальное программное обеспечение — Abbyy Finereader. На данный момент эта система считается лучшей, и ее алгоритм непрерывно совершенствуется, что позволяет обрабатывать документы любой сложности и практически в любом состоянии.
- Распознавание текста. На этом этапе особенно важно правильно установить параметры программы Abbyy Finereader, чтобы минимизировать ошибки распознавания. Их количество зависит от таких факторов, как полиграфическое качество исходника, размер и контрастность текста, сложность взаимного размещения элементов на странице.
- Проверка правильности распознавания. Выполняется визуально с целью выявления неправильно распознанных символов.
- Проверка орфографических ошибок. На четвертом этапе, как правило, не удается избавиться от всех ошибок, поэтому дополнительно мы проверяем орфографию, например, в текстовом редакторе Microsoft Word.
- Форматирование и оформление электронного документа. В текстовом редакторе Microsoft Word устанавливается единый формат и стиль документа, размер и тип шрифта, производится размещение и структурирование таблиц. При необходимости вручную вводится текст, формулы, таблицы, которые не удалось распознать автоматически. Мы не выполняем полностью автоматическое распознавание документа, а работаем в полуавтоматическом режиме с обязательным проведением корректировки после каждого этапа обработки. В результате в электронной версии не полностью сохраняется форматирование оригинала, но на выходе получается качественный, легко читаемый документ.
Работая с системой распознавания Abbyy Finereader много лет, наши специалисты детально изучили ее функционал и выработали особые приемы и методы обработки исходников, позволяющие проводить распознавание документов различных типов и в любом состоянии.
Благодаря современному оборудованию, идеально настроенному программному обеспечению и четко отработанному технологическому процессу себестоимость работ значительно уменьшилась, поэтому мы имеем возможность предложить заказчикам весьма привлекательные цены.
Распознавание текста. Наценки Тип сложности страницы определяется в зависимости от количества баллов
рассчитанных для страницы Количество баллов сложности для страницы вычисляется суммированием значений
расчетных баллов для каждого элемента страницыНаши цены
Свернуть
Автоматическое распознавание за страницу (без проверки и корректировки результатов)
3р.
Распознавание. Простая страница* (за страницу)
16р.
Распознавание. Стандартная страница* (за страницу)
23р.
Распознавание. Сложная страница 1 степени* (за страницу)
39р.
Распознавание. Сложная страница 2 степени* (за страницу)
56р.
Распознавание. Сложная страница 3 степени* (за страницу)
85р.
Распознавание. Сложная страница 4 степени* (за страницу)
115р.
Сверхсложная страница* (за страницу)
190р.
к базовой стоимости распознавания текстаРазвернуть
* Порядок определения сложности страницы при распознавании текста
Кол-во баллов
Тип
страницы
от
до
0
0
Простая страница
1
3
Стандартная страница
4
6
Сложная страница 1
7
10
Сложная страница 2
11
16
Сложная страница 3
17
25
Сложная страница 4
26
Сверхсложная страница
Элемент
страницы
Кол-во расчетных
баллов
Комментарий
Простой рисунок
1
Простая таблица
2
Небольшая таблица без объединения ячеек
Сложная таблица
6
Таблица на всю страницу, или таблица с объединением
ячеек
Наличие сносок
4
Верхний или нижний регистр
0,5
Мелкий текст
6
Типы исходных материалов для определения стоимости оцифровки
Простой текст — единый текстовый фрагмент с простым стилем оформления.
Простая таблица — структура данных из 1-12 строк, с однотипным форматированием ячеек и текстом в них.
Сложная таблица — структура данных, занимающая всю страницу, не разбитая на ячейки либо с неоднородными (объединенными) ячейками и текстом.
Рисунок — графический элемент, как правило, с подписью.
Формула — комбинация сложных символов и элементов, отображение которой возможно только с помощью специального редактора формул.
Делать самому или доверить профессионалам?
Ответ на этот вопрос зависит от того насколько вы цените своё время.
Пример
Для работы с фрагментами текста из книг и других документов вам необходимо преобразовать в электронную форму 50 печатных страниц. Предположим, что оборудование для сканирования и программное обеспечение для распознавания текста есть в наличии. Если вы не занимаетесь этим регулярно, то на выполнение работы вам потребуется не менее 9 часов.
Однако вы можете предоставить исходные материалы нашим специалистам и:
- получить качественный результат на следующий день в удобной вам форме.
- подождать около 20 минут (время сканирования) и забрать оригиналы, а готовый электронный документ получить на указанный адрес электронной почты или скачать с нашего FTP-сервера.
Стоимость наших услуг составит приблизительно 800р. - 1500р. для 50 страниц в зависимости качества исходников.
Таким образом, при самостоятельном выполнении этой работы вы сэкономите 90-170 рублей за один час своей работы.
Решайте сами, стоит ли эта сумма потраченного времени.
Страница сгенерирована за 0.02 секунд !