От выбора системы OCR напрямую зависят финансовые показатели бизнеса, так как правильно настроенное решение позволяет снижать операционные издержки, фонд оплаты труда и быстрее получать точные данные для дальнейшей работы компании.
erid: LjN8KRuAv
ИТ Медиа
От архивов до общих центров обслуживания – везде, где компании имеют дело с большим объемом разрозненных документов, системы оптического распознавания символов (OCR) могут качественно изменить подход к обработке данных. На фоне выхода продуктов ABBYY из единого реестра российского ПО мы решили рассмотреть, какие альтернативы есть у тех, кто продолжает пользоваться технологиями OCR.
Как настроить работу распознавания документов ABBYY
Технология оптического распознавания символов (Optical Character Recognition, OCR) позволяет извлекать данные из документов самых разных типов – от текстовых и PDF до фотоизображений. Получая их, мы можем структурировать данные, обеспечить быстрый поиск информации и передачу обработанных данных в бизнес-системы компании.
При большом объеме входящей документации использование OCR актуально для кадровой службы, бухгалтерского или юридического отдела, архива. А также для общих центров обслуживания (ОЦО), которые все чаще создаются в крупных компаниях, работающих с массовым рынком.
Но OCR работает не только с бумажными версиями файлов: решения на базе этой технологии обрабатывают цифровые образы документов. В таком случае образ извлекается не в процессе сканирования, а передается из других систем, в том числе через системы электронного документооборота (ЭДО). Для ряда заказчиков этот сценарий актуален.
Например, банки принимают кредитные анкеты из розничных сетей, а коллекторские агентства – договоры между банками и их должниками. Во всех подобных случаях OCR позволяет автоматизировать и повысить эффективность процесса извлечения данных. Кроме того, растет интерес к технологии OCR в государственных организациях.
Однако к решениям на ее основе, как и ко многим другим, здесь предъявляют особое требование: они должны обязательно входить в реестр российского ПО. К настоящему времени таких решений в нем немало и с каждым годом становится все больше. От выбора системы OCR напрямую зависят финансовые показатели бизнеса, так как правильно настроенное решение позволяет снижать операционные издержки, фонд оплаты труда и быстрее получать точные данные для дальнейшей работы компании. Лишь на первый взгляд распознавание с точностью 75% незначительно отличается от 98%-ной, а на практике такая разница увеличивает количество обрабатываемых вручную документов с 2 до 25%. Таким образом, выбирая OCR-решение, очень важно не ошибиться.
Распознавание сканов документов
Три составляющие OCR-решений
«Под капотом» OCR-решений находятся три ключевые составляющие: а) движок распознавания, б) инструменты настройки шаблонов, в) технологии машинного обучения, которые могут использоваться или нет в зависимости от решаемой задачи. Для начала разберемся с движком – это основа технологии распознавания. Практически все крупные системы имеют собственные технологии распознавания.
Так, Google, Amazon и Microsoft предлагают достаточно дешевое облачное полнотекстовое распознавание, однако на русском языке его качество оставляет желать лучшего. Yandex здесь выигрывает, но, в отличие от конкурентов, для него характерны ограничения размера изображений. Что касается промышленных движков, то мы рекомендуем enterprise-решения вроде ABBYY, Tesseract и Kofax.
Применение инструментов настройки шаблонов поверх движков распознавания – это уже уровень интеграции OCR с другими системами компании. Часто на данном этапе требуется написание программного кода для связки решений между собой. За счет программируемых шаблонов можно задать определенный функционал пред- и постобработки изображений, передачи данных из системы в систему.
Проще говоря, могут быть созданы правила и сценарии обработки распознанных данных, которые соответствуют бизнес-процессам конкретной компании. Типичный проект по внедрению решения OCR состоит из двух частей: выбора лицензионного софта (движка) и работы по созданию шаблонов. Обе части влияют на стоимость проекта – чем удобнее инструмент, тем ниже она будет.
При этом реализация шаблонов и интеграции зависит от компании-исполнителя: кто-то использует только свой движок, а кто-то, как Konica Minolta, работает с любым софтом, подбирая решения под задачи заказчика. Наконец, третий уровень OCR-решений – применение поверх движков и шаблонов технологий машинного обучения, машинного зрения и нейросетей. Об этом чуть ниже.
Какие движки OCR доступны российским заказчикам?
Среди наиболее популярных стоит отметить решение ABBYY — продукт на собственном движке, отличающийся «зрелыми» возможностями работы с кириллицей при доступной стоимости. Ключевой конкурент на мировом рынке, продукт от Kofax, несколько более дорогой и менее функциональный для отечественных пользователей из-за особенностей обработки языка.
На российском рынке также встречаются решения на базе IBM DataCap, однако эта система сложнее в настройке и обладает меньшими возможностями, чем первые две, при этом ее цена в некоторых случаях выше. Отдельно упомянем софт, подходящий компаниям, которым необходимо соблюдать требования законодательства об импортозамещении.
Среди таких движков, например, российский SOICA, уже включенный в реестр отечественного ПО. А также платформу EasySeparate, способную использовать любой движок OCR, что позволяет достигать гибкости при внедрении и настройке. Кстати, сейчас идет процесс включения EasySeparate в реестр отечественного ПО.
Кроме того, существуют различные роботизированные решения класса RPA, которые претендуют на работу с распознаванием документов. Но стоит иметь в виду, что системы класса RPA не заточены под сложные случаи работы с извлечением данных, так как их роль в первую очередь состоит в автоматизации бизнес-процессов. Поэтому в проектах, где требуется автоматизировать задачи извлечения данных, RPA зачастую тесно интегрирован с OCR: ведь специализированные OCR-решения могут обеспечить точность распознавания до 99%, особенно при обработке сложных запросов, а в большинстве проектов эта точность служит критерием экономического обоснования и успешности проекта.
С чем интегрируют OCR?
Сама по себе технология OCR – только средство извлечения данных. Важно, для чего мы их получаем и каким образом будем обрабатывать, хранить и передавать дальше в пределах ИТ-инфраструктуры компании. Обычно заказчики хотят получить решения для сквозных процессов, и это правильно.
Поэтому задачи проектов по извлечению данных тесно связаны с роботизацией процессов и теми же RPA: в таком случае OCR и RPA дополняют друг друга. Сюда же относится взаимодействие OCR-решений с электронными архивами, где хранятся цифровые образы документов вместе с метаданными, которые были извлечены из них с помощью распознавания.
Причем под классом электронных архивов подразумевается широкий спектр решений разного уровня сложности. Так, у Konica Minolta есть опыт реализации комплексных электронных архивов в качестве единого централизованного хранилища данных, которое автоматизирует процессы, маршрутизирует документы и связано с ЭДО, но компания работает и с более простыми цифровыми хранилищами в виде понятной структуры папок с упрощенным поиском данных.
На теме поиска нужно заострить внимание: в электронном архиве он существенно упрощается. Поскольку все документы получают текстовый слой, то электронный архив делает весь текст документа индексным. И если раньше вы могли искать только по атрибутам документов, например номеру или дате, то теперь – и по содержимому. Это может быть крайне актуально, когда компании необходимо быстро находить нужные файлы для контрагентов или той же ФНС, часто требующей предоставления информации в электронном виде. Сюда же относится налоговый мониторинг, который через витрины данных предполагает обмен информацией с налоговой службой.
Как развиваются OCR на основе нейросетей?
Наконец, третий уровень OCR-решений – наиболее интеллектуальный. С развитием нейронных сетей и фреймворков стало возможным обучать систему распознавать текст на определенных видах документов, и результат у таких специализированных решений будет выше, чем у универсальных.
Например, решения от SmartEngines показывают высокое качество распознавания на паспортах, так как система была обучена именно на этих документах и учитывает их особенности. Пандемия ускорила переход обработки в облако. Большинство лидеров рынка предлагают именно облачные системы.
Так, ABBYY запустила платформу Vantage, а Microsoft развивает обучение документов в Azure Forms . Обе платформы позволяют подготовить и обучить систему извлечению значимых данных. По сути, классические задачи простой индексации документов, то есть извлечения из них атрибутов, уходят в прошлое. Большинство проектов требуют не просто извлечения, но и детального анализа данных, а также выстраивания взаимосвязей между документами, что не только более ценно для компаний, но еще и упрощает работу в сравнении с классическим подходом. При наличии необходимых инструментов обучение нейросети может выполнить аналитик, а разработку шаблона выполняет только программист.
Что нужно учесть при выборе OCR-системы?
- В первую очередь большое значение имеют возможности движка: он должен хорошо работать с кириллицей, что не все западные решения могут обеспечить. Более того, если компания должна соблюдать требования импортозамещения, ей нужен софт, включенный в единый реестр отечественного ПО.
- Если предполагается распознавание сложных документов, особенно не текстовых, с нестандартным оформлением и структурой, не стоит полностью полагаться на встроенные инструменты решений RPA. Только OCR сможет обеспечить наилучшее качество распознавания данных.
- В большинстве проектов после выбора движка требуется этап разработки шаблонов и интеграции OCR с другими системами, в том числе RPA и электронными архивами. Необходимо учесть совместимость движка и возможности вашего интегратора осуществлять работу с разными типами решений.
- В ряде случаев значительный бизнес-эффект можно получить также от использования вместе с OCR технологий машинного обучения, компьютерного зрения и нейросетей. Этот продвинутый уровень позволяет быстро извлекать и анализировать данные из исходных источников любой сложности.
Источник: www.it-world.ru
Все о Process Mining от ProcessMi
Все о технологии Process Mining — кейсы, термины, решения и аналитика. Российский и зарубежный опыт от группы экспертов ProcessMi
OCR — Оптическое распознавание символов
Оптическое распознавание символов – это особая технология, позволяющая трансформировать отсканированные файлы, PDF-документы и изображения в текстовые форматы с возможностью поиска и редактирования. Кроме того, в понятия “оптическое распознавание символов” сейчас вкладываются исследования в области Artificial intelligence, компьютерного зрения и распознавания образов.
Элементарный пример: партнер или клиент прислал вам бумажный документ (статья/брошюра/листовка/договор). Одной отсканированной версии вам будет недостаточно для изменения документа. Растровое изображение, чем и является скан, – совокупность множества цветных или черно-белых точек, не содержащая символов. Для извлечения и изменения данных необходимо специальное программное обеспечение, способное распознать и “разделить” символы, определить буквы и сформировать из них слова, правильно распределить их в предложения и абзацы. В дальнейшем это и даст возможность работать с информацией, содержащейся в исходном документе.
История
История оптического распознавания символов уходит в конец тридцатых годов прошлого века, когда немец Густав Таушек первым зарегистрировал патент на технологию оптического распознавания текста. Спустя двадцать лет, американский криптоаналитик Дэвид Шепард создал машину, которая решала подобные задачи. Впоследствии Шепард стал основателем компании, которая первая в мире выпустила собственные системы OCR. Одним из первых покупателей систем был журнал Readerʼs Digest, ставший одним из самых активных её пользователей.
Следующий виток развития OCR случился в 1974 году с созданием компании «Kurzweil Computer Products». Рэй Курцвейль, основатель, сделал акцент на развитие системы Optical Character Recognition, способной распознавать текст независимо от шрифта. Задумка заключалась в создании особой машины для незрячих людей, которая распознавала бы тексты и читала их вслух. Итоговый продукт был представлен в 1976 году, а в 1978 Курцвейль продал компанию Xerox Corporation.
В 1993 году на рынок вышел программный продукт для распознавания текста от ABBYY, получивший широкое распространение. В частности, на её основе была создана ABBYY FineReader. Технологию лицензируют крупнейшие мировые компании, среди которых EMC, Samsung и др.
Особенности и виды технологии
Источники данных могут быть разными – от сканов документов и фотографий отчетов до визиток, счетов-фактур и цифровых квитанций.
Как правило, алгоритм всех систем достаточно похож: OCR преобразует полученное изображение (скан, фото и т.д) при помощи палитры двух цветов, один из которых должен быть значительно темнее другого, поэтому чаще всего используется черно-белая гамма. Когда все страницы переведены в два цвета, начинается анализ: светлые участки документов определяются как фон, а темные – как совокупность символов, которые нужно распознать.
Существующие программы распознавания могут иметь разные методы работы, но, как правило, все они базируются на двух алгоритмах:
- проработка материала идет по примерам;
- анализ идет на основе прописанных правил относительно каждого знака. Программа оценивает отдельный символ с заданными параметрами начертания той или иной буквы/цифры. Например, заглавная буква “М” может обозначаться как две вертикальные линии, соединенные двумя диагоналями посередине.
На текущий момент существует несколько видов OCR-систем, которые отличаются по тонкостям, стоимости и скорости работы:
- OCR – классическая версия функционала, рассчитанная на “перевод” и распознавание текста с отсканированных изображений;
- ICR – определение и перевод в текстовый формат раздельных печатных символов от руки или напечатанных витиеватым шрифтом;
- OMR – распознавание отметок (галочки, маркеры, круги, крестики);
- IWR – распознавание в рамках контекста. В отличие от предыдущих систем, фокусирующихся на конкретных символах, IWR способны определять слова или предложения. Считается, что такой вид OCR способен распознавать наиболее подробно и наименее ошибочно все рукописные тексты.
Источник: processmi.com
Что такое оптическое распознавание символов?
Оптическое распознавание символов (OCR) – это процесс преобразования изображения текста в машиночитаемый текстовый формат. Например, при сканировании бланка или квитанции, компьютер сохраняет скан в виде файла изображения. Текстовый редактор невозможно использовать для редактирования, поиска или подсчета слов в файле изображения. OCR помогает преобразовать изображение в текстовый документ, содержимое которого хранится в виде текстовых данных.
В чем заключается важность OCR?
Большинство рабочих процессов связано с получением информации из печатных изданий. Любой бизнес-процесс предусматривает бланки, счета, отсканированные юридические документы и контракты, напечатанные на бумажном носителе. Такие большие объемы бумажной работы требуют много времени и места для хранения и обработки. Хотя безбумажный документооборот — это путь вперед, сканирование документа в изображение создает определенные трудности. Этот процесс требует ручного вмешательства и может быть утомительным и медленным.
При оцифровке содержимого документа создаются файлы изображений со скрытым в них текстом. Программы обработки текста не могут обработать текст в изображениях. Технология OCR решает эту проблему путем преобразования изображения в текстовые данные, которые могут быть проанализированы офисным ПО. Затем такие данные можно использовать для аналитики, оптимизации операций, автоматизации процессов и повышения производительности.
Как работает OCR?
Технология OCR включает следующие этапы:
Получение изображения
Сканер считывает документы и преобразует их в двоичные данные. ПО OCR анализирует отсканированное изображение и классифицирует светлые области как фон, а темные — как текст.
Предварительная обработка
Чтобы подготовить текст к распознаванию, ПО OCR очищает изображение и удаляет ошибочные области. Применяются следующие методы очистки:
- Выравнивание и устранение уклона отсканированного документа для облегчения распознавания.
- Сглаживание контраста или удаление пятен цифрового изображения и сглаживание краевых эффектов текстовых изображений.
- Стирание рамок и линий на сканированном изображении.
- Распознавание шрифтов для многоязычной технологии OCR
Распознавание текста
Существует два основных типа алгоритмов OCR или программных процессов, которые использует ПО OCR для распознавания текста: сопоставление шаблонов и выделение признаков.
Сопоставление шаблонов
Сопоставление шаблонов работает путем выделения изображения символа, называемого глифом, и сравнения его с аналогичным глифом, хранящимся в памяти. Распознавание образа произойдет только в том случае, если шрифт и масштаб хранящегося глифа совпадают со шрифтом и масштабом отсканированного глифа. Данный метод эффективен при работе со сканами документов, набранных известным шрифтом.
Выделение признаков
Выделение признаков разбивает или раскладывает глифы на такие признаки, как линии, замкнутые контуры, направление линий и пересечения линий. Затем признаки используются для поиска наилучшего или ближайшего подходящего соответствия среди различных хранящихся глифов.
Окончательная обработка
После анализа система преобразует извлеченные текстовые данные в компьютерный файл. Некоторые системы OCR могут создавать аннотированные PDF-файлы, включающие как предыдущую, так и последующую версии отсканированного документа.
Какие виды OCR существуют?
Специалисты по анализу данных классифицируют различные виды технологий OCR на основе их использования и применения. Ниже представлены лишь некоторые примеры:
Программы простого оптического распознавания символов
Простой механизм OCR применяет множество различных хранимых шаблонов шрифтов и изображений текста в качестве шаблонов. Программное обеспечение OCR использует алгоритмы сопоставления шаблонов для посимвольного сравнения изображений текста с внутренней базой данных. Подход, при котором система сопоставляет текст слово за словом, называется оптическим распознаванием слов. Он имеет свои ограничения, поскольку существует практически неограниченное количество шрифтов и стилей почерка, и каждый отдельный тип не может быть учтен и сохранен в базе данных.
Программы интеллектуального распознавания символов
Современные системы OCR используют технологию интеллектуального распознавания символов (ICR) для считывания текста так же, как это делает человек. Они используют передовые методы машинного обучения человеческим навыкам чтения. Система машинного обучения, называемая нейронной сетью, анализирует текст на многих уровнях, многократно обрабатывая изображение. Она ищет различные атрибуты изображения (кривые, линии, пересечения и петли) и объединяет результаты различных уровней анализа для получения окончательного результата. Несмотря на то, что ICR обрабатывает изображения по символам, процесс не занимает много времени, а результаты получаются за считанные секунды.
Интеллектуальное распознавание слов
Интеллектуальные системы распознавания слов работают по тому же принципу, что и ICR, но обрабатывают изображения целых слов без предварительного выделения символов в изображении.
Оптическое распознавание знаков
Оптическое распознавание знаков позволяет идентифицировать логотипы, водяные знаки и другие обозначения в документе.
В чем заключаются основные преимущества OCR?
Специалисты по анализу данных классифицируют различные виды технологий OCR на основе их использования и применения. Ниже представлены лишь некоторые примеры:
Программы простого оптического распознавания символов
Простой механизм OCR применяет множество различных хранимых шаблонов шрифтов и изображений текста в качестве шаблонов. Программное обеспечение OCR использует алгоритмы сопоставления шаблонов для посимвольного сравнения изображений текста с внутренней базой данных. Подход, при котором система сопоставляет текст слово за словом, называется оптическим распознаванием слов. Он имеет свои ограничения, поскольку существует практически неограниченное количество шрифтов и стилей почерка, и каждый отдельный тип не может быть учтен и сохранен в базе данных.
Программы интеллектуального распознавания символов
Современные системы OCR используют технологию интеллектуального распознавания символов (ICR) для считывания текста так же, как это делает человек. Они используют передовые методы машинного обучения человеческим навыкам чтения. Система машинного обучения, называемая нейронной сетью, анализирует текст на многих уровнях, многократно обрабатывая изображение. Она ищет различные атрибуты изображения (кривые, линии, пересечения и петли) и объединяет результаты различных уровней анализа для получения окончательного результата. Несмотря на то, что ICR обрабатывает изображения по символам, процесс не занимает много времени, а результаты получаются за считанные секунды.
Интеллектуальное распознавание слов
Интеллектуальные системы распознавания слов работают по тому же принципу, что и ICR, но обрабатывают изображения целых слов без предварительного выделения символов в изображении.
Оптическое распознавание знаков
Оптическое распознавание знаков позволяет идентифицировать логотипы, водяные знаки и другие обозначения в документе.
В чем заключаются основные преимущества OCR?
Ниже приведены основные преимущества технологии OCR:
Текст с возможностью поиска
Предприятия могут преобразовывать имеющиеся и новые документы в базу знаний с возможностью полноценного поиска. ПО для автоматической обработки текстовой базы позволяет совершенствовать базу знаний предприятия.
Эффективность работы
Применение ПО OCR позволяет повысить эффективность работы путем автоматической интеграции документооборота и цифровых рабочих процессов. Вот несколько примеров того, что может сделать ПО OCR:
- Сканирование заполненных вручную форм для автоматизированной проверки, рассмотрения, редактирования и анализа. Такой подход сокращает время ручной обработки документов и ввода данных.
- Поиск необходимых документов с помощью быстрого поиска термина в базе данных, вместо ручного перебора файлов в ящике.
- Преобразование рукописных заметок в редактируемые тексты и документы.
Решения искусственного интеллекта
OCR часто является составляющей других решений в области искусственного интеллекта, которые могут внедрять предприятия. К примеру, OCR может применяться для сканирования и распознавания номерных знаков и дорожных указателей в самоуправляемых автомобилях, выявления логотипов брендов в сообщениях в социальных сетях или идентификации упаковки продукта в рекламных изображениях. Такие технологии искусственного интеллекта помогают предприятиям принимать более эффективные маркетинговые и операционные решения, которые позволяют сократить расходы и улучшить качество обслуживания клиентов.
Для чего применяется OCR?
Ниже перечислены некоторые распространенные случаи использования OCR в различных отраслях:
Банковская сфера
Банковская сфера использует OCR для обработки и проверки документов по кредитам, депозитных чеков и других финансовых операций. Такая проверка позволила повысить эффективность борьбы с мошенничеством и укрепить безопасность транзакций. Например, BlueVine, финансовая технологическая компания, предоставляющая финансирование малому и среднему бизнесу, использовала Amazon Textract, облачный сервис OCR, для разработки продукта, с помощью которого малые бизнесы в США могут быстро получить доступ к кредитам по Программе защиты заработной платы (PPP) в рамках пакета мер по стимулированию экономики в условиях COVID-19. Amazon Textract автоматически обрабатывал и анализировал десятки тысяч форм PPP в день, благодаря чему BlueVine смогла помочь нескольким тысячам предприятий получить средства и сохранить более 400 000 рабочих мест.
Здравоохранение
В системе здравоохранения OCR используется для обработки историй болезни пациентов, включая лечебные процедуры, анализы, больничные карты и страховые выплаты. OCR помогает оптимизировать рабочий процесс и сократить объем ручной работы в больницах, а также поддерживать актуальность записей. Например, компания nib Group обеспечивает медицинское страхование более 1 миллиона австралийцев и ежедневно получает тысячи заявок на выплату страхового возмещения за получение медицинских услуг. Клиенты компании могут сфотографировать свой медицинский счет и отправить его через мобильное приложение nib. Amazon Textract автоматически обрабатывает эти изображения, что позволяет компании гораздо быстрее рассматривать заявки.
Логистика
Логистические компании используют OCR для более эффективного отслеживания этикеток на упаковках, счетов, квитанций и других документов. Например, компания Foresight Group использует Amazon Textract для автоматизации обработки счетов в SAP. Ввод таких документов вручную отнимал много времени и приводил к ошибкам, поскольку сотрудникам Foresight приходилось вводить данные в несколько систем бухгалтерского учета. Благодаря Amazon Textract программное обеспечение компании Foresight стало более точно считывать символы на различных носителях и повысило эффективность ведения бизнеса компании.
Как AWS может помочь с OCR?
AWS предлагает две услуги, которые могут помочь внедрить OCR в бизнесе:
Amazon Textract – это сервис машинного обучения (ML), который с помощью OCR автоматически извлекает печатный и рукописный текст и данные из отсканированных документов (например, PDF-файлов). Сервис позволяет быстро считывать тысячи различных документов различных носителей и форматов. После извлечения информации из документов Amazon Textract присваивает уровень уверенности, что дает возможность принимать обоснованные решения о том, как использовать полученные результаты.
Amazon Rekognition может анализировать миллионы изображений и видеозаписей за считанные минуты и дополнять задачи визуальной проверки, выполняемые человеком, с помощью искусственного интеллекта. Для извлечения текста из изображений и видео можно использовать API Amazon Rekognition. В нем имеется возможность распознавать искаженный и деформированный текст из изображений и видеозаписей дорожных знаков, публикаций в социальных сетях и упаковок продуктов.
Создайте учетную запись AWS и начните работу с технологией OCR уже сегодня.
Источник: aws.amazon.com