Программа распознавания документов что это

Самые крутые нейросети распознают до 96% полей в документе. Если текст рукописный, точность может упасть до 20%: нейросети не сильны в военных билетах, трудовых книжках и извещениях о ДТП.

11 294 просмотров

Рассказываю, как работают два гибридных решения, Dbrain и «Биорг», где часть работы по распознаванию достается людям, кому они будут полезны и что там с безопасностью.

Так начинается типичное заявление на ипотеку, в котором заемщику надо заполнить десятки полей не нескольких страницах:

Анкету нужно распечатать, расписаться, сфотографировать или отсканировать. Потом отправить в банк вместе с согласием об обработке персональных данных, справками с работы и другими документами. Это десятки страниц с данными, которые каким-то образом должны попасть в систему банка.

В 2020 году российские банки выдали больше 1,7 млн ипотечных кредитов, потребительских — на порядок больше. Страховые компании оформили миллионы полисов, по одному только ОСАГО они отработали примерно 2 млн заявлений на возмещение ущерба. Белый бизнес официально оформил на работу миллионы сотрудников с их паспортами, ИНН, трудовыми книжками, СНИЛС, дипломами и свидетельствами. Ритейл разбирался с миллионами бумажных счетов, накладных и поручений. В магазинах заполнили миллионы анкет в обмен на карту лояльности.

Распознавание документа

Каждый случай — это масса полей с текстом, которые нужно перенести в систему компании: имя, город, марка автомобиля, адрес регистрации, название поставщика, предложения по улучшению обслуживания в свободной форме . Надеюсь, вы представили масштаб проблемы.

Как компании переносят данные из сканов и бумаги в свои системы

Есть разные варианты импорта данные от клиентов, контрагентов и сотрудников.

1. Ручная классика. Большие компании содержат сто, двести, триста человек, чья работа — восемь часов в день перебивать цифры и слова в базы компании. Допустим, оператор обрабатывает комплект документов одного клиента за 40 минут — компании это обойдется примерно в 200 рублей с учетом всех расходов. Если компания растет, придется нанимать больше операторов и расширять офис.

Импорт бухгалтерских документов — отдельная история. Для многих бухгалтерий конец отчетного периода — время жестких переработок, потому что не все контрагенты работают через электронный документооборот (ЭДО).

2. ИИ + сотрудники компании. Нейросети с компьютерным зрением (OCR) распознают и импортируют данные. Сотрудникам остается сканировать бумажные документы для нейросетей и разбираться со сложными случаями. Хорошее IT-решение распознает до 96% полей в документах, пока это вроде потолка.

Если нужно распознать текст от руки, идеал — 70–75% точности. В исключительных случаях 80%.

То есть сотрудники берут на себя всего 5–30% рутины. Это в среднем по больнице, но в любом случае компании уже нет смысла содержать такой большой штат, как при 100-процентном ручном вводе. И офис нужен не такой большой. Проблема в том, что сотрудники не всегда могут моментально отреагировать, когда нужно вмешаться, ведь их теперь мало. Это значит, к примеру, что компания не может гарантировать клиентам: «мы примем решение по вашему страховому случаю всего за 15 минут».

Распознавание текста. Перевести картинку и пдф в ворд. Лучшие методы

Возможно, в первый раз разбираться, что такое «Шруслер», придется сотруднику страховой компании. Потом нейросеть дообучится и справится сама — в базу попадет единственно возможный вариант Chrysler (фото: car72.ru)

3. ИИ + люди как часть IT-решения. В этом случае компания полностью передает распознавание изображений на аутсорсинг — чаще всего нужен только сканировщик, если есть бумажные документы. Точность распознавания выше 99%, независимо от того, печатный текст или рукописный. Скорость занесения данных из документов в системы компании — от 5 секунд до получаса.

На рынке есть несколько решений, обрабатывающих документы по такой схеме. На примере двух из них покажу, как это работает. В первом случае разметчики данных (будем называть их операторами) находятся в огромной внешней краудсорсинговой платформе, во втором — почти в штате разработчика и их в 100 раз меньше.

Dbrain: работает с Яндекс.Толокой
Общая схема работы решения на сайте Dbrain.io

Кто такие? Dbrain автоматизирует работу с документами с 2017 года. За плечами команды несколько продуктов на основе нейросетей — от чат-бота Icon8, моментально обрабатывающего фотографии, до приложения, контролирующего качество выпекания додо-пиццы. Год назад стартап прошел в Y Combinator, и основатели рассказали читателям VC.ru, как им это удалось.

Проект с распознаванием документов начался, когда команда поняла, что на рынке не хватает ИИ-решений, которые решают проблему импорта данных. А главная беда существующих решений — низкая точность распознавания сканов и фотографий плохого качества.

Клиенты редко присылают идеальные фотографии документов. Блики, тени, размытости, не тот угол, обрезанные края, плохой почерк (особенно в извещениях о ДТП) мешают нейросетям распознать документ, и приходится подключать сотрудников. Вроде польза от решения есть, но ожидание с реальностью не совпадают. Dbrain решил сделать продукт, который минимизирует участие клиента в процессе оцифровки документов.

Что обрабатывают? Основной документ Dbrain — паспорт России и стран ближнего зарубежья. Плюс еще три десятка документов, включая СНИЛС, патент на работу, счет-фактуру (вот полный список документов). Решение работает как в IT-контуре заказчика, так и в облаке.

Для кого? Будет полезно, если нужно:

  • ускорить регистрацию заявок клиентов. Например, при открытии банковского счета или подключении абонентов.
  • исключить опечатки при ручном вводе данных в систему.
  • радикально сократить время на решение по заявке клиента. Например, в крупной страховой компании с ручным вводом данных на урегулирование убытка уходило 3 дня, сейчас — 15 минут.
  • быстрее оформлять на работу, в том числе мигрантов. Особенно актуально для торговых сетей с высокой текучкой линейного персонала. Или для сервисов доставки, которые массово нанимают курьеров.

Какие фишки?

  • высокая точность распознавания некачественных изображений в разных форматах: сканы, фотографии с дешевых смартфонов, jpg.
  • может одновременно обрабатывать 500 пакетов документов без потери скорости и качества.
  • проверяет документы на подлинность, вычисляет фотошоп и сверяет фотографию в паспорте с селфи клиента.

Как работает решение?

1. Документ в электронном виде попадает в каскад нейросетей. Первая нейросеть определяет границы документа и его положение. Если нужно, выравнивает и вырезает по границе.

2. Вторая нейросеть классифицирует тип документа: паспорт, водительское удостоверение или просто картинка из интернета. Последнее отбраковывается.

3. Нейросеть находит поля с атрибутами, которые надо извлечь из документа: ФИО, место жительства, образование, адрес регистрации, марка автомобиля и так далее.

4. Нейросеть распознает («читает») данные из этих полей. Это ключевая процедура — до этого нейросети готовили документ к прочтению. Если сложностей с прочтением нет, пакет документов проходит весь каскад за секунды.

5. Если данные в поле не удалось распознать, поле отправляется в Яндекс.Толоку в виде задания. Обычно это рукописный текст. За задание параллельно берутся два человека, это нужно для повышения точности.

Оператору в Яндекс.Толоке достаточно ввести несколько букв и выбрать подсказку

Если оба распознали текст с одинаковым результатом, дело сделано. Когда есть разночтения, доступ к заданию получает еще один человек — и так до тех пор, пока не будет консенсуса. Нейросеть обучается на основе решений людей, через какое-то время она сама справится с аналогичным текстом.

Читайте также:
Педагогическая целесообразность программы что это

В Яндекс.Толоке пакет документов находится от 3 до 15 минут.

6. Все распознанные поля склеиваются в единый документ, который поступает в систему клиента либо благодаря API (чаще всего), либо с помощью RPA от вендоров UiPath, Robin или PIX.

Что с безопасностью? В Яндекс.Толоку поступают разрозненные данные: кому-то достанется только имя, кому-то — только госномер автомобиля. Склеить их вместе пользователи Яндекс.Толоки не смогут. Когда распознанный документ поступает в систему заказчика, каждое поле этого документа удаляется из облака.

Все данные передаются по протоколам с криптозащитой, обрабатываются на серверах Selectel, отвечающим требованиям 152-ФЗ.

«Биорг»: используют собственный краудсорсинговый сервис

Кто такие? Позиционируют себя в качестве лидера оцифровки и распознавания персональных данных на российском рынке. За 2019 год обработали 30 млн документов. Первый проект — в 2017 году.

Работают с тяжелыми кастомными проектами. Берутся за то, от чего другие скорее всего вежливо откажутся. Например, оцифровали архивы ЗАГСов нескольких регионов, расшифровывая записи времен Великой Отечественной, сделанные химическим карандашом на газетах (бумага была дефицитной), а на Сахалине пришлось работать с документами на японском языке. Для «Теле2» за 2,5 месяца оцифровали бумажный 15-тонный архив.

Что обрабатывают? Проще сказать, что не обрабатывают, но в общем объеме негосударственных проектов лидируют анкеты клиентов, кадровая и бухгалтерская документация. Научили нейросети распознавать рукописный текст с точностью до 75%.

Работают со сложными для нейросетей документами — трудовой книжкой и военным билетом, где нормальному распознаванию мешают штампы поверх текста и звезды.

Пятиконечные звезды, которые почти на каждой странице, «слепят» нейросети. Точность автоматического распознавания военного билета обычно не выше 20–30% (фото: «Тинькофф-журнал»)

Для кого? Решение нужно компаниям, которые имеют дело с большим объемом первички, анкет от клиентов и документов от новых сотрудников. Например, будет полезно, когда нужно оформлять тысячи новых сотрудников — система в разы быстрее обрабатывает комплекты документов, делает это точнее и дешевле людей.

Похожий расчет экономического эффекта и у Dbrain: затраты на обработку документов, не только кадровых, снижаются в 2–3 раза (источник: beorg.ru)

Наиболее популярная услуга, если судить по проектам, — обработка анкетных данных в рамках программ лояльности и исследований рынка. За этим обращались, в частности, S7, IKEA, «Вкусивилл», «Пятерочка», «Лента», «Окей», «Адамас», «Детский мир», Natura Siberica, «Якитория».

Какие фишки?

  • высокая производительность: способны обработать до 5 млн документов в сутки.
  • собственная краудсорсинговая платформа, объединяющая 60 тысяч операторов, которые работают по ГПХ или в качестве самозанятых. Компания часто отмечает, что ведет социально ответственный бизнес.
  • все задачи у операторов узкоспециализированные. Для каждого проекта формируется команда, ее обучают с учетом специфики задач клиента.
  • «Биорг» гарантирует не более одной ошибки на 100 полей с данными и фиксирует это в договоре. За каждую ошибку вне гарантии выплачивает фиксированную сумму или процент от стоимости распознавания документа.

Как это работает?

1. От заказчика в систему поступает скан документа. Или клиент заказчика напрямую загружает фотографию документа через приложение на Android.

2. Дальше за дело берутся 4 нейросети. Они определяет вид документа, выравнивают, нарезают на поля с текстом и распознают этот текст.

3. Если нет 99% уверенности в том, что поле распознано верно, его отправляют минимум двум операторам, которые должны прийти к единому мнению. Если консенсуса нет, подключается модератор, который выбирает один из предложенных вариантов или пишет третий.

В среднем операторы получают 4 млн заданий ежедневно. Одно задание — одно поле. Данные, которые проверили и распознали операторы, используются для дообучения нейросети.

4. Распознанный документ поступает заказчику в 1С, SAP, MS Dynamics и другие системы. Максимальное время обработки комплекта документов — 20 минут, но обычно 10–15 минут.

Что с безопасностью? «Биорг» использует облачные хранилища на территории России, от Mail.ru и Яндекса. Есть лицензии ФСТЭК и ФСБ на обработку и хранение информации.

Лицензия ФСТЭК действует бессрочно

Компания страхует свою ответственность перед клиентами в «Росгосстрахе». Если будет претензия от третьих лиц за разглашение персональных данных — заказчик получит компенсацию 0,5 млн рублей. Пока таких случаев не было.

Главное про гибридные решения для распознавания

1. Полезны крупным компаниям, которые обрабатывают тысячи документов в сутки: бухгалтерские, кадровые, банковские, страховые, анкеты.

2. Подходят для ускоренной оцифровки бумажных архивов.

3. В 2–3 раза снижают стоимость импорта данных из бумаги, сканов и фотографий в учетные и другие системы.

4. Работают круглосуточно и без выходных, производительность в 5–7 раз выше, чем у штатных операторов.

5. Умеют распознавать печатный, рукопечатный и рукописный текст.

6. Ошибаются реже штатных сотрудников: точность распознавания выше 99% независимо от качества документа.

Автор — руководитель Центра корпоративных инноваций компании «Первый Бит».

Показать ещё
67 комментариев
Написать комментарий.

А какое ценообразование? Особенно интересно в сравнении с abby. И начиная с какого объема документов имеет смысл использовать сервис?

Развернуть ветку

Добрый день! Модель ценообразования — за документ. По объему документов — в зависимости от типа. Рационально использовать если на процессе работы с документами задействовано более 2-х человек.

Развернуть ветку
12 комментариев

Екатерина, если сравнивать с Abbyy, то нет оплаты за лицензии, нет длительного и дорогостоящего заведения шаблонов новых документов, а также нет необходимости в роли верификатора на стороне заказчика, чтобы исправлять ошибки, т.к. гарантированное качество распознавания выше 99%.

Развернуть ветку
1 комментарий

Екатерина, добрый день!
У Dbrain стоимость зависит от объема документов, которые требуется обрабатывать. Как правило, мы рекомендуем начинать с 2 000 страниц в месяц. Связаться со мной и обсудить вашу задачу можно по почте [email protected] или оставив заявку на https://dbrain.io/

Переводим документы в цифровые данные
Развернуть ветку
И начиная с какого объема документов имеет смысл использовать сервис?

Это как просить у продавца на рынке совета, что купить
Такие расчеты все же лучше самим провести и дешевле и надежнее взять готовые ocr библиотеки и доработать под себя

Странно доверять данные своего бизнеса сторонним компаниям

Развернуть ветку
1 комментарий

Круто. Скоро понадобится. Но цифры экономии в два раза как-то не впечатлили. Я честно рассчитывал, что меняя полностью ручной ввод на 95% нейросеть получу экономию в 4-10 раз. Мне кажется если бы нейросети гугла распознавали объекты в два раза дешевле чем вручную Гугл фото бы к примеру ничего бы не распознавал — слишком дорого

Развернуть ветку

Виктор, сокращение расходов в два раза — ориентир, на который можно ориентироваться, когда большая часть потока документов рукописные и требуют проверки с помощью людей. Полностью автоматическое решение может дать еще большую экономию, которая зависит от масштаба бизнеса. Но для большинства бизнесов сократить расходы в 2 раза, при этом предоставив клиенту быстрый и удобный сервис – отличная возможность!

Развернуть ветку
Аккаунт удален
Развернуть ветку

Согласна с вами.

Развернуть ветку

Фигня всё это , пробовали использовать в бухгалтерии , но как оказалось нейросеть умеет только распознавать и ничего не смыслет в бухгалтерии . Мы даже сотрудничали с одним из стартапов в этой области , консультировали по бухгалтерии. Но в итоге оказалось что ручной труд дешевле и быстрее. Например обработать одну фактуру руками 10-30 секунд, а нейросеть распознавать только будет минуту , я уже молчу про весь массив , потом все фактуры нужно отредактировать , в здесь нужно, чтобы на экране был и оригинал фактуры и распознаные данные . Потом всё это нужно соединить с банком , и импортировать в бухгалтерский софт . Причём банк не импортируется , а фактуры криво . Опять правим . В итоге вместо того чтобы вбитьф актуру и потом првоерить по выписке вы делаете одну и туже работу (контроль) несколько раз , да ещё и настройка каждоый фактуры занимает в бухсофте много времени . Я уже молчу , что никто не хочет брать на себя штрафы за ошибки автоматизации . короче этот стартап попытался несмотря на мою им помощь впарить мне нераббочий сервис . И мы расстались .

Читайте также:
Splinter что это за программа

Развернуть ветку

Игорь, вы описываете ситуацию при применении коробочных решений, например Abbyy, когда на стороне заказчика действительно нужно править данные руками, потому что % распознавания около 90-92. Компания Биорг предоставляет сервис при котором вы получает обработанные данные с качеством распознавания выше 99%, распознанные данные передавать в систему заказчика в удобном для загрузки формате, а также обеспечить непрерывность в обработке, когда документы можно загружать пачками. Ну и конечно же, готовы брать на себя риски в виде штрафов, если они действительно привели нашего заказчика к финансовым потерям. Можем связаться и обсудить конкретную задачу. Спасибо

Развернуть ветку
5 комментариев

Как назывался тот неудачный сервис и стартап?

Развернуть ветку
1 комментарий

Тот случай, когда нейросеть действительно может сделать за человека рутинную работу и автоматизировать простую нудную операция по дешифровке рукописного текста и ввода его в цифровой формат ! Очень нужное решение .

Развернуть ветку

Спасибо, за высокую оценку! Рады слышать.

Развернуть ветку

У меня есть одно большое желание, чтобы те, кто сидели на госзарплате, говорили, что им все гуд и не шевелили жопой, наконец-то ею зашевелили. Скоро тырнут вас всех нахер и будет счастье, по крайней мере мое, личное Бюрократы

Развернуть ветку

Пять раз перечитал. Кто бюрократы, нейросети?

Источник: vc.ru

Photo to Word Converter

Бесплатное приложение OCR для извлечения текста из отсканированного изображения и преобразования его в Excel, Word, Text.
Извлечение текста из файла отсканированного изображения и редактирование содержимого в Word, Excel или Powerpoint, текстовом файле, .
Конвертация всегда бесплатна и анонимна
Извлечение таблиц и форматирование из отсканированных изображений путем преобразования их в Excel или Word, Powerpoint, HTML, .
Файл отсканированного изображения также можно преобразовать в текст

Функции:
1. Конвертировать JPG в Word бесплатно
Вы сделали фотографию документа, который хотите редактировать в Word? Как конвертировать JPG в WORD бесплатно?
Вы в нужном месте! Наше приложение полностью совместимо с форматами JPG и Word. С нашим приложением вы можете легко конвертировать JPG в документы Word за считанные секунды бесплатно!

С нашими быстрыми, бесплатными и эффективными конвертерами весь этот процесс преобразования jpg в документы Word не займет больше нескольких секунд! Чтобы сохранить ваши документы, DOCX файлы в JPG легко.

2. Бесплатное приложение OCR
Используйте приложение оптического распознавания символов. Сервис поддерживает 46 языков, включая китайский, японский и корейский
Конвертировать отсканированные фото на слово
Извлечение текста из изображений (JPG, BMP, TIFF, GIF) и преобразование в редактируемые форматы вывода Word, Excel и Text

Распознавать текст и символы по фотографиям и цифровым фотоаппаратам.
Преобразуйте текст и изображения из отсканированного документа в редактируемый формат DOC.
Преобразованные документы выглядят так же, как оригинал — таблицы, столбцы и графика.

3. Image To Text Converter
Теперь вы можете извлечь текст из ваших изображений. Основанный на технологии OCR, наш конвертер изображений в текст преобразует изображение в текстовый файл.

Выходной формат файла:
— Слово 97-2003: док
— Word 2007-2019: docx
— RTF Document
— текстовый файл TXT
— Powerpoint PPTX
— HTML-файл
— CSV файл
— Excel 97-2003: xls
— Excel 2007-2019: xlsx
— PDF документ.

Поддерживаемые языки:
العربية
català
čeština
Dansk
Deutsch
Ελληνικά
español
Суоми
Français
Бахаса Индонезия
Italiano
日本語
한국어
Бахаса Мелау
Nederlands
Norsk
Polski
português
русский
slovenský
Svenska
ภาษา ไทย
Tiếng Việt
английский
简体 中文
繁體 中文

Благодарим Вас за использование нашего конвертера изображений в слова, помогите вам экспортировать изображение в слово и конвертировать изображение в текст на китайском языке, изображение в текст на японском языке, даже изображение, чтобы преуспеть, надеюсь, вам понравится наше приложение, если у вас есть предложения, пожалуйста, напишите нам, чтобы исправить !

Источник: play.google.com

Топ 10: Системы распознавания и извлечения данных из документов

Машинное обучение позволяет создать нейросети для автоматической классификации отсканированных документов (например, паспортов, прав, обращений клиентов, резюме соискателей) или электронных документов, а также для извлечения структурированных данных из них. Примеры использования распознавания документов для бизнеса приведены ниже.

Топ 3 лучших СЭД и ECM

2022. Microsoft представила платформу ИИ-процессинга данных из документов

Два года назад Microsoft представила сервис SharePoint Syntex, который использует искусственный интеллект для автоматизации извлечения и классификации данных из документов на основе существующих сервисов SharePoint. Теперь этот сервис превратился в самостоятельную платформу Microsoft Syntex, которая содержит набор инструментов для автоматизированного распознавания документов, включая аннотирование файлов и извлечение данных. Syntex считывает, помечает и индексирует содержимое документов (будь то цифровые или физические) и делает эти данные доступным для поиска и использования в приложениях Microsoft 365, а также помогает управлять жизненным циклом данных с помощью инструментов безопасности и архивирования.

2022. Основанная россиянами платформа автоматизации политик безопасности Clausematch привлекла $10,8 млн

Стартап Clausematch, развивающий технологии для финансового рынка, поднял раунд финансирования $10,8 млн от фондов Lytical Ventures и Flashpoint. В общей сложности Clausematch уже привлекла около $20 млн. Clausematch в 2012 году основали Евгений Лиходед и Андрей Докучаев.

Компания разрабатывает платформу для организации рабочего процесса и совместной работы, предназначенную для оптимизации управления политиками и нормативными изменениями в организации. Платформа компании использует машинное обучение, чтобы помочь отделам нормативно-правового регулирования, юридическим, финансовым, операционным и отделам рисков в автоматизации оценки воздействия, оптимизации внедрения нормативных изменений и совместной работы над документами, позволяя клиентам стандартизировать и автоматизировать внутренние процессы и рабочие процессы между командами, снизить затраты, ускорить внедрение и обеспечить соответствие требованиям. Сейчас стартап дислоцируется в Лондоне.

2022. В Эльбе появилось распознавание документов в браузере

Теперь пользователи онлайн бухгалтерии Эльба смогут автоматически распознавать входящие документы можно не только в мобильном приложении, но и в браузере. Эльба распознает счета, акты, накладные и УПД в формате документов (PDF, DOC и DOCX) и фотографий (JPEG и PNG). Достаточно загрузить файл в разделе Документы → Входящие. Если документ состоит из нескольких страниц, выберите сразу все и подождите пару минут, пока Эльба его распознает. Когда распознавание закончится, зайдите в документ, проверьте данные и сохраните.

Топ 3 лучших Helpdesk

Топ 3 лучших СЭД и ECM

Читайте также:
Что за программа magellan

2021. Directum выпустил облачный AI-сервис по 100%-ному распознаванию документов Inbox

Новый AI-сервис по 100%-ному распознаванию, который входит в состав интеллектуальной системы Directum Ario One, берет обработку входящего документопотока на себя. Сотруднику достаточно отсканировать документы и загрузить их для дальнейшей обработки. На этом его участие в оцифровке завершается.

Интеллектуальные механизмы Directum Ario распознают текст, классифицируют документы по типам и извлекают из содержимого факты. На основании обработанной информации формируется и отправляется задание на проверку верификаторам. Квалифицированные облачные операторы проверяют результаты машинной обработки и при необходимости дозаполняют нераспознанные реквизиты. В целях безопасности они не видят всего объема данных, так как информация передается им частями.

2021. Directum запускает крауд-проект на разработку AI-решения для анализа договоров

Компания Directum приглашает инвесторов в проект разработки полнофункционального интеллектуального инструмента «Цифровой ассистент юриста». Участники получат скидку 20% на готовое решение и бесплатную пользовательскую лицензию. Подать заявку на участие можно до 31 августа 2021 года.

2021. Интеллектуальные сервисы Directum Ario теперь в облаке

Полнофункциональные AI-сервисы для обработки данных Directum Ario стали доступны в облачной поставке. SaaS-модель снижает порог подключения для клиентов, а варианты подписки на дополнительные пакеты по 5, 10, 15, 20 и 25 тысяч документов в месяц позволяют гибко масштабировать мощности под потребности компании. Возможности интеллектуальных сервисов в облаке предусматривают классификацию и извлечение фактов для 6 видов документов (входящие письма, акты выполненных работ, счета на оплату, счета-фактуры, универсальные передаточные документы, товарные накладные) в стандартной поставке с опцией дополнительного обучения Directum Ario на других типах документов.

2021. Directum запустил сервис интеллектуального извлечения данных из документов

Компания Directum еще 2 года назад выпустила систему для извлечения данных из документов Ario — которая с помощью машинного обучения парсит данные из различных сканов (договоров, заявок, обращений. ) и заносит их в ECM систему Directum. Теперь компания представила сервис Directum Ario One, который может заносить извлеченные данные через Web API в любую информационную систему, используемую в вашей компании. Directum Ario One позволяет исключить участие человека даже на этапе верификации данных. При настройке можно задать значения, по которым корректность классификации и точность извлечения будут определяться автоматически. На их основании система верифицирует данные сама, а ответственный получит уведомление об успешной обработке.

2020. На Google Cloud появился ИИ-сервис для извлечения данных из документов и форм

Google запустил на своей облачной платформе новый когнитивный API-сервис Document AI, который позволяет автоматически извлекать информацию, содержащуюся в цифровых и печатных документах, с помощью машинного обучения. Предполагается использование двух процессоров общего назначения, первый — для обычных документов, второй — для анкет/форм. Есть также специализированные процессоры для финансовой документации, например, можно обрабатывать заявки на выдачу ссуд или счета-фактуры. Главными конкурентами Google в этом сегменте являются компания Amazon, которая предлагает подобный сервис Textract на AWS, а также Microsoft со своим инструментом Form Recogniser.

2020. 1С:БизнесСтарт позволяет создавать документы по их фото

Теперь пользователи сервиса 1С:БизнесСтарт могут создавать счета, счета-фактуры, акты и накладные легко и удобно прямо по их фотографии или скану! Для распознавания документа достаточно его отсканировать или сфотографировать специальным мобильным приложением. Сделать это можно в программе 1С:БизнесСтарт в меню Документы (либо Покупки) — Загрузить из скана (фото).

2020. В СБИС появилось ИИ-распознавание первичных документов

В бухгалтерском модуле системы управления бизнесом СБИС появилась функция автоматического ввода/распознавания первичных документов. Она работает на технологии машинного обучения и позволяет распознавать товарные накладные (ТОРГ-12), УПД, счета-фактуры и авансовые отчеты. Достаточно отсканировать документ или сфотографировать с помощью смартфона и добавить картинку в систему. Она сама добавит документ в базу и извлечет из него данные (контагентов, номенклатуру товаров, затраты. ). Разработчики обещают высокую точность распознавания даже на нечетких снимках. Многостраничные документы — тоже поддерживаются.

2019. В СЭД Кодекс:Документооборот появился модуль искусственного интеллекта

АО «Центр компьютерных разработок» представил модуль искусственного интеллекта для СЭД Кодекс: Документооборот. Он служит для автоматической классификации обращений согласно Справочнику ОТК. Данное решение базируется на технологиях машинного обучения и нейросетях, анализирует текст документа, ранее поданные аналогичные обращения, территорию с которой прислано обращение, какие вопросы содержит письмо и т.д. На основании такого анализа строится предположение, что письмо принадлежит определённой тематической категории, должно быть рассмотрено специалистом, ответственным за данное направление или переправлено в соответствующее ведомство.

2019. ABBYY запустила сервис распознавания документов в мобильном браузере

Компания ABBYY создала сервис для распознавания изображений документов в мобильном браузере Mobile Web Capture. Он пригодится компаниям, которые используют онлайн формы для получения заявок и заказов от клиентов. Сервис позволяет сэкономить им время — вместо заполнения многочисленных полей, клиент может быстро сосканировать права или паспорт, и сервис распознает данные и заполнит поля самостоятельно. Причем, он легко интегрируется с онлайн формой и работает в мобильном браузере, т.е. пользователю не нужно устанавливать дополнительное приложение.

2019. Amazon выпустила ИИ-альтернативу Abbyy FineReader

Ровно 10 лет назад компания ABBYY запустила онлайн сервис распознавания текста FineReader Online. Теперь подобный сервис есть и у Amazon — Amazon Textract. Однако, прогресс не стоит на месте, и амазоновский сервис уже умеет не только распознавать текст, но и понимать структуру документа (с помощью ИИ).

Например, он учитывает и корректно обрабатывает колонтитулы, колонки, таблицы, заполненные формы и даже определяет некоторые форматы данных (имя, номер паспорта, номер социального страхования). Конечно, компанию ABBYY этим не удивить. Они сами собаку съели на технологиях искусственного интеллекта. Их движок уже умеет даже извлекать смысл из документов.

2019. Microsoft представила сервисы для распознавания рукописного текста и заполненных форм

Microsoft представила несколько новых когнитивных сервисов на своей облачной платформе Azure Machine Learning. Во-первых, это подарки для компаний, имеющих дело с документами, формами и служебными записками с рукописным текстом. Сервисы Ink Recognizer и Form Recognizer позволяют переводить все эти бумажки в цифровой текст и данные.

Сервис Conversation Transcription — переводит в текст диалоги по телефону с распознаванием автора каждой фразы. К сожалению, это все пока только на английском. Еще один новый сервис Personalizer позволяет подбирать персонализированные рекомендации для посетителей сайта или интернет-магазина на основании поведенческих факторов.

Кроме того, Microsoft представила новый визуальный конструктор для создания моделей машинного обучения. Теперь даже маркетологи смогут поиграться. Нужно всего лишь загрузить базу данных и указать, какой параметр требуется спрогнозировать.

2018. Abbyy Finereader научился распознавать смысл документов при помощи ИИ

Компания Abbyy сделала шаг от распознавания буковок и слов к распознаванию смысла сканируемых документов. Зачем это нужно? Чтобы автоматизировать процессы ввода бумажных документов в информационные системы (авто-классификации документов, распознавания полей и таблиц, переноса данных из этих полей в структурированную базу данных). Новый движок ABBYY FineReader Engine 12 умеет это делать с помощью технологий обработки естественного языка и машинного обучения. Конечно, для реализации интеллектуального ввода документов не достаточно просто купить программу FineReader — нужно заказать у Abbyy индивидуальный проект.

Источник: www.doc-online.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru