Как называется значок в программе распознавания текстов

Содержание
Читайте также:
География для самых маленьких программа

Тонны архивных бумаг, чеков и счетов проходят сканирование и оцифровку во многих отраслях: в розничной торговле, логистике, банковских услугах и т.п. Компании получают конкурентное преимущество, если быстро оцифровывают и находят нужную информацию.

В 2020 году нам тоже пришлось решать проблему качественной оцифровки документов, и над этим проектом мы с коллегами работали совместно с компанией Verigram. Вот как мы проводили оцифровку документов на примере заказа клиентом SIM-карты прямо из дома.

Оцифровка позволила нам автоматически заполнять юридические документы и заявки на услуги, а также открыла доступ к аналитике фискальных чеков, отслеживанию динамики цен и суммарных трат.

Для преобразования различных типов документов (отсканированные документы, PDF-файлы или фото с цифровой камеры) в редактируемые форматы с возможностью поиска мы используем технологию оптического распознавания символов – Optical Character Recognition (OCR).

Инструменты распознавания текстов и компьютерного перевода

Работа со стандартными документами: постановка задачи

Заказ SIM-карты для пользователя выглядит так:

  • пользователь решает заказать SIM-карту;
  • скачивает приложение;
  • фотографирует удостоверение личности для автоматического заполнения анкеты;
  • курьер доставляет SIM-карту.

Важно: пользователь фотографирует удостоверение личности своим смартфоном со специфическим разрешением камеры, качеством, архитектурой и другими особенностями. А на выходе мы получаем текстовое представление информации загруженного изображения.

Цель проекта OCR: построить быструю и точную кросc-платформенную модель, занимающую небольшой объем памяти на устройстве.

Верхнеуровневая последовательность обработки изображения стандартного документа выглядит так:

  1. Выделяются границы документа, исключая не интересующий нас фон и исправляя перспективу изображения документа.
  2. Выделяются интересующие нас поля: имя, фамилия, год рождения и т.п. На их основе можно построить модель предсказания соответствующего текстового представления для каждого поля.
  3. Post-processing: модель вычищает предсказанный текст.

Локализация границ документа

Загруженное с камеры устройства изображение документа сравнивается с набором заранее подготовленных масок стандартных документов: фронтальная или задняя часть удостоверения, документ нового или старого образца, страницы паспорта или водительские права.

Читайте также:
Отзывы шпионские программы Ватсап

Распознавание текста с картинки. Python Tesseract ORC + OpenCV

Предварительно делаем pre-processing обработку изображения и в результате ряда морфологических операций получаем соответствующее бинарное (черно-белое) представление.

Техника работает так: в каждом типе документа есть фиксированные поля, не меняющиеся по ширине и высоте. Например, название документа в правом верхнем углу как на картинке ниже. Они служат опорными полями, от которых рассчитывается расстояние до других полей документа. Если количество обнаруженных полей от опорного выше определенного порога для проверочной маски, мы останавливаемся на ней. Так подбирается подходящая маска.

Так выглядит подбор подходящей маски

  • исправляется перспектива изображения;
  • определяется тип документа;
  • изображение обрезается по найденной маске c удалением фона.

В нашем примере мы выявили, что загруженное фото — это фронтальная часть удостоверения личности Республики Казахстан образца позднее 2014 года. Зная координаты полей, соответствующие этой маске, мы их локализуем и вырезаем для дальнейшей обработки.

Следующий этап — распознавание текста. Но перед этим расскажу, как происходит сбор данных для обучения модели.

Распознавание текста

Данные для обучения

Как называется значок в программе распознавания текстов

kurbanovadarina5000

August 2022 1 18 Report

Как называется значок в программе распознавания текстов?
Очень срочно!

Answers https://scholar.tips/kak-nazyvaetsya-znachok-v-programme-raspoznavaniya-tekstovochen-srochno.html» target=»_blank»]scholar.tips[/mask_link]

Распознавание текстов

Процесс оцифровки и оптического распознавания текста включает в себя пять этапов:

Ввод страницы. На этом этапе отсканированный или сфотографированный документ попадает в компьютер в виде изображения.

Анализ макета. OCR-приложение определяет, где на странице находятся текст, рисунки, таблицы и т.п., и разбивает ее на блоки. Программа последовательно дробит страницу на все более мелкие блоки: разбивает текст на абзацы, затем на предложения, отдельные слова и символы. В финале анализа макета документ представляет собой набор отдельных символов. Программа запоминает, в каком месте на странице каждый из них находится.

Распознавание символов – самый ответственный этап процесса OCR, ведь программа должна правильно идентифи­цировать все найденные знаки. Используется в тексте буква «В» (и какая – русская или латинская) или это цифра «8»? Если программа допустит ошибку, результат распознавания превратится в абракадабру. Для более точного распознавания текста программы комбинируют различные методы, которые условно делятся на две категории: методы сопоставления с образцом и методы сопоставления признаков (более подробно о них читайте далее).

Реконструкция документа. После завершения процесса распознавания программа начинает воссоздавать страницы, с помощью встроенного словаря объединяя отдельные символы в слова, слова в предложения, предложения в абзацы и т.д. Для ускорения процесса используются результаты анализа макета страницы (этап 2). Кроме того, применяя специальные методы, программы пытаются учитывать грамматические особенности текста, чтобы в итоге получились корректные с точки зрения распознаваемого языка предложения.

Сохранение документа. OCR-приложение сохраняет распознанный документ в определенном пользователем формате (только текст – TXT; макет страницы – файлы Microsoft Word или PDF).

Как выполняется распознавание символов

Для этого используется несколько различных технологий.

Метод сопоставления признаков. Программа распознавания текста «знает», что каждому символу присущи те или иные признаки; к примеру, буква «А» состоит из двух наклонных линий, соединяющихся вверху, и горизонтальной линии в центре. Эти признаки остаются неизменными, даже если начертание шрифта меняется на полужирное или наклонное. При выборе из нескольких вариантов предпочтение отдается символам с самой высокой степенью совпадения признаков.

Метод сопоставления с образцом предусматривает сравнение каждого отдельного символа с шаблоном, хранящимся в программе. Для этого предусмотрены большие базы данных с различными шрифтами. Если найденный символ совпадает с шаблоном в базе, то он считается распознанным.

Описание выглядит просто, но на практике этот метод оборачивается большими временными затратами и отличается невысокой эффективностью. Причина: каждый символ должен на 100% соответствовать шаблону, иначе он не будет понят. Шрифты в распознаваемом документе и шаблоне для этого должны быть абсолютно идентичными, с учетом всех видов форматирования.

Отсечение цвета. Документы с цветными рисунками или диаграммами можно отсканировать, но OCR-приложение будет работать только с изображениями, запи­санными в градациях серого. Это практично в том смысле, что цвет распознаваемого текста будет проигнорирован, так что файл займет меньше места.

Источник: studfile.net

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru