Finereader как работать в программе

В соответствии с базовыми положениями IPA, разбираемый программой ABBYY FineReader отдельный фрагмент изображения, согласно главного принципа целостности, будет интерпретирован как некий объект (символ), лишь если на нем присутствуют все структурные элементы с соответствующими взаимосвязями.

При этом система выдвигает ряд гипотез, касающихся того, на что именно похож обнаруженный объект, потом они целенаправленным образом проверяются с использованием отдельного принципа адаптивности, который подразумевает наличие ранее накопленных сведений о вероятных начертаниях в распознаваемом документе символа.

На подготовительном этапе обработки и анализа полученных графических данных фактически перед каждой OCR-системой стоят две фундаментальные задачи: подготовка картинки к определенным процедурам распознавания, а также выявление логической структуры этого документа — с тем, чтобы иметь возможность в дальнейшем воссоздать ее в электронном виде.

ABBYY FineReader

Для правильного решения первой задачи в программе ABBYY FineReader задействован отдельный механизм по бинаризации, то есть скорого преобразования как цветного, так и полутонового образа в образ монохромный (1 бит глубина цвета). Бинаризация значительно ускоряет весь процесс анализа ряда графических элементов.

Без дальнейшей обработки процедурой адаптивной бинаризации данный документ может быть скорее всего распознан с ошибками.
Вторая задача, поставленная в ABBYY FineReader, решается с использованием целого ряда алгоритмов многоуровневого анализа некоторых документов, осуществляющих конкретный разбор последних постепенно, сверху вниз, благодаря делению страниц на различные объекты низших уровней вплотную до каких-то отдельных символов.

Главную роль в ходе предварительного анализа отдельного изображения и дальнейшей сборки обработанных данных в одно единое целое играет в основном адаптивная технология по распознаванию ADRT документов.

Алгоритмы, которые лежат в ее основе, как бы «смотрят» на контекст самого документа, находят определенные структурные общие элементы, выявляют между ними связи и сохраняют все полученные сведения для дальнейшего использования на завершающих этапах синтеза или же экспорта данных в формат, выбранный пользователем.

Для распознавания отдельных символов в FineReader используются какие-то специальные механизмы, которые называются классификаторами и порождают список гипотез, которые потом целенаправленно проверяются. Для классификаторов входными данными может служить список гипотез в процессе распознавания.

Данная программа очень популярна для оцифровки разнообразных документов. Например, когда банку нужно выселить через суд должника, который не собирается выплачивать кредит, то оцифровка всех необходимых документов позволяет адвокатам успешно завершить данное дело, ведь все данные будут под рукой. Во многих делах число бумажной документации просто ошеломляет.

Источник: windata.ru

§5. РАБОТА С ПАКЕТАМИ СКАНИРОВАНИЯ И РАСПОЗНАВАНИЯ ТЕКСТА (FINEREADER)

1. Вопросы, подлежащие исследованию: Работа с пакетами сканирования и распознавания текста (FineReader) 2. Краткий теоретический материал. АВТОМАТИЗАЦИЯ ОБРАБОТКИ ДОКУМЕНТОВ Компьютер предназначен для работы с документами, имеющими электронную форму. В то же время, нам часто приходится иметь дело с бумажными изданиями и документами: журналами, книгами, письмами, служебными записками. Чтобы в работе с информацией такого рода тоже можно было использовать компьютер, необходимы средства преобразования бумажных документов в электронную форму. Если предполагается, что документ содержит в основном текстовую информацию, то можно выделить следующие основные этапы такого преобразования: ∙ в ходе сканирования при помощи устройств оцифровки изображения производится создание электронного образа (изображения) документа; ∙ процесс распознавания позволяет преобразовать

электронное изображение в текстовые данные; ∙ для документов, исполненных на иностранном языке применяют дополнительные средства автоматизированного перевода на другой язык. Преобразование документов в электронную форму Сканирование документов Процесс создания электронного изображения бумажного документа напоминает его фотографирование и требует применения соответствующего устройства.

Сегодня в качестве такого устройства выступает сканер. Такие устройства, как цифровые камеры, пока не могут обеспечить для документов стандартного формата качество изображения, которое гарантировало бы их надежное распознавание. Разные модели сканеров понимают разные управляющие команды.

Чтобы избежать разнобоя, был принят универсальный стандарт взаимодействия сканера и приложений. Этот стандарт называется TWAIN. Приложение посылает команды драйверу TWAIN, который преобразует их в инструкции, распознаваемые сканером. Таким образом, для приложения перестает иметь значение конкретная модель сканера.

Сканирование через посредство интерфейса TWAIN осуществляется следующим образом. Сначала следует включить сканер. Команда сканирования располагается в приложении в меню Файл (например, в программе Imaging соответствующий пункт так и называется – Сканировать). После выбора этой команды открывается диалоговое окно драйвера TWAIN, вид которого зависит от модели сканера (рисунок 1).

В этом окне задают параметры сканирования: чернобелый или цветной режим, разрешение, коррекция яркости и контрастности. Большинство сканеров позволяют также произвести предварительное черновое сканирование с низким разрешением и по его результатам точно задать область сканирования – часть страницы документа. Рисунок 1. Диалоговое окно интерфейса TWAIN может выглядеть по-разному – его вид определяется драйвером сканера

После настройки всех параметров следует щелкнуть на кнопке Сканировать (надпись на кнопке может быть иной). Процесс сканирования происходит автоматически, и изображение передается в приложение.

Диалоговое окно драйвера TWAIN автоматически не закрывается, так что, например, в многооконных графических редакторах (таких как Adobe PhotoShop) можно сразу провести сканирование нескольких изображений. Распознавание документов Этап распознавания документа состоит в преобразовании электронного изображения (фактически набора цветных или черно-белых точек) в текстовый документ.

Ранее для описания этого процесса обычно использовался термин OCR (Optical Character Recognition), который соответствует одному из используемых методов. При таком подходе происходит «сравнение» элемента изображения с эталонными вариантами начертания символов, после чего выбирается наиболее подходящий символ. В ходе распознавания сначала в изображении выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки (например, подрисуночные подписи), ячейки таблиц. Этот этап называют сегментацией, он может выполняться автоматически или вручную. После этого выполняется автоматический этап распознавания: блоки разбиваются на строки, строки – на отдельные символы, каждый из которых

Читайте также:
Что такое краткосрочная программа

распознается независимо и помещается в итоговый текстовый документ. Работа с программой FineReader Все операции, необходимые в ходе преобразования бумажного документа в электронную форму, могут быть выполнены с помощью программы FineReader (рисунок 2). Эта программа способна выполнять сканирование и распознавание текстов на разных языках, в том числе и смешанных двуязычных текстов. Рисунок 2. Рабочее окно программы FineReader в процессе распознавания отсканированного документа Основные операции обработки бумажного документа в программе FineReader выполняются с помощью панели инструментов Scan ∙ сегментация документа (кнопка Сегментировать ), (может отсутствовать); ∙ распознавание документа (кнопка Распознать ); ∙ редактирование и проверка результата (кнопка Проверить ); ∙ сохранение документа (кнопка Сохранить ). Сканирование документа. На этапе сканирования производится получение изображений при помощи сканера и сохранение их в виде, удобном для последующей обработки.

Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать на панели инструментов ScanRead) определение границ блоков осуществляется автоматически. При этом учитываются поля документа, просветы между колонками, рамки.

Если структура страницы очень сложная, удобнее использовать ручную сегментацию или ручное редактирование результатов автоматической сегментации. Блоки отображаются в виде цветных прямоугольников с номером в левом верхнем углу. Новый блок создают протягиванием мыши по диагонали прямоугольника. Текущий блок помечается

выделенной линией, а его углы – прямоугольными маркерами. С помощью этих маркеров можно изменить размер или положение блока. Команды редактирования блоков выведены на панель Инструменты . Они позволяют: ∙ объединить два блока в один ( Добавить часть блока ); ∙ удалить фрагмент блока ( Удалить часть блока ); ∙ изменить положение блоков ( Переместить блоки ); ∙ изменить порядок нумерации блоков ( Перенумеровать блоки ); ∙ изменить разбиение таблицы на ячейки ( Добавить вертикаль, Добавить горизонталь, Удалить линии ); Разные типы блоков обрабатываются программой по-разному. Программа FineReader поддерживает следующие типы блоков: ∙ текстовый ( Текст ) – на этапе распознавания преобразуется в текст; ∙ табличный ( Таблица ) – представляет собой набор ячеек, каждая из которых преобразуется в текст по отдельности; ∙ изображение ( Картинка ) – включается в документ без изменений как графическая иллюстрация, если формат сохранения преобразованного документа допускает вставные объекты;

∙ лишний ( Нераспознаваемый ) – игнорируется; ∙ содержащий штрих-код ( Штрих — код ) – распознается как штрих-код. Распознавание текста. Процесс распознавания текста после сегментации начинается с щелчка на кнопке Распознать и полностью автоматизирован. В ходе процесса отображается диалоговое окно Распознавание , позволяющее прервать процесс.

Кроме того, в этом окне отображаются сообщения, указывающие на наличие проблем при распознавании. Проблемы обычно вызываются неверными настройками или плохим качеством распознаваемого изображения. Если же дело в каких-то шрифтовых особенностях распознаваемого документа, применяют распознавание с обучением. Распознавание с обучением.

Распознавание с обучением состоит в формировании эталона, который используется в ходе распознавания в дальнейшем. Эталон настраивается так, чтобы соответствовать определенному документу или группе однотипных документов. Чтобы создать эталон, используют команду Сервис►Редактор эталонов►Новый эталон. После этого надо указать имя эталона и щелкнуть на кнопке ОК . Режим распознавания с обучением включается при настройке параметров работы программы (Сервис►Опции►Распознавание). На панели Обучение следует выбрать нужный эталон и установить флажок Распознавание с обучением .

Когда в ходе распознавания с обучением программа FineReader обнаруживает символ, который не может интерпретировать однозначно, на экран выдается диалоговое окно Ручное обучение эталона (рисунок 3). Программа указывает элемент изображения, вызвавший сомнения, и показывает, как именно он будет интерпретирован. Если допущена ошибка, можно указать нужный символ в поле Символ или уточнить область распознавания с помощью кнопок Сдвинуть влево и Сдвинуть вправо . Рисунок 3. Ручное «обучение» механизма распознавания текста Затем надо щелкнуть на кнопке Обучить . Необходимые сведения сохраняются и используются при дальнейшем анализе изображения. Если число ошибок невелико, можно продолжить распознавание в обычном режиме щелчком на кнопке Продолжать без обучения .

Редактирование документа. Когда распознавание данной страницы завершается, полученный текстовый документ отображается в окне Текст . Заключительные этапы работы позволяют отредактировать полученный текст с помощью средств, напоминающих текстовый редактор WordPad (панель для форматирования открывается при помощи команды Вид►Панели инструментов►Форматирование).

Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Проверить на панели инструментов ScanRead запускается Мастер сохранения результатов . Он позволяет сохранить распознанный текст или передать его в другую программу (например, в Microsoft Word) для последующей обработки.

Обработка бланков Бланки, или формы, представляют собой особый род документов. Они используются как анкеты, бюллетени для голосования, опросные листы и состоят из постоянной части, содержащей информацию, используемую в ходе заполнения бланка, и переменной части, куда при заполнении бланка заносятся данные. В ходе обработки бланков требуется получить внесенные в него данные и представить их в виде, удобном для дальнейшей обработки. При этом часто

Читайте также:
Программа vanguard не запущена ошибка 128

приходится иметь дело с тысячами однотипных бланков. Для обработки бланков используется автономное приложение FineReader Forms. Процесс работы с бланками несколько отличается от работы с обычными документами. Вначале подготавливается шаблон, который содержит все постоянные и переменные зоны бланка.

Этап сегментации заменяется наложением шаблона, то есть его совмещением с постоянными элементами бланка. Это позволяет определить местонахождение переменных элементов бланка и провести их распознавание. Данные, полученные с отдельного бланка, рассматриваются как строка таблицы или как отдельная запись базы данных.

Содержимое отдельного поля бланка соответствует ячейке таблицы. Для создания шаблона требуется электронное изображение отдельного бланка, хотя бы и незаполненного. Чтобы создать шаблон, надо в приложении FineReader Forms дать команду Файл►Новый, после чего указать имя пакета форм и папку для хранения отсканированных бланков. Затем необходимо отсканировать или выбрать готовое изображение, которое будет использоваться в качестве основы шаблона. Сам процесс создания шаблона состоит в ручной сегментации бланка. При этом кроме окна Редактор шаблонов открыто также диалоговое окно

Параметры . Следует определить как блоки, охватывающие фиксированные элементы бланка, так и те, которые содержат области, подлежащие заполнению. Блоки, соответствующие постоянным элементам, используются как приводные метки.

Чтобы исключить такой блок из процесса распознавания, следует щелкнуть на нем правой кнопкой мыши и выбрать в контекстном меню команду Тип блока►Статический текст. Параметры блока задают на вкладке Блок диалогового окна Параметры . Для каждого распознаваемого блока надо установить флажок Экспортируемый блок , а также указать имя поля базы данных.

Информация из этого блока будет заноситься в указанное поле. После того как все нужные блоки созданы и настроены, следует щелкнуть на кнопке Закрыть на панели инструментов. При этом производится проверка, обеспечивают ли заданные блоки возможность однозначного наложения шаблона на бланк. В результате сканирования заполненного бланка, наложения шаблона и распознавания, полученные данные представляются в виде формы, содержащей названия полей и данные, полученные при распознавании. Сохранение данных производят в формате, ориентированном на последующую обработку средствами электронных таблиц или баз

Источник: studfile.net

ABBYY FineReader

ABBYY FineReader — система оптического распознавания текстов (Optical Character Recognition – OCR). Предназначена как для автоматического ввода печатных документов в компьютер, так и для конвертирования PDF–документов и фотографий в редактируемые форматы.
● Программа позволяет получить электронный документ одним нажатием, не вдаваясь в подробности работы программы. Встроенные сценарии предусматривают основные задачи по конвертированию PDF–документов, сканированию и распознаванию текстов и изображений.
● При распознавании, ABBYY FineReader автоматически находит в тексте гиперссылки на веб–сайты, адреса электронной почты, колонтитулы и восстанавливает их в полученных документах.
● Благодаря интеграции ABBYY FineReader с Microsoft Office, вы можете распознать документ непосредственно при работе в Microsoft Word, Microsoft Excel или Microsoft Outlook.
● Особенностью программы ABBYY FineReader является способность распознавать тексты, набранные практически любыми шрифтами, и малая чувствительность к дефектам печати.

Работа содержит 1 файл

ABBYY FineReader — система оптического распознавания текстов (Optical Character Recognition – OCR). Предназначена как для автоматического ввода печатных документов в компьютер, так и для конвертирования PDF–документов и фотографий в редактируемые форматы.

● Программа позволяет получить электронный документ одним нажатием, не вдаваясь в подробности работы программы. Встроенные сценарии предусматривают основные задачи по конвертированию PDF–документов, сканированию и распознаванию текстов и изображений.

● При распознавании, ABBYY FineReader автоматически находит в тексте гиперссылки на веб–сайты, адреса электронной почты, колонтитулы и восстанавливает их в полученных документах.

● Благодаря интеграции ABBYY FineReader с Microsoft Office, вы можете распознать документ непосредственно при работе в Microsoft Word, Microsoft Excel или Microsoft Outlook.

● Особенностью программы ABBYY FineReader является способность распознавать тексты, набранные практически любыми шрифтами, и малая чувствительность к дефектам печати.

Программа ABBYY FineReader имеет простой и интуитивно понятный интерфейс, который позволяет разобраться с основными элементами в самый короткий срок. В программе предусмотрена настройка интерфейса. Каждый пользователь сможет настроить рабочее пространство по своему усмотрению: изменить расположение и размер окон, цветовые настройки, настроить панели инструментов и многое другое.

Гибкость настроек позволяет ускорить и упростить работу с объемными документами за счет распознавания не всего документа, а лишь выбранных страниц. Кроме того, вы можете управлять размером создаваемого документа. Программа снабжена справочным руководством. В нем вы найдете решение нестандартных и сложных ситуаций, которые могут возникнуть в процессе работы с программой.

Новые возможности ABBYY FineReader 9.0

Ниже приведено описание основных новых возможностей новой версии программы ABBYY FineReader. Возможности, доступные только для версий ABBYY FineReader 9.0 Corporate Edition и ABBYY FineReader 9.0 Site License Edition, отмечены особо.

Интеллектуальная обработка документа

● Использование уникальной технологии Document OCR В программе ABBYY FineReader используются новейшая разработка компании ABBYY – технология Document OCR. Внедрение инновационной технологии Document OCR в программу позволило продвинуться далеко вперед в системах оптического распознавания. Теперь ABBYY FineReader проводит целостный анализ многостраничного документа. В результате сохраняется его логическая структура и восстанавливается не только основной текст документа, но и оформление: колонки, колонтитулы, шрифты, стили, сноски, нумерованные подписи к рисункам и таблицам. Полученный документ легко редактировать и использовать.

Читайте также:
Что такое программа foxit phantom

● Согласование стилей и шрифтов Существенные изменения внесены в технологию распознавания шрифтов. Теперь ABBYY FineReader определяет шрифт исходного документа и подбирает наиболее близкий к нему шрифт.

● Распознавание многоязычных документов Новая версия включает в себя 179 языков распознавания.

Удобство использования

● Автоматическое определение языков распознавания Теперь вам не нужно беспокоиться о выборе языков для распознавания. Основываясь на новейших технологиях, ABBYY FineReader автоматически определяет языки, которые используются в документе, что существенно упрощает работу с программой.

● Новый улучшенный интерфейс В пользовательский интерфейс ABBYY FineReader 9.0 внесен ряд усовершенствований. Новый улучшенный и интуитивно–понятный интерфейс позволяет настраивать окна, панели инструментов, горячие клавиши, а также опции сканирования, распознавания и сохранения. Интерактивные подсказки помогают быстро и эффективно получить распознанный документ.

● Новые встроенные сценарии Встроенные сценарии помогут вам быстро получить результат. Теперь за одно действие вы получите не только документ Microsoft Word или PDF–документ, но и электронную таблицу Microsoft Excel. Исходные данные могут быть представлены в виде PDF–документа, изображения, фотографии или бумажного документа. Все встроенные сценарии можно запустить:

– из окна Основные сценарии программы;

– из меню Пуск>Программы>ABBYY FineReader 9.0;

– из контекстного меню файла.

● Распознавание из других приложений Теперь вы можете распознавать документы не только при работе в Microsoft Word, но и при работе в Microsoft Excel и Microsoft Outlook.

● Программа ABBYY FineReader оптимизирована для работы на многоядерных процессорах В наши дни в аппаратных средствах все чаще используются многоядерные процессоры. Все больше и больше компьютеров оснащены двух– или четырех ядерными процессорами. ABBYY FineReader 9.0, используя все возможности многоядерного процессора, позволяет без потери качества и времени одновременно выполнять различные шаги по обработке документов.

Поддержка форматов PDF/A, DOCX и XLSX

● PDF/A Теперь вы можете сохранять документы в формате PDF/A, который наиболее часто используется для длительного хранения документов. Например, в архивах или электронных библиотеках.

● DOCX и XLSX Благодаря интеграции с Microsoft Office 2007 вы можете распознавать и сохранять документ в форматах DOCX и XLSX.

Профессиональные возможности

● Работа с юридическими текстами Новая версия ABBYY FineReader включает в себя специальную технологию распознавания юридических текстов, позволяющую восстановить точную копию документа после распознавания.

Обработка почтовых сообщений с помощью ABBYY Hot Folder Read , в открывшемся локальном меню выберите пункт Мастер ScanRead вызывает специальный режим, при котором Вы можете отсканировать и распознать страницу или открыть и распознать графическое изображение (пример графического файла Вы можете найти в папке Default. Она находится в папке, куда Вы установили FineReader). При этом каждый шаг сопровождается подсказками системы.

ABBYY FineReader как работать

Как пользоваться ABBYY FineReader

  1. Далее следуйте указаниям Мастера Scanфотографию» страницы. Затем программа попросит Вас установить параметры распознавания и приступит к распознаванию изображения, одновременно анализируя его. Обработанные участки изображения закрашиваются синим цветом.

    Результат распознавания Вы увидите в окне Текст . В этом же окне Вы можете проверить и отредактировать распознанный текст. Следуя далее указаниям Мастера Scan

    • через интерфейс TWAIN-драйвера сканера: для настройки опций сканирования используется диалог TWAIN-драйвера сканера.

    Преимущества одного режима перед другим

    В режиме Использовать интерфейс TWAIN-драйвера сканера, как правило, доступна функция предварительного просмотра изображения (preview), позволяющая точно задать размеры сканируемой области, подобрать яркость, тут же контролируя результаты этих изменений. К сожалению, диалог TWAIN-драйвера сканера у каждого сканера выглядит по-своему, в большинстве случаев все надписи на английском языке. Вид этого окна и смысл опций описан в документации, прилагаемой к сканеру.

    В режиме Использовать интерфейс FineReader доступны такие опции, как возможность сканирования в цикле на сканерах без автоподатчика, сохранение опций сканирования в отдельный файл Шаблон пакета (*.fbt) и возможность использования этих опций в других пакетах.

    Вы можете легко переключаться между этими режимами:

    • на закладке Сканирование/Открытие диалога Опции (меню Сервис>Опции) установите переключатель в одно из положений: Использовать интерфейс TWAIN-драйвера сканера или Использовать интерфейс FineReader.
    1. Для некоторых моделей сканеров опция Использовать интерфейс FineReader может быть по умолчанию отключена (недоступна).
    2. Чтобы в режиме Использовать интерфейс FineReader показывался диалог Настройки сканера, на закладке Сканирование/Открытие (Сервис>Опции) отметьте пункт Запрашивать опции перед началом сканирования.

    Чтобы запустить сканирование:

    Если Вы хотите отсканировать несколько страниц, то нажмите стрелку справа от кнопки 1-Сканировать и в локальном меню выберите пункт Сканировать несколько страниц .

    В случае если сканирование не началось сразу:

    • откроется встроенный TWAIN-интерфейс сканера.
    • откроется диалог Настройки сканера.

    Если Вы хотите сразу запустить распознавание отсканированных страниц, воспользуйтесь опцией Сканировать и распознать или Сканировать и распознать несколько страниц:

    Нажмите стрелку справа от кнопки Scanфотографией» вставленного листа и окно Текст с результатом распознавания. Распознанный текст Вы можете сохранить во внешние редакторы и форматы

    Проверка и корректирование полученного изображения

    Распознаваемое изображение может быть сильно «замусорено», т.е. содержать много лишних точек, возникших в результате сканирования документов среднего или плохого качества. Точки, близко расположенные к контурам букв, могут отрицательно сказаться на качестве распознанного текста. Чтобы уменьшить количество лишних точек, можно воспользоваться опцией Очистить от мусора. Для этого:

    Источник: www.stud24.ru

    Рейтинг
    ( Пока оценок нет )
    Загрузка ...
    EFT-Soft.ru