В каком порядке работает программа распознавания текста

Порядок распознавания текстовых документов (программа Fine Reader)

Сканер — это устройство ввода в ЭВМ информа­ции непосредственно с бумажного носителя. Можно вводить текст, схемы, рисунки, графики, фотогра­фии и другую графическую информацию. Сканер подобно копировальному аппарату создает копию изображения бумажного документа, но не на бума­ге, а в электронном виде — создается электронная копия документа. Фактически происходит оцифров­ка каждой точки изображения.

К важным характеристикам сканера относятся:

• оптическое разрешение сканера, или точность сканирования (измеряется в точках на дюйм — dpi) и определяет количество точек, которые сканер разли­чает на каждом дюйме — 200, 300, 600, 1200 и т.д.;

• разрядность сканера — означает то количество информации, которое потребуется для оцифровки каждой точки изображения, учитывая ее цветность;

• время сканирования и максимальный размер сканируемого документа.

Сканеры находят применение в издательской дея­тельности, системах проектирования, анимации. Эти устройства незаменимы при создании презентаций, докладов, рекламных материалов высокого качества.

Как преобразовать PDF в Word (С редактированием)

Основные типы сканеров

Все существующие типы сканеров можно отнести либо к ручным устройствам, либо к настольным видам сканеров.

Ручной сканер (рис.2), как правило, чем-то напоминает увеличенную в размерах электробритву. Для того чтобы ввести в компьютер какой-либо документ при помощи этого устройства, надо без резких движе­ний провести сканирующей головкой по соответству­ющему изображению. Таким образом, проблема перемещения считывающей головки относительно

бумаги целиком ложится на пользователя.

Рис. 2 Ручной сканер

Также к ручным сканерам можно отнести еще одну специальную их разновидность — штрих-сканер. Пред­назначены они для считывания штрих-кодов с марки­ровки товаров в магазинах. Штрих-сканеры позволя­ют автоматизировать процесс подсчета стоимости по­купок. Они особенно удобны в торговых помещениях, оборудованных электронной связью и производящих расчеты с покупателями с помощью электронных пла­тежных средств (кредитных карт и т.п.)

К основным достоинствам ручных сканеров отно­сятся небольшие габариты и сравнительно низкая цена.

Настольные сканеры

Само понятие «настольный» говорит о том, что данные сканеры располагаются на столе и устанав­ливаются в неподвижное положение (их не надо перемещать относительно документа).

Существуют следующие разновидности настоль­ных сканеров: листовые, планшетные, ру­лонные, проекционные, бара­банные и сканеры форм.

Листовые сканеры (рис.3) позволяют за одну операцию сканировать лист бумаги стандартного формата. Блок сканирования у таких сканеров неподвижен, а бумага протягивается мимо него при помощи специ­альных валиков (как в принтере). Эти сканеры га­рантируют хорошее качество сканирования, но они способны сканировать только отдельные листы. Пе­ревести с их помощью в электронную форму стра­ницу книги или разворот журнала невозможно.

Читайте также:
Как активировать программы на новом ноутбуке

OCR. Новое настоящее в распознавании текста

Рис. 3 Листовой сканер

Основным отличием планшетных сканеров явля­ется то, что сканирующая головка перемещается относительно бумаги с помощью шагового двигателя. Планшетные сканеры — пожалуй, наиболее «спо­собные». Внешне они чем-то могут напоминать ко­пировальные машины — «ксероксы».

Рис.4 Планшетный сканер

Для сканирования изображения (чего-нибудь) необходимо открыть крышку сканера, подключить сканируемый лист на стеклянную пластину изобра­жением вниз, после чего закрыть крышку. Все даль­нейшее управление процессом сканирования осуще­ствляется с клавиатуры компьютера — при работе с одной из специальных программ, поставляемых вместе с таким сканером.

Работа рулонных сканеров чем-то напоминает ра­боту обыкновенной факс-машины. Отдельные листы документов протягиваются через такое устройство, при этом и осуществляется их сканирование. Таким образом, в данном случае сканирующая головка ос­тается на месте, а уже относительно нее перемещает­ся бумага. Понятно, что в этом случае копирование страниц книг и журналов просто невозможно.

Рис. 5 Рулонный сканер

Проекционные сканеры (рис.6) больше всего напомина­ют своеобразный проекционный аппарат (или фото­увеличитель). Вводимый документ кладется на по­верхность сканирования изображением вверх, блок сканирования находится при этом также сверху. Перемещается только сканирующее устройство. Ос­новной особенностью данных сканеров является воз­можность сканирования трехмерных проекций.

Рис. 6 Проекционный сканер

Барабанные сканеры (рис.7) обеспечивают наивысшее раз­решение сканирования, но они предназначены в ос­новном для сканирования не бумажных документов, а прозрачных материалов, например слайдов, нега­тивов и т.п. В сканерах этого типа считывающая го­ловка устанавливается неподвижно, а изображение, закрепленное на цилиндрическом барабане, враща­ется с высокой скоростью и сканируется построчно.

Рис. 7 Барабанный сканер

Особым рядом стоят сканеры форм (рис.8). Это специальные сканеры для ввода информации с заполненных бланков. Некоторые специалисты счи­тают сканеры форм разновидностью листовых ска­неров. С их помощью вводят данные из анкет, оп­росных листов, избирательных бюллетеней. От ска­неров этого типа требуется не высокая разрешаю­щая способность, а очень высокое быстродействие.

Рис. 8 Сканеры форм

Программное обеспечение

Для управления работой сканера (впрочем, как и иного устройства) необходима соответствующая про­грамма — драйвер. В этом случае управление идет не на уровне «железа» (портов ввода-вывода), а че­рез функции или точки входа драйвера. До недавне­го времени каждый драйвер для сканера имел свой собственный интерфейс.

Читайте также:
Как в программе paint net

Это было достаточно неудоб­но, поскольку для каждой модели сканера требова­лась своя прикладная программа. Логичнее было бы наоборот, если бы с одной прикладной программой могли работать несколько моделей сканеров. Это стало возможным благодаря TWAIN.

TWAIN — это стандарт, согласно которому осуще­ствляется обмен данными между прикладной про­граммой и внешним устройством. Основной целью создания TWAIN-спецификации было решение про­блемы совместимости, то есть легкого объединения различных устройств ввода с любым программным обеспечением.

После обработки документа сканером получается графическое изображение документа, который еще не является текстом. С точки зрения ПК, документ превращается в набор разноцветных точек, а вовсе не в текстовый документ.

Эту проблему решают специальные программы, предназначенные для распознавания текста. На се­годняшний день существует немало программ, пред­назначенных для этой цели.

Наиболее распространенная и широ­ко известная — Fine Reader. Она обеспечивает высокое качество распознавания и удобство применения.

Порядок распознавания текстовых документов (программа Fine Reader)

Преобразование бумажного текстового докумен­та в электронный происходит в три этапа, причем Fine Reader может выполнять их как автоматичес­ки, так и под контролем пользователя.

Рис. 9 Окно программы Fine Reader

Первый этап — сканирование. Для его проведе­ния необходимо запустить программу и включить сканер, после чего произвести щелчок на кнопке «Сканировать».

Второй этап работы — сегментация текста. Дело в том, что в бумажном документе текст не всегда располагается в фиксированном порядке. Он может размещаться и в нескольких колонках, содержать табличные данные, иллюстрации и т.д., поэтому прежде чем включать текст в документ, его разби­вают на блоки, содержащие цельные фрагменты. При щелчке на кнопке «Сегментировать» сегментация производится автоматически.

Последний этап работы — непосредственно рас­познавание. Этот этап обычно не требует вмешатель­ства пользователя, за исключением случаев, когда бумажный документ имеет недостаточную контрас­тность или необычный шрифт. В этих исключитель­ных случаях целесообразно сначала провести «обу­чение» программы в соответствии с особенностями данного документа, для чего устанавливают флажок «Распознавание с обучением» и следуют инструкци­ям, которые предлагает программа. Для всех осталь­ных случаев распознавание начинается по щелчку на кнопке «Распознать».

Полученный текст можно сохранить в виде фор­матированного (отредактированного) или неформа­тированного документа, либо отправить в програм­мы Word или Excel, а также в буфер обмена Windows.

Читайте также:
Бухгалтерский учет неисключительные права на использование программы

Прокрутить вверх

Не нашли, что искали? Воспользуйтесь поиском по сайту:

Источник: stydopedia.ru

2.2. Порядок распознавания текстовых документов

Преобразование бумажного документа в электронный происходит в три этапа. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.

Первый этап работы – сканирование. На этом этапе обычно используют сканер. Однако изображение с листа бумаги может быть преобразовано в цифровую форму и с помощью других средств, таких, например, как цифровые фотоаппараты и цифровые видеокамеры.

Второй этап работы – сегментация текста. Дело в том, что в бумажном документе, например на странице книги или журнала, текст не всегда располагается в фиксированном порядке. Он может размещаться в нескольких колонках, содержать иллюстрации (и подписи к ним). Дополнительные врезки и данные, представленные в таблицах, также могут запутать естественный порядок текста.

Поэтому, прежде чем включать текст в документ, его разбивают на блоки, содержащие цельные фрагменты. Блоки распознают последовательно. Полученный текст включается в документ в порядке нумерации блоков.

Последний этап работы программы – непосредственно распознавание. Этот этап обычно не требует вмешательства пользователя, за исключением тех случаев, когда распознавание сопровождается «обучением».

Распознанный текст отображается в отдельном окне в виде форматированного текстового документа. Он «теряет связь» с исходным изображением и может редактироваться и форматироваться независимо от него. Программа выделяет цветом те символы, которые она сама рассматривает как неоднозначно опознанные. Это упрощает поиск ошибок. Средствами программы в полученном тексте можно также провести проверку грамматики.

Полученный текст можно сохранить в виде форматированного или неформатированного документа. Предусмотрена также возможность прямой передачи полученного текста в программы Word или Excel, а также в буфер обмена Windows.

2.3. Сканирование документа

Сканирование – это техническая операция, которую выполняет сканирующее устройство. Задача программы FineReader на этом этапе состоит в том, чтобы принять полученную информацию и отобразить значки отсканированных страниц на панели «Пакет». Так страницы готовятся к распознаванию.

Для того чтобы провести сканирование при помощи программы FineReader, необходимо запустить эту программу и включить сканер. Сканирование страницы производится по щелчку на кнопке «Сканировать» на панели инструментов «Scanhttps://studfile.net/preview/7627157/page:4/» target=»_blank»]studfile.net[/mask_link]

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru