Порядок распознавания текстовых документов (программа Fine Reader)
Сканер — это устройство ввода в ЭВМ информации непосредственно с бумажного носителя. Можно вводить текст, схемы, рисунки, графики, фотографии и другую графическую информацию. Сканер подобно копировальному аппарату создает копию изображения бумажного документа, но не на бумаге, а в электронном виде — создается электронная копия документа. Фактически происходит оцифровка каждой точки изображения.
К важным характеристикам сканера относятся:
• оптическое разрешение сканера, или точность сканирования (измеряется в точках на дюйм — dpi) и определяет количество точек, которые сканер различает на каждом дюйме — 200, 300, 600, 1200 и т.д.;
• разрядность сканера — означает то количество информации, которое потребуется для оцифровки каждой точки изображения, учитывая ее цветность;
• время сканирования и максимальный размер сканируемого документа.
Сканеры находят применение в издательской деятельности, системах проектирования, анимации. Эти устройства незаменимы при создании презентаций, докладов, рекламных материалов высокого качества.
Как преобразовать PDF в Word (С редактированием)
Основные типы сканеров
Все существующие типы сканеров можно отнести либо к ручным устройствам, либо к настольным видам сканеров.
Ручной сканер (рис.2), как правило, чем-то напоминает увеличенную в размерах электробритву. Для того чтобы ввести в компьютер какой-либо документ при помощи этого устройства, надо без резких движений провести сканирующей головкой по соответствующему изображению. Таким образом, проблема перемещения считывающей головки относительно
![]() |
бумаги целиком ложится на пользователя.
Рис. 2 Ручной сканер
Также к ручным сканерам можно отнести еще одну специальную их разновидность — штрих-сканер. Предназначены они для считывания штрих-кодов с маркировки товаров в магазинах. Штрих-сканеры позволяют автоматизировать процесс подсчета стоимости покупок. Они особенно удобны в торговых помещениях, оборудованных электронной связью и производящих расчеты с покупателями с помощью электронных платежных средств (кредитных карт и т.п.)
К основным достоинствам ручных сканеров относятся небольшие габариты и сравнительно низкая цена.
Настольные сканеры
Само понятие «настольный» говорит о том, что данные сканеры располагаются на столе и устанавливаются в неподвижное положение (их не надо перемещать относительно документа).
Существуют следующие разновидности настольных сканеров: листовые, планшетные, рулонные, проекционные, барабанные и сканеры форм.
Листовые сканеры (рис.3) позволяют за одну операцию сканировать лист бумаги стандартного формата. Блок сканирования у таких сканеров неподвижен, а бумага протягивается мимо него при помощи специальных валиков (как в принтере). Эти сканеры гарантируют хорошее качество сканирования, но они способны сканировать только отдельные листы. Перевести с их помощью в электронную форму страницу книги или разворот журнала невозможно.
OCR. Новое настоящее в распознавании текста
Рис. 3 Листовой сканер
Основным отличием планшетных сканеров является то, что сканирующая головка перемещается относительно бумаги с помощью шагового двигателя. Планшетные сканеры — пожалуй, наиболее «способные». Внешне они чем-то могут напоминать копировальные машины — «ксероксы».
Рис.4 Планшетный сканер
Для сканирования изображения (чего-нибудь) необходимо открыть крышку сканера, подключить сканируемый лист на стеклянную пластину изображением вниз, после чего закрыть крышку. Все дальнейшее управление процессом сканирования осуществляется с клавиатуры компьютера — при работе с одной из специальных программ, поставляемых вместе с таким сканером.
![]() |
Работа рулонных сканеров чем-то напоминает работу обыкновенной факс-машины. Отдельные листы документов протягиваются через такое устройство, при этом и осуществляется их сканирование. Таким образом, в данном случае сканирующая головка остается на месте, а уже относительно нее перемещается бумага. Понятно, что в этом случае копирование страниц книг и журналов просто невозможно.
Рис. 5 Рулонный сканер
Проекционные сканеры (рис.6) больше всего напоминают своеобразный проекционный аппарат (или фотоувеличитель). Вводимый документ кладется на поверхность сканирования изображением вверх, блок сканирования находится при этом также сверху. Перемещается только сканирующее устройство. Основной особенностью данных сканеров является возможность сканирования трехмерных проекций.
Рис. 6 Проекционный сканер
![]() |
Барабанные сканеры (рис.7) обеспечивают наивысшее разрешение сканирования, но они предназначены в основном для сканирования не бумажных документов, а прозрачных материалов, например слайдов, негативов и т.п. В сканерах этого типа считывающая головка устанавливается неподвижно, а изображение, закрепленное на цилиндрическом барабане, вращается с высокой скоростью и сканируется построчно.
Рис. 7 Барабанный сканер
Особым рядом стоят сканеры форм (рис.8). Это специальные сканеры для ввода информации с заполненных бланков. Некоторые специалисты считают сканеры форм разновидностью листовых сканеров. С их помощью вводят данные из анкет, опросных листов, избирательных бюллетеней. От сканеров этого типа требуется не высокая разрешающая способность, а очень высокое быстродействие.
Рис. 8 Сканеры форм
Программное обеспечение
Для управления работой сканера (впрочем, как и иного устройства) необходима соответствующая программа — драйвер. В этом случае управление идет не на уровне «железа» (портов ввода-вывода), а через функции или точки входа драйвера. До недавнего времени каждый драйвер для сканера имел свой собственный интерфейс.
Это было достаточно неудобно, поскольку для каждой модели сканера требовалась своя прикладная программа. Логичнее было бы наоборот, если бы с одной прикладной программой могли работать несколько моделей сканеров. Это стало возможным благодаря TWAIN.
TWAIN — это стандарт, согласно которому осуществляется обмен данными между прикладной программой и внешним устройством. Основной целью создания TWAIN-спецификации было решение проблемы совместимости, то есть легкого объединения различных устройств ввода с любым программным обеспечением.
После обработки документа сканером получается графическое изображение документа, который еще не является текстом. С точки зрения ПК, документ превращается в набор разноцветных точек, а вовсе не в текстовый документ.
Эту проблему решают специальные программы, предназначенные для распознавания текста. На сегодняшний день существует немало программ, предназначенных для этой цели.
Наиболее распространенная и широко известная — Fine Reader. Она обеспечивает высокое качество распознавания и удобство применения.
Порядок распознавания текстовых документов (программа Fine Reader)
Преобразование бумажного текстового документа в электронный происходит в три этапа, причем Fine Reader может выполнять их как автоматически, так и под контролем пользователя.
Рис. 9 Окно программы Fine Reader
Первый этап — сканирование. Для его проведения необходимо запустить программу и включить сканер, после чего произвести щелчок на кнопке «Сканировать».
Второй этап работы — сегментация текста. Дело в том, что в бумажном документе текст не всегда располагается в фиксированном порядке. Он может размещаться и в нескольких колонках, содержать табличные данные, иллюстрации и т.д., поэтому прежде чем включать текст в документ, его разбивают на блоки, содержащие цельные фрагменты. При щелчке на кнопке «Сегментировать» сегментация производится автоматически.
Последний этап работы — непосредственно распознавание. Этот этап обычно не требует вмешательства пользователя, за исключением случаев, когда бумажный документ имеет недостаточную контрастность или необычный шрифт. В этих исключительных случаях целесообразно сначала провести «обучение» программы в соответствии с особенностями данного документа, для чего устанавливают флажок «Распознавание с обучением» и следуют инструкциям, которые предлагает программа. Для всех остальных случаев распознавание начинается по щелчку на кнопке «Распознать».
Полученный текст можно сохранить в виде форматированного (отредактированного) или неформатированного документа, либо отправить в программы Word или Excel, а также в буфер обмена Windows.
Не нашли, что искали? Воспользуйтесь поиском по сайту:
Источник: stydopedia.ru
2.2. Порядок распознавания текстовых документов
Преобразование бумажного документа в электронный происходит в три этапа. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.
Первый этап работы – сканирование. На этом этапе обычно используют сканер. Однако изображение с листа бумаги может быть преобразовано в цифровую форму и с помощью других средств, таких, например, как цифровые фотоаппараты и цифровые видеокамеры.
Второй этап работы – сегментация текста. Дело в том, что в бумажном документе, например на странице книги или журнала, текст не всегда располагается в фиксированном порядке. Он может размещаться в нескольких колонках, содержать иллюстрации (и подписи к ним). Дополнительные врезки и данные, представленные в таблицах, также могут запутать естественный порядок текста.
Поэтому, прежде чем включать текст в документ, его разбивают на блоки, содержащие цельные фрагменты. Блоки распознают последовательно. Полученный текст включается в документ в порядке нумерации блоков.
Последний этап работы программы – непосредственно распознавание. Этот этап обычно не требует вмешательства пользователя, за исключением тех случаев, когда распознавание сопровождается «обучением».
Распознанный текст отображается в отдельном окне в виде форматированного текстового документа. Он «теряет связь» с исходным изображением и может редактироваться и форматироваться независимо от него. Программа выделяет цветом те символы, которые она сама рассматривает как неоднозначно опознанные. Это упрощает поиск ошибок. Средствами программы в полученном тексте можно также провести проверку грамматики.
Полученный текст можно сохранить в виде форматированного или неформатированного документа. Предусмотрена также возможность прямой передачи полученного текста в программы Word или Excel, а также в буфер обмена Windows.
2.3. Сканирование документа
Сканирование – это техническая операция, которую выполняет сканирующее устройство. Задача программы FineReader на этом этапе состоит в том, чтобы принять полученную информацию и отобразить значки отсканированных страниц на панели «Пакет». Так страницы готовятся к распознаванию.
Для того чтобы провести сканирование при помощи программы FineReader, необходимо запустить эту программу и включить сканер. Сканирование страницы производится по щелчку на кнопке «Сканировать» на панели инструментов «Scanhttps://studfile.net/preview/7627157/page:4/» target=»_blank»]studfile.net[/mask_link]