распознавание символов / сегментация / классификация изображений / постобработка / нейросетевой метод / технология Tesseract / character recognition / segmentation / image classification / post-processing / neural network method / Tesseract technology
Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — К.А. Бобров, В.Д. Шульман, К.П. Власов
В статье анализируются различные технологии для распознавания текста из изображения. В рамках статьи рассматриваются шаги алгоритма распознавания текста из изображения. Описываются основные методы алгоритма распознавания символов (OCR), приводятся их достоинства и недостатки. По результатам сравнения, получено, что нейросетевой метод распознавания является самым перспективным. Делается анализ библиотек, которые активно используют внутри себя данный нейросетевой метод . В заключении делается вывод об целесообразности использования рассмотренных библиотек в зависимости от условий и специфик задач.
ABBYY FineReader Engine Tutorial: Image Preprocessing Tools
i Надоели баннеры? Вы всегда можете отключить рекламу.
Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — К.А. Бобров, В.Д. Шульман, К.П. Власов
Распознавание символов на основе вейвлет-преобразования, метода главных компонент и нейронных сетей
ОБРАБОТКА ИЗОБРАЖЕНИЙ ТОВАРНЫХ ЧЕКОВ ДЛЯ ВЫДЕЛЕНИЯ И РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ
Обзор алгоритмов детектирования текстовых областей на изображениях и видеозаписях
ПЕРВОЕ ИССЛЕДОВАНИЕ МЕДИЦИНСКОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ RUPATIENT ПО АВТОМАТИЧЕСКОМУ РАСПОЗНАВАНИЮ МЕДИЦИНСКОЙ ДОКУМЕНТАЦИИ НА ОСНОВЕ “МАШИННОГО ОБУЧЕНИЯ”
РЕАЛИЗАЦИЯ АГЕНТА АНАЛИЗА ИЗОБРАЖЕНИЙ В РАМКАХ ИНТЕЛЛЕКТУАЛЬНОЙ МУЛЬТИАГЕНТНОЙ СИСТЕМЫ ПОИСКА ПРОТИВОПРАВНЫХ МАТЕРИАЛОВ В СЕТИ ИНТЕРНЕТ
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.
ANALYSIS OF TEXT RECOGNITION TECHNOLOGIES FROM IMAGE
The article analyzes various technologies for recognizing text from an image. Within the framework of the article, the steps of the algorithm for recognizing text from an image are considered. The main methods of the character recognition algorithm (OCR) are described, their advantages and disadvantages are given. Based on the results of the comparison, it was found that the neural network recognition method is the most promising. An analysis is made of libraries that actively use this neural network method within themselves.
In conclusion, a conclusion is made about the expediency of using the considered libraries, depending on the conditions and specifics of the tasks.
Текст научной работы на тему «АНАЛИЗ ТЕХНОЛОГИЙ РАСПОЗНАВАНИЯ ТЕКСТА ИЗ ИЗОБРАЖЕНИЯ»
АНАЛИЗ ТЕХНОЛОГИЙ РАСПОЗНАВАНИЯ ТЕКСТА ИЗ ИЗОБРАЖЕНИЯ
К.А. Бобров, магистр В.Д. Шульман, магистр К.П. Власов, магистр
Московский государственный технический университет им. Н.Э. Баумана (Россия, г. Москва)
Аннотация. В статье анализируются различные технологии для распознавания текста из изображения. В рамках статьи рассматриваются шаги алгоритма распознавания текста из изображения. Описываются основные методы алгоритма распознавания символов (OCR), приводятся их достоинства и недостатки.
Abbyy FineReader 12 Professional Review
По результатам сравнения, получено, что нейросетевой метод распознавания является самым перспективным. Делается анализ библиотек, которые активно используют внутри себя данный нейросетевой метод. В заключении делается вывод об целесообразности использования рассмотренных библиотек в зависимости от условий и специфик задач.
Ключевые слова: распознавание символов, сегментация, классификация изображений, постобработка, нейросетевой метод, технология Tesseract.
В настоящее время информационные технологии находятся на пике развития, создаются и развиваются новые технологии, а также направления. Одно из таких направлений — это распознавание текстов из изображений OCR. Данное направление очень часто встречается в жизни людей. Оно позволяет быстро и точно распознать текстовую информацию с фотографий и преобразовать в необходимый формат, будь то текст в консоли или же отдельный файл с выбранным расширением.
Алгоритм распознавания текста из изображения. Распознавание текста из изображения или же оптическое распознавание символов [1] (англ. optical character recognition, OCR) — это технология для автоматизации извлечения данных из печатного, письменного текста, отсканированного документа, файла изображения с це-
лью последующего преобразования текста в машиночитаемую форму. Данная форма будет использована для работы с данными, например, редактирование или поиск информации.
Каждая система OCR состоит из одних и тех же шагов алгоритма:
— распознавание символов или классификация;
— постобработка и исправления ошибок распознавания.
Эти алгоритмические шаги выполняются последовательно, и каждый результат шага подается на вход следующего шага. На рисунке 1 представлена схема алгоритма системы распознавания символов.
Рис. 1. последовательность работы алгоритма распознавания текста
Шаг предобработки. Перед тем как передать изображение на распознавание, необходимо его обработать и выделить необходимую информацию, как раз для этого и используется слой предобработки. На этом этапе с изображением могут происходить операции очистки изображения от шумов, приведение к виду, позволяющему выделить символы на фоне, фильтрация изображения, сглаживание и увеличение контрастности. Если текст рукописный, то дополнительно применяют подход по выпрямлению символов, так как многие пишут символы с наклоном. В основном используется бинаризация [2] изображения, которая позволяет точно выделить текст и убрать фон.
Алгоритм сегментации. Сегментация изображения [3] — это выделение полезной информации из изображения, с последующей ее обработкой. Сегментация в области распознавания текста состоит из нескольких этапов:
— сегментация строк — выделяем на изображении линиями фрагменты слов;
— сегментация слов — выделение слов, выделяем отдельный фрагменты изображений, где присутствуют слова;
— сегментация символов — разделяется распознанное изображение слова на символы.
Шаг классификации изображения.
Классификация позволяет распознать символ из изображения и перевести его в машиночитаемый формат. Существуют разные виды алгоритмов распознавания [4], самыми популярными являются:
Шаблонные алгоритмы. Суть метода
заключается в том, что идет сравнение каждого символа с шаблонами из базы. Наиболее подходящим шаблоном считается тот, у которого будет наименьшее количество точек, отличных от исследуемого изображения. Шаблоны для каждого символа обычно получаются усреднением изображений символов обучающей выборки. У данного алгоритма высокая точность распознавания текста, а недостатком является то, что нельзя распознать другой
шрифт, который отличается от заложенного в систему. Данный метод должен заранее знать шрифт, который он распознает, именно этот момент ограничивает универсальность шаблонных алгоритмов.
Признаковые алгоритмы. Признаковый метод состоит в том, что изображение представляется как К-мерный вектор признаков. Распознавание заключается в сравнение его с набором эталонных векторов той же размерности. Принятие решение о схожести образа к определенному символу строится на основании математических решений в рамках детерминистического и вероятностного подходов.
В системе распознавания данного метода используется классификация, основанная на подсчете евклидового расстояния между вектором признаков распознаваемого символа и векторами признаков эталонного описания. Количество и тип признаков могут определить качество распознавания. Создание вектора происходит во время анализа изображения, такой процесс называют извлечением признаков. Эталонные векторы для символов получают аналогичной обработкой символов обучающей выборки.
Главные достоинства признаковых методов — это простота их реализации, хорошая устойчивость к изменениям формы символов, низкое количество ошибок при распознавании, высокое быстродействие. Самые главные недостатки данного алгоритма — неустойчивость к различным дефектам изображения, например шум, а также на этапе извлечения признаков из символа происходит потеря основной информации, извлечение ведется независимо, из-за чего расположение элементов символа утрачивается.
Нейросетевые алгоритмы. С развитием машинного обучения, а также нейронных сетей, все чаще для распознавания символов используют алгоритмы, построенные с помощью нейронных сетей глубокого обучения. Существует много моделей классификаторов распознавания текста, но всегда в качестве базовых архитектур используются сверточные нейронные сети, а также функционал сохранения и накопления результата распознавания, и рекуррентная сеть для распознавания.
Входными данными для нейросетевого метода являются изображения строк и слов. Выходными данными — символы, идущие по порядку, формирующие машинный текст.
Примерная модель классификатора представлена на рисунке 2.
Рис. 2. Архитектура нейросетевого классификатора
На последнем этапе используется слой CTC, который построен на базе нейронной сети, для решения проблем последовательности, основная его задача в OCR -это сохранение последовательности вводимых символов.
Основные недостатки — текст должен быть в вертикальном положении, сложность подбора обучающей выборки. Основные достоинства — это высокая скорость и обобщённость. Именно поэтому данный метод сейчас используется в разных современных системах распознавания текста.
Алгоритм постобработки. Во многих системах OCR результат, получаемый после классификации, не считается достаточным. Необходимо использовать контекстную информацию, которая позволяет не только находить ошибки, но и исправлять их. Существуют разные методы осуществления постобработки, например, глобальные и локальные позиционные диаграммы, триграммы, n-граммы, словари и различные сочетания всех этих методов. Самым популярным подходом является словарь.
Библиотека Tesseract. Библиотека Tes-seract [5] бесплатна и просто в использовании. Она несет в себе функциональность инструмента командной строки, но есть также и оболочка для языка Python, которая называется pytesseract, а также приложение для компьютеров с графическим интерфейсом gImageReader. Библиотека Tesseract OCR довольно хорошо распознает отсканированный текст, но, когда дело
доходит до рукописного текста, процент распознанного текста снижается и появляются ошибки. С распознаванием табличной информации у Tesseract OCR имеются трудности, необходимо самостоятельно обрабатывать выходные данные с помощью дополнительных технологий и библиотек.
Продукт ABBYY FineReader. Продукт ABBYY FineReader [6] — разработка компании ABBYY, которая входит в число ведущих компаний по распознаванию текста. Данный продукт представляет представляет собой программу с графическим интерфейсом пользователя, где можно загружать документы и получать результат в виде файла.
Также существует ABBYY Cloud OCR SDK API — это облачный сервис, который использует движок ABBYY FineReader OCR. В отличие от Tesseract, ABBYY Cloud OCR платный. ABBYY FineReader не имеет проблем с хорошо отсканированным текстом и неплохо справляется с документами, которые сфотографированы и, возможно, с каким-то шумами и разворотами. Однако в рукописном документе он полностью не работает.
Его главное достоинство — возможность извлечения таблицы. Помимо ячеек, он извлекает такие мелкие детали как шрифты.
Продукт Google Cloud Vision. Продукт Google Cloud Vision [7], представляет из себя облачный сервис по распознаванию текстов из изображений. Он также, как и продукт ABBYY является платным. Google хорошо справляется с отсканированным текстом и распознает текст в до-
кументе, снятом на камеру, так же, как и ABBYY. Однако он намного лучше, чем Tesseract или ABBYY в распознавании почерка. Google Cloud Vision не очень хорошо обрабатывает таблицы: он извлекает текст, но это все. Фактически, результат работы Cloud Vision представляет собой файл JSON, содержащий информацию о
Таблица 1. Анализ OCR технологий
позициях символов. Как и в случае с Tesseract, на основе этой информации можно попытаться обнаружить таблицы, но эта функция не встроена и необходимо задействовать дополнительные ресурсы и технологии.
Обобщенные отличия технологий OCR представлены в таблице 1.
OCR системы Распознание Отсканированного документа Распознавание рукописного текста Распознавание сфотографированного текста Распознавание таблицы
Tesseract Хорошо Плохо Приемлемо Плохо, необходимо использовать дополнительные библиотеки
ABBYY FineReader Хорошо Плохо Хорошо Хорошо
Google Cloud Vision Хорошо Приемлемо, имеются ошибки в распознавании Хорошо Плохо, доп. библиотеки
Заключение. Выбор той или иной тех- одним из жизнеспособных вариантов на нологии для OCR распознавания зависит сегодня. Если качество документа плохое от задачи.
Для отсканированного докумен- или же оно сфотографировано с какими-та может подойти Tesseract OCR, он бес- либо шумами и дефектами, то ABBYY платен и довольно хорошо справляется с FineReader и Google Cloud Vision распо-поставленной задачей, также можно ис- знают такой текст. С задачей извлечения пользовать коммерческие продукты от табличной информации хорошо работает разных компаний. Для распознавания ру- ABBYY FineReader, который может со-кописного текста продукт Google Cloud хранять такие мелочи как тип и размер Vision отлично подходит, так как является шрифта.
1. Оптическое распознавание символов (OCR). — [Электронный ресурс]. — Режим доступа: http://wiki.technicalvision.m/index.php/%D0%9E%D (дата обращения: 19.03.2022)
2. Бинаризация изображений: алгоритм Брэдли. — [Электронный ресурс]. — Режим доступа: https://habr.com/ru/post/278435/ (дата обращения: 19.03.2022)
3. Сегментация изображения. — [Электронный ресурс]. — Режим доступа: http://mechanoid.su (дата обращения: 19.03.2022)
4. Афонасенко А.В., Обзор методов распознавания структурированных символов // Доклады Томского государственного университета систем управления и радиоэлектроники. — 2008. — № 2 (18), часть 1. — С. 83-88.
5. Tesseract OCR. — [Электронный ресурс]. — Режим доступа: https://github.com/tesseract-ocr/tesseract (дата обращения: 22.03.2022)
6. ABBYY FineReader. — [Электронный ресурс]. — Режим доступа: https://pdf.abbyy.com/ru/finereader-pdf/ (дата обращения: 22.03.2022)
7. Cloud Vision API. — [Электронный ресурс]. — Режим доступа: https://cloud.google.com/vision/ (дата обращения: 22.03.2022)
ANALYSIS OF TEXT RECOGNITION TECHNOLOGIES FROM IMAGE
K.A. Bobrov, Master V.D. Shulman, Master K.P. Vlasov, Master
Bauman Moscow State Technical University (Russia, Moscow)
Abstract. The article analyzes various technologies for recognizing text from an image. Within the framework of the article, the steps of the algorithm for recognizing text from an image are considered. The main methods of the character recognition algorithm (OCR) are described, their advantages and disadvantages are given. Based on the results of the comparison, it was found that the neural network recognition method is the most promising.
An analysis is made of libraries that actively use this neural network method within themselves. In conclusion, a conclusion is made about the expediency of using the considered libraries, depending on the conditions and specifics of the tasks.
Keywords: character recognition, segmentation, image classification, post-processing, neural network method, Tesseract technology.
Источник: cyberleninka.ru
Как распознать текст? Программа для распознавания текста — ABBYY FineReader
Функция распознавания текста может понадобиться в тех случаях, когда нужно перевести текст из книжного формата, в физическом варианте, в электронный. Ну, представим такую ситуацию: у нас есть книга на руках, которую нужно перенести на компьютер в файл Ворд, как будто мы её перепечатали сами с клавиатуры.
Здесь есть два варианта, либо сделать все как нужно, перепечатав текст из книги руками самому, и потратив на это уйму времени, либо второй вариант — это воспользоваться специальной программой для распознавания текста. Одна из таких называется ABBYY FineReader. О ней то мы сегодня и будем говорить.
Программа ABBYY FineReader была разработана специально для осуществления возможности распознавания текста, который отсканирован из книги, журнала, газеты и прочих печатных изданий.
Давайте я на реальном примере покажу Вам, как распознать текст после сканирования или после скачивания уже отсканированной книги, в программе ABBYY FineReader.
Подготовьте программу: найдите её, скачайте, установите, запустите. Подготовьте текст, который вам нужно распознать. Отсканируйте его, если нужно.
А теперь давайте запустим программу ABBYY FineReader. Процесс распознавания текста я буду показывать на примере последней, 11-ой, на данный момент версии.
Распознавание текста в программе ABBYY FineReader
Например, нам нужно книгу в PDF формате конвертировать в обычный текст в страницы Word. Для этого в открывшемся окне программы выбираем задачу « Файл (PDF/изображение) в Microsoft Word ».
Нам сразу же предлагают указать на компьютере PDF файл для распознавания текста, который в нём имеется.
В течение нескольких минут выбранный файл будет открываться. Мы можем наблюдать за процессом.
Затем произойдет распознавание текста и по окончанию весь текст программа FineReader переместит в Word файл и откроет его.
Нам остается только исправить некоторые ошибки, если они будут, и сохранить файл в любое место на своем компьютере.
Кроме этого мы можем сами в программе распознанный текст передать или даже сразу сохранить в Ворд файл.
Также в программе ABBYY FineReader можно распознать текст сразу со сканера, то есть кладем печатный вариант в сканер и в программе выбираем чтобы она сразу распознавала текст.
Есть и другие варианты.
Надеюсь эти примеры по распознаванию текста в программе ABBYY FineReader вам понятны и с другими способами вы уже разберетесь сами.
Ранее я уже писал урок про то, как распознать текст, но там мы использовали не программу FineReader, а онлайн сервис. Впрочем, если вам эта тема интересна, то рекомендую почитать этот урок: Как распознать текст онлайн.
Интересные статьи по теме:
Источник: www.inetkomp.ru
Программа сканирования и распознавания текстов FineReader
Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера).
Авторы программ задавали критерий «похожести», используемый при идентификации символов.
Подобные системы назывались OCR (Optical Character Recognition — оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход.
Введение…………………………………………………………………………3
Программа FineReader………………………………………………………..5
Распознавание документов в программе FineReader…………………….6
Как ввести документ за минуту……………………………………………. 8
Параметры сканирования……………………………………………………9
Основные панели программы FineReader. 11
Советы и примеры…………………………………………………………. 14
Заключение…………………………………………………………………. 21
Список литературы…………………………………………………………..22
Прикрепленные файлы: 3 файла
Программа FineReader выпускается отечественной компанией ABBYY Software (www.bitsoft.ru). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных текстов.
Программа имеет ряд удобных возможностей. Она позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (или с многостраничными документами) и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов.
Она позволяет редактировать распознанный текст и проверять его орфографию.
FineReader работает с разными моделями сканеров. В частности, программа поддерживает стандарт TWAIN. Мы рассмотрим программу на примере версии 7.0
Распознавание документов в программе FineReader
После установки программы FineReader в меню Программ Главного меню появляются пункты, обеспечивающие работу с ней. Окно программы имеет типичный для приложений Windows вид и содержит строку меню, ряд панелей инструментов и рабочую область.
- В левой части рабочей области располагается панель Пакет, содержащая список графических документов, которые должны быть преобразованы в текст. Эти графические файлы рассматриваются как части одного документа. Результаты их обрабатываются и в дальнейшем объединяются в единый текстовый файл. Форма значка, отмечающего исходные файлы, указывает, было ли произведено распознавание.
- Панель в нижней части рабочей области содержит фрагмент графического документа в увеличенном виде. С ее помощью можно оценить качество распознавания. Эту панель используют также при «обучении» программы в ходе распознавания.
- Остальную часть рабочей области занимают окна документа. Здесь располагается окно графического документа, подлежащего распознаванию, а также окно текстового документа, полученного после распознавания.
- В верхней части окна приложения под строкой меню располагаются панели инструментов. На приведенном рисунке включено отображение всех панелей, которые могут быть использованы в программе FineReader.
- Панель инструментов Стандартная содержит кнопки для открытия документов и для операций с буфером обмена. Прочие кнопки этой панели служат для изменения рабочей зоны.
- Панель ScanRead, в открывшемся локальном меню выберите пункт Мастер ScanRead вызывает специальный режим, при котором Вы можете отсканировать и распознать страницу или открыть и распознать графическое изображение (пример графического файла Вы можете найти в папке Dio. Она находится в папке, в которую Вы установили FineReader).
При этом каждый шаг сопровождается подсказками системы.
Далее следуйте указаниям Мастера Scanфотографию» страницы. Затем программа попросит Вас установить параметры распознавания и приступит к распознаванию изображения, одновременно анализируя его. Обработанные участки изображения закрашиваются голубым цветом.
Результат распознавания Вы увидите в окне Текст. В этом же окне Вы можете проверить и отредактировать распознанный текст. Следуя далее указаниям Мастера Scan?» или «?» на месте некоторых букв), это означает, что текущий шрифт не поддерживает полностью алфавит выбранного Вами языка распознавания. Выберите шрифт, который поддерживает все символы текста распознаваемой страницы (например, Arial Unicode или Bitstream Cyberbit) на закладке Форматирование (меню Свойства — Опции) в группе Шрифты, и распознайте документ заново.- Редактирование распознанного текста в Microsoft Word
Если Вы предпочитаете редактировать распознанный текст в Microsoft Word, а не в текстовом окне программы FineReader, Вы можете сделать так, чтобы неуверенно распознанные символы остались подсвеченными. В меню Сервис выберите пункт Форматы — на закладке RTF/DOC/Word XML отметьте опцию Цветом фона и/или Цветом символа в группе — Выделять неуверенно распознанные символы. В сохраненном файле все неуверенно распознанные символы будут подсвечены выбранными Вами на этой закладке цветами.
Теперь давайте остановимся немного подробнее на панелях программы и правилах работы с программой.Основные панели программы FineReader
Главная панель программы ScanRead – запускает специальный режим сканирования и распознавания, во время которого система контролирует действия пользователя и подсказывает ему, что надо делать, чтобы получить тот или иной результат. Сканировать и распознать – запускает сканирование и распознавание документа. Сканировать и распознать несколько страниц – сканирует и распознает несколько страниц в цикле.
Открыть и распознать – позволяет открыть и распознать изображения, выбранные в диалоге Открыть (Open).
Открыть изображение – добавляет изображение в пакет, при этом копия изображения сохраняется в папке пакета.
Сканировать изображение – сканирует изображение. Сканировать несколько страниц – сканирует изображение в цикле. Чтобы остановить сканирование, в меню Файл выберите пункт Остановить сканирование. Опции – открывает закладку Сканирование/Открытие диалога Опции, на которой можно установить опции сканирования и предварительной обработки документа.
Распознать – распознает открытую страницу (или выделенные страницы) пакета.
Распознать все – распознает все нераспознанные страницы пакета.
Опции – открывает закладку Распознание диалога Опции, на которой можно установить опции распознавания документа.
Проверить – позволяет найти в тексте слова, содержащие неуверенно распознанные символы, и неправильно написанные слова.
Опции – открывает закладку Проверка диалога Опции, на которой можно установить опции проверки документа.
Мастер сохранения результатов – открывает диалог Мастер сохранения результатов, в котором можно выбрать приложение для сохранения и установить опции сохранения.
Сохранить текст в файл – сохраняет распознанный текст в файл на диск.
Передать страницы в – напрямую передает распознанный текст в выбранное приложение без сохранения его на диск. При передаче распознанного текста с нескольких страниц пакета сначала нужно выделить их в окне.
Передать все страницы в – передает все распознанные страницы в выбранное приложение без сохранения их на диск.
Опции – открывает закладку Форматирование диалога Опции, на которой можно установить опции сохранения документа.
Советы и примеры.
Одним из наиболее популярных форматов представления электронных документов в Internet, архивах и т.д. является формат PDF (Portable Document Format).
Открыв PDF-файл в FineReader, можно его распознать, отредактировать и сохранить либо в PDF, выбрав один из четырех режимов сохранения оформления документа (только текст и картинки, только изображение, текст поверх изображения картинки, текст под изображением картинки), либо в любом другом поддерживаемом формате сохранения.
Чтобы установить режимы сохранения в формате PDF:
В меню Сервис выбрать пункт Форматы.
На закладке PDF диалога Форматы установить требуемый режим.
PDF является распространенным форматом для пересылки документов по электронной почте или публикации документов на web-сайтах. Естественно, что при публикации на web-сайтах очень важна высокая скорость открытия документов. Документ, сохраненный из программы FineReader в формате PDF, отвечает подобным требованиям. Структура PDF такова, что позволяет открывать в пользовательском браузере для просмотра первые страницы PDF документа, не дожидаясь, когда весь файл целиком будет загружен с web-сервера.
Сложная журнальная страница
Описание ситуации: плохое качество распознавания вследствие неправильного выделения блоков. Решение: В результате автоматического анализа данной страницы были выделены лишние блоки (например, участки текста на картинке). Проверить количество блоков, а также отредактировать форму выделенных блоков.
Для этого нужно воспользоваться инструментами на панели Изображение:
— чтобы удалить выделенные на картинке лишние блоки текста или предварительно, выделив блок, нужно нажать на клавиатуре кнопку Delete;
и — чтобы нарисовать блоки непрямоугольной формы;
и — чтобы нарисовать текстовый блок и блок-картинку, либо нарисовать блок самостоятельно, как если рисовать просто прямоугольник в графическом редакторе и в контекстном меню (правой кнопкой мыши на блоке) можно выбрать тип требуемого блока.
Замечание: При выделении текстовых блоков следите за тем, чтобы границы совпадали с границами текста.
Описание ситуации: за одно сканирование сканируется пара страниц (книжный разворот), при этом каждая страница имеет свой угол наклона, что отрицательно сказывается на качестве распознавания, кроме того, обе страницы сохраняются на одну страницу в две колонки. (Dual Page.tif) При распознавании изображение должно иметь стандартную ориентацию: текст должен читаться сверху вниз, и строки должны быть горизонтальными. По умолчанию при распознавании программа автоматически определяет и корректирует ориентацию изображения. У изображений со сдвоенными страницами стандартная ориентация отсутствует, так как каждая страница имеет свой угол наклона.
Решение: В программе существует специальный режим, при котором изображение со сдвоенными страницами разрезается на две части и превращается в две отдельные страницы пакета. Это позволяет обрабатывать каждую страницу: автоматически исправить угол наклона и сохранить распознанный текст с каждой страницы в отдельный файл (или на отдельную страницу).
Чтобы установить данный режим, перед добавлением изображения в пакет на закладке Сканирование/Открытие в группе Обработка изображений отметьте опцию – Делить книжный разворот.
Разрезать изображение со сдвоенными страницами на две части, которые впоследствии будут преобразованы в две отдельные страницы пакета, можно также с помощью опции – Разбить изображение.
Конечно, это очень удобно – вся важная информация о человеке сконцентрирована на листке бумаги небольшого формата. Но иногда пугает их количество, и мы тратим массу времени для того чтобы их упорядочить, привести в систему, найти удобное средство хранения.
Источник: www.referat911.ru