Оптическое распознавание символов (англ. Optical Character Recognition, OCR) – электронный перевод изображений рукописного или печатного текста в текстовые данные для дальнейшей работы с ними в текстовом редакторе. Распознавание широко используется для конвертации книг и печатных документов в электронный вид, допускающий редактирование, или для публикации текста в сети Интернет. Оптическое распознавание текста позволяет редактировать и форматировать текст, осуществлять поиск в тексте слова или фразы, хранить текст в более компактной форме, демонстрировать или распечатывать материал без потери качества, анализировать информацию, а также применять к тексту электронный перевод или преобразование в речь.
Точное распознавание латинских и кириллических символов в печатном тексте возможно, только если доступны чёткие изображения достаточно высокого разрешения. Точность при такой постановке задачи близка к 99%, тем не менее, оставшееся незначительное количество ошибок должно быть найдено и исправлено человеком. Эту процедуру часто называют вычисткой распознанного текста. Проблема распознавания рукописного текста в настоящее время не решена и являются предметом активных исследований.
Инструменты распознавания текстов и компьютерного перевода | Информатика 7 класс #27 | Инфоурок
В практике студентов технических специальностей распространенной задачей является конвертирование изображений, полученных путем сканирования или фотосъемки библиотечных книг, в формат документов Microsoft Word.
К сожалению, программ, которые «умели» бы распознавать математические формулы и превращать их в объекты редактора формул, не существует.
Для оптического распознавания текста необходимо предварительно оцифровать его, т.е. перевести в форму цифрового растрового изображения. Наилучшие результаты в этом случае дают специальные устройства – сканеры (см. Лабораторную работу №1). В случае отсутствия сканера или доступа к нему цифровое растровое изображение можно получить помощи современной цифровой фотокамеры.
Наиболее популярной на постсоветском пространстве программой для оптического распознавания текста является программа FineReader, разработанная московской компанией ABBYY. В лабораторной работе будет рассмотрена 9-я версия данной программы.
Сканирование текста
Сканирование текста для последующего распознания может осуществляться как предварительно (с сохранением изображений в графические файлы), так и непосредственно в программе ABBYY FineReader.
Разные модели сканеров «понимают» разные управляющие команды. В целях универсальности был принят стандарт TWAIN для взаимодействия сканера и приложений.Приложение посылает универсальные команды драйверу TWAIN,который преобразует их в инструкции конкретной модели сканера. Операционные системы Windowsподдерживает интерфейс TWAIN, a все современные сканеры совместимы с ним и их производители предоставляют необходимые драйверы.
Как правило, TWAIN-драйвер сканера запускается через программную группу в главном меню Windows (меню кнопки «Пуск»). Другим способом запуска TWAIN-интерфейса являются специальные команды некоторых графических редакторов (например, Файл – Получить – Со сканера… или Файл – Сканировать). Перед первым запуском таких команд в программе может понадобиться выбрать сканер, так как Windows поддерживает возможность одновременного подключения к компьютеру нескольких сканеров со своими TWAIN-драйверами.
Учим программу распознавать текст на картинках, видео, играх ▲ Python + OpenCV + Tesseract
Перед запуском TWAIN-драйвера сканер должен быть включен. Также у CCD-сканеров (см. лабораторную работу №1) от момента включения до начала сканирования первой страницы может пройти 1-5 минут (время разогрева ртутной лампы и стабилизации спектра ее свечения).
Интерфейсы TWAIN-драйверов большинства сканеров сильно различаются между собой, однако все они содержат практически одинаковые инструменты и функции. Более того, с выпуском новых моделей сканеров производители часто меняют интерфейс TWAIN-драйвера.
Подавляющее большинство инструментов TWAIN-драйвера рассчитано на тонкую настройку цветопередачи при сканировании фотографических изображений. С точки зрения оптического распознавания символов эти инструменты не нужны. В связи с этим в программе ABBYY FineReader предусмотрен собственный упрощенный интерфейс сканирования. Однако данный интерфейс может взаимодействовать не со всеми моделями сканеров.
В некоторых случаях на помощь может прийти альтернативный интерфейс WIA (Windows Image Acquisition – Получение изображений в Windows). Пользовательский интерфейс WIA разрабатывается Microsoft, производитель сканера лишь разрабатывает драйверы для совместимости сканера с WIA. WIA обладает значительно меньшей функциональностью по сравнению с TWAIN, но для простых задач, таких, как сканирование текста, он также вполне подходит.
Фотосъемка текста
Фотосъемка документов требует определенной подготовки фотографа, а также налагает ограничения на характеристики фотоаппарата и режим съемки. Перед съемкой следует убедиться в том, что:
Ø Страница целиком умещается в кадре и целиком его занимает (не остается излишних полей);
Ø Свет достаточно ровный, без теней на фотографируемом тексте;
Ø Фотографируемый документ расположен перпендикулярно оптической оси объектива, т.е. фотоаппарат должен быть расположен напротив центра текста. Неровности бумаги (у корешка книги, например) нужно по возможности разгладить.
Для качественного и устойчивого распознавания текста с листа размером А4 желателен фотоаппарат с разрешением матрицы не менее 5 мегапикселей.
По возможности нужно обеспечить хорошее освещение, лучше всего дневное. Желательно использовать подсветку двумя лампами с разных сторон, чтобы избежать образования теней.
Для съемки рекомендуется использовать штатив. Снимать лучше всего при максимальном оптическом увеличении («зуме»), при этом фотоаппарат должен быть максимально удален от текста.
Вспышку лучше всего отключить, поскольку она создает блики и резкие тени. Тем не менее, если внешнего света недостаточно, то можно использовать вспышку, при этом вести съемку с большого расстояния (минимум 1 метр). Даже при использовании вспышки все равно желательно подсветить документ другими источниками света. Категорически не рекомендуется использовать вспышку при съемке документов, отпечатанных на глянцевой бумаге, или лежащих под стеклом.
Если съемка ведется при ярком дневном свете и есть возможность управления диафрагмой (режим «A» или «Av» полупрофессиональных фотоаппаратов), значение диафрагмы лучше увеличить (закрыть диафрагму), чтобы получить более резкий по всей площади снимок. При недостаточном освещении можно выбрать большую чувствительность матрицы (большее значение ISO), так как шумы практически не влияют на качество распознавания. Выдержку (ей управляют в режиме «S» или «Tv» полупрофессиональных фотоаппаратов) по возможности следует сделать короткой, так как смазывание изображения на длинной выдержке полностью исключает будущее его распознавание. Если использовать короткую выдержку не получается (недостаточная освещенность текста), рекомендуется использовать стабилизатор изображения (если есть), штатив и таймер автоспуска (либо пульт дистанционного управления). Последние позволят избежать смещения фотоаппарата при нажатии на кнопку спуска.
Обязательным условием для распознавания является высокая резкость полученного изображения. Камеры мобильных телефонов для фотографирования текста должны оснащаться автофокусом. При недостаточном освещении автофокус некоторых камер может срабатывать плохо, в этом случае рекомендуется использовать ручную фокусировку либо подсветить текст.
Понятие оптического распознавания
Оптическое распознавание символов (англ. Optical Character Recognition, OCR) – электронный перевод изображений рукописного или печатного текста в текстовые данные для дальнейшей работы с ними в текстовом редакторе. Распознавание широко используется для конвертации книг и печатных документов в электронный вид, допускающий редактирование, или для публикации текста в сети Интернет. Оптическое распознавание текста позволяет редактировать и форматировать текст, осуществлять поиск в тексте слова или фразы, хранить текст в более компактной форме, демонстрировать или распечатывать материал без потери качества, анализировать информацию, а также применять к тексту электронный перевод или преобразование в речь.
Точное распознавание латинских и кириллических символов в печатном тексте возможно, только если доступны чёткие изображения достаточно высокого разрешения. Точность при такой постановке задачи близка к 99%, тем не менее, оставшееся незначительное количество ошибок должно быть найдено и исправлено человеком. Эту процедуру часто называют вычисткой распознанного текста. Проблема распознавания рукописного текста в настоящее время не решена и являются предметом активных исследований.
В практике студентов технических специальностей распространенной задачей является конвертирование изображений, полученных путем сканирования или фотосъемки библиотечных книг, в формат документов Microsoft Word.
К сожалению, программ, которые «умели» бы распознавать математические формулы и превращать их в объекты редактора формул, не существует.
Для оптического распознавания текста необходимо предварительно оцифровать его, т.е. перевести в форму цифрового растрового изображения. Наилучшие результаты в этом случае дают специальные устройства – сканеры (см. Лабораторную работу №1). В случае отсутствия сканера или доступа к нему цифровое растровое изображение можно получить помощи современной цифровой фотокамеры.
Наиболее популярной на постсоветском пространстве программой для оптического распознавания текста является программа FineReader, разработанная московской компанией ABBYY. В лабораторной работе будет рассмотрена 9-я версия данной программы.
Сканирование текста
Сканирование текста для последующего распознания может осуществляться как предварительно (с сохранением изображений в графические файлы), так и непосредственно в программе ABBYY FineReader.
Разные модели сканеров «понимают» разные управляющие команды. В целях универсальности был принят стандарт TWAIN для взаимодействия сканера и приложений.Приложение посылает универсальные команды драйверу TWAIN,который преобразует их в инструкции конкретной модели сканера. Операционные системы Windowsподдерживает интерфейс TWAIN, a все современные сканеры совместимы с ним и их производители предоставляют необходимые драйверы.
Как правило, TWAIN-драйвер сканера запускается через программную группу в главном меню Windows (меню кнопки «Пуск»). Другим способом запуска TWAIN-интерфейса являются специальные команды некоторых графических редакторов (например, Файл – Получить – Со сканера… или Файл – Сканировать). Перед первым запуском таких команд в программе может понадобиться выбрать сканер, так как Windows поддерживает возможность одновременного подключения к компьютеру нескольких сканеров со своими TWAIN-драйверами.
Перед запуском TWAIN-драйвера сканер должен быть включен. Также у CCD-сканеров (см. лабораторную работу №1) от момента включения до начала сканирования первой страницы может пройти 1-5 минут (время разогрева ртутной лампы и стабилизации спектра ее свечения).
Интерфейсы TWAIN-драйверов большинства сканеров сильно различаются между собой, однако все они содержат практически одинаковые инструменты и функции. Более того, с выпуском новых моделей сканеров производители часто меняют интерфейс TWAIN-драйвера.
Подавляющее большинство инструментов TWAIN-драйвера рассчитано на тонкую настройку цветопередачи при сканировании фотографических изображений. С точки зрения оптического распознавания символов эти инструменты не нужны. В связи с этим в программе ABBYY FineReader предусмотрен собственный упрощенный интерфейс сканирования. Однако данный интерфейс может взаимодействовать не со всеми моделями сканеров.
В некоторых случаях на помощь может прийти альтернативный интерфейс WIA (Windows Image Acquisition – Получение изображений в Windows). Пользовательский интерфейс WIA разрабатывается Microsoft, производитель сканера лишь разрабатывает драйверы для совместимости сканера с WIA. WIA обладает значительно меньшей функциональностью по сравнению с TWAIN, но для простых задач, таких, как сканирование текста, он также вполне подходит.
Фотосъемка текста
Фотосъемка документов требует определенной подготовки фотографа, а также налагает ограничения на характеристики фотоаппарата и режим съемки. Перед съемкой следует убедиться в том, что:
Ø Страница целиком умещается в кадре и целиком его занимает (не остается излишних полей);
Ø Свет достаточно ровный, без теней на фотографируемом тексте;
Ø Фотографируемый документ расположен перпендикулярно оптической оси объектива, т.е. фотоаппарат должен быть расположен напротив центра текста. Неровности бумаги (у корешка книги, например) нужно по возможности разгладить.
Для качественного и устойчивого распознавания текста с листа размером А4 желателен фотоаппарат с разрешением матрицы не менее 5 мегапикселей.
По возможности нужно обеспечить хорошее освещение, лучше всего дневное. Желательно использовать подсветку двумя лампами с разных сторон, чтобы избежать образования теней.
Для съемки рекомендуется использовать штатив. Снимать лучше всего при максимальном оптическом увеличении («зуме»), при этом фотоаппарат должен быть максимально удален от текста.
Вспышку лучше всего отключить, поскольку она создает блики и резкие тени. Тем не менее, если внешнего света недостаточно, то можно использовать вспышку, при этом вести съемку с большого расстояния (минимум 1 метр). Даже при использовании вспышки все равно желательно подсветить документ другими источниками света. Категорически не рекомендуется использовать вспышку при съемке документов, отпечатанных на глянцевой бумаге, или лежащих под стеклом.
Если съемка ведется при ярком дневном свете и есть возможность управления диафрагмой (режим «A» или «Av» полупрофессиональных фотоаппаратов), значение диафрагмы лучше увеличить (закрыть диафрагму), чтобы получить более резкий по всей площади снимок. При недостаточном освещении можно выбрать большую чувствительность матрицы (большее значение ISO), так как шумы практически не влияют на качество распознавания. Выдержку (ей управляют в режиме «S» или «Tv» полупрофессиональных фотоаппаратов) по возможности следует сделать короткой, так как смазывание изображения на длинной выдержке полностью исключает будущее его распознавание. Если использовать короткую выдержку не получается (недостаточная освещенность текста), рекомендуется использовать стабилизатор изображения (если есть), штатив и таймер автоспуска (либо пульт дистанционного управления). Последние позволят избежать смещения фотоаппарата при нажатии на кнопку спуска.
Обязательным условием для распознавания является высокая резкость полученного изображения. Камеры мобильных телефонов для фотографирования текста должны оснащаться автофокусом. При недостаточном освещении автофокус некоторых камер может срабатывать плохо, в этом случае рекомендуется использовать ручную фокусировку либо подсветить текст.
Источник: cyberpedia.su
Оптическое распознавание текста (OCR)
Оптическое распознавание текста (англ. optical character recognition, OCR) — перевод последовательности изображений символа в последовательность кодов, использующихся для представления в текстовом редакторе. Перевод осуществляется с помощью различных алгоритмов, после преобразования изображения в набор элементарных точек.
Оптическое распознавание текста (optical character recognition, OCR) — это механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе.
Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учета в бизнесе или для публикации текста на веб-странице.
принципы распознавания в OCR
Процесс ввода документа в компьютер можно подразделить на два этапа:
1. Сканирование. На первом этапе сканер играет роль «глаза» Вашего компьютера: «просматривает» изображение и передает его компьютеру. При этом полученное изображение является не чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе.
2. Распознавание. Обработка изображения OCR-системой.
* Целостность — объект описывается как целое с помощью значимых элементов и отношений между ними.
* Целенаправленность — распознавание строится как процесс выдвижения и целенаправленной проверки гипотез.
* Адаптивность — способность OCR-системы к самообучению.
В соответствии с этими тремя принципами система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения. В каждом структурном элементе выделяются части, значимые для человеческого восприятия: отрезки, дуги, кольца и точки. Следуя принципу адаптивности, программа самостоятельно «настраивается», используя положительный опыт, полученный на первых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к возможным дефектам письма.
Большинство систем OCR работают с растровым изображением, которое получено через факс-модем или сканер. Для тех, кто никогда не видел OCR, обозначим скороговоркой этапы распознавания отсканированной страницы с точки зрения манипуляций над изображением текста.
Делая «первый шаг», OCR должен разбить страницу на блоки текста, основанного на особенностях правого и левого выравнивания и наличия нескольких колонок. Потом эти блоки разбиваются в индивидуальные метки чернил (типографской краски и т.п.), которые, как правило, соответствуют отдельным буквам. Алгоритм распознавания делает предположения относительно соответствия чернильных меток символам; а затем делается выбор каждой буквы и цифры. В результате страница восстанавливается в символах текста (причем, в соответствующем оригиналу формате).
основные методы распознавания символов
Большинство программ оптического распознавания текста (OCR Optical Character Recognition) работают с растровым изображением, которое получено через факс-модем, сканер, цифровую фотокамеру или другое устройство. На первом этапе OCR должен разбить страницу на блоки текста, основываясь на особенностях правого и левого выравнивания и наличия нескольких колонок. Затем распознанный блок разбивается на строки.
Потом строки разбиваются на непрерывные области изображения, которые, как правило, соответствуют отдельным буквам; алгоритм распознавания делает предположения относительно соответствия этих областей символам; а затем делается выбор каждого символа, в результате чего страница восстанавливается в символах текста, причем, как правило, в соответствующем формате. OCR-системы могут достигать наилучшей точности распознавания свыше 99,9% для чистых изображений, составленных из обычных шрифтов.
Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек.
При распознавании документов с низким качеством печати (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.).
При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу.
возможности современных программ оптического распознавания текста
Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами (именно так работали OCR первого поколения), но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы.
И самое главное — корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст — это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата — скажем, формата Microsoft Word.
Программы распознавания текста позволяют перевести в текстовый вид копии очень сложных по структуре текстовых документов, включая таблицы, формы, диаграммы, рисунки. После распознавания и перевода копии в текстовый вид программы сохраняют расположение текста на странице, шрифт, размер и цвет шрифта. Для уменьшения возможных ошибок распознавания символов, программы проверяют орфографию текста.
системы распознавания рукописного текста
Распознавание рукописного текста — технология преобразования символов рукописного текста в последовательность кодов.
Cистемы распознавания рукописного текста.
С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.
Системы распознавания форм, заполненных печатными буквами отруки, которые применяются во многих областях. Во-вторых, это
распознавание раздельных рукописных букв, написанных особым пером на специальном экране (touch-screen), которое широко применяется в карманных компьютерах и электронных записных книжках. Эти распознающие системы демонстрируют достаточно высокую точность, приближающуюся к точности клавиатуры
Источник: mydocx.ru
Системы распознавания текстов (OCR-системы). Общая характеристика и функциональные возможности
Системы оптического распознавания символов (OCR — Optical Character Recognition) предназначены для автоматического ввода печатных документов в компьютер.
Процесс ввода документа в компьютер можно подразделить на этапы:
1. Сканирование — получение графического изображения, картинки, которую невозможно отредактировать ни в одном текстовом редакторе.
2. Распознавание — обработка изображения OCR-системой.
3. Верификация – это единственный этап, когда пропускная способность системы ограничена производительностью работы человека.
Алгоритмы распознавания:
1)Базовые:
multifont (шрифтовые) — растровое изображение накладывается на шаблон, наиболее подходящий шаблон, у которого наименьшее количество точек отличается от исследуемого изображения;
omnifont (шрифтонезависимые) — идентификация символа по правилам его написания — эталон, с которым производится сравнение, содержит в себе эвристическую информацию о правилах написания символа.
2)Адаптивное распознавание — метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont) — на основе достаточно хорошо пропечатанных символов создается специальный шрифт, который позволяет распознавать плохо пропечатанные символы.
3)Структурные алгоритмы распознавания — хранится информация не о поточечном написании символа, а о наличии в нем структурных элементов (колец, дуг, отрезков и точек). Изображение символа приводится к контуру, на котором анализируются наличия пересечений линий, вычисляются углы, размеры дуг и т.д.
В настоящее время большинство систем базируется на технологии «целостного целенаправленного адаптивного распознавания»:
1. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.
2. Целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез.
3. Адаптивность – способность OCR-системы к самообучению.
Следует различать рынок оптического распознавания текста OCR (Optical Character Recognition) и рынок распознавания форм (Data Capturing).
Пакет для оптического распознавания символов FineReader от ABBYY Software Hause:
¡ мощные возможности оптического распознавания символов;
¡ средства для предварительной обработки изображений (поворот страницы),
¡ очистка изображения от мусора, что в значительной степени повышает качество распознавания.
¡ инструменты для разметки.
FineReader – омнифонтовая система оптического распознавания текстов, позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения.
Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии «целостного целенаправленного адаптивного распознавания».
С помощью ABBYY FormReader можно обрабатывать любые типы форм:
¡ распознает формы, заполненные от руки, на печатной машинке или принтере, а также пункты и штрих-коды;
¡ выделяет цветом все неуверенно распознанные символы и подает их на верификацию;
¡ автоматически проверяет корректность результатов распознавания по базам данных, словарям, с помощью перекрестных проверок полей, проверок сумм, форматов дат, и т.д.;
¡ может обрабатывать различные типы форм, и даже те, которые изначально не были предназначены для машинной обработки, благодаря различным методам удаления изображения самой формы;
¡ экспорт в различные форматы (dbf, xls, другие БД, графические форматы).
CuneiForm ( Cognitive Technologies ) — это программа для оптического распознавания текста документов в редактируемый вид:
¡ экспорт распознанного текста с сохранением исходного форматирования объектов;
¡ удобный и наглядный интерфейс;
¡ прямой экспорт результатов распознавания в MS Word, систему для автоматизации делопроизводства Евфрат;
¡ передача текста и изображения через буфер обмена в любые приложения;
¡ печать текста и изображения;
¡ сохранение в форматах RTF, TXT, HTML, DBF;
¡ поддержка работы с OLE-объектами.
Источник: lektsia.com