Зачем нужны программы распознавания текста информатика

Содержание

Для создания электронных библиотек и архивов путем перевода книг и документов в цифровой вариант и при необходимости редактирования полученного по факсу документа используются специальные системы распознавания символов.

С помощью сканера можно получить изображение страницы с текстом в графическом формате.

Но работать с этим текстом невозможно, потому что любое сканирование – это всего лишь изображение

Текст можно будет читать, распечатывать, но только не редактировать.

Для перевода графического документа в текстовый файл необходимо провести распознавание текста.
Преобразование графического изображения в текст занимаются программы оптического распознавания текста (Optical Character Recognition, OCR).

Современные OCR умеют:

  • распознавать тексты, набранные не только разными шрифтами, но и самыми экзотическими, в том числе и рукописных
  • корректно работать с текстами, содержащими слова на нескольких языках
  • распознавать таблицы
  • распознавать нечетко набранные или написанные тексты

Само собой, распознать текст — это еще полдела. После этого нужно обеспечить сохранение результата в файле текстового формата, например Microsoft Word.

Пишем программу на Python для распознавания текста

В процессе распознавания документов в плохом качестве (машинописный текст, факс) используется метод распознавания символов по наличию определенных структурных элементов — отрезков, колец, дуг.

Любой символ легко описывается с помощью набора значений, определяющих расположение его частей. Например, обе буквы «Н» и буква «И» состоят из трех отрезков. Два из них расположены параллельно друг другу, а третий их соединяет. А различие – лишь в величине углов отрезков.

Самые распространенные системы оптического распознавания текста — ABBYY FineReader и CuneiForm.

ABBYY FineReader

FineReader является омнифонтовой системой распознавания текстов. Это значит, что она позволяет распознавать тексты, набранные практически любыми шрифтами.

Одним из козырей FineReader является поддержка огромного (для таких программ) количества языков распознавания — более 176 (экзотические, древние языки, популярные языки программирования).

Для запуска процесса распознавания достаточно положить лист бумаги в сканер и нажать кнопку Scan Сократ Персональный» и Pragma. Первая была специально разработана для перевода электронных текстов, вторая стала популярна благодаря своей компактности и простоте в использовании, последняя владеет широкими возможностями и вариантами перевода.

Параметры машинных переводчиков должны удовлетворять четырем основным требованиям:

  • оперативность
  • гибкость
  • скорость
  • точность

Оперативность заключается в возможности постоянного обновления словарного запаса и тематических разделов.
Гибкость рассчитана на конкретную предметную область.

Распознавание текста с картинки на Python | Оптическое распознавание символов Tesseract

Скорость — возможность автоввода и обработки текстовой информации с бумаги. Одна такая система (OCR-System) ежедневно заменяет больше десяти опытных машинисток.

Точность заключается грамотности и адекватной передачи смысла переводимого текста на язык перевода.

Улучшение качества перевода

Существуют способы улучшения результатов машинного перевода:

1. Перед началом перевода, нужно определить тип текста, то есть из какой области жизнедеятельности человека он представлен (экономика, спорт, наука и т.д.). Ведь каждая сфера имеет свои нюансы и термины.

Читайте также:
Как вызвать программу эксперт

2. Часто причиной неправильного перевода являются опечатки переводимом тексте. Это касается и распознанных текстов. Слова с ошибками помечаются переводчиками как незнакомые, потому что в таком виде их нет в словарях. Хуже, если есть ошибки в пунктуации — одна неправильно поставленная запятая способна исказить перевод всего предложения.

3. Работайте с фрагментами текста. Никогда не переводите весь текст сразу. В нем всегда найдутся слова, отсутствующих в словаре и такие, которые система переводит неправильно.

Вопросы

1. Зачем нужны программы распознавания текста?
2. Как происходит распознавание текста?
3. Какие программы распознания текста вы знаете?
4. Требования к параметрам машинных переводчиков.
5. Методы улучшения качества перевода текста

Список использованных источников

1. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. М.: Наука, 2005. — Вып. 33. С. 5-68
2. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006. – 80 с.
3. Потапов А.С. Распознавание образов и машинное восприятие. — С-Пб.: Политехника, 2007 г.
4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.
5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма «ПРОМТ.
6. www.free-ocr.сom
7. img2txt.ru
8. www.translate.ru

Отредактировано и выслано преподавателем Киевского национального университета им. Тараса Шевченко Соловьевым М. С.

Над уроком работали

Поставить вопрос о современном образовании, выразить идею или решить назревшую проблему Вы можете на Образовательном форуме, где на международном уровне собирается образовательный совет свежей мысли и действия. Создав блог, Вы не только повысите свой статус, как компетентного преподавателя, но и сделаете весомый вклад в развитие школы будущего. Гильдия Лидеров Образования открывает двери для специалистов высшего ранга и приглашает к сотрудничеству в направлении создания лучших в мире школ.

Источник: school.xvatit.com

Презентация на тему Системы распознавания текста. Технология обработки текстовой информации

Необходимость в системах распознавания символов С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет

  • Главная
  • Информатика
  • Системы распознавания текста. Технология обработки текстовой информации

Слайды и текст этой презентации

Слайд 1Системы распознавания текста
Технология обработки текстовой информации

Системы распознавания текста Технология обработки текстовой информации

Слайд 2Необходимость в системах распознавания символов
С помощью сканера

достаточно просто получить изображение страницы текста в

графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл — обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.

Необходимость в системах распознавания символов С помощью сканера достаточно просто получить изображение

Слайд 3Программы распознавания текста
Преобразованием графического изображения в текст

занимаются специальные программы распознавания текста (Optical Character

Recognition — OCR).
Наиболее распространенные системы оптического распознавания символов:
ABBYY FineReader
CuneiForm от Cognitive

Программы распознавания текста Преобразованием графического изображения в текст занимаются специальные программы распознавания

Слайд 4Получение электронного документа
Отсканировать изображение (с помощью ПО

сканера);
Распознать структуру размещения текста на странице: выделить

колонки, таблицы, изображения и т.д.
Выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст;
Проверка орфографии (если необходимо);
Сохранение в файл или передача текста в другое приложение, например в Word.

Получение электронного документа Отсканировать изображение (с помощью ПО сканера); Распознать структуру размещения

Слайд 5Методы распознавания символов
Если исходный документ имеет типографское

качество то задача распознавания решается методом сравнения

с растровым шаблоном.
При распознавании документов с низким качеством печати используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.).

Методы распознавания символов Если исходный документ имеет типографское качество то задача распознавания

Слайд 6ABBYY FineReader
FineReader — омнифонтовая система оптического распознавания

текстов. Это означает, что она позволяет распознавать

тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати.
FineReader имеет массы дополнительных функций и удобный интерфес.

Читайте также:
Программа электронного документооборота кадры выпускается компанией какой

ABBYY FineReader FineReader - омнифонтовая система оптического распознавания текстов. Это означает, что

Слайд 7Оптимальное разрешение при сканировании
Оптимальным разрешением для обычных

текстов является — 300 dpi и 400-600

dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).
Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Если Вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цвет букв и фона) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения.

Источник: thepresentation.ru

Зачем нужны программы распознавания текста информатика

Информатика и информационно-коммуникационные технологии в школе

Полная или частичная перепечатка каким бы то ни было способом материалов данного сайта допускается только с письменного согласия автора.
При цитировании или ином использовании материалов ссылка на сайт www.klyaksa.net обязательна.

MyTestX - лего и удобно

[Урок №24. Cистемы распознавания текста]

Тема: «Системы распознавания текста».

  • помочь учащимся получить представление об OCR – программах распознавания текста , познакомиться с возможностями данных программы, научить распознавать отсканированный текст, передавать и редактировать его в Word.
  • воспитание информационной культуры учащихся, внимательности, аккуратности, дисциплинированности, усидчивости.
  • развитие познавательных интересов, навыков работы на компьютере, самоконтроля, умения конспектировать.

доска, компьютер, компьютерная презентация.

  1. Орг. момент. (1 мин)
  2. Актуализация знаний. (5 мин)
  3. Теоретическая часть. (10 мин)
  4. Практическая часть. (15 мин)
  5. Д/з (2 мин)
  6. Вопросы учеников. (5 мин)
  7. Итог урока. (2 мин)

Приветствие, проверка присутствующих. Объяснение хода урока.

II. Актуализация знаний .

При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов.

На этом уроке мы научимся создавать преобразовывать отсканированное изображение в текст.

III. Теоретическая часть.

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графичес кий файл — обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition — OCR).

Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами (именно так работали OCR первого поколения), но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы.

И самое главное — корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст — это еще полдела. Не менее важно обеспечить воз можность сохранения результата в файле популярного текстового (или табличного) формата — скажем, формата Microsoft Word.

Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций.

Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.

Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек.

Читайте также:
Установить программу powerpoint на компьютер

При распознавании документов с низким качеством печати (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.).

Любой символ можно описать через набор значений параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между данными буквами — в величине углов, которые образует третий отрезок с двумя другими.

При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу.

Наиболее распространенные системы оптического распознавания символов, например, ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

При заполнении налоговых деклараций, при проведении переписей населения и так далее используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.

Сложность состоит в том, что необходимо распознавать написанные от руки символы, довольно сильно различающиеся у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.

Системы распознавания рукописного текста. С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.

Программы для распознавания текста вы можете приобрети отдельно или получить бесплатно вместе с купленным вами сканером.

Возможно, самая известная программа для распознавания текстов – это FineReader от компании ABBYY. Именно эту программу чаще всего вспоминают, когда речь заходит о системах распознавания.

FineReader — омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии «целостного целенаправленного адаптивного распознавания».

FineReader имеет массы дополнительных функций, которые простому пользователю, возможно, и без надобности, но зато производят впечатление на определенные группы покупателей. Так, одним из козырей FineReader является поддержка неимоверного количества языков распознавания — 176, в числе которых вы найдете эк зотические и древние языки, и даже популярные языки программирования.

Но далеко не все возможности включены в самую простую модификацию программы, которую вы можете получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений — для всего этого стоит приобрести профессиональную версию программы.

Все версии FineReader, от самой простой до самой мощной, объединяет удобный интерфейс. Для запуска процесса распознавания вам достаточно просто положить документ в сканер и нажать единственную кнопку (мастер Scan
Компьютерное тестирование знаний учащихся, сертификация и аттестация сотрудников.
Деcять типов заданий, локальное и сетевое тестирование.

Обсудить на форуме и принять участие в создании банка тестов.

Разместите нашу кнопку

Источник: www.klyaksa.net

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru