Какую программу используют для распознавания символов информатика

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл – обычную картинку. Текст можно будет читать, распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.

Основным методом перевода бумажных документов в электронную форму является сканирование. В результате сканирования получается графическое изображение, состоящее из точек, т.е. растровое изображение. Количество точек определяется как размером изображения, так и разрешением сканера.

Графический образ, получаемый после сканирования документа, иногда необходимо перевести в текст. Для этого используются специальные программные средства, называемые средствами распознавания образов. Из программ, способных распознавать текст на русском языке наиболее известной являетсяABBYY Fine Reader.

Програма для распознавания текста »ABBYY FineReader 12»

Преобразование документа в электронный вид происходит в три основных этапа. Каждый из этих этапов может выполняться программами как автоматически, так и под контролем пользователя.

  1. Сканирование. Запускается сканирующий модуль, настраиваются параметры сканирования (разрешение, размер, тип сканирования) и происходит собственно сканирование.
  2. Сегментация и распознавание текста. Прежде чем получить готовый текст, необходимо разбить фрагменты документа на блоки (текст, рисунок, таблица и т.д.), для того, чтобы правильно их распознать (преобразовать в текстовый документ).
  3. Проверка орфографии и передача текстового документа в нужное приложение для дальнейшей работы или сохранение в файл.
  • Если исходный документ имеет типографское качество, то задача распознавания решается методом сравнения с растровым шаблоном.
  • При распознавании документов с низким качеством печати используется метод распознавания символов по наличиюв нихопределенных структурных элементов(отрезков, колец, дуг и др.).
  1. Планшетные–наиболее распространённые, поскольку обеспечивают максимальное удобство для пользователя – высокое качество и приемлемую скорость сканирования. Представляет собой планшет, внутри которого под прозрачным стеклом расположен механизм сканирования.
  2. Барабанные– применяются в полиграфии, имеют большое разрешение (около 10 тысяч точек на дюйм). Оригинал располагается на внутренней или внешней стенке прозрачного цилиндра (барабана).
  3. Ручные– в них отсутствует двигатель, следовательно, объект приходится сканировать вручную, единственным его плюсом является дешевизна и мобильность, при этом он имеет массу недостатков – низкое разрешение, малую скорость работы, узкая полоса сканирования, возможны перекосы изображения, поскольку пользователю будет трудно перемещать сканер с постоянной скоростью.
  4. Сканеры штрих-кода– небольшие, компактные модели для сканирования штрих-кодов товара в магазинах.
  1. распознавание текста;
  2. все найденные программой ошибки выделяются цветом. Затем программа производит проверку текста на наличие орфографических ошибок, и все некорректные слова подчеркивает красными линиями. Обнаруженные изображения программа выделяет красным цветом и в дальнейшем их не обрабатывает, а оставляет их такими, какие они есть, соответственно и передает их такими, как они получились при сканировании.
  3. Редактирование полученного документа.

Источник: studfile.net

Распознавание текста с картинки и PDF документа средствами Office

OCR-конвейер для обработки документов

Сегодня я расскажу о том, как создавалась система для переноса текста из бумажных документов в электронную форму. Мы рассмотрим два основных этапа: выделение областей с текстом на сканах документов и распознавание символов в них. Кроме того, я поделюсь сложностями, с которыми пришлось столкнуться, способами их решения, а также вариантами развития системы.

Читайте также:
Filler отзывы о программе

Первичным переводом документа в электронную форму является его сканирование или фотографирование, в результате которого получается графический файл в виде фотографии или скана. Однако такие файлы, особенно высокого разрешения, занимают много места на диске, и текст в них невозможно редактировать. В связи с этим, целесообразно извлекать текст из графических файлов, что успешно делается с применением OCR.

Про OCR и цели

Оптическое распознавание символов (OCR) — перевод изображений машинописного, рукописного или печатного текста в электронные текстовые данные. Обработка данных при помощи OCR может применяться для самых различных задач:

  • извлечение данных и размещение в электронной базе банковских, бухгалтерских, юридических документов;
  • сканирование печатных документов с последующей возможностью редактирования;
  • перенос исторических документов и книг в архивы;
  • распределение печатного материала по темам;
  • индексирование и поиск отсканированного печатного материала.

В настоящее время все больше организаций переходят от бумажной формы документооборота к электронной. На одном из моих недавних проектов для компании с большими объемами бумажных документов, требовалось перенести информацию, накопившуюся в сканах (около нескольких петабайт), в электронную форму и добавить возможность обработки новых отсканированных документов.

Инструменты распознавания текстов и компьютерного перевода

Современный мир меняется и улучшается каждую минуту. Ещё недавно для того, чтобы почитать, мы были вынуждены покупать книги или ходить в библиотеку и брать книги там. А сейчас достаточно зайти в интернет, найти интересную книгу и читать её с компьютера, телефона или специального устройства – электронной книги. На этом уроке учащиеся узнают, как в интернет попали книги. Узнают, какие программы предназначены для распознавания документов, что называют компьютерными словарями, для чего предназначены программы-переводчики.

В данный момент вы не можете посмотреть или раздать видеоурок ученикам

Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет.

Получите невероятные возможности

1. Откройте доступ ко всем видеоурокам комплекта.

2. Раздавайте видеоуроки в личные кабинеты ученикам.

3. Смотрите статистику просмотра видеоуроков учениками.
Получить доступ

Конспект урока «Инструменты распознавания текстов и компьютерного перевода»

Современный мир меняется и улучшается каждую минуту. Ещё недавно для того чтобы почитать мы были вынуждены покупать книги или ходить в библиотеку и брать книги там. А сейчас достаточно зайти в интернет, найти интересную книгу и читать её с компьютера, телефона или специального устройства – электронной книги.

А задумывались вы, как в интернет попали все эти книги. Можно предположить, что какой-то ответственный человек сидел и набирал тексты книг на компьютере.

Как вы думаете, сколько он потратил на это времени? Давайте попробуем подсчитать. Предположим, что наш человек очень опытный наборщик текстов и его скорость набора 180 знаков в минуту. Ему нужно ввести в компьютер текст романа «Война и мир».

Как вы уже догадались, данный способ перевода печатного текста на компьютер не эффективен и не практичен.

Гораздо быстрее и удобнее использовать специальный инструмент, такой как например сканер, который за считаные секунды переведёт любую бумажную информации в цифровую.

А когда же появился сканер? Давайте рассмотрим историю появления этого инструмента.

Можно сказать, что создание сканера началось со времён изобретения всем известного телеграфа. Был изобретён прибор, который передавал изображение на расстояния.

Читайте также:
Как открыть несколько окон одной программы

Но очень бурное развитие сканера началось в начале XX века, в те времена, когда был изобретён фототелеграф, как мы привыкли его называть – телефакс. В 1902 году, немецкий физик Артур Корн запатентовал технологию фотоэлектрического сканирования, получившую впоследствии название телефакс.

Передаваемое изображение закреплялось на прозрачном вращающемся барабане, луч света от лампы, перемещающейся вдоль оси барабана, проходил сквозь оригинал и через расположенные на оси барабана призму и объектив попадал на селеновый фотоприёмник.

Эта технология до сих пор применяется в барабанных сканерах.

После этого учёными было сделано, новое прорывное в будущее изобретение – был изобретён новый способ сканирования, который гордо носит название – планшетный.

Рассмотрим принцип действия планшетных сканеров.

Сканируемый объект кладётся на стекло планшета сканируемой поверхностью вниз. Под стеклом располагается подвижная лампа, движение которой регулируется шаговым двигателем. Свет, отражённый от объекта, через систему зеркал попадает на чувствительную матрицу и передаётся в компьютер. За каждый шаг двигателя сканируется полоска объекта, все полоски потом объединяются программным обеспечением в общее изображение.

Данная конструкция имеет ряд преимуществ перед своими предками, основное из которых – это то, что сканер передаёт изображение в компьютер.

На сегодняшний день рынок компьютерной техники насчитывает огромное количество моделей сканеров.

Многие привыкли называть сканер – фотоаппарат, который фотографирует изображения.

Сканеры используются для ввода изображений на компьютер. С помощью сканера мы получаем на своём компьютере электронный снимок. Сканер иногда заменяет нам факс. Любой документ, любую фотографию мы можем отсканировать и передать по электронной почте.

Итак, отсканированный снимок попал в компьютер. Но дальше эту информацию нужно распознать, отредактировать и изменить. Для этого нам нужно воспользоваться специальной программой ABBYY FineReader.

Остановимся подробнее на работе такой программы:

1) В начале, вам необходимо отсканировать текст с помощью сканера. Для этого вы помещаете текст под крышку сканера, и в программе отдаёте команду Сканировать и распознать. Тем самым мы создаём цифровую копию исходного документа в формате графического изображения.

2) Затем программа анализирует структуру документа, выделяя на его страницах блоки текста, таблицы и картинки. Строки разбиваются на слова, а слова на буквы. Затем программа сравнивает найденные символы с шаблонами из своей памяти. Кроме того, в программу встроены словари, которые позволяют производить более точный анализ и распознавание и проверку распознанного текста. Проанализировав огромное количество вариантов, программа выдаёт окончательное решение пользователю распознанного текста.

3) И наконец, распознанный текст переносится в окно текстового редактора, например, Microsoft Word.

Однако, качество распознанного текста зависит от того как хорошо виден исходный текст. Отсканированный и распознанный текст обязательно нужно перечитать и отредактировать.

Современные технологии позволяют не использовать сканер, а вместо него воспользоваться фотоаппаратом или даже телефоном.

А теперь вспомните те далёкие годы, когда ещё не было печатных станков и нашим предкам приходилось вручную переписывать рукописи, чтобы они дошли до наших дней. Каким тяжёлым и важным был труд писарей, и как ценна была каждая книга.

Теперь разберёмся для чего предназначены компьютерные словари и программы-переводчики

Основная цель современных компьютерных технологий упрощать, улучшать жизнь человека, делать её комфортнее и динамичнее. Одним из таких удобств являются компьютерные словари и программы-переводчики, которые позволяют мгновенно найти нужное слово, перевести его и даже если нужно — прослушать произношение. Ещё совсем недавно это казалось невозможным. Люди, которые попадали за границу, должны были иметь при себе разговорник или карманный словарь, чтобы иметь возможность общаться с местными жителями.

Читайте также:
Обзор программ для печатных плат

Сегодня достаточно установить специальное приложение на телефон и общение проходит быстро и комфортно. Вы можете, как набрать на телефоне нужную фразу, так и произнести её, а приложение переведёт её на нужный язык.

Остановимся подробнее на программах переводчиках, установленных на компьютер.

Данные программы основаны на формальном знании языка – правил словообразования и правил построения предложения. Программа в начале анализирует текст на исходном языке, а затем конструирует этот текст на том языке, который необходим. Данные программы предназначены для перевода технической документации, деловых переписок и другие материалов, написанных на так называемым «сухом» языке. А вот перевод художественных текстов, эмоционально окрашенных, содержащих шутки, необычные сравнения может выполнить только человек.

Перейдём к практической части урока.

Давайте попробуем воспользоваться возможностями программы-переводчика Гугл и переведём английский язык следующий текст: «Информатика (от «информации» и «автоматика») — это наука о методах и процессах сбора, хранения, обработки, передачи, анализа и оценки информации с применением компьютерных технологий, обеспечивающих возможность её использования для принятия решений».

Затем полученный результат с помощью той же программы переведём на русский язык и сравним исходной текст и конечный результат.

Итак, откроем поисковую систему интернета Гугл. в поисковик запишем переводчик Гугл. В результатах поиска нажимаем на Открыть Google Переводчик.

Скопируем текст из текстового редактора и вставим в окно переводчика. В окошках исходный текст и перевод выберем необходимые языки.

Как видим наш текст мгновенно перевёлся на английский язык.

Теперь скопируем текст на английском языке и вставим его в окно Исходный текст.

Сравним исходный текст и переведённый.

«Информатика (от «информация» и «автоматика») — это наука о методах и процессах сбора, хранения, обработки, передачи, анализа и оценки информации с применением компьютерных технологий, обеспечивающих возможность её использования для принятия решений».

«КомпьютернАЯ наукА (от «информациЯ и «автоматика») — наука о методах и процессах сбора, хранения, обработки, передачи, анализа и оценки информации с использованием компьютерных технологий, ДЛЯ использоваНИЯ (использования 2 раза) ЕЁ (информации) для принятия решений (для тоже 2 раза)

Как видим в первом же слове отличия. Слово Информатика переводчик перевёл как Компьютерные науки.

Анализируя текст, мы видим, что переводчик переводит тексты не точно и может допускать ошибки.

То есть у программ есть свои достоинства и недостатки. В зависимости от задачи, одна особенность может и достоинством, и недостатком.

Достоинством программ является высокая скорость перевода. Всего несколько секунд, и Вы получаете перевод многостраничного текста.

Недостатком же можно назвать то, что программы-переводчики работают не точно. Они годятся для того, чтобы в общих чертах передать, о чём идёт речь, и допускают ошибки в переводе.

Пришло время подвести итоги урока.

Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов.

Возможности современных компьютеров по хранению больших массивов информации и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ-переводчиков.

Компьютерные словари выполняют перевод отдельных слов и словосочетаний. Для перевода текстовых документов применяются программы-переводчики.

Источник: videouroki.net

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru