Единственный в мире Музей Смайликов
Самая яркая достопримечательность Крыма
Скачать 22.46 Kb.
Информатика и информационно-коммуникационные технологии в профессиональной деятельности (ДО, СпДО, ПНК, КП, ПДО, 2 часть)
Самостоятельная работа по теме 4.6
Цель занятия: закреплениезнаний о назначении и видах программ распознавания текста, функциональных возможностях программ распознания текстов, сканировании текстовых документов, формирование умения применять полученные знания.
Задания для самостоятельной работы:
Задание 2. Составьте алгоритм сохранения документа. Ответ:
1. нажать на кнопку Меню
2. В ниспадающем меню выбрать команду «Сохранить как. «
3. В открывшемся окне выбрать путь, куда надо сохранить файл.
4. Ввести имя файла и нажать на кнопку «Сохранить»
Задание 3. Составьте алгоритм реконструкции документа. Ответ:
Распознавание текста с картинки на Python | Оптическое распознавание символов Tesseract
I. Метод «перетащить и отпустить»
- Выделить фрагмент текста
- Удерживая нажатой клавишу и ЛКМ перетащить его на новое место
- Выделить фрагмент текста
- Правка — Вырезать
- Поставить курсор в новое место
- Правка — Вставить
Задание 4. Составьте и заполните таблицу «Функциональные возможности программ распознания текстов».
Источник: topuch.com
Разработка решения для управления документооборотом: как мы выбирали OCR библиотеку для наших задач
Нам нужно было улучшить документооборот в нашей компании, в первую очередь — увеличить скорость обработки бумажных документов. Для этого мы решили разработать программное решение на базе одной из OCR (optical character recognition) библиотек.
OCR, или оптическое распознавание текста, представляет собой механическое или электронное преобразование изображений напечатанного текста в машинный. OCR — это способ оцифровки печатного текста, чтобы он мог быть в электронном виде сохранен, отредактирован, отображен и применен в таких машинных процессах как когнитивные вычисления, машинный перевод и интеллектуальный анализ данных.
Кроме того, OCR используется как метод ввода информации из бумажных документов (включая финансовые записи, визитные карточки, счета-фактуры и многое другое).
Прежде чем реализовывать само приложение, мы провели тщательный анализ трех наиболее популярных OCR библиотек с целью определить наиболее подходящий вариант для решения наших задач.
Распознавание текста с изображения на Python | EasyOCR vs Tesseract | Компьютерное зрение
Мы проанализировали три наиболее популярные OCR библиотеки:
— Google Text Recognition API
Google Text Recognition API
Google Text Recognition API — это процесс обнаружения текста в изображениях и видео потоках и распознавания содержащегося в нем текста. После обнаружения распознаватель определяет фактический текст в каждом блоке и разбивает его на слова и строки. Он обнаруживает текст различных языков (французский, немецкий, английский и т.д.) в режиме реального времени.
Стоит отметить, что, в целом, данная OCR с поставленной задачей справилась. Мы получили возможность распознавать текст как в real-time, так и с уже готовых изображений текстовых документов. В ходе анализа данной библиотеки мы выявили как преимущества, так и недостатки ее использования.
Преимущества:
— Возможность распознавания текста в реальном времени
— Возможность распознавания текста с изображений;
— Небольшой размер библиотеки;
— Высокая скорость распознавания.
— Большой размер файлов с обученными данными (~30Mb).
Tesseract
Tesseract — это OCR библиотека с открытым исходным кодом для разных операционных систем. Представляет собой бесплатное программное обеспечение, выпущенное под лицензией Apache, версия 2.0, поддерживает различные языки.
Разработка Tesseract финансировалась компанией Google с 2006 года, время, когда она считалась одной из наиболее точных и эффективных OCR библиотек с открытым исходным кодом.
Как бы то ни было на тот момент, результатами внедрения Tesseract мы остались не сильно довольны, т.к. библиотека невероятно объемная и не позволяет распознавать текст в реальном времени.
Преимущества:
— Имеет открытый исходный код;
— Соответственно, достаточно легко обучить OCR распознавать нужные шрифты и повысить качество распознаваемой информации. После быстрых настройки библиотеки и обучения качество результатов распознавания стремительно возросли.
— Недостаточная точность распознавания, что устраняется путем тренировки и обучения алгоритма распознавания;
— Для распознавания текста в реальном времени требуется дополнительная обработка полученного изображения;
— Небольшая точность распознавания при использовании стандартных файлов с данными о шрифтах, словах и символах.
Anyline
Anyline предоставляет многоплатформенный SDK, который позволяет разработчикам легко интегрировать функции OCR в приложения. Данная OCR библиотека привлекла нас многочисленными возможностями настройки параметров распознавания и предоставляемыми моделями для решения конкретных прикладных задач. Стоит отметить, что библиотека платная и предназначена для коммерческого использования.
Преимущества:
— Довольно простая настройка распознавания нужных шрифтов;
— Распознавание текста в реальном времени;
— Легкая и удобная настройка параметров распознавания;
— Библиотека может распознавать штрихкоды и QR-коды;
— Предоставляет готовые модули для решения разных задач.
— Невысокая скорость распознавания;
— Для получения удовлетворительных результатов требуется первоначальная настройка шрифтов для распознавания.
В ходе проведенного анализа для решения наших задач была мы остановились на Google Text Recognition API, которая совмещает в себе высокую скорость работы, легкую настройку и высокие результаты распознавания.
Разработанное нами решение позволяет сканировать бумажные документы, автоматически оцифровывать их и сохранять в единую базу данных. Качество распознаваемой информации составляет около 97%, что является очень хорошим результатом.
За счет внедрения разработанной системы внутренний документооборот (включая обработку документов, их создание и обмен между отделами и др.) был ускорен на 15%.
- Share on Twitter
- Share on Facebook
- Share on Google plus
Источник: smartum.pro
Практическая работа «Программы-переводчики. Возможности систем распознавания текстов»
«Программы-переводчики. Возможности систем распознавания текстов»
Цель работы: получить навыки работы с программами-переводчиками, OCR программами и онлайн-сервисами
Оборудование и программное обеспечение: персональный компьютер (монитор, системный блок, клавиатура, мышь) с выходом в Интернет, текстовый процессор
Теоретические сведения:
Программы для перевода делятся на переводчики и словари. Словари также служат для перевода текста, но, исходя из понятия “словарь”, они переводят только по одному слову.
Может показаться, что переводчики подобного плана очень неудобны в работе: каждое слово нужно кропотливо искать по словарю. В словарях много плюсов перед переводчиками. Так, качество самостоятельного перевода текста чаще будет выше, чем результат, выданный программой.
Достоинства программ-переводчиков
· наличие словарей по специальностям, мгновенный поиск, расположение в несколько окон, возможность одновременного обзора нескольких вариантов перевода;
· возможность создания собственного словаря пользователя;
· подключение к текстовому редактору Microsoft Office, что позволяет, не отрываясь от оригинала и его перевода, выбирать подходящие соответствия для перевода;
· возможность перевода с разных языков;
· компактность, наличие практически неограниченного объема информации в компьютере;
Недостатки программ-переводчиков
· ограниченность обзора, обусловленное размерами экрана, раскрытый большой словарь позволяет увидеть сразу гораздо большее количество значений слова, особенно если оно имеет много значений;
· словари-переводчики не соблюдают правила грамматики, стилистики и лексики, не учитывают игру слов, художественные приемы;
· чаще всего текстовые переводчики выбирают одно из значений многозначного слова, которое может не соответствовать контексту;
· при отсутствии слова в словаре не переводят его;
· электронные словари-переводчики часто выдают несколько вариантов перевода слова на другой язык, не объясняя разницы в тех или иных словарных соответствиях, что затрудняет правильный выбор того или иного соответствия в данном контексте.
Используя онлайн-сервис http://translate.google.ru , переведите следующие фразы. Улучшите перевод при необходимости
A bad corn promise is better than a good lawsuit.
A bargain is a bargain.
A bird in the hand is worth two in the bush.
A burden of one’s own choice is not felt.
A burnt child dreads the fire.
A curst cow has short horns.
A drop in the bucket.
A good Jack makes a good Jill.
A great ship asks deep waters.
A hungry belly has no ears.
A little body often harbours a great soul.
A man can die but once.
A man can do no more than he can.
A storm in a teacup.
A tattler is worse than a thief.
A thief knows a thief as a wolf knows a wolf.
A wolf in sheep’s clothing.
A word spoken is past recalling.
All is well that ends well.
All things are difficult before they are easy.
As plain as two and two make four.
As the call, so the echo.
Используя онлайн-словарь http://ver-dict.ru , переведите с итальянского на русский язык следующие слова: Scusi , Andiamo , Stanca , Benvenuta .
Переведите с испанского на русский язык: por favor , taza , gr acias, paraguas , Buenos .
Переведите с французского на русский язык: Voyage , Instant , Ombrage , Regards , Temps .
Переведите с немецкого на русский язык: Herzen , Liebe , Steigen , Wolken , Glatten .
Задание 3* (повышенной сложности)
Переведите текст с английского на русский язык и улучшите при необходимости.
Just as chemistry determines what is to be alloyed with the steel, the treatments which can be given to the steel are determined by the variables of pressure, temperature and time.
Science and engineering are combined to exercise a control over these variables under conditions where the research investigator can examine the contribution of each variable and where he can optimize the combination of variables to produce steels with superior properties. Recently this type of investigation resulted in a physical simulation of hot rolling through the experiments in the laboratory – experiments in which the steel is not even rolled!
Контрольные вопросы:
1. Чем электронные словари отличаются от программ переводчиков?
2. Какие преимущества имеют компьютерные словари перед обычными словарями в виде книг?
3. Какие онлайн-сервисы для перевода вы знаете?
4. Какие программы-переводчики вы знаете?
5. Почему программы-переводчики успешно переводят деловые документы, но не годятся для перевода текстов художественных произведений?
Список используемой литературы:
1. Цветкова М.С., Великович М. С. Информатика и ИКТ: учебник для начального и среднего профессионального образования, издательский центр Академия, 2013. — 352 с.
2. Астафьева Н.Е., Гаврилова С.А., Цветкова М.С. Информатика и ИКТ: практикум для профессий и специальностей технического и социально-экономического профилей, издательский центр Академия, 2013. — 272 с.
3. https://i5t.ru/ – персональный сайт преподавателя Логвиненко О.А.
4. https://e-learn.i5t.ru/ – дистанционная поддержка курса «Информатика»
5. Электронная справка по используемому программному обеспечению
Источник: znanio.ru