Tesseract что это за программа

Содержание

Описание системы Tesseract OCR

Программное решение Tesseract (рус. Тессеракт) с открытым исходным кодом от компании Google предназначено для распознавания текста (англ. OCR). Программа распространяется бесплатно и доступна для использования по лицензии Apache 2.0.

Программное обеспечение Tesseract может быть использовано непосредственно или при помощи API, позволяя извлекать печатный текст из изображений.

Программный движок Tesseract не имеет встроенного графического интерфейса (GUI), но есть несколько доступных вариантов графического интерфейса от третьих сторон. Система поддерживает широкий спектр языков для распознавания – более 130.

Подробнее: https://opensource.google/projects/tesseract
Читать далее

Назначение системы Tesseract OCR

Разработчик системы Tesseract OCR

Компания-разработчик

Страна

Головной офис

Маунтин-Вью, Калифорния

Распознавание текста с картинки. Python Tesseract ORC + OpenCV

Веб-сайт

https://about.google/intl/ru_ru/

Социальные сети

Вопросы и ответы

Поддерживает ли Tesseract OCR русский язык?

Может ли Tesseract OCR быть установлена на мобильное устройство?

Существует ли бесплатная версия Tesseract OCR?

На каких пользователей нацелен и для кого подходит Tesseract OCR?

На каких операционных системах можно использовать Tesseract OCR?

Есть ли у Tesseract OCR демонстрационная или бесплатная пробная версия?

Функции Tesseract OCR

Отчётность и аналитика
Многопользовательский доступ
Анализ звуковых данных
Анализ структурированных данных
Наличие API
Администрирование
Анализ визуально-графических данных
Анализ данных текста
Анализ видео-данных
Импорт/экспорт данных

Информация о Tesseract OCR

Tesseract OCR

Специалист
Подходит для
Персональный компьютер, Сервер предприятия
Развёртывание
macOS, Windows, Linux
Графический интерфейс

Тарификация

Русский, Английский, Азербайджанский, Арабский, Белорусский, Бенгальский, Болгарский, Венгерский, Вьетнамский, Греческий, Датский, Иврит, Индонезийский, Испанский, Итальянский, Казахский, Каталонский, Китайский, Корейский, Кхмерский, Латвийский, Литовский, Монгольский, Немецкий, Нидерландский, Норвежский, Персидский, Польский, Португальский, Сербский, Татарский, Турецкий, Украинский, Фарси, Финский, Французский, Хинди, Хорватский, Чешский, Шведский, Эстонский, Японский

Поддержка языков
Не зарегистрирован
Реестр российского ПО
Демо версия
Пробная версия (триал)

Краткий обзор Tesseract OCR

Tesseract – это программный движок с открытым исходным кодом, позволяющий распознавать символы с поддержкой кодировки Unicode и возможностью распознавания более 130 языков, а также с возможностью дополнения для распознавания других языков. Программное решение Tesseract (рус. Тессеракт) с открытым исходным кодом от компании Google предназначено для распознавания текста (англ. OCR). Программа распространяется бесплатно и доступна для использования по лицензии Apache 2.0.

Источник: soware.ru

Tesseract что это за программа

Распознавание текста с помощью OCR

Tesseract — это движок оптического распознавания символов (OCR) с открытым исходным кодом, является самой популярной и качественной OCR-библиотекой.

OCR использует нейронные сети для поиска и распознавания текста на изображениях.

Tesseract ищет шаблоны в пикселях, буквах, словах и предложениях. Tesseract использует двухэтапный подход, называемый адаптивным распознаванием. Требуется один проход по данным для распознавания символов, затем второй проход, чтобы заполнить любые буквы, в которых он не был уверен, буквами, которые, скорее всего, соответствуют данному слову или контексту предложения.

Tesseract OCR

Основной задачей было распознавание чеков с фотографий.

Инструментом для распознавания был использован Tesseract OCR. Плюсами данной библиотеки можно отметить обученные языковые модели (>192), разные виды распознавания (изображение как слово, блок текста, вертикальный текст), легкая настройка. Т. к. Tesseract OCR написан на языке C++, был использован сторонний wrapper c github.

Различиями между версиями являются разные обученные модели (версия 4 имеет большую точность, поэтому я использовал её).

Для распознавания нам потребуются файлы с данными для распознавания текста, для каждого языка свой файл. Скачать данные можно по ссылке.

Чем лучше качество исходного изображения (имеют значение размер, контрастность, освещение), тем лучше получается результат распознавания.

Также был найден способ обработки изображения для его дальнейшего распознавания путем использования библиотеки OpenCV. Т. к. OpenCV написан на языке C++ и не существует оптимального для нашего решения написанного wrapper’а, было решено написать собственный wrapper для этой библиотеки с необходимыми для нас функциями обработки изображения. Основной сложностью является подбор значений для фильтра для корректной обработки изображения. Также есть возможность нахождения контуров чеков/текста, но не изучено до конца. Результат получился лучше (на 5-10%).

Tesseract-OCR

14 апреля, 2014 0

Tesseract-OCR (англ. тессеракт) – свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0 для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0) осуществляется с помощью дополнительных модулей.

Ядро программы Tesseract-OCR было разработано в Бристольской лаборатории Hewlett Packard и в Hewlett Packard Co, Greeley штат Колорадо в 1985-1994 годах. В 1996 были проведены значительные изменения и подготовлен порт для Microsoft Windows. Затем, с 1998 года – частичная миграция с Си на Си++. Значительная часть кода изначально написана на Си, но проводились доработки для совместимости с Си++ компиляторами.

В настоящее время Tesseract-OCR 3.0 собирается под Linux с GCC 2.95 и старше, а также под Microsoft Windows с Visual C++ 2008 Express и старше (поддержка Visual C++ 6 была удалена в версии 3.0). Код на C++ часто использует множество макросов для реализации контейнеров.

Tesseract что это за программа

Tesseract OCR for Windows mobile

Версия обновилась до 2.04

http://groups.google.com/group/tesseract-ocr
Распознает текст. Построена на нейронных сетях. Разрабатывалась IBM в 1992г.

Возможностей не так много, за то опенсорс. Для распознавания кусков текста подойдет.Прога консольная. Поддерживает несколько форматов изображения tiff, png, jpg, bmp. Может быть из этого получится Finereader на кпк.

Используется так:
tesseract eurotext.tif euro.txt

Собирал VisualStudio Express 2008 c минимальными исправлениями.
Тесты показали, что распознавание картинки 1280х800 на КПК IPAQ hx2490, работающем на частоте 520Мгц происходит за 24с.
А что ВЫ от кпк ожидали?

Основные идеи такие:
-Сделать простенький графический интерфейс.
-Сделать просмотр картинки и результата.
-Сделать выбор области распознавания.
-Сделать настройку контраста, яркости, интенсивности изображения, ластик.

-Исходник
-исполняемый файл
-DLL прилагаются.

Свежая сборка для тестирования: Tesseract (Пост #5704289)

Прикрепленные файлы
14.10.09, 23:35 | #2
●

Разработчики
Реп: ( 281 )
У кого установлена VS 2008 с платформбилдером

Я сколько ни бился, платформ билдер на 2008 студию не ставится. Только на 2005. Может, я чего и недопонял.

15.10.09, 02:40 | #3
●

Админы
Реп: ( 0 )
trashkalmar,

Я сколько ни бился, платформ билдер на 2008 студию не ставится. Только на 2005. Может, я чего и недопонял.

всё верно. гдет на сайте мелкомягких было на эту тему что-то. в общем пока платформбилдер полностью новый не выйдет — можно не ждать на 2008 студии оного.

15.10.09, 12:13 | #4
●

Разработчики
Реп: ( 114 )

А я думал это у меня одного глюки с 2008 студией. Ну ладно. Значит надо пробовать собирать проект чем-нибудь другим.

15.10.09, 15:14 | #5
●

Разработчики
Реп: ( 114 )

Установил студию на виртуальный ПС изначально с СДК и все заработало.
Пробовал собирать.
Под х86 собирается замечательно.
Под АРМ вылезают какие-то ошибки. Сама по себе прога консольная, но в комплект входит интерфейс для явы, басика и .НЕТ. Из-за него вылезают какие-то странные ошибки. Еще по каким-то причинам компилятор не находит функций работы с файлами read write fseek. Будем думать дальше.

16.03.10, 16:21 | #6
●

Разработчики
Реп: ( 114 )

Пробовал собирать Cygwin-ом. Понятное дело с отключенным графическим интерфейсом. И. Оказалось, что дефайны расставлены неправильно. Вылезает куча ошибок при сборке юнитов графического интерфейса ScrollView. Хотя оно должно быть отключено, т.к. собирается консольная прога.

Пробовал собирать проект как из SVN, так и из тарбола. Пробовал собирать проекты разных версий. И везде одно и тоже — не собирается. А самое интересное, что ошибки везде разные. А может быть это глюки компилятора.

Скорее всего он не умеет собирать такие сложные проекты.

16.03.10, 22:49 | #7
●

Разработчики
Реп: ( 114 )

Выяснилось, что это действительно глюк цугвина. Когда я убрал лишние дефайны — проект скомпилировался, но не собрался. Сейчас думаю как собирать.

Источник: 4pda.to

Tesseract что это за программа

Описание системы Tesseract OCR

Назначение системы Tesseract OCR

Разработчик системы Tesseract OCR

Компания-разработчик

Страна

Головной офис

Веб-сайт

Социальные сети

Вопросы и ответы

Поддерживает ли Tesseract OCR русский язык?

Может ли Tesseract OCR быть установлена на мобильное устройство?

Существует ли бесплатная версия Tesseract OCR?

На каких пользователей нацелен и для кого подходит Tesseract OCR?

На каких операционных системах можно использовать Tesseract OCR?

Есть ли у Tesseract OCR демонстрационная или бесплатная пробная версия?

Популярные аналоги Tesseract OCR

Функции Tesseract OCR

Информация о Tesseract OCR

Tesseract OCR

Краткий обзор Tesseract OCR

Tesseract что это за программа

Tesseract-OCR

Похожие программы

Tesseract что это за программа

Описание системы Tesseract OCR

Назначение системы Tesseract OCR

Разработчик системы Tesseract OCR

Компания-разработчик

Страна

Головной офис

Веб-сайт

Социальные сети

Вопросы и ответы

Поддерживает ли Tesseract OCR русский язык?

Может ли Tesseract OCR быть установлена на мобильное устройство?

Существует ли бесплатная версия Tesseract OCR?

На каких пользователей нацелен и для кого подходит Tesseract OCR?

На каких операционных системах можно использовать Tesseract OCR?

Есть ли у Tesseract OCR демонстрационная или бесплатная пробная версия?

Популярные аналоги Tesseract OCR

Функции Tesseract OCR

Информация о Tesseract OCR

Tesseract OCR

Краткий обзор Tesseract OCR

Tesseract что это за программа

Tesseract-OCR

Похожие программы

Tesseract что это за программа

Для чего нужна программа компилятор

Программа смешанное белье для чего

Токси риск программа для чего

Программа аршин метрология для чего

Программа чек пфр для чего

Для чего предназначена программа стили

Для чего нужна программа тренажер

Для чего нужна программа apkpure