Как распознать текст с картинки, фото, PDF-файла: подборка полезных программ (OCR) и сервисов Доброго дня! Сегодня в заметке хочу коснуться одного «больного» офисного вопроса: «.… Подробнее » Выбери изображение для которого можно и рационально использовать программу распознавания текста
Вы уверены что хотите удалить все точки и выключить линейку
- автор: admin
- 24.08.2022
Удаление точек восстановления системы В операционной системе Windows, при необходимости, пользователь может удалить точки восстановления системы. Контрольные точки восстановления Windows позволяют пользователю вернуть работоспособное состояние… Подробнее » Вы уверены что хотите удалить все точки и выключить линейку
Вы сможете входить в свой аккаунт используя как новый логин так и ваш текущий
- автор: admin
- 24.08.2022
Как восстановить доступ к аккаунту Google Аккаунт Google нужен не только для использования почты Gmail или YouTube: без него не настроить учетную запись смартфона на… Подробнее » Вы сможете входить в свой аккаунт используя как новый логин так и ваш текущий
Распознавание текста с изображения на Python | EasyOCR vs Tesseract | Компьютерное зрение
Вы не можете покупать так как не приняли слишком много предложений обмена
- автор: admin
- 24.08.2022
Вы не можете обмениваться. Пишет тебе Steam при обмене. Почему? Потому что ты дебил отменил трейды и получил трейд-бан. Трейд бан длится 7 дней –… Подробнее » Вы не можете покупать так как не приняли слишком много предложений обмена
Вы много теряете попросите администратора активировать microsoft teams что делать
- автор: admin
- 24.08.2022
Кто-то уже настроил Teams для вашей организации Нередко встречается ситуация, когда при регистрации учетной записи пользователь видит ошибку: «Кто-то уже настроил Teams для вашей организации».… Подробнее » Вы много теряете попросите администратора активировать microsoft teams что делать
Источник: ifreeapps.ru
Упрощаем работу контент-менеджера: программы и сервисы для распознавания текста с картинки
Получи нашу книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».
Подпишись на рассылку и получи книгу в подарок!
Часто у пользователей возникает необходимость распознавания текста с картинки в печатный вариант. Это может быть сканированный документ, который следует преобразовать в электронный вид, книга или фотокарточка.
Распознавание — довольно простой и удобный инструмент. Он избавляет от необходимости вручную перепечатывать большие объемы информации из печатных изданий: будь то газета, журнал, книга, реферат или обычный лист с надписями — для последующей публикации на сайте или применения в других целях. Инструмент удобен для всех категорий пользователей: от простых людей, использующих инструмент распознавания в бытовых целях, до преподавателей, студентов, владельцев веб-ресурсов, научных сотрудников и т.д.
Учим программу распознавать текст на картинках, видео, играх ▲ Python + OpenCV + Tesseract
Для выполнения этих целей существует несколько инструментов: установочные программы на ПК, онлайн-сервисы и мобильные приложения. Их выбор зависит от индивидуальных характеристик исходного документа: качества, объема, размера.
- Для частого использования и большого объема распознавания текста с картинки используются программы. Они обычно дорогие и сложны в использовании: системы оптического распознавания требуют калибровки для работы с конкретным шрифтом.
- Если необходимость возникает не так часто и размеры документов небольшие, разумнее использовать специальные онлайн-сервисы. Они могут предоставлять услуги бесплатно или по недорогой подписке. В интернете довольно много подобных предложений. Чтобы сделать выбор между предлагаемыми вариантами, необходимо узнать, какие возможности предлагает тот или иной сайт, его преимущества и недостатки.
В зависимости от этого и индивидуальных требований пользователя происходит выбор распознавания текста с картинки. В частности, руководствоваться можно следующими факторами:
- Стоимость услуги. В идеале веб-ресурс или программа должны быть бесплатными.
- Максимально возможный объем распознавания. Некоторый софт предлагает неограниченные возможности, другие предоставляют услуги по подписке: при достижении определенного лимита необходимо покупать еще один пакет.
- Поддержка русского языка. В большинстве случаев действительно качественный софт представлен на английском языке без возможности распознавания на русском.
Не существует общих критериев, по которым можно признать программу качественной или нет. В конечно счете результат зависит от индивидуальных показателей: размера исходного документа, формата изображения, качества и т.д.
Содержание скрыть
- Как работает распознаватель текста с картинки
- Бесплатное распознавание текста с картинки в онлайн-режиме
- Программы для распознавания текста с картинки
Как работает распознаватель текста с картинки
Каждое изображение представляет собой сетку пикселей, то есть набор точек, из которых складываются образы. Программное обеспечение или онлайн-сервисы выделяют на общем фоне отдельные буквы и осуществляют перевод в печатный формат. В процессе работы структура документа детально анализируется специальным алгоритмом, который выделяет блоки, проставляет линии делений на слова, а затем символы.
Полученные знаки и буквы сравниваются с имеющимися шаблонами алфавита и цифр, после чего алгоритм принимает решение, что именно это за символ, и выдает готовый результат. Поскольку надписи бывают некачественными, а алгоритмы — несовершенными, возникают ошибки в интерпретации отдельных букв (целые слова редко путаются с другими).
Бесплатное распознавание текста с картинки в онлайн-режиме
Файловый хостинг Google Диск. Доступ к сервису осуществляется с общей учетной записи Google. Если ее нет, необходимо зарегистрироваться, чтобы воспользоваться инструментом.
Пользователи могут загружать изображения в разных форматах: PNG, JPG и GIF. Их размер не должен превышать двух мегабайт. Помимо этого, есть возможность распознавать данные с документов в формате PDF, но с некоторыми ограничениями. Так, если загрузить файл PDF с несколькими десятками страниц, то обработаются только первые десять листов. Результат сохраняется во все популярные форматы файлов.
OCR Convert. Онлайн-сервис предоставляет полностью бесплатные услуги по преобразованию картинок в электронный редактируемый формат. Изначально сайт был для англоязычных пользователей, но сейчас доступен на многих европейских и восточных языках. Чтобы воспользоваться инструментом, не нужно регистрировать учетную запись. Существует несколько способов загрузить исходный материал:
- Через нажатие кнопки «Выбрать файлы». Далее открывается проводник, предлагающий выбрать документ на компьютере. Можно использовать PDF, GIF, BMP и JPEG-форматы.
- Через ссылку на изображение, размещенное на сайте или в файлообменнике.
К примеру, для распознавания китайского текста с картинки в онлайн-режиме принцип работы будет следующий: после загрузки документа следует выбрать язык, на котором напечатан материал (доступно более 30 различных языков), а также формат конвертирования — только TXT. Пользователь может добавлять на сайт до пяти материалов, размером не более 5 мегабайт каждое.
NewOCR. Бесплатный сайт, не требующий регистрации. По мнению пользователей, является наиболее интересным и полезным инструментом. Связано это с тем, что веб-сервис поддерживает все популярные форматы и может распознать текст с картинки в Word. При этом можно загружать несколько изображений разных форматов одновременно.
В NewOCR есть интерфейс для работы: с помощью встроенных инструментов можно увеличивать «нужное место», отделять его от неиспользуемой области.
Интерфейс представлен только на английском языке, но преобразование происходит на более чем 50 языках. Благодаря плагину Google-переводчика можно переводить на другие языки.
OCRonline. Это один из самых неудобных сайтов, поскольку требует, чтобы фотографии были высокого разрешения. И, хотя загружать можно документы с низким качеством, он довольно плохо справляется с распознаванием текста с такой картинки онлайн. Еще одним недостатком является еженедельный лимит — не более пяти страниц в семь дней. Результаты можно сохранять на ПК в популярных форматах.
Чтобы получить доступ к неограниченному числу операций, необходимо купить подписку и зарегистрировать учетную запись.
Free-Ocr. Еще один бесплатный сервис, пользоваться которым можно без учетной записи. Однако получить результат можно только после ввода капчи. В отличие от OCRonline, где ограничение после пяти операций продолжается в течение недели, здесь лимит установлен на каждый час. Другими словами, пользователь может распознать текст с десяти картинки в Word, после чего придется ждать, когда по истечении времени ограничения можно будет преобразовать следующие 10 документов.
Программы для распознавания текста с картинки
OCR CuneiForm. Это открытая система оптического преобразования сканированных документов. Особенностью программы является то, что в ней можно распознавать в печатные страницы с одновременным использованием разных языков. Скачать OCR CuneiForm можно бесплатно на официальном сайте компании. Процесс установки на ПК стандартный.
Рабочее пространство довольно удобно, а интерфейс, представленный на русском языке, интуитивно понятен. Недостатком OCR CuneiForm является то, что разноцветные надписи практически не выводятся, а если черно-белое изображение плохого качества, результат получится с большим количеством ошибок.
Среди преимуществ можно отметить то, что данную программу распознавания текста с картинки можно скачать бесплатно с сайта, тогда как другие русифицированные клиенты доступны только после покупки.
RiDoc. Программа качается на ПК бесплатно, однако пользоваться основными функциями можно только в течение 30 дней. Далее необходимо платить. RiDoc удобен в использовании и имеет большой инструментарий для получения качественного результата. Чтобы преобразовать, необходимо нажать на кнопку «Открыть», загрузить документ и начать процесс.
Результат можно загрузить в документ Word.
ABBYY FineReader. На сегодняшний день это наиболее популярная и раскрученная российская программа, распознающая текст с картинки. Для удобства пользователей здесь предусмотрен бесплатный тестовый период. Полная подписка стоит 7 тысяч рублей. Отличительной чертой является то, что с ее помощью можно преобразовывать таблицы и математические формулы, конвертируя данные в документы различных форматов.
Источник: semantica.in
Программа для распознавания текста и перевода AssistAnt
Хорош ли ваш английский? Мой – нет. По крайней мере точно недостаточно, чтобы обходиться без переводчика в играх.
Недолгий поиск бесплатных программ в интернете мне не помог. Возможно, я просто плохо искал 🙂 Но когда я поймал себя на мысли, что сейчас возьму в руки сотовый и буду переводить экран с помощью камеры, я понял, что пора спасаться. И путь к спасению — сделать переводчик самому.
Я нашел широко известную в узких кругах программу распознавания текста Tesseract OCR и свободное API для Google Translate. В результате получилась программа, которая может на лету переводить выделенную надпись на экране. Выглядит это примерно так: вы зажимаете горячую клавишу Win+Alt и прямоугольной областью выделяете часть изображения, где находится непонятный текст. Область выделяется, только пока зажата горячая клавиша. Вуаля – перед вами перевод во всплывающей подсказке! Выглядит это примерно вот так:
Можно распознать и с картинки в буфере обмена через меню иконки в трее:
Ссылки:
Собственно проект AssistAnt https://github.com/AantCoder/AssistAnt/releases/latest
Компонент распознавания текста Tesseract OCR https://github.com/tesseract-ocr
Переводчик Google Translate Rest API (Free) с помощью GTranslatorAPI https://github.com/franck-gaspoz/GTranslatorAPI
Если совсем коротко, то это всё 🙂 Некоторые нюансы и альтернативные способы использования есть в пункте приложения «О программе». Дальше опишу технические сложности, с которыми столкнулся в процессе разработки для заинтересовавшихся.
Горячие клавиши всё портят
Какую клавишу на клавиатуре ни возьми: или занята, или неудобна. Если кажется, что обнаружил свободную и удобную, то значит просто не нашел программу, которая уже её использует. Поэтому я не стал биндить горячую клавишу, а решил лишь отлавливать нажатие на Win+Alt. По моему разумению, ни одна программа не использует две эти клавиши отдельно от остальных. Разумеется, если вместе с Win+Alt нажать ещё что-то третье, то мой переводчик не отреагирует.
Такая комбинация хорошо выполняет свою цель: позволяет выделить область на экране, минимально влияя на активную программу. Правда, есть один минус, опишу его в следующем пункте.
Перевод из всплывающих подсказок
В попытке выделить текст двигаем мышкой – она покидает элемент интерфейса – всплывающая подсказка исчезает. Это заставило меня сделать стандартную систему, как при вырезании скриншотов. Если нажать Win+Alt и отпустить, не двигая мышкой, то создается скрин всего экрана, который открывается поверх всех окон. И уже в нем предлагается выделить область для перевода, как при стандартной комбинации Win+Shift+S (правда, реализовано это не столь красиво). Дальше всё как в первом способе: выдается всплывающая подсказка с переводом, за исключением того, что выделенное изображение помещается в буфер обмена (зачем? просто могу).
Плохой разбор мелкого текста
Оказалось, что Tesseract (может быть и все подобные?) плохо распознает текст с высотой строки меньше 20 пикселей. Особенно, когда он с тенью или размытием. Эффекты безусловно очень помогают прочесть надпись человеку, но нейронке не нравятся.
Помучавшись несколько вечеров, накидал сложную комбинацию простых фильтров изображений. После этого мелкий текст иногда стал читаться даже лучше, чем текст среднего размера. Из-за этого решил добавить повторное распознавание без фильтров, если качество распознания было меньше 90%. В конечном итоге вышло вот так:
Первый прогон (хорош для самого мелкого текста):
- Увеличиваем картинку в 2 раза (красиво, с «высококачественной бикубической интерполяцией»),
- Переводим в градации серого,
- Увеличиваем изображение, добавляя пустую рамку в 7 пикселей и пустое пространство справа на 200 (так лучше распознаются короткие слова. Видимо, в вытянутом изображении ожидается меньшее количество строк),
- Увеличиваем резкость,
- Увеличиваем картинку ещё в 2 раза,
- Ещё раз увеличиваем резкость (двойной подход немного уменьшает артефакты).
Второй прогон (обработка попроще, если качество распознания с первого прогона меньше 90%):
- Увеличиваем картинку в 3 раза,
- Переводим в градации серого,
- Увеличиваем резкость
Третий прогон (вдруг при обесцвечивании текст стало не видно, или резкость ухудшает распознаваемость текста):
- Увеличиваем картинку в 3 раза.
Медленно работает
В фильтрах многое требует доработки. Они как были сделаны на скорую руку, так и остались. Очевидно, что если выделить больше половины экрана, то программа начинает уходить в себя, пытаясь применить все эти фильтры (особенно хорошо подвешивает увеличение кол-ва пикселей в 16 раз).
Поэтому, а также из-за того, что как правило, в крупных выделенных областях экрана и шрифт также крупный, был добавлен выбор фильтров на основе размера изображения:
- Если размер изображения больше миллиона пикселей (ширина*высота), то не обрабатываем его, а отправляем на распознавание как есть.
- Если изображение больше 20000 пикселей, то увеличиваем только в 3 раза. В этом случае во всплывающей подсказке после % появляется *.
- Если размер изображения меньше указанного в предыдущем пункте, то применяем все описанные выше фильтры. В этом случае во всплывающей подсказке после % появляется * с числом прогонов, которые понадобились, чтобы добиться качества распознавания выше 90%.
Утечка памяти
Иногда проще убить, чем прокормить. Так я и поступил, не желая возиться с утечкой памяти в чужих библиотеках (правда же в чужих. ) Теперь, спустя пять минут с момента последнего обращения к переводчику, программа автоматически перезапустится, и уж точно освободит всю память. Если же её будут интенсивно использовать на слабых компьютерах, то должен помочь перезапуск после 20 переводов: программа ждет 30 секунд после последней активации (чтобы дать прочитать текст) и перезапускается. Надеюсь, это будет достаточно незаметно для пользователя.
Переносы строк
Вот пример старого варианта с двумя строками:
Okay—now we’re going
to check your reflexes.
Хорошо, теперь мы собираемся
чтобы проверить свои рефлексы.
Пример хорошего перевода:
Okay—now we’re going to check your reflexes.
Ладно, сейчас мы проверим твои рефлексы.
Пример с подстановкой (в переводе ## заменяется на перенос строки):
Okay—now we’re going ## to check your reflexes.
Ладно, теперь мы собираемся ## проверить твои рефлексы.
Вроде бы самое интересное описал. Сам проект можно посмотреть на гитхабе: https://github.com/AantCoder/AssistAnt
Скажу с лишним хвастовством – программа классная. Мне с моим ужасным знанием английского очень помогает.
P.S. Если есть какие-то комментарии, идеи, что можно улучшить или предложения по поводу производительности, то напишите мне здесь или в Issues на гитхаб.
UPD 27.11.2022: Добавил раздел Переносы строк, обновил картинку
Источник: habr.com