Эта статья была создана с целью разобраться, что и как реально может распознать русский и английский языки в Linux.
Это не просто обзор существующих OCR (мы будем говорить всего о трёх) и не руководство по установке (хотя установка будет описана). Эта статья была создана с целью разобраться, что и как реально может распознать русский и английский языки в Linux.
Распознавание документов и хранение в архиве Пару слов для того, чтобы вникнуть в суть описываемых процессов. OCR — оптическое распознавание символов. Технология необходима для оцифровки печатных документов; некоторые используют OCR в целях автоматизации (к примеру, для распознавания «капчи» или для защиты от спам-ботов).
OCR в Linux
Повторюсь еще раз: здесь будут рассмотрены программы, распознающие русский язык. Под Linux есть несколько OCR, предназначенных для работы с латиницей, есть специализированные комплексы, работающие только с ивритом, к примеру, — все это не относится к нашей теме.
How to make a Sumerian/Mesopotamian Clay Cuneiform tablet!
По сути, речь будет идти только о трех продуктах: Cuneiform, Tesseract и Finereader Engine. Все они сами по себе предоставляют только консольный интерфейс, хотя для первых двух разработано достаточно GUI.
Я использую Debian Squeeze, но зачастую буду давать ссылки на исходники и пояснять сборку пакетов (можете воспользоваться репозиториями на notesalexp.org или репозиториями вашего дистрибутива — я просто даю пример сборки).
Тема будет раскрываться в следующем порядке:
1. Установка OCR для Linux (3 движка), их установка.
2. Сравнение CLI OCR на примерах [прим. ред. CLI — command line interface]
3. GUI для OCR, их сравнение.
4. Небольшой тест online-OCR.
5. Выводы и некоторые прогнозы и предложения.
Установка OCR для Linux
Cuneiform
Страница о проекте на Википедии.
Заявленные возможности: поддержка множества языков, сохранение форматирования исходного документа, вывод в txt, hocr, html, распознавание факсов и текстов, отпечатанных на матричном принтере.
Скачать CuneiForm 12.0.0.58851
Скачать бесплатно CuneiForm 12
CuneiForm – интересная программа для распознавания текста. Позволяет преобразовать отсканированные страницы в электронный текст, который можно редактировать и сохранять в различных форматах.
Приложение CuneiForm отличается от аналогов сохранением форматирования оригинального документа. Оно способно распознавать текст на множестве языков. Также программа легко справляется с любыми таблицами, даже если в оригинальном документе не была отображена сетка. Благодаря продвинутому алгоритму оптического распознавания не возникает проблем даже с документами низкого качества, например, напечатанными на машинке или плохо отксерокопированными.
Cuneiform: The Earliest Form of Writing from Ancient Mesopotamia
Чтобы сделать из любого изображения с текстом настоящий электронный вариант, нужно скачать бесплатно CuneiForm и воспользоваться ею. Качество распознавания улучшено за счет использования встроенных словарей, которые могут быть расширены пользователем. Программа позволит сэкономить время и избавит от нудной процедуры набора текста вручную. Сохранение структуры текста и его формата делает программу незаменимой для преобразования документов.
Скачать бесплатно CuneiForm 12
Версия: | 12 |
Русский язык: | Да |
Разработчик: | Cognitive Technologies |
Операционка: | Windows All |
Размер: | 34,4 Mb |
Источник: besplatnye-programmy.com