Как пользоваться программой cuneiform

Рано или поздно, все кто часто работает с офисными программами, сталкиваются с типичной задачей — отсканировать текст с книги, журнала, газеты, просто листочков, а затем перевести эти картинки в текстовый формат, например, в документ Word.

Чтобы это сделать необходим сканер и специальная программа для распознавания текста. В этой статье пойдет речь о бесплатном аналоге FineReader — CuneiForm (о распознавании в FineReader — см. в этой статье).

1. Особенности программы CuneiForm, возможности

CuneiForm

Программа для распознавания текста с открытым исходным кодом. К тому же, работает во всех версиях Windows: XP, Vista, 7, 8, что радует. Плюс к этому добавьте полный русский перевод программы!

Плюсы:

— распознавание текста на 20 самых популярных языках мира (английский и русский само собой входит в это число);

— огромная поддержка различных печатных шрифтов;

— проверка по словарю распознанного текста;

— возможность сохранения результаты работы в нескольких вариантах;

OCR CuneiForm как пользоваться

— сохранение структуры документа;

— отличная поддержка и распознавание таблиц.

Минусы:

— не поддерживает слишком большие документы и файлы (более 400 dpi);

— не поддерживает на прямую некоторые типы сканеров (ну это не страшно, в комплект к драйверам сканера идет и спец. программа для сканирования);

— дизайн не блещет (но кому он нужен, если программа в полной мере решит задачу).

2. Пример распознавания текста

Будем считать что необходимые картинки для распознавания вы уже получили (отсканировали там, или скачали в интернете книгу в формате pdf/djvu и достали из них нужные картинки. Как это сделать — см. в этой статье).

1) Открываем требуемую картинку в программе CuineForm ( файл/открыть или « Cntrl+O «).

2) Чтобы приступить к распознаванию — нужно сначала выделить различные области: текста, картинок, таблиц и пр. В программе Cuneiform это можно сделать не только в ручную, но и автоматически! Для этого щелкните по кнопке « разметка » в верхней панели окна.

3) Спустя 10-15 сек. программа автоматически подсветит все области различными цветами. Например, область текста выделяется синим цветом. Кстати, подсветила она все области правильно и довольно быстро. Честно говоря, не ожидал от нее такой быстрой и правильной реакции…

4) Для тех, кто не доверяет автоматической разметке, можно воспользоваться и ручной. Для этого есть панелька инструментов (см. картинку ниже), благодаря которой можно выделить: текст, таблицу, картинку. Передвинуть, увеличить/уменьшить начальное изображение, подрезать края. В общем, неплохой набор.

Читайте также:
Как установить программу на Айфон с компьютера из файла

5) После того, как все области были размечены, можно приступить к распознаванию. Для этого просто щелкните по одноименной кнопке, как на картинке ниже.

6) Буквально через 10-20 сек. перед вами откроется документ в Microsoft Word с распознанным текстом. Что интересно, в тексте для этого примера, ошибки, конечно были, но их крайне не много! Тем более, учитывая в каком невзрачном качестве был исходный материал — картинка.

По скорости и качеству вполне сравнимо с FineReader!

3. Пакетное распознавание текста

Эта функция программы может пригодится, когда вам нужно распознать не одну картинку, а сразу несколько. Ярлык для запуска пакетного распознавания, обычно, спрятан в меню « пуск «.

1) После открытия программы, вам нужно создать новый пакет, либо открыть ранее сохраненный. В нашем примере — создадим новый.

2) В следующем шаге даем ему название, желательно такое, чтобы и через полгода вспомнить что в нем сохранено.

3) Далее выбираете язык документа (русско-английский), указываете, есть ли в вашем отсканированном материале картинки и таблицы.

4) Теперь нужно указать папку, в которой расположены файлы для распознавания. Кстати, что интересно, программа сама найдет все картинки и другие графические файлы, которые она сможет распознать и добавить их в проект. Вам же останется удалить лишние.

5) Следующий шаг не важен- выбираете что делать с исходными файлами, после распознавания. Рекомендую выбрать галочку «ничего не делать».

6) Осталось лишь выбрать формат, в котором будет сохранен распознанный документ. Есть несколько вариантов:

— rtf — файл из документа word, открывается всеми популярными офисами (в том числе и бесплатными, ссылка на программы);

— txt — текстовый формат, в нем можно сохранить только текст, картинки и таблицы нельзя;

— htm — гипертекстовая страничка, удобно, если вы сканируете и распознаете файлы для сайта. Его и выберем в нашем примере.

7) После нажатия кнопки « готово » запустится процесс обработки вашего проекта.

8) Программа работает довольно таки быстро. После распознания перед вами появится вкладка с файлами htm. Если щелкнуть по такому файлу запуститься браузер, где вы сможете увидеть результаты. Кстати, пакет можно сохранить для дальнейшей работы с ним.

9) Как видно, результаты работы весьма впечатляющие. Картинку программа легко распознала, а под ней легко распознала текст. При том что программа и бесплатна — то вообще супер!

4. Выводы

Если вы часто не занимаетесь сканированием и распознаванием документов, то покупать программу FineReader, наверное, не имеет смысла. С большинством задач легко справляется CuneiForm.

Читайте также:
Как перезапустить программу vkmusic

С другой стороны, есть у нее и минусы.

Во-первых, слишком мало инструментов для редактирования и проверки получившегося результата. Во-вторых, когда приходится распознавать много картинок — то в FineReader удобнее сразу видеть в колонке справа всё, что добавлено в проект: быстро удалять лишнее, вносить правки пр. И третье, на документах совсем уж плохого качества, CuneiForm проигрывает в качестве распознавания: приходится документ доводить до ума — править шибки, проставлять знаки препинания, кавычки и т.д.

На этом все. А вы знаете какую-нибудь еще достойную бесплатную программу для распознавания текста?

Источник: pcpro100.info

Распознаем текст с помощью cuneiform

Поступила задача наладить автоматическое распознание текста с фотографий, т.е. пользователь при загрузке фотогографии на сервер, получает еще и распознанный с нее текст. Сказано — сделано. Было найдено хорошее бесплатное консольное решение — cuneiform. Никсовая версия лежит здесь: https://launchpad.net/cuneiform-linux.

Итак, установка. В Убунте кстати доступна версия 0.7 из репозитариев. Версия 0.9 является последней на данный момент.

wget http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/cuneiform-linux-0.9.0.tar.bz2
tar xvjf cuneiform-linux-0.9.0.tar.bz2
cd cuneiform-linux-0.9.0
mkdir builddir
cd builddir
cmake -DCMAKE_BUILD_TYPE=debug ..
make
make install

Дополнительный аргумент «-DCMAKE_INSTALL_PREFIX=/your/dir» установит cuneiform в нужную директорию.
Запускать можно со следующими аргрументами:

-l
Указывает язык документа. Из возможных: eng(по умолчанию) ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.

-o
Сохраняет в файл.

-f
Формат полученного текста. Из поддерживаемых: text(по умолчанию), html, rtf, smarttext(plain text with TeX paragraphs), hocr(hOCR HTML format), native(Cuneiform 2000 format)

—dotmatrix
Оптимизация работы скрипта под изображение, распечатанное с помощью матричного принтера.

—fax
Оптимизация работы скрипта под изображение, распечатанное с помощью факса.

—singlecolumn
Отключает анализ страницы и подразумевает, что у нас изображение состоит из одной колонки текста.

Пример использования:
cuneiform -l ruseng -o /our/dir/text.txt /our/dir/book_1.tif

GUI

Далее захотелось уже графический интерфейс под бытовые нужды. Есть 2 штуки на выбор — это YAGF и Cuneiform-Qt:

YAGF

Cuneiform-Qt

Было решено пользовать YAGF. Он тоже написан на qt и требует еще пакет проверки орфографии aspell . Скачиваем, устанавливаем:

wget http://symmetrica.net/cuneiform-linux/yagf-0.8.1.tar.gz
tar xvfz yagf-0.8.1.tar.gz
cd yagf-0.8.1/
cmake ./
make
make install

Источник: habr.com

Как распознать текст и конвертировать в Word

В сегодняшнем видеоуроке я расскажу как распознать текст и конвертировать в Word с помощью бесплатной программы CuneiForm. В конце поста вы сможете скачать CuneiForm бесплатно.

После публикации поста PDF-Viewer vs Adobe Reader и Foxit Reader в комментариях появились вопросы о том, как редактировать сам текст документа, так как PDF-Viewer позволяет что-то вписывать в pdf документы, ставить штампы, заметки, но сам текст документа не изменяет.

Читайте также:
Каково назначение служебных программ

Поэтому я пообещал, что сделаю видеоурок о программе распознавания текста, что и делаю сегодня!

Как распознать текст и конвертировать в Word

Если вы зададите поисковику найти «pdf в текст», «как распознать текст», «конвертировать в word», «перевести в ворд», «распознавание текста со скана» или «скан в текст», то найдете, в основном, только платные программы!

А в самом верху списка, конечно же будет ABBYY FineReader!

Действительно ABBYY FineReader — лидер среди программ распознавателей текста! Но его единственный недостаток — платность! Например, ABBYY FineReader 11 Professional Edition стоит 3590 р! ABBYY FineReader 10 Home Edition — 1340 р.

Вроде и недорого, но если мне раз в месяц нужно распознать документ, то нет смысла тратиться!

Хотя у меня есть бесплатная 6-я версия ABBYY FineReader! Она шла в программном обеспечении моего принтера EPSON. Но в лицензии написано, что я не имею права передавать ее кому-либо, более одного раза!

Можно, конечно, найти и пиратскую версию! Точнее взломанный FineReader с кряком или кейгеном или патчем, но это уже уголовное преступление!

Лучше все-таки распознать текст с CuneiForm

Поэтому, хорошо поискав, я нашел совершенно бесплатную программу для распознавания текста и конвертирования в Word — CuneiForm!

CuneiForm, по качеству распознавания текста, ничем не уступает ABBYY FineReader! Единственный недостаток — CuneiForm не конвертирует pdf в текст! Она делает распознавание текста со скана или фото!

Я в видеоуроке это не упомянул, но даже не обязательно сканировать документ! Можно воспользоваться программой для снятия скринов FSCapture! О том, как с ней работать, посмотрите видеоурок здесь.

Делаете скрин документа, сохраняете в JPG и распознаете в CuneiForm! Все очень просто! Кстати, FSCapture — очень полезная программа не только для снятия скринов! Очень рекомендую освоить!

Но, вернемся к CuneiForm!

Пользоваться программой очень легко! Перевести в Word текст можно всего одной кнопкой! Все делается пости на автопилоте! Уверен, что вы разберетесь даже без видеоурока!

Но все же можете посмотреть! И, если нужно скачать урок себе на компьютер, то здесь можете посмотреть, как это сделать!

Скачать CuneiForm, программу распознавания текста, можно здесь.

Теперь, собственно видеоурок —

Как конвертировать текст в Word из другого формата

Похожие статьи о финансовых рынках

  • PDF-Viewer — бесплатный редактор PDF документов
  • Fast Stone Capture: программа для скриншотов FSCapture
  • DeepBurner – бесплатная программа для записи дисков
  • Фабрика Форматов — бесплатно конвертирует видео, аудио и фото
  • Revo Uninstaller — бесплатный деинсталлятор

Источник: sergmedvedev.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru