ABBYY FineReader 15 выводит редактирование PDF на новый уровень
ABBYY обновила ABBYY FineReader – универсальную программу для работы с бумажными и PDF-документами. Благодаря внутренним разработкам ABBYY в области искусственного интеллекта и современных методов машинного обучения, программа превратилась в многофункциональный редактор для решения любых задач с PDF. Новый ABBYY FineReader на 40% быстрее открывает любые файлы, даже объемные документы с изображениями, диаграммами и таблицами. Кроме того, пользователи могут свободно редактировать в PDF многострочные фрагменты текста: дополнять, копировать, перемещать и удалять их. Теперь работать с многостраничными договорами, коммерческими предложениями, отчетами в PDF так же удобно, как в популярных программах для редактирования документов.
ABBYY FineReader 15 позволяет полноценно работать со всеми данными в едином потоке: извлечь текст из бумажного документа и конвертировать его в любой из популярных форматов, отредактировать файл в формате PDF, внести в него комментарии, сравнить несколько версий, добавить цифровую подпись или водяные знаки, защитить файл с помощью пароля, скрыть в тексте конфиденциальные данные, а также создать новый PDF из нескольких документов в разных форматах. Пользователи могут менять порядок, расположение и форматирование, добавлять и перемещать целые абзацы текста, искать данные, добавлять или менять изображения и таблицы без необходимости конвертировать документ или создавать новый.
РЕДАКТИРОВАНИЕ PDF ✏️ КАК РАСПОЗНАТЬ И ПЕРЕВЕСТИ ДОКУМЕНТ В WORD
Новые возможности ABBYY FineReader 15 для пользователей:
Многострочное редактирование PDF в пределах абзаца: пользователь может вносить любые исправления – от небольших правок до изменения целых страниц и параграфов. Полноценная работа с контентом PDF-документа: возможность извлекать информацию из текстовых блоков, таблиц, комментариев, форм и других элементов.
Благодаря последним достижениям в методах машинного обучения и сверточным нейронным сетям, улучшено профессиональное распознавание текста. К минимуму сведены ошибки распознавания PDF, созданных из других приложений, в том числе PDF с битыми кодировками или некачественным текстовым слоем. Улучшено распознавание таблиц и колонтитулов.
Новые возможности для сравнения документов: результаты сравнения можно сохранить в формате Word в режиме «Исправления» (Track changes). Скорость открытия PDF-документов увеличилась на 40%. Это особенно актуально при работе с объемными документами с большим количеством таблиц, графиков, изображений и других графических элементов. Улучшена работа с таблицами.
Программа сохраняет границы между ячейками, заполненные поля и форматирование, а также позволяет удобно редактировать текст внутри ячеек. Значительно улучшено распознавание «нестандартных шрифтов»: арабской вязи (на 93%), китайских (на 97%), корейских и японских иероглифов (на 98%).
Новые возможности ABBYY FineReader 15 для системных администраторов:
Новые условия лицензирования Remote User для удаленных пользователей. Лицензия Remote User позволяет использовать ABBYY FineReader 15 совместно с решениями для виртуализации рабочего стола и приложений — например, с Microsoft Remote Desktop Services, Citrix XenApp, Citrix Virtual Apps and Desktops. Доступ получают именованные пользователи. Они могут работать с программой тогда, когда им требуется. Этот тип лицензии подходит для ИТ-инфраструктуры, в которой один и тот же пользователь подключается к разным рабочим станциям.
ABBYY FineReader как пользоваться
Алексей Трефилов, ELMA: Low-code инструменты помогут эволюции ИТ-ландшафта компании
Инфраструктура
Существуют три редакции ABBYY FineReader 15:
Standard – предназначена только для домашнего использования. Содержит необходимые инструменты для работы с различными типами PDF. Стоимость: 8 690 руб. за версию для скачивания (бессрочная лицензия).
Business – оптимальная редакция для небольших и средних компаний. Поддерживает несколько типов лицензий для гибкой установки в компаниях с различной ИТ-инфраструктурой, поддерживает работу в локальной сети. Стоимость: 14 990 руб. за версию для скачивания (бессрочная лицензия).
Сorporate – полная редакция программы для средних и крупных компаний. Включает ABBYY Hot Folder для автоматической обработки документов по расписанию и возможность сравнения документов. Стоимость: 48 690 руб. за версию для скачивания (бессрочная лицензия).
Источник: www.cnews.ru
ABBYY FineReader 15 на русском бесплатно
ABBYY FineReader 15 – программа для работы с бумажными и PDF-документами на цифровом пространстве. Работа инструмента основывается на оптическом распознавании символов с применением искусственного интеллекта. Благодаря этому осуществляется извлечение нужной информации из документа с повышением производительности работы пользователя.
Программа создает, оцифровывает, конвертирует и редактирует документы бумажного и PDF формата с возможность поиска и защиты информации при совместной работе с пользователями. Приложение конвертирует текст с отсканированных изображений, фотографий в формат DOC. Для пользователей доступно создание нового PDF из нескольких документов, добавление к нему цифровой подписи и водяных знаков.
Возможности программы Файн ридер 15:
Обновленный FineReader 15 версии поддерживает машинное обучение и искусственный интеллект, что улучшает распознавание PDF, даже если присутствует битая кодировка или битый текстовый слой. Программа лучше распознает таблицы и колонтитулы.
Обновленный вариант распознает японский и корейский языки, представляет таблицы, составленные в Excel, где текст пишется с права на лево с расставлением автоматических тегов при сохранении. FineReader доработан многострочным редактированием в пределах абзаца – автоматическое перераспределение текста по строкам, если добавляются или удаляются слова и фрагменты. В 15 версии файлы открываются на 40% быстрее. Изначально формат PDF не предназначен для того, чтобы вносить в нем правки, теперь FineReader редактирует абзацы.
Особенности программы FineReader 15:
Программа рассчитана на операционные системы — Windows 10/8/7
Microsoft Windows Server 2019, 2016, 2012 R2 (с учетом применения Web Access), Citrix Workspace App 1808, Citrix Virtual Apps and Desktops. Если применять локализованный интерфейс, для операционной системы в обязательном порядке характерно владеть требуемой языковой поддержкой. Преимущество нового варианта ABBYY FineReader PDF 15 – добавление заполняемых текстовых полей, раскрывающихся списков, опросов, кнопок для инициализации требуемых действий. Для отклонения или принятия предлагаемых поправок программа сохраняет результаты обработки в режиме Track Changes (режим исправлений).
Источник: abbyyfinereader.ru
ABBYY FineReader: уже пятнадцатый
Первая версия программы FineReader увидела свет в далеком 1993 году, и умела она только распознавать и сохранять в редактируемых форматах сканированные тексты на русском и еще нескольких языках. А пятнадцатая версия, которая вышла на рынок в конце августа нынешнего года, позиционируется уже как универсальный инструмент для работы с бумажными и PDF-документами на цифровом рабочем месте, использующий технологии оптического распознавания символов и конвертации документов, основанные на возможностях искусственного интеллекта, и позволяет распознавать тексты на 192 языках.
Вам будет интересно: HP Spectre Folio13-ak0007ur: кожа, металл и стекло
ABBYY предлагает три варианта программы: Standard, Business и Corporate. Первый предназначается для домашних пользователей, второй – для небольших и средних компаний, а третий, включающий полный набор функций, – для крупных и средних компаний. В состав Corporate включена программа, которая по расписанию производит автоматическое распознавание документов, помещаемых в «горячую папку» – ABBYY Hot Folder. В этой версии есть также инструмент для сравнения документов, представленных в разных форматах, с формированием перечня выявленных различий и возможностью сохранения результатов сравнения в формате Word, где все изменения уже подсвечиваются в режиме Track Changes, в PDF с комментариями в местах изменений или в виде таблицы с перечнем правок в Word. Для каждой версии можно купить либо бессрочную, либо годовую лицензию.
Вам будет интересно: Neoline X-COP 8700s: нужный замкадыш
Исходная страница книги в формате PDF
ABBYY FineReader 15 позволяет открывать, просматривать и редактировать PDF-документы, добавлять к ним комментарии, графические пометки и закладки, работать с вложенными файлами, осуществлять поиск по тексту. Если исходный PDF-документ не содержит текстового слоя, программа производит фоновое распознавание текста и таким образом обеспечивает возможность поиска по ключевым словам. Отсканированный документ с помощью OCR-редактора можно проанализировать, выделить блоки изображений и текстовые блоки и сохранить в формате PDF, который с помощью имеющегося набора инструментов превращается фактически в редактируемый: можно исправлять опечатки, добавлять и удалять тексты, перемещать и переформатировать текстовые блоки, редактировать таблицы, добавлять и удалять страницы, заполнять формы, совместно работать с документами, подписывать их электронной подписью и защищать с помощью пароля, а также объединять несколько документов в один PDF-файл, преобразовывать в другие редактируемые форматы и т. д. (Полный перечень возможностей программы и подробное «Руководство пользователя» представлены на сайте производителя.)
Она же после автоматического преобразования в формат Word
При тестировании программы она легко справилась с такими задачами, как сканирование и распознавание бумажных документов, создание и редактирование PDF-документов и преобразование их в документы Word. Например, преобразование книги формата А5 на 488 страницах из PDF в Word заняло около пяти минут, при этом в тексте объемом без малого 890 000 знаков программа сделала всего 16 мелких ошибок (лишние пробелы, длинное тире вместо короткого, неверно распознанные буквы) – это ничтожно мало. В исходном PDF-файле не было текстового слоя, но FineReader примерно за 45-50 секунд просматривал 488 книжных страниц и находил заданные слова и словосочетания. После сохранения книги в PDF с текстовым слоем поиск занимал около 30 секунд.
Автоматически «исправленное» при преобразовании изображение страницы
С преобразованием страниц с иллюстрациями дело обстояло похуже: в автоматическом режиме с настройками по умолчанию искусственный интеллект допускал ошибки. При преобразовании брошюры из PDF в Word программа 10 из 14 фотографий альбомного формата (в брошюре они располагались с поворотом на 90º) разрубила пополам, поместив каждую половинку на отдельную страницу (интересно, что неразделенными остались фотографии, подписи под которыми были длинными – это подсказка разработчикам). Еще одну картинку искусственный интеллект повернул примерно на 30º вместе с подписью.
Проблемы удалось решить, сняв в настройках галочки против пунктов «Делить разворот книги» и «Исправлять ориентацию страницы». В сложных случаях полагаться на ИИ не приходится, нужно контролировать и вручную корректировать расположение текстовых полей и иллюстраций, а также обращаться к «Редактору изображений». Этот инструмент предлагает широкий спектр возможностей, в том числе весьма полезных в случае, когда в качестве исходного материала для распознавания используются фотографии документов: можно исправить трапециевидные искажения, искажения строк, изменить яркость, контрастность и т. д. Предусмотрена также возможность удалить цветные пометки с черно-белого документа. Исправления можно производить вручную либо щелкнуть по пункту «Рекомендуемая обработка» и затем по кнопке «Выполнить обработку» – программа сделает со страницей то, что ей подскажет ее искусственный интеллект, но результат надо контролировать и иногда корректировать.
Инструментарий «Редактора изображений»
Зарегистрированные пользователи ABBYY FineReader 15 получают в качестве бонуса ABBYY Screenshot Reader – этот инструмент заслуживает отдельного упоминания. После его запуска (автономно из меню «Пуск» или из работающей программы FineReader) на экране появляется окошко с настройками: можно выбрать – весь экран или только выделенная область будет на снимке, при необходимости указать, на каком языке представлен текст в данной области, а также указать, куда передать результат распознавания текста или изображение выделенной области. После этого с помощью мышки вы выделяете нужную часть экрана, щелкаете «Сделать снимок» – и готово: изображение сохраняется в буферной памяти, а если требовалось распознавание, то его результат в виде текста или таблицы поступает в буфер, передается в Word или Excel или сохраняется в файл.
Окно настроек приложения ABBYY Screenshot Reader
Часть картинок для этой статьи была сделана с помощью этого удобного инструмента. Распознавание текста в выделенной области экрана оказалось очень удобным, в частности, для копирования текстов из презентаций, в том числе и на иностранных языках. Если это приходится делать часто, значок ABBYY Screenshot Reader можно закрепить на панели задач Windows.
Ключевые слова: тесты и обзоры
Достоинства: Высокое качество распознавания текстов Широкий набор инструментов для работы с PDF
Недостатки: Высокая цена
Ориентировочная цена: 8690 (бессрочная Standard)
Журнал: Журнал IT-Expert [№ 10/2019], Подписка на журналы
Источник: 1ku.ru
Как мы научили ABBYY FineReader PDF редактировать целые абзацы
Сегодня мы обновили ABBYY FineReader 15 и выпустили его под брендом ABBYY FineReader PDF, потому что он объединяет все инструменты для работы с PDF. По этому поводу публикуем первый пост из серии материалов о фичах программы. В нем мы расскажем об одной интересной возможности, которая не первый месяц есть в программе, но, возможно, не все о ней знали.
Давно ли вы открывали PDF-файлы? Готовы поспорить, что совсем недавно. Скорее всего, на вашем компьютере точно найдется пара сканов, а может, еще и макет презентации, аналитическое исследование или техническая инструкция. Для каких задач обычно используют эти документы? По данным опроса ABBYY, 62% респондентов ищут информацию в PDF, 60% — копируют текст из документа, а 52% — редактируют: вносят в файл правки, исправляют ошибки и опечатки.
Даже сейчас не все знают, что можно редактировать текст в PDF. Да, изменение таких файлов устроено не так, как редактирование обычного текстового документа. ABBYY FineReader PDF с многофункциональным текстовым редактором для работы с PDF и сканами позволяет быстро внести изменения прямо в PDF, без утомительной конвертации файла в другие форматы. При редактировании текст в PDF плавно перетекает со строчки на строчку, как в MS Word. Можно добавить или удалить несколько слов, изменить целые абзацы или даже поменять их местами.
В этом посте мы раскроем технические подробности редактирования многострочных фрагментов текста в FineReader: как мы изменили движок программы, как редактирование устроено изнутри и как оно выглядит для пользователя. Поехали!
Форматом PDF пользуются по всему миру: его содержимое одинаково отображается на любых компьютерах, смартфонах и планшетах с разными операционными системами. Это удобно и помогает избежать неловких ситуаций. Например, когда вы написали текст в MS Word, отправили коллегам, а они открывают его LibreOffice’ом или Wordpad’ом, и все поехало и начинается веселье. PDF, конечно, в этом плане удобнее, но с текстом здесь все сложно. В 70% всех существующих PDF-документов текст есть, а в 30% — нет, так как это изображения.
Поговорим сначала о PDF, в которых текст есть. Чтобы редактировать PDF, надо понимать, как в нем записан текст. Открывали когда-нибудь PDF в блокноте? Если да, то вы видели такое:
Чтобы все это отображалось понятно для пользователя, нужно проделать большую работу.
Задача: понять PDF
Содержимое каждой страницы в PDF-файле хранится в виде потоков команд для отрисовки документа – это могут быть текст, изображения или векторная графика. Структуру файла определяют PDF-объекты, например, страница, картинка, комментарий (а абзацы, строчки текста и буквы – это всего лишь части объекта). Символ в PDF представляется глифом . То, как они записаны, определяется шрифтом . Каждый символ хранится отдельно: у него есть шрифт, код символа в шрифте и координаты его расположения на странице. То, где глифы расположены, определяется как раз потоком команд. Кроме того, буквы объединены в потоки текста (text run), но они не смысловые.
В PDF нет ни строк, ни абзацев, которые есть в документах текстовых форматов. Даже порядок текста не всегда определен. То есть вы видите текст, но на самом деле текста не существует. Это хаос из трудно понятных инструкций (как на изображении выше), которые нужно правильно отобразить в конкретных местах документа, с соответствующим форматированием.
«А как же текст?» – спросите вы.
Текст в PDF все же существует, и его даже получится редактировать. Для этого мы учим наши технологии понимать структуру текста, например, определять и выделять строки. Расскажем об этом подробнее.
Библиотеки PDF и как мы их поменяли
Чтобы сделать возможным редактирование целых абзацев, мы сильно поменяли нашу внутреннюю подсистему (библиотеку), которую мы называем PdfTools. Она занимается тем, что открывает PDF-файлы, парсит потоки команд (т.е. понимает, где расположен текст, где картинки, и воссоздает структуру документа) и помогает пользователям оперировать этими данными: прочитать, изменить, сохранить в PDF.
Подсистема PdfTools содержит все необходимые инструменты, чтобы прочитать содержимое и обернуть его в объекты (страница, картинка, комментарий), с которыми удобно работать программе. С этими объектами уже могут работать наши продукты, в частности ABBYY FineReader PDF и другие.
Как было раньше. В FineReader 14 мы умели редактировать текст только в рамках одной строчки. После редактирования необходимо было выполнить «рендеринг» — расставить глифы на свои новые места.
Вообще рендеринг — это визуализация. Но мы вкладываем в это слово иное понятие — расположение объектов в PDF на своих местах. Для PDF-специалистов это и есть визуализация, которую больше никто не видит. Когда мы говорим о визуализации в привычном понимании, то используем слово «растеризация».
Весь этот процесс располагался в подсистеме PdfTools. Она помогала нам собирать содержимое PDF в строчки и редактировать их. Например, надо поставить на 5-ое месте глиф «А». FineReader передавал подсистеме PdfTools, что на пятое место нужно поставить глиф «А» с заданным размером и шрифтом, а PdfTools вставляла «А» и перемещала на нужное место в строчке все глифы, которые следовали за буквой «А».
Построчное редактирование довольно легкое: текст просто смещался вправо или, например, влево, если он записан на иврите или арабском языке. Это позволяло внести небольшие корректировки, например, исправить опечатку, но не давало возможность сделать более глобальные изменения в тексте PDF-документа.
Что решили изменить. Когда появилась задача многострочного редактирования, мы поняли, что в рамках одной библиотеки PdfTools это будет проблематично делать. Нам необходимо было научиться автоматически находить в тексте PDF более крупные фрагменты, например, «видеть» абзацы, понимать, где находятся их границы, какое форматирование должно быть у целого фрагмента текста и что происходит при переходе с одной строки на другую. Чтобы определить все эти параметры, мы решили привлечь для решения этой задачи и другие наши OCR-технологии — Document Analysis (DA) и Synthesis, которые умеют строить структуру документа.
Document Analysis и Synthesis
Чтобы определять в тексте блоки, ABBYY FineReader PDF использует технологию Document Analysis. Она позволяет найти абзацы, таблицы, картинки. Программа подсвечивает найденные блоки небольшими бледными рамками, чтобы пользователю удобнее было вносить правки:
Далее мы усовершенствовали другую подсистему нашей программы – Synthesis. Мы уже рассказывали на Хабре, зачем она нужна. Если вкратце, именно она определяет структуру и все характеристики распознанного текста: какие используются шрифты и размеры, какое начертание (bold, italic, underline), где заголовки, списки, отступы и многие другие параметры, которые можно настраивать в том же MS Word. Мы доработали Synthesis для того, чтобы при распознавании и воссоздании страницы очень точно восстанавливать исходные параметры текста.
Особенности подчеркнутого текста
В PDF нет такого атрибута текста как подчеркивание, привычного, например, пользователям MS Word. Подчеркивание в PDF – это векторная графика, никак не связанная с текстом. Без дополнительной доработки продукта при редактировании «подчеркнутого» текста символы бы перемещались привычным образом, а линии, обозначающие подчеркивания, оставались бы на месте. ABBYY FineReader PDF умеет определять и редактировать подчеркнутый текст привычным пользователю образом.
Редактирование таблиц в PDF
Изменилось и редактирование таблиц. Раньше программа «видела» таблицу, как отдельные строки, и редактировала ее так же. Теперь при работе с таблицами ABBYY FineReader PDF определяет содержимое каждой ячейки, умеет извлекать из них текст и работать с ним. Это удобно, когда надо исправить ошибку в цифре, поменять точку на запятую и при этом сохранить структуру таблицы, сделать это быстро и без конвертации PDF-документа в другие форматы.
Как отредактировать скан?
Возможность многострочного редактирования доступна и для сканов. Кстати, пользователю даже не надо задумываться, скан перед ним или нет. ABBYY FineReader PDF сам определит это и запустит нужные механизмы. Например, в дате договора — опечатка, или ФИО контрагента поменялось: оно стало длиннее и должно «перетечь» на следующую строчку.
В программе скан сначала распознается, а потом происходит подготовка к редактированию. Когда скан распознали, то текст получается не в нашем исходном документе, а в его виртуальном «двойнике». И именно в нем происходят все операции по редактированию.
Когда пользователь закончил редактировать документ, программа автоматически собирает все изменения со страницы и заменяет эти фрагменты в исходном документе. Наша задача — встроить текст обратно в PDF-документ, не повредив все то остальное, что уже есть в нем.
Редактирование скана позволяет не тратить время на конвертацию документа в другие форматы и обратно. Это удобно, когда нужно быстро внести забытую правку в дату или другой фрагмент текста.
Пример многострочного редактирования. Текст автоматически перераспределяется по строкам по мере добавления слов и предложений внутри абзаца.
Вместо заключения
Исправить опечатку в листовке, поменять местами текстовые блоки в инструкции, изменить целый абзац в скане договора или добавить несколько новых, поправить форматирование всего текста – все эти задачи теперь возможно решить:
- быстро,
- без конвертации документа,
- с помощью одной программы.
В следующем посте через неделю мы расскажем о том, как научили ABBYY FineReader PDF еще одной интересной фиче и для чего может пригодиться новая функциональность.
Пишите в комментариях, о каких еще технологических особенностях нашей программы вам было бы интересно узнать?
- Блог компании ABBYY
- Обработка изображений
- Управление продуктом
- Софт
Источник: habr.com