Лингвистические программы что это

Лингвистическое программное обеспечение

Лингвистическое программное обеспечение (англ. lingware = linguistic + software) — компьютерные программы и данные, обеспечивающие анализ, обработку, хранение и поиск аудиоданных, рисунков (OCR) и текстов на естественном языке.

Можно выделить следующие виды лингвистического программного обеспечения:

  1. Обработка текста на естественном языке:
  1. Электронные словари: Викисловарь, Multitrans, ForceMem, ABBYY Lingvo и др.
  2. Орфокорректоры (или спеллчекеры): MS Word, ispell, aspell, myspell и др.
  3. Поисковые системы
  4. Системы машинного перевода: PROMT, Socrat и др.
  1. Системы анализа речи: Dragon, IBM via voice.
  2. Системы синтеза речи: Агафон.
  3. Системы голосового перевода (распознавание и синтез): Speereo.
Файл:Soft template.gif Это незавершённая статья о программном обеспечении. Вы можете помочь проекту, исправив и дополнив её.

Кем может работать ЛИНГВИСТ?

Скрытая категория: Незавершённые статьи о программном обеспечении

Источник: www.sbup.com

Лингвистические программы что это

Лингвистическое программное обеспечение (англ. lingware = linguistic + software) — компьютерные программы и данные, обеспечивающие анализ, обработку, хранение и поиск аудиоданных, рисунков (OCR) и текстов на естественном языке.

Можно выделить следующие виды лингвистического программного обеспечения:

1) Обработка текста на естественном языке:

— Электронные словари: Викисловарь, Multitrans, GoldenDict, Stardict, dict, ForceMem, ABBYY Lingvo.

— Орфокорректоры (или спеллчекеры): MS Word, ispell, aspell, myspell.

— Системы машинного перевода: PROMT, Socrat.

— Системы автоматизированного перевода, в т.ч. программы управления памятью переводов — OmegaT, Trados.

2) Системы распознавания символов OCR: Finereader, CuneiForm, Tesseract, OCRopus.

3) Речевые системы:

— Системы анализа речи: Dragon, IBM via voice.

— Системы синтеза речи: Агафон.

— Системы голосового перевода (распознавание и синтез): Speereo.

Программы для компьютерного анализа текста

1) Обработка текста на естественном языке:

1. 1. Электронные словари:

А) Викисловарь — свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке.

В словаре содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь — попытка объединить в одном продукте грамматический, толковый, этимологический и многоязычный словари, а также тезаурус.

Лингвистические технологии в Интернете – Анатолий Гершман

Б) GoldenDict — свободная оболочка для электронных словарей с открытым исходным кодом, поддерживающая многие форматы словарей ABBYY Lingvo, StarDict, Babylon, Dictd, а также произвольных словарных веб-сайтов (Википедия, Викисловарь).

1. Вывод отформатированных статей с ссылками и картинками с помощью движка WebKit.

2. При поиске слов с ошибками используется система морфологии на основе свободной программы для проверки орфографии Hunspell.

3. Индексирование директорий со звуковыми файлами для формирования словарей с произношением слов.

4. При поиске перевода пробелы, знаки пунктуации, диакритические знаки и регистр символов в поисковой фразе не играют роли.

5. При выделении текста появляется всплывающее окно перевода.

На сайте программы можно сразу же получить удобный русско-английский и англо-русский словарь, а также словарь произношений английских слов.

Аналоги: Мультитран, ПРОМТ, ABBYY Lingvo, Atlantida, Apertium, Babylon, Context, Dicto, Google Translate, Lingoes, LiteDict, MultiLex, Pragma, ProLing Office, StarDict, SYSTRAN, TransLite, WiseDict.

В) Stardict — свободная оболочка для электронных словарей с открытым исходным кодом, способная, кроме собственно вывода статей, осуществлять перевод, озвучивать слова, использовать нечёткие запросы и шаблоны, поиск в онлайновых словарях. Разрабатывается на языке C++, с использованием графической библиотеки GTK 2 и кодировки UTF-8.

Возможности. Функция программы сканирование выделенного и отображение результата в всплывающих окнах:

1. Поиск по шаблону. Можно вводить слова, содержащие «*» и «?» как шаблоны.

2. Нечеткий запрос. Можно воспользоваться «нечётким запросом». Он использует алгоритм Левенштейна для подсчёта похожести двух слов, и выдаёт слова, которые наиболее подходят введённому запросу. Для использования этой возможности запрос должен начинаться с «/».

3. Полнотекстовой поиск предназначен для поиска слова в словаре без помощи индекса. Более медленный поиск, но позволяет искать совпадения в текстах статей.

4. Cканирование выделенного. При выделении слова и, в зависимости от настроек, при нажатии клавиш его перевод отображается в всплывающем окне.

5. Управление словарями. Выключение ненужных словарей, а также установка порядок их использования при запросе.

6. Поиск в интернете для различных он-лайн словарей.

7. Произношение слов. При наличии звуковых записей словарь может выполнять произношение слов.

8. Перевод полных текстов, используя интернет-сервисы.

1. 2. Орфокорректоры (или спеллчекеры):

А) MS Word — Microsoft Word (часто — MS Word, WinWord или просто Word) — это текстовый процессор, предназначенный для создания, просмотра и редактирования текстовых документов, с локальным применением простейших форм таблично-матричных алгоритмов. Текстовый процессор, выпускается корпорацией Microsoft в составе пакета Microsoft Office. Первая версия была написана Ричардом Броди (Richard Brodie) для IBM PC, использующих DOS, в 1983 году. Позднее выпускались версии для Apple Macintosh (1984), SCO UNIX и Microsoft Windows (1989).

Б) aspell — GNU Aspell (или просто Aspell) — свободная программа для проверки орфографии, разработанная для замены Ispell. Это стандартная программа проверки орфографии для системы GNU. Она также компилируется под другие Unix-подобные операционные системы и Microsoft Windows. Основная программа лицензируется на условиях GNU LGPL, а документация — на условиях GNU FDL.

Словари для неё доступны примерно на 70 языках. Основной разработчик — Кевин Аткинсон (Kevin Atkinson).

1. 3. Системы автоматизированного перевода, в т.ч. программы управления памятью переводов:

А) OmegaT — система автоматизированного перевода, поддерживающая память переводов, написана на языке Java. Возможности продукта включают сегментацию исходного текста на основе регулярных выражений, использование точных (англ. exact) и неточных (англ. fuzzy) соответствий с уже переведенными фрагментами, использование словарей, поиск контекстов в базах данных переводов и работу с ключевыми словами.

Начиная с версии 2.04 OmegaT также может переводить текущий абзац текста через Google Translate.

Для работы OmegaT требуется версия Java 1.4, которая доступна для ОС GNU/Linux, Mac OS X и Microsoft Windows, Windows NT. Может работать с OpenJDK.

OmegaT поддерживает разнообразные форматы исходных документов: текстовые файлы (включая Unicode), файлы HTML/XHTML, StarOffice, OpenOffice.org и OpenDocument (ODF), а также файлы DocBook, MediaWiki, Microsoft OOXML, файлы .po (portable object) для библиотеки интернационализации gettext, XLIFF и текстовые файлы со структурой «Ключ=Значение». С файлами старых проприетарных форматов Microsoft Office (Word, Excel и PowerPoint) OmegaT не может работать непосредственно, их необходимо перевести в формат OpenDocument (например, с помощью OpenOffice.org) или OOXML с помощью Microsoft Office 2007.

Б) Trados — система автоматизированного перевода, первоначально (с 1992 года) разработанная немецкой компанией Trados GmbH. Является одним из мировых лидеров в классе систем Translation Memory (TM, Память переводов).

Система Trados состоит из модулей, предназначенных для перевода текстов различного формата: документов Microsoft Word, презентаций PowerPoint, текстов в формате HTML и других метаданных, документов FrameMaker, InterLeaf и др., а также для ведения терминологических баз данных (модуль MultiTerm). Последняя версия системы, выпущенная независимой компанией Trados — 7.0. Последняя версия Trados на сегодняшний день — SDL Trados Studio 2009.

Читайте также:
Service provider что это за программа

Принцип работы. Концепция Translation Memory предполагает выявление в переводимом тексте фрагментов, переводы которых уже имеются в базе данных переводов, и за счет этого сокращение объема работы переводчика. Фрагменты, оставшиеся непереведёнными, передаются дальше для ручной обработки переводчику или системе машинного перевода (Machine Translation, MT). Переводчик на этом этапе может выделить вновь переведённые фрагменты и занести новые пары параллельных текстов на двух языках в базу данных. Такая схема наилучшим образом работает в случае однотипных текстов, где повторяемость словосочетаний достаточно высока, т. е. в случае разного рода инструкций для пользователей, технических описаний.

2) Системы распознавания символов OCR:

А) Finereader — система оптического распознавания символов разработанная российской компанией ABBYY.

Возможности. Поддерживает распознавание текста на 186 языках и имеет встроенную проверку орфографии для 38 из них. По некоторым данным, после некоторого обучения системы она может начать распознавать рукописный текст, но его нужно будет учить под почерк пользователя.

Б) CuneiForm — свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

Первоначально система CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт. CuneiForm поставлялся с некоторыми моделями сканеров. Однако после нескольких лет перерыва разработки, 12 декабря 2007 года анонсировано открытие исходных текстов программы, которое состоялось 2 апреля 2008 года.

Особенности. CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов. CuneiForm — Шрифтонезависимая система.

В) Tesseract — свободная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». Не так давно (в августе 2006 г) Google купил её и открыл исходные тексты под лицензией Apache 2.0 для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая, русский с версии 3.0) осуществляется с помощью дополнительных модулей.

Г) OCRopus — OCR-система на базе не так давно открытого распознающего ядра — tesseract Программный пакет для распознавания текста, развивающийся по принципам Open Source и распространяющееся под Apache License 2.0. По задумке разработчиков, с помощью OCRopus станет возможным определять текстовое содержимое на цифровых изображениях и переводить его в обычный текстовый формат для дальнейшего редактирования. Помимо печатного текста, программа сможет распознавать и рукописные материалы. По состоянию на альфа-релиз, OCRopus использует язык моделирования код из другого проекта поддерживаемого Google OpenFST. OCRopus в настоящее время доступна только для GNU/Linux, но существуют сборки и для Debian GNU/Hurd и Debian GNU/kFreeBSD.

Использование. В настоящее время OCRopus использует только интерфейс командной строки, принимая указания на входные изображения с текстом, и выводя данные в формате hOCR (открытый формат на основе HTML). Если необходим более точный контроль, можно указать в командной строке команды для выполнения конкретных операций (например, распознание одной строки).

Источник: studbooks.net

Лингвистическое обеспечение

Лингвистическое обеспечение представляет собой совокупность в заданной форме языков (включает термины, определения, правила формализации языка, методы сжатия и развёртывания языков) необходимых для автоматизированного проектирования. Языки, кот. используются в вычислительной технике, являются алгоритмичными. Они служат для задания определённых алгоритмов, переработки информации и построены посредством набора символов и системы правил соответствующего языка. В САПР применяются языки программирования и языки общения человека с ЭВМ. Лингвистическое обеспечение – это языки общения человека с ЭВМ.

Лингвистическое обеспечение образуется языками: языки программирования, управления, проектирования.

Лингвистическое обеспечение (ЛО) хорошо развитых САПР можно разделить на 2 части: базовую и управляющую, связь между кот. осуществляется при помощи специальных языков. Базовое ЛО является языковой основой программного обеспечения САПР и состоит из действующих языков программирования с помощью кот. в комплексе средств САПР реализуется вычислительные и моделирующие процедуры алгоритма проектирования, а также обеспечивается решение сервисных задач. Управляющее ЛО состоит из специализированных проблемно-ориентированных языков, кот. описывают обобщённый алгоритм проектирования в терминах, проектных операциях, процедурах и задачах. В этих языках формируется словарь, синтаксис, семантика существенно связанные с конкретной предметной областью проектирования. Создание и применение проблемно-ориентированных языков позволяет организовать высоко эффективный и эргономичный процесс управления автоматизир. проектирования. в частности появляется возможность для осуществления диалогового взаимодействия проектировщика и комплексно-технических средств САПР приближённого к естественному речевому запрос-ответному режиму проектирования.

Классификация языков САПР

В соответствии с классификацией языков САПР, различают языки программирования и проекти­рования, управления.

Языки программирования служат для записи программ. Ими пользуются главным образом при подготовке программ, а не при экс­плуатации САПР.

Языки проектирования предназначены для представления и пре­образования исходной информации при выполнении проектных про­цедур с помощью программного обеспечения. Эти языки применяются пользователями САПР в процессе их инженерной деятельности.

Язаки управления служат для управления ЭВМ, периферийными устройствами.

Языки программирования

Языки программирования необходимы для создания программного обеспечения при работе САПР, т.е. только для программ обеспечения.

По этому критерию можно выделить следующие уровни языков программирования:

— машинные — (computer language) — языки программирования, воспринимаемые аппаратной частью компьютера (машинные коды);

— машинно-оpиентиpованные (ассемблеpы); (computer-oriented language) — языки программирования, которые отражают структуру конкретного типа компьютера;

— машинно-независимые (языки высокого уровня).

Языки проектирования.

Языки проектирования ориентированы на пользователей – проектировщиков и предназначены для эксплуатации САПР. Эта группа языков делится на:

Входные языки являются средством взаимодействия конечного пользователя с САПР, в ходе подготовки и служат для задания исходных данных или формирования проблемы. Они включают в себя языки описания объектов и языки описания заданий, которые описывают не только математические объекта — числа, переменные, массивы, но различные виды графической информации — конструкторские чертежи, схемы и т. п., а также и задания на выполнение проектных операций и процедур.

Внутренние языки обычно скрыты от рядового пользователя и служат для представления информации об объектах и процессах проектирования во внутренних кодах ЭВМ, передаваемой между различными подсистемами САПР и ЭВМ. Они обычно машинно-ориентированны, а поэтому громоздки и неудобны в применении.

Базовый язык — язык проектирования, предназначенный для представления дополнительных сведений к первичному описанию объекта проектирования, проектных решений, описаний проектных процедур (в том числе процедур информационного обмена) и их последовательности. Этот язык, часто называемый языком описания заданий, принимается близким по возможностям, символике в грамматике к универсальным алгоритмическим языкам. При этом целесообразно не разрабатывать оригинальный базовый язык, а использовать универсальный алгоритмический язык, дополнив его отдельными элементами, характерными для разрабатываемого процесса проектирования.

Читайте также:
Snappy driver что это за программа

Выходные языки обеспечивают оформление результатов проектирования в текстовом или графическом виде, в форме, удовлетворяющей требованиям его дальнейшего применения. В состав этого вида языков входят различные средства описания результатов проектирования в виде чертежей, технических карт, схем наладок, таблиц, текстовой документации, а также представление формы промежуточных результатов проектирования, используемых в различных подсистемах САПР.

Источник: poisk-ru.ru

Лингвистические технологии ABBYY. От сложного — к совершенному

Над решением проблем, связанных с автоматической обработкой естественного языка и пониманием машиной смысла текста, человечество бьется не один десяток лет. Определенных успехов в этой области достигла российская компания ABBYY, разработавшая универсальную лингвистическую платформу Compreno для выполнения множества прикладных задач на качественно ином уровне

⇣ Содержание

  • Сумма технологий
  • Игры разума
  • Планов громадье

Идея разобраться с одной из ключевых проблем теории искусственного интеллекта и решить задачу понимания вычислительной техникой человеческой речи зародилась в умах специалистов ABBYY пятнадцать лет назад. Именно тогда с подачи основателя компании Давида Яна стартовали сначала научно-исследовательские, а затем опытно-конструкторские и технологические работы по созданию системы машинного перевода нового поколения, впоследствии переросшей в отдельный проект Compreno (прежнее название — Natural Language Compiler) по решению множества задач, связанных с обработкой естественного языка.

О серьезности намерений ABBYY совершить революцию в области компьютерной лингвистики свидетельствует не только многолетний труд более чем трехсот сотрудников компании, но и интерес к платформе со стороны Фонда развития Центра разработки и коммерциализации новых технологий (Фонд «Сколково»), отбирающего наиболее перспективные проекты и осуществляющего их поддержку. Не менее убедительной является и финансовая сторона дела: суммарные инвестиции фонда «Сколково» в Compreno — 475 млн рублей, что составляет половину финансирования проекта. Вторую часть (475 млн руб.) вносит сама ABBYY. Впечатляющие цифры, подчеркивающие размах и масштаб проекта.

⇡#Сумма технологий

Чтобы разобраться в нюансах положенных в основу Compreno механизмов и логике их работы, необходимо понять фундаментальную концепцию проекта, заключающуюся в следующем. На каком бы языке цивилизованные люди ни говорили, у понятий, которые они обозначают словами, гораздо больше схожего, чем различного. Все мы живем в домах, пользуемся мебелью, телефонами, ездим на машинах, ходим на работу в офисы, летаем на самолетах и т.д. Эти понятия общие и не зависят от языка с точки зрения того, какими мы их себе представляем. Уловив эту связующую нить, в ABBYY построили независимую от конкретного языка универсальную семантическую иерархию понятий.

Семантическая иерархия понятий представляет собой универсальное для всех языков дерево, толстые ветви которого являются более общими понятиями (например, «движение» ), а тонкие — более специфическими смысловыми значениями, структурированными от общего к частному («ползать», «летать», «ходить пешком», «бегать» и т.д.). Если речь идет про руководителя организации, то во главе данного лексического класса фигурирует понятие «лидер», а в подклассах представлены более частные понятия, такие, как «босс», «начальник», «руководитель», «шеф» и прочие слова и словосочетания, являющиеся своего рода листочками на дереве понятий.

ABBYY Compreno оперирует не словами, а значениями (понятиями). Одно значение может быть в одной ветке иерархии, а другое — в иной

Такая древовидная структура обеспечивает наследование свойств от предков к потомкам и позволяет избегать неоднозначностей в процессе перевода предложений с одного языка на другой. Пояснение разработчики дают на примере значения слова «управление», в русском языке соответствующего нескольким понятиям на разных ветвях универсального семантического дерева: можно «управление» интерпретировать как департамент, а можно, к примеру, — как действие. И благодаря тому, что семантический класс «управление» в смысле некой организации представлен в одной ветке дерева, а как действия в другой, система автоматически подбирает правильное слово при переводе текста на английский язык, делая выбор в пользу department или management в зависимости от контекста фразы. Как следствие, служащие ядром Compreno семантические описания позволяют легко переводить текст с английского или русского языка в универсальный язык и с универсального — на любой другой, описания которого имеются в системе.

Вторым крупным блоком платформы Compreno является синтаксис. Важно понимать, что синтаксис описывает то, каким образом понятия связаны друг с другом внутри одного или нескольких предложений. Для кодирования этих связей в языках используются члены предложения, согласования, порядок слов, падежи, различные служебные слова, союзы, предлоги и много всего остального. Синтаксис — это, образно говоря, большой конструктор из перечисленных элементов.

В различных языках могут использоваться разные элементы конструктора. Например, в английском порядок слов является важной частью синтаксиса. Вопросительные предложения формируются одним образом, повествовательные — другим, и никак иначе.

Бывают некоторые опциональные обстоятельства времени и места, которые ставятся в начало предложения, но обычно на первом месте находится подлежащее, на втором — сказуемое и дальше располагаются остальные части речи. В русском языке другая ситуация. Мы не завязываемся на порядок слов, но зато для нас важно согласование, что, собственно, и является едва ли не самым крупным камнем преткновения для людей, изучающих русский.

Другая важная вещь, которую необходимо учитывать при синтаксическом разборе текста, — подстановки и связи между словами, имеющие место тогда, когда мы пропускаем какое-либо слово, но понимаем, что оно все равно есть. Яркий пример — фраза «Мальчик любит красные яблоки, а девочка зеленые».

Ясно, что в отношении девочки речь идет про яблоки (а также про то, что она их любит), и мы прекрасно это поняли, хотя в тексте пара слов пропущена. Есть и другие, более сложные синтаксические связи, успешно разбираемые Compreno. Например: «Хоть мальчик и хотел поиграть, но он понимал, что у него мало времени». В данном случае мы два раза заменили слово «мальчик» местоимениями «он» и «него», и машине важно понимать, что это один и тот же объект, и восстанавливать пропущенные узлы.

ABBYY Compreno стремится к определению смысла текста, написанного на обычном языке, позволяя машине «понять» этот текст и трансформировать его в универсальное представление, не зависящее от языка

Блок Compreno, отвечающий за синтаксис, разбирает роли различных понятий в предложении и связывает их друг с другом. Система анализирует текст и выстраивает дерево связей, в котором главным является обычно какое-то действие. От него далее идут объект, субъект и прочие атрибуты, привязывающиеся либо к объекту, либо к субъекту и передающие заложенный в конкретном предложении смысл. Чтобы синтаксический разбор был максимально точным, Compreno использует семантический анализ, основанный на вышеописанной универсальной иерархии понятий. Все это в сумме предоставляет новый уровень свободы при обработке машиной текстов, позволяет ей «понимать» смысл исходного предложения и затем синтезировать этот смысл на другом языке.

Наконец, третьей важной составляющей лингвистической платформы ABBYY является статистика, позволяющая системе правильно сочетать фразы и более полно разбираться с омонимией, когда одно и то же слово может означать разные вещи (типичный пример: «замок» и «замок»). Не менее важна статистическая информация и для корректного разбора предложений с двусмысленным толкованием. Например, провести грамотный анализ фразы «Эти типы стали есть в нашем цехе» можно только прибегнув к данным о частоте взаимоотношений между понятиями, вникнув тем самым в контекст речи или, иными словами, в предмет обсуждения. Если он о металлургии, то повествование идет про сталь, если про поведение людей, то логичным будет сделать выбор в пользу некоторых не очень хороших типов.

Читайте также:
Программа асу врк что это

В основу статистической модели Compreno положен внушительный набор текстов разной тематики и жанров, едва ли не ежедневно обрабатываемых системой. Причем текстовых данных не абы каких, а созданных либо переведенных с одного языка на другой именно человеком. Подобный подход снижает вероятность возникновения ошибок в процессе принятия системой решений и искажений при синтезе смысловых конструкций.

Что же в итоге получилось? В итоге специалистам ABBYY удалось, объединив знания, воображение, идеи и опыт, построить на «трех китах» — семантической иерархии понятий, синтаксисе и статистике — модель языково-независимых данных об устройстве мира и модель доступа к этим данным. Как следствие, удалось максимально близко подойти к пониманию смысла текста компьютером и сделать возможным решение широкого пласта лингвистических задач. Каких именно?

⇡#Игры разума

Говоря о практической значимости платформы ABBYY Compreno, разработчики, прежде всего, акцентируют внимание на решении двух ключевых задач — автоматическом переводе текстов для множества языковых пар и интеллектуальном поиске информации.

Первая задача, связанная с транслированием текстовых данных, крайне важна в век цифровых технологий, стирающих формальные границы и барьеры между странами. При постоянно возрастающих объемах многоязычной информации, необходимости вовлечения все большего количества участников из разных уголков мира в реализацию современных проектов критически важными становятся не только скорость получения перевода, но и качество получаемых на выходе текстов.

С обеспечением последнего у существующих систем машинного перевода дела обстоят вовсе не так гладко, как может показаться на первый взгляд. Виной всему — многочисленные принципиальные ограничения в научных подходах, которые являются основой многих существующих машинных переводчиков.

Эти ограничения связаны с невозможностью корректно обрабатывать исключения, объективной сложностью языковых конструкций, игнорированием семантики, неумением фиксировать реальные связи в предложении и прочими проблемами. Технология Compreno является инженерным воплощением фундаментальных лингвистических исследований многих учёных мира, аккумулирующим примерно 50-летний опыт. И благодаря этому Compreno умеет преодолевать перечисленные сложности и позволяет синтезировать текст по смыслу такой же, какой он был на оригинальном языке, или максимально похожий. Для оценки возможностей системы ниже представлен пример перевода кусочка статьи Google’s «Babel fish» heralds future of translation средствами статистического переводчика и платформы ABBYY. Комментарии, как говорится, излишни.

If we tried manually to give the system those languages, it would be a hopeless task. The only possible way we could do this is to harness the power of machine computation. We build statistical models that are automatically training themselves and learning all the time.

Если бы мы попытались вручную дать системе те языки, это было бы безнадёжной задачей. Единственный возможный способ, которым мы могли бы сделать это, состоит в том, чтобы использовать силу машинного вычисления. Мы создаём статистические модели, которые автоматически обучаются и учатся всё время.

Если бы мы попытались вручную, чтобы дать системе этих языков, то было бы безнадежной задачей. Единственно возможным путем мы могли бы сделать это, чтобы использовать возможности машины вычислений. Мы строим статистические модели, которые автоматически обучение себя и учитесь все время.

Важность второй задачи — интеллектуального поиска — является следствием колоссального объема порождаемой человечеством информации, растущего в геометрической прогрессии и требующего иных подходов к анализу и поиску нужных данных. Сейчас поиск работает в основном с использованием словесной информации: при поиске документа мы сначала придумываем слова, которые должны в нем содержаться, затем вводим ключевые фразы, получаем удовлетворяющие критериям поиска данные и далее вручную выбираем интересующую нас информацию.

Такой, ставший привычным поиск имеет ряд крупных недостатков. Во-первых, далеко не всегда можно сформулировать запрос, точно описывающий ту информацию, которую необходимо найти. Во-вторых, придумывая уточняющие слова, мы суживаем выборку и ограничиваем поиск. Наконец, перебирать все комбинации ключевых слов порой бывает крайне утомительно, а то и вовсе невозможно. Со всеми этими недостатками успешно справляются технологии ABBYY Compreno, позволяющие осуществлять смысловой поиск с использованием тех понятий и связей, которые были извлечены машиной из поискового запроса, сформулированного обычным языком.

Слоган «Мы помогаем людям понимать друг друга» прекрасно отражает суть технологий ABBYY Compreno

«Эрудированность» платформы и сосредоточенный в ней огромный багаж знаний позволяют использовать Compreno для выполнения множества других прикладных задач. На ее основе компании могут создавать качественно новые решения для систем многоязычного поиска и классификации данных, извлечения фактов и установления связей между объектами, мониторинга, систем защиты от несанкционированного использования информации, автоматического реферирования и аннотирования документов, распознавания речи и многих других задач.

Не менее перспективной и интересной сферой применения Compreno является решение задач, связанных с визуализацией текста. Яркий пример — создание мультипликационных роликов и фильмов на основе текстовых сценариев. Именно в этом направлении работает компания «Базелевс Инновации», также принимающая активное участие в проекте «Сколково» и уже добившаяся определенных результатов в создании программного комплекса для интерактивной трехмерной визуализации текстов. В ABBYY не без гордости заявляют, что в мире сейчас не существует настолько универсальной платформы, которая позволяет решить так много прикладных задач, требующих качественного лингвистического анализа текстов.

⇡#Планов громадье

На сегодняшний день, как было сказано выше, в проекте участвуют более 300 специалистов, активно привлекаются молодые кадры, студенты кафедры ABBYY в МФТИ и выпускники ведущих вузов страны — МГУ, РГГУ, МГЛУ, СПбГУ и многих других. Если посмотреть на корни работы, то они кроются в серьёзных исследованиях российской и мировой лингвистики. Этот научный багаж используется специалистами ABBYY. В планах компании значатся привлечение к участию в проекте ведущих мировых специалистов в области языкознания и лингвистики и придание проекту международного статуса.

В настоящий момент ABBYY реализует пилотные проекты по развертыванию программных решений на базе Compreno. Пока инициаторы проекта не раскрывают подробностей о разрабатываемых продуктах, но заверяют, что от их реализации и повсеместного внедрения в конечном итоге выиграют все — и производители софта, и потребители, то есть мы с вами.

Пока еще рано говорить о том, как сильно изменит жизнь человечества амбициозный проект ABBYY Compreno в будущем. Однако можно с уверенностью утверждать, что уже в ближайшее время компьютерная лингвистика совершит значительный прогресс в области моделирования языка и перейдет на совершенно новую технологическую базу, фундамент которой закладывается сейчас.

Источник: 3dnews.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru