В современном мире знание иностранных языков является, чуть ли не обязательным условием, успешной адаптации. Мы живём не в закрытом пространстве, а в мире глобальной коллаборации стран. Многие бизнес процессы завязаны на взаимодействии представителей из разных стран.
Интернет расширяет наши возможности взаимодействия, предоставляя нам шанс взаимодействовать с любыми источниками знаний во всем мире. Принято считать, что мировая история машинного перевода началась с развитием компьютеров, однако идея создания механизма, способного осуществлять перевод текста с одного языка на другой, появилась еще в первой половине XVII века.
Появление компьютеров позволило начать воплощение этих проектов в жизнь. Современные технологии машинного перевода далеко ушли от первых попыток «научить» компьютер переводить текст.
Сегодня системы машинного перевода по праву принадлежат к классу систем искусственного интеллекта, поскольку выполняют отдельные функции интеллекта человека: они конструируют текст на выходном языке на основе входного текста, пользуясь сводом определенных правил, заданных в виде структур данных и алгоритмов. Изучение одного-двух иностранных языков, безусловно, расширяет границы взаимодействия, однако не закрывает проблему понимания всех возможных источников. Переводы документации, инструкций, текстов книг и многое другое с различных мировых языков было бы невозможным или требовало задействовать огромное количество дорогостоящих ресурсов, если бы не современные IT разработки, а именно программы-переводчики. Благодаря современным программам-переводчикам, у пользователей появляется уникальная возможность переводить слова, предложения и целые тексты в режиме реального времени, при помощи одного клика.
Машинный перевод
Программы словари и Программы переводчики Программы для перевода делятся на программы — переводчики и словари. Словари также служат для перевода текста, но, исходя из понятия словарь, они переводят только по одному слову. Может показаться, что переводчики подобного плана очень неудобны в работе: каждое слово нужно кропотливо искать по словарю.
Но, на самом деле, все не так уж и грустно. В словарях много плюсов перед переводчиками. Так, качество самостоятельного перевода текста чаще будет выше, чем результат, выданный программой. Поверхностно зная не родной язык, можно находить незнакомые слова и узнавать их. Тем более что по мере изучения специальной лексики незнакомых терминов становится все меньше.
Классификация систем перевода. Системы машинного перевода (МП) Системы машинного перевода — программы, осуществляющие полностью автоматизированный перевод. Главным критерием программы является качество перевода.
Кроме этого, для пользователя важными моментами является удобство интерфейса, лёгкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита пополнения словаря. С появлением Internet основные поставщики систем машинного перевода включили в свои продукты Web-интерфейсы, обеспечив при этом их интеграцию с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода Web-страниц, электронной корреспонденции и онлайновых разговорных сеансов.6.0.101.11 Business + Словари 6.0.100.10 — это многоязычная программа для перевода текстовых документов с одного языка на другой.
Перевод документов онлайн на 100 языков. Автоматический переводчик PDF/WORD/EXCEL/PPTX/InDesign
Программа поддерживает семь языков: английский, русский, украинский, немецкий, латышский, польский и французский. Pragma выполняет перевод непосредственно в окне активного приложения или в отдельном окне быстрого перевода.
Предоставляя множество словарей и дополнительные функции, помогающие освоить иностранный язык, Lingvo 12 станет вашим лучшим помощником в переводе.OnLine! позволяет переводить слова с английского на русский и обратно с помощью одного из двух сервисов — lingvo.yandex.ru или lingvo.ru.Freelance 9.0.410Freelance 9.0 — Инструмент для автоматизации процесса перевода текстов, предназначенный для переводчиков, работающих вне офиса. Лингвистический редактор «Переводчик PROMT» — основа PROMT Freelance 9.0, позволяющая выполнить перевод любой сложности.
Благодаря обновлению алгоритмов и существенному расширению словарей (в них добавлено более 300000 новых слов) перевод высокого качества можно получить уже при работе с базовым комплексом настроек системы Promt NET Expert 8.5 Server + Expert 8.5 Giant + 4U 8.5 Giant + Спец. Словари PROMT Expert 8.5 — мощная система для профессионального перевода документов.
Интегрируется с профессиональной системой Translation Программа умеет работать в двух режимах — в режиме Web и в режиме Text. Переключает их одноименная кнопка на панели инструментов программы. Кроме того, программа может переводить содержимое RTF- и ТХТ-файлов. Программа сможет работать как web-браузер и переводить содержимое сайтов.- это простой словарь для перевода английских слов, который умеет работать в фоновом режиме.
Основная часть
Программа может переводить только с английского на русский, работая со стандартным словарем. Автоматический словарь Мультитран — система для переводчиков с русского, английского, немецкого, французского, итальянского, испанского, нидерландского, латышского, эстонского и японского языка.
Содержит более пяти миллионов терминов и предоставляет возможности алфавитного, морфологического и фразового поиска. Основные даты в истории Машинного Перевода — Рене Декарт предложил универсальный язык, в котором один символ выражает эквивалентные идеи различных естественных языков. — Русский изобретатель П.П.
Смирнов-Троянский получил патент на «машину для подбора и печатания слов при переводе с одного языка на другой». — Лаборатории Bell Labs на Всемирной ярмарке в Нью-Йорке демонстрирует первое электронное устройство синтеза речи. — дата рождения машинного перевода как научного направления — Первая публичная демонстрация системы машинного перевода состоялась в Джорджтаунском университете. Система IBM Mark II переводила 49 предложений с русского языка на английский с использованием словаря, содержащего 250 слов, и шести грамматических правил.
1960 — Бар-Хиллел публикует отчет, в котором утверждается, что корректный автоматический перевод в принципе невозможен. — Национальная Академия Наук США основала Комитет по проблемам автоматической обработки речи (Alpac). — Питер Тома, бывший лингвист из Джоджтаунского университета, основывает одну из первых фирм-разработчиков систем машинного перевода — «Система автоматического перевода и электронные коммуникации» (Latsec). — Представлена автоматическая система обработки речи (ALPS) — первая программа-переводчик для микрокомпьютеров. — Ученые из Исследовательского центра Томаса Дж. Для такого полнофункционального пакета системные требования невелики и домашний компьютер программа не сильно озадачит.
Системные требования ABBYY Lingvo (многоязычная версия) Операционная система: Microsoft Windows Vista/Microsoft Windows Server 2003/Microsoft Windows XP, 1 ГГц процессор, 512 МБ ОЗУ, от 350 до 1200 МБ на жестком диске (в зависимости от количества установленных словарей), звуковая плата, наушники или колонки. Разработка Lingvo началась в 1989 году по инициативе Давида Яна и Александра Москалёва.
Сейчас это популярнейший электронный словарь. Переводчик Lingvo распространяется в нескольких изданиях, в том числе и в jewel-версии, с существенными ограничениями. Одно из них — поддержка малого количества словарей.
Для перевода можно выбрать один из 11 языков: английский, немецкий, французский, испанский, итальянский, португальский, китайский, турецкий, украинский, латинский или русский. Пакет включает в себя более 150 словарных баз и 8,7 млн. статей. Эти словари разрабатываются на профессиональном ресурсе LingvoDA.ru независимыми лексикографами.
заключение
Поэтому разница между Lingvo и обычными программами-словарями — огромна. Каждое слово Lingvo переводит предельно подробно, перевод проиллюстрирован примерами из книг, газет и др. От версии к версии в программе появляются новые словари (в том числе и орфографические, толковые), базы озвученных слов.
Но, поскольку ABBYY Lingvo — продукт платный, каждое обновление заставляет подумать, прежде чем заплатить за переход на новую версию. Разработчики Lingvo пошли навстречу покупателям, которые с помощью словаря хотят самостоятельно подучить языки, расширить словарный запас. Программа: TranslateIt! Разработчик: TranslateIt! group Сайт: www.translateit.ru Электронных словарей очень много.
Важно подобрать наиболее удобную программу, чтобы, с одной стороны, она не мешала работать за компьютером, с другой — выполняла свое доброе дело. Одна из таким программ Translateeit!. При установке необходимо ознакомиться с советами, которых не много. Вообще, это не столько советы, сколько краткое руководство к программе.
Так что несколько минут можно уделить, чтобы в дальнейшем сэкономить время. В быстрых настройках следует отключить в большинстве случаев лишний немецкий язык (в ранних версиях TranslateIt! Он отсутствовал). Возвращаясь к вступлению. Как программа может вести себя незаметно, не мешая работать?
Здесь следует подразумевать, что программа TranslateIt! находится в области уведомлений и доступна в любое время в виде словаря. Вызвать его можно как с помощью горячих клавиш, так и по нажатию правой клавиши мыши по значку и выбрав команду Открыть словарь. Но главное удобство перевода — это всплывающие подсказки.
При наведении на слово отображается перевод и транскрипция (в случае с направлением русский -> английский). Помимо транскрипции, каждое известное ей слово программа озвучивает. Направленность перевода можно выбрать в настройках TranslateIt! либо во всплывающем при переводе окошке. Таким образом, такой способ перевода дает хороший эффект в изучении.
Если же не нравится или очень мешает всплывающий по поводу и без повода перевод слова, можно отключить данную возможность. Как вариант — назначить клавишу, которую нужно зажимать для появления подсказки. Существует версия TranslateIt! для Mac OS и КПК. На сайте программы к загрузке представлены различные словари и дополнения.
Одно из них — архив с озвученными словами (как они правильно произносятся, а не синтезируются компьютером, который частенько ошибается в произношении). Программа платная.
- Информационные технологии в менеджменте (Информационная система управления)
- Nigeria was once home to Africa’s largest textile industry
- My future profession is a . (banker/economist)
- Маркетинг – это стратегия и тактика взаимодействия с конкурентом (Все компании имеют свои стили работы)
- В мировой экономике темпы роста международной торговли выше темпов роста мирового производства
- Мои достижения через 10 лет (Тяга к самостоятельности)
- Объективные и субъективные обстоятельства, обусловливающие тип, вид и конфигурацию моей карьеры (Д. Сьюпер)
- Моя личная карьера двадцать лет спустя (Я планирую свое будущее)
- Могут ли предприниматели изменить мир?
- Правила личной гигиены (Значение гигиены человека)
- Какие качества необходимы юристу (Юридические профессии нередко предполагают высокую эмоциональную вовлеченность)
- «Железный» занавес и всё, что с этим связано
Источник: www.evkova.org
Статистические и гибридные методы перевода в технологиях компании PROMT
Машинный перевод, существующий уже несколько десятилетий, в последние годы переживает бурный рост, главным образом за счет использования статистических технологий. Чем различаются системы машинного перевода и какие процессы характерны для них в настоящее время, показано в данной статье.
Основные типы систем машинного перевода
История машинного перевода начинается с так называемого «Джорджтаунского эксперимента». В январе 1954 г. в Нью-Йорке состоялась первая публичная демонстрация системы машинного перевода с русского языка на английский, разработанной компанией IBM совместно с Джорджтаунским университетом. Система по современным меркам была примитивной и включала в себя словарь объемом 250 слов и грамматику из шести правил. Эксперимент получил широкий резонанс, и исследования в области разработки систем машинного перевода начались по всему миру, в том числе и в СССР.
В 1966 г. созданная правительством США комиссия ALPAC (Automatic Language Processing Advisory Committee) опубликовала печально известный доклад, согласно которому разработка систем машинного перевода была признана нерентабельной. Это фактически привело к повсеместному прекращению работ над системами машинного перевода. Однако благодаря постоянному прогрессу вычислительной техники исследования в этой области вновь возобновились в 70-е годы, а в конце 80-х начинается разработка первых статистических систем.
Уже в 1980-е сложился рынок коммерческих разработок систем машинного перевода. По данным агентства WinterGreen Research, в 2012 г. мировой рынок машинного перевода составлял $1,6 млрд, а к 2019 г., как ожидается, достигнет $6,9 млрд. В настоящее время существует множество компаний, которые занимаются коммерческой разработкой систем машинного перевода: SYSTRAN, PROMT, Linguatec, Asia Online, Safaba и др.
Целью использования машинного перевода может быть как получение перевода высокого качества, так и простая передача смысла исходного текста (так называемый «джистинг»). Машинный перевод применяется для перевода следующих типов текста:
- пользовательский контент (отзывы, комментарии и т. д.);
- документация (техническая, эксплуатационная, юридическая и т. д.);
- новостной контент;
- каталоги интернет-магазинов;
- личная и деловая переписка.
К основным сферам применения машинного перевода относятся:
- локализация (ускорение и удешевление перевода больших объемов текста, например документации к ПО);
- оптимизация работы переводчиков и переводческих бюро (результат машинного перевода редактируется переводчиками);
- Интернет (электронная торговля, новостные и образовательные сайты).
В настоящее время существует два основных типа систем машинного перевода: основанные на правилах (rule-based machine translation, RBMT) и статистические.
Системы, основанные на правилах
В системах, основанных на правилах, можно выделить два основных подтипа: трансферные и системы-интерлингвы.
Трансферные системы машинного перевода распространены более широко, чем системы-интерлингвы. Они работают по следующим принципам: проводится морфологический, лексический и семантико-синтаксический анализ предложения на языке оригинала, создается синтактико-семантическое дерево разбора входного предложения, затем производится так называемый «трансфер», т. е. преобразование структуры входного предложения в соответствии с формальными требованиями языка перевода. На заключительном этапе синтеза формируется конечное предложение на языке перевода. Основанная на правилах система перевода PROMT является классическим примером трансферных систем.
В основе систем-интерлингв лежит теория о том, что любое предложение любого языка можно преобразовать в его смысловое представление на так называемом универсальном метаязыке. А из полученного смыслового представления можно синтезировать предложение на языке перевода. Иными словами, с помощью определенного набора правил и словаря с семантическими характеристиками можно преобразовывать текст в смысл и наоборот. Интерлингвы требуют очень долгой разработки и создания огромных баз знаний о языке.
Системы, основанные на правилах, обладают рядом общих характеристик. С точки зрения устройства, они включают в себя словари и формальные грамматики, т. е. наборы правил морфологического, семантического и синтаксического анализа языка. С точки зрения разработки и эксплуатации, такие системы обладают рядом преимуществ и недостатков.
Достоинства: высокое качество, стабильность и предсказуемость машинного перевода.
Недостатки: высокая стоимость разработки и поддержки лингвистических алгоритмов и словарей, а также большое количество времени, необходимое для лексической настройки системы для отдельного клиента или новой предметной области. Кроме того, при высокой точности основанный на правилах перевод обладает определенным «машинным» акцентом, т. е. часто выглядит неестественно.
Современные RBMT-системы обычно включают в себя общетематические словари (объемом от нескольких десятков до нескольких сотен тысяч статей) и специализированные словари по отдельным тематикам (объемом до нескольких десятков тысяч статей). В таблице 1 приведены статистические данные по объему общетематических словарей RBMT-системы PROMT.
Производительность RBMT-систем машинного перевода зависит от различных параметров (среди которых количество и сложность грамматических правил, объем и количество используемых словарей) и обычно варьируется от нескольких слов до нескольких сотен слов в секунду. Например, производительность RBMT-системы PROMT для англо-русского направления составляет примерно 150–200 слов в секунду при переводе в один поток на компьютере с процессором Intel Core i7-2600K CPU с частотой 3,40 ГГц.
Статистические системы
В основе любой системы статистического машинного перевода лежит использование массивов текстов, представленных одновременно на языке оригинала и языке перевода. Такие массивы данных называются параллельными корпусами текстов.
Сначала статистическая система проходит этап обучения, на котором извлекаются статистические данные о переводе отдельных слов и фраз с исходного языка на язык перевода. В процессе перевода такая система вычисляет наиболее вероятный перевод исходного предложения на основе данных, полученных при обучении. Помимо параллельного корпуса текстов, статистические системы используют корпусы текстов на языке перевода. На основе такого корпуса строится статистическая модель языка перевода, которая используется при оценке того, насколько вариант перевода предложения адекватен и «гладок» с точки зрения норм и правил языка перевода.
Достоинства: быстрая настройка (по сравнению с системами, основанными на правилах), самообучаемость (участие эксперта при настройке системы можно свести к минимуму), а также высокая «гладкость» перевода (перевод очень похож на человеческий и в нем практически отсутствуют шероховатости).
Недостатки: необходимость наличия качественных параллельных корпусов большого объема для настройки системы. Кроме того, статистический перевод часто содержит большое количество грамматических ошибок (особенно когда речь идет о языках с богатой морфологией, таких как, например, русский или немецкий) и в целом отличается нестабильностью и непредсказуемостью
(к примеру, одна и та же конструкция может переводиться совершенно по-разному в разных контекстах, в переводе могут пропадать слова и т. д.).
Производительность современных статистических систем может широко варьироваться и зависит, в первую очередь, от трех факторов:
- объем модели перевода;
- объем языковой модели;
- объем выделяемой оперативной памяти.
Производительность статистической системы PROMT для модели перевода объемом около 100 млн. словоупотреблений составляет 15–20 слов в секунду при переводе в один поток на компьютере с процессором Intel Core i7-2600K CPU с частотой 3,40 ГГц и объемом оперативной памяти 16 Гбайт.
Использование статистических методов в системе PROMT
Компания PROMT занимается разработкой статистических и гибридных систем машинного перевода с 2008 г. Основной мотивацией для такой работы послужило, с одной стороны, стремление преодолеть недостатки RBMT-системы за счет создания гибридной системы перевода, а с другой стороны — создание статистических систем для тех языковых пар, которых нет в базовой системе PROMT. Так, компания занимается разработкой статистического перевода для казахского, финского, китайского, японского и скандинавских языков.
Принципы работы гибридной системы PROMT
Гибридное решение PROMT доступно для всех языков базовой системы, которые включают в себя русский и основные европейские языки. В основе гибридной системы PROMT лежит идея о том, что с помощью параллельного корпуса текстов и специального статистического модуля можно, во-первых, быстро и качественно настроить перевод для определенной предметной области, а во-вторых, исправить недостатки, ошибки и шероховатости перевода, основанного на правилах. Такой специальный модуль называется модулем статистического постредактирования.
Гибридная система, так же как и статистическая, проходит процесс обучения на параллельных данных. Обучение можно разделить на три стадии:
- осуществляется перевод исходной части параллельного корпуса на языке оригинала базовым RBMT-модулем перевода;
- настраивается статистическая модель перевода с «машинного» языка на человеческий;
- настраивается статистическая модель на основе корпуса языка перевода.
Схема обучения гибридной системы представлена на рис. 1.
Рис. 1. Схема обучения гибридной системы перевода
Гибридная система PROMT содержит два основных компонента: базовый RBMT-модуль перевода и модуль статистического постредактирования, который использует данные, полученные на этапе обучения (статистическая модель перевода, статистическая модель выходного языка). В процессе перевода сначала исходное предложение переводится базовым модулем, затем полученный перевод обрабатывается статистическим компонентом, т. е. фактически на этом этапе осуществляется перевод с «машинного» языка на человеческий по правилам статистического машинного перевода. Схема процесса перевода гибридной системой представлена на рис. 2.
Рис. 2. Процесс перевода предложения гибридной системой
Оценка качества перевода гибридной системы PROMT
Многие исследователи говорят о способности гибридных систем опережать по качеству перевода как RBMT-системы, так и статистические. К примеру, разработчики компании SYSTRAN в статье Statistical Post-Editing on SYSTRAN’s Rule-Based Translation System отмечают, что их гибридная система перевода с модулем постредактирования превосходит базовую RBMT-систему.
Специалисты компании PROMT провели серию экспериментов по сравнению RBMT-, статистической и гибридной системами для англо-русского направления перевода. Эксперименты проводились на текстах компании PayPal, которая является клиентом компании PROMT. Тексты представляют собой английское руководство по использованию сервисов PayPal и его локализованную русскую версию.
Объем корпуса для обучения гибридной и статистической систем составил примерно 1 млн словоупотреблений. Тестирование систем проводилось на выборочной совокупности из ста случайным образом отобранных из обучающего корпуса предложений. При тестировании использовалась экспертная лингвистическая и автоматическая оценки на основе метрики BLEU (Bilingual Evaluation Understudy). Гибридная система сравнивалась с RBMT-системой, а также со статистической системой PROMT, настроенной на текстах PayPal. Кроме того, в сравнение был включен статистический перевод с онлайн-сервиса Google Translate.
Метрика BLEU была разработана сотрудниками компании IBM и является одной из самых простых и популярных метрик оценки машинного перевода. Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения машинного перевода с человеческим и поиска общих слов и фраз. Основная идея разработчиков метрики состоит в том, что чем лучше машинный перевод, тем больше он должен быть похож на человеческий. Результаты автоматической оценки представлены в таблице 2.
Также была проведена экспертная оценка. Перевод гибридной системы попарно сравнивался с переводами других систем в терминах «лучше» (один из переводов явно превосходит другой по качеству) и «эквивалентно» (два перевода принципиально не отличаются друг от друга по качеству). При оценке учитывались грамматическая и лексическая правильность, адекватность (правильная передача смысла исходного текста) и гладкость перевода.
Результаты экспертной оценки представлены в виде графика на рис. 3.
Рис. 3. Результаты экспертной оценки машинного перевода выборочной совокупности из корпуса PayPal для различных систем
Результаты экспериментов показывают, что гибридная система превосходит RBMT- и статистическую систему согласно как автоматической, так и экспертной оценке.
Проблемы при использовании статистических технологий в системе машинного перевода
Использование статистических технологий сопряжено с рядом сложностей. Они касаются как внутренних (ухудшение качества и стабильности перевода), так и внешних факторов (поиск данных для обучения систем).
Стабильность и качество перевода
В ходе разработки гибридной системы машинного перевода специалисты столкнулись с тем, что статистический компонент в некоторых случаях может привносить в базовый перевод не только улучшения, но и ухудшения. Прежде всего, это касается перевода именованных сущностей, т. е. специальных типовых языковых конструкций (даты, адреса, имена, названия организаций, числовые последовательности и т. п.).
Перевод таких конструкций чрезвычайно важен для клиентов компании. К примеру, сумма и адрес юридического лица, прописанные в контракте, должны остаться такими же и в переводе этого контракта. Для решения этой проблемы статистический компонент гибридной системы PROMT использует метаинформацию, которую он получает из базового компонента. Все специальные конструкции на этапе перевода базовым модулем резервируются, т. е. помечаются специальными тегами. Статистический компонент использует данную метаинформацию и оставляет такие конструкции без изменений.
Данные для обучения статистических и гибридных систем перевода
Для настройки гибридной или статистической системы машинного перевода необходимы параллельные корпусы текстов достаточно большого объема (около одного миллиона словоупотреблений для гибридной системы и на порядок больше для статистической). И здесь разработчики сталкиваются с проблемой: где брать эти данные? Для настройки системы перевода для клиента используются параллельные тексты, накопленные им в ходе экспертного перевода клиентских данных переводческими агентствами.
Какие же данные использовать для настройки универсальных систем перевода? Существуют параллельные корпусы в открытом доступе. В качестве примера можно привести корпус протоколов заседаний Европарламента (доступен на двадцати языках, объем корпуса от десяти до пятидесяти миллионов словоупотреблений для каждого языка), корпус протоколов заседаний ООН (семь официальных языков ООН, объем корпуса в среднем от ста до двухсот миллионов словоупотреблений для каждого языка), корпус субтитров к различным кинофильмам (тридцать языков). Однако такие корпусы относятся к очень специфичной предметной области и подходят фактически только для перевода подобных текстов. Другими словами, среднестатистический посетитель онлайн-сервиса перевода вряд ли станет переводить протоколы заседаний какого-либо международного правового или законодательного органа.
Другой источник параллельных данных — открытые многоязычные интернет-ресурсы, например новостные порталы. В этом случае мы имеем дело с условно-параллельными данными (к примеру, новость на английском языке может иметь вольный перевод на русский или вообще не иметь его). Такие данные необходимо выравнивать, т. е. выделять среди большого объема данных действительно параллельные предложения на разных языках. Компания PROMT успешно использует технологии автоматической обработки и выравнивания условно-параллельных данных из интернет-источников для создания параллельных корпусов для различных предметных областей.
Перспективы
Несмотря на существенное улучшение качества при переходе от RBMT-системы перевода к гибридной, ряд важных проблем остаются нерешенными. Так, перевод с использованием статистического компонента может содержать грамматические ошибки, которых нет в RBMT-переводе. Лингвистический отдел компании PROMT занимается поиском решения этой проблемы. Одним из возможных подходов является использование дополнительной информации из RBMT-компонента и постобработка гибридного перевода парсерами PROMT для выявления и исправления ошибок.
Также в скором времени планируется внедрить использование статистических технологий на онлайн-сервисе перевода компании www.translate.ru.
Данная статья основана на докладе автора, прозвучавшем на конференции AINL в Санкт-Петербурге 18 мая 2013 г.
Источник: controlengrussia.com
Машинный перевод
Целью данной работы является определение целесообразности и перспективности использования современных систем машинного перевода, доступных на сегодняшний день массовому потребителю, не владеющему в достаточной мере английским языком, а также анализ качества и эффективность выполнения машинного перевода.
Введение …………………………………………………………………………..3
Теоретическая часть……………………………………………………………..6
1. Машинный перевод…………………………………………………………. 6
1.1. Определение машинного перевода………………………………………..6
1.2. Из истории машинного перевода…………………………………………7
1.2.1 Развитие машинного перевода в СССР…………………………………..10
2. Системы машинного перевода……………………………………………..12
2.1. Основные принципы работы программ машинного перевода…………..12
2.2 Современные системы машинного перевода……………………………..12
2.3. Описание программ………………………………………………………. 16
2.3.1. Promt………………………………………………………………………..16
2.3.2. Pragma………………………………………………………………………19
2.3.3. Google Translate…………………………………………………………. 20
Практическая часть……………………………………………………………23
3. Перевод текстов различных функциональных стилей с помощью систем машинного перевода…………………………………………………..23
3.1 Понятие функционального стиля речи…………………………………….23
3.2. Классификация функциональных стилей речи…………………………. 25
3.3. Сравнительный анализ перевода текстов публицистического и научного стиля, выполненного программами машинного перевода Promt, Pragma и Google Translate…………………………………………………………………..28
Заключение ……………………………………………………………………. 37
Библиография…………………………………………………………………. 39
Приложение А
Приложение Б
Работа содержит 1 файл
О Г Л А В Л Е Н И Е
- Определение машинного перевода………………………………………..6
- Из истории машинного перевода…………………………………………7
1.2.1 Развитие машинного перевода в СССР…………………………………..10
2. Системы машинного перевода……………………………………………..12
2.1. Основные принципы работы программ машинного перевода…………..12
2.2 Современные системы машинного перевода……………………………..12
3. Перевод текстов различных функциональных стилей с помощью систем машинного перевода………………………………………………….. 23
3.1 Понятие функционального стиля речи…………………………………….23
3.2. Классификация функциональных стилей речи…………………………. 25
3.3. Сравнительный анализ перевода текстов публицистического и научного стиля, выполненного программами машинного перевода Promt, Pragma и Google Translate……………………………………………………… …………..28
Приложение А
Приложение Б
Создание эффективно работающих систем машинного перевода, способных обеспечить приемлемое качество переводимого текста, то есть достаточное для его понимания и дальнейшего практического использования, — одна из актуальных и перспективных областей не только в современной лингвистике, но также и в других прикладных науках.
Возросший в настоящее время интерес к данной области знания, сопровождается многочисленными спорами о целесообразности применения подобных систем, а также о качестве получаемого перевода, обусловленной недостаточной, на наш взгляд, проработкой методики анализа и критериев оценки качества машинного перевода. Эти вопросы повлияли на наш выбор темы исследования и ее актуальность.
Целью данной работы является определение целесообразности и перспективности использования современных систем машинного перевода, доступных на сегодняшний день массовому потребителю, не владеющему в достаточной мере английским языком, а также анализ качества и эффективность выполнения машинного перевода.
Целью исследования продиктовано решение следующих конкретных задач в данной работе:
- Рассмотреть историю развития машинного перевода, современное состояние дел в данной области.
- Представить современную классификацию систем машинного перевода.
- Провести анализ качества машинного перевода текстов , относящихся к различным функциональным стилям с точки зрения грамматики и лексики.
- Выявить наиболее характерные ошибки в машинном переводе.
- Определить критерии оценки качества машинного перевода.
Объектом исследования является перевод, получаемый при использовании современных общедоступных систем машинного перевода, а именно Promt, Pragma, Google Translate.
Материалами исследования послужили образцы текстов, относящиеся к различным функциональным стилям речи, а именно: публицистический и деловой.
Работа состоит из введения, теоретической и практической части, заключения, библиографии и приложений.
В теоретической части рассматриваются первые два параграфа работы:
— определение машинного перевода;
— история машинного перевода;
— развитие машинного перевода в СССР;
-системы машинного перевода, доступные на сегодняшний день с примерами программ.
В практической части мы изучили определение функционального стиля, для того, чтобы далее в работе использовать два текста различного стиля для перевода при помощи программам, описанных в теоретической части работы. Далее мы выполнили анализ переводов при помощи систем машинного перевода, таких как Promt, Pragma и Google Translate, выявили наиболее грубые и частые ошибки, и предприняли попытки подобрать критерии успешности выполнения машинного перевода.
В заключении приводятся основные выводы, сделанные при анализе результатов проведенной работы.
Библиография содержит список использованной научной литературы, а также материалов по данной тематике, представленных в сети Интернет.
В приложениях мы предлагаем оригиналы рассматриваемых нами текстов, а также переводы, полученные при переводе программами машинного перевода.
Теоретическая часть
1. Машинный перевод
Под машинным переводом или автоматическим переводом (aнгл.: machine translation, automatic translation) понимают выполняемое компьютером действие по преобразованию текста на одном естественном языке в текст на другом естественном языке при сохранении эквивалентности содержания, а также результат такого действия [4, с. 250 — 251].
В Большой Советской энциклопедии различают два направления исследований по машинному переводу: 1) прикладное (промышленная реализация машинного перевода научно-технических текстов, автоматизация информационного дела и т. п.), 2) теоретическое (моделирование речевой деятельности людей как один из методов её исследования; разработка математических формализмов для лингвистических описаний; поиск алгоритмов переработки языковых объектов; исследование соотношения между человеческим мышлением и машинами и т. п.) [9].
Известные исследователи в области компьютерной лингвистики и машинного перевода, такие как Нелюбин Л.Л., а также Марчук Ю.Н. говорят о машинном переводе как о «процессе перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы» [6, c.24 ].
В данной работе мы не будем рассматривать машинный перевод с точки зрения компьютерной лингвистики, поэтому определив понятие машинного перевода, перейдем к его истории.
1.2. Из истории машинного перевода
По свидетельству биографов, еще выдающийся математик XIX века Чарльз Бэббидж пытался убедить британское правительство в необходимости финансировать его исследования по разработке “вычислительной машины”. В числе прочих благ он обещал, что когда-нибудь эта машина сможет автоматически переводить разговорную речь. В марте 1947 г. Уоррен Уивер (Warren Weaver), директор отделения естественных наук Рокфеллеровского фонда (Rockefeller Foundation), в переписке с Эдрю Бутом (Andrew D. Booth) и Норбертом Винером (Norbert Wiener) впервые сформулировал концепцию машинного перевода, которую несколько позже развил в своем меморандуме [7].
В 1949 г. Уоррен Уивер опубликовал специальный меморандум, теоретически обосновывавший возможность реализации предложенной им идеи машинного перевода. Мысли, высказанные в этом меморандуме, вызвали очень активный интерес международных ученых и инженеров и легли в основу «концепции «interlingva», согласно которой процесс перевода делился на два этапа: 1) перевод исходного текста на промежуточный язык (в основе которого лежал упрощенный вариант английского языка), 2) оформление промежуточного перевода средствами конечного языка[13].
В 1952 г. состоялась первая конференция по машинному переводу в Массачусетском технологическом университете, а в 1954 г в Нью-Йорке была представлена первая система машинного перевода — IBM Mark II, разработанная компанией IBM совместно с Джоржтаунским университетом. Была представлена очень ограниченная в своих возможностях программа, которая имела словарь в 250 единиц и 6 грамматических правил, и осуществляла перевод с русского языка на английский.
Как указывает автор статьи «История машинного перевода», в 50-х годах 20 века целый ряд исследовательских групп в США и в Европе работали в области машинного перевода. Однако, существовали некоторые причины невысокого качества машинного перевода..в результате чего первые системы машинного перевода сводились к пословному (word-for-word) переводу текстов без какой-либо синтаксической и смысловой целостности [ 18 ].
В 1959 г. философ Й. Бар-Хиллел (Yohoshua Bar-Hillel) выступил с утверждением, что высококачественный полностью автоматический машинный перевод (FAHQMT) не может быть достигнут в принципе. Однако Бар-Хиллел не отрицал идею машинного перевода как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода «человеко-машинный симбиоз»).
Это выступление самым неблагоприятным образом отразилось на развитии машинного перевода в США. В 1966 г. специально созданная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee), основываясь в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества машинного перевода было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов [9].
Следующие десять лет разработка систем машинного перевода осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе — группами GENA (Гренобль) и SUSY (Саарбрюкен).
О возрождении машинного перевода в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского языка на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и НАСА); кроме того, CEC заказывает разработку франко-английской и итальянско-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA, основанного на разработках групп SUSY и GETA. Одновременно происходит быстрое расширение деятельности по созданию систем машинного перевода в Японии; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления (система SPANAM); ВВС США финансируют разработку системы машинного перевода (МП) в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO, которая использовалась в основном для перевода метеорологических сводок. Целый ряд проектов, начатых в 70-80-е гг. впоследствии развились в полноценные коммерческие системы. [ 14 ]
1.2.1 Развитие машинного перевода в СССР
Советские ученые также занимались изучением и развитием машинного перевода. В 1954 году первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина.
После этого работы начались во многих информационных институтах, научных и учебных организациях страны, были открыты отделения прикладной лингвистики и машинного перевода. Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова, МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале, Ленинградском университете, в университетах Киева, Харькова, Новосибирска и др.
Источник: www.stud24.ru