Четырнадцатого сентября компания «Яндекс» запустила новую версию своего переводчика. Главным нововведением является внедрение гибридной системы, которая умеет выбирать между нейронным машинным переводом и статистической моделью. Об особенностях и перспективах нового Яндекс.Переводчика, а также о том, сможет ли машинный перевод вытеснить живых переводчиков, мы побеседовали с британским компьютерным лингвистом и разработчиком Дэвидом Талботом — новым руководителем сервиса.
N + 1: Дэвид, прежде чем мы начнем разговор о вашей новой системе гибридного перевода, хочу задать общий вопрос. Если говорить о задачах, которые стоят сегодня перед разработчиками машинного перевода вообще, то какую из них вы назвали бы самой сложной?
Дэвид Талбот: Машинный перевод активно развивается последние двадцать лет, однако ему еще далеко до идеала — ведь даже люди, чтобы стать хорошими переводчиками, учатся годами.
Думаю, что самая главная проблема на нашем пути — это контекст, понимание которого необходимо для успешной коммуникации. Профессиональный переводчик, к примеру, не просто владеет двумя языками, чаще всего он также является специалистом в какой-то области. Владение конкретной областью знаний, понимание того, что именно ты переводишь, осознание различий между языками — все это пока еще очень сложные задачи для компьютера.
Елена Коканова. Предредактирование текстов для машинного перевода: плюсы, минусы, альтернативы
Люди довольно неплохо могут пользоваться двумя языками. Например, если вы переводите с английского на русский, вы понимаете, когда вам нужно изменить порядок слов, когда они должны быть согласованы, например, по роду. А для компьютера это очень сложная задача.
Память или анализ
Хорошо, тогда давайте перейдем к деталям вашей разрабботки. Обычно машинный перевод строится на основе статистической модели. Однако в последнее время все более популярны становятся нейросети. В чем, по-вашему, состоят преимущества нейросетей перед статистическим подходом к переводу?
В машинном обучении используются огромные базы данных, на которых происходит обучение модели. Это относится как к статистическому машинному переводу, так и к нейросетям. Но у разных видов машинного обучения — разные возможности.
Статистический метод использует миллиарды предложений из параллельных корпусов, то есть огромное количество предложений, переведенных людьми. По сути, этот метод основан на запоминании конкретных фраз, поэтому он требует огромного объема памяти, но сами предложения, их структуру, машина при этом не понимает. Такой метод можно рассматривать в качестве некоего «умного словаря», только вместо слов в нем целые фразы. Его преимущество состоит в том, что переводчик способен запоминать любую информацию, которую «видел» всего один или два раза.
Однако статистический метод порой дает сбои, когда разные фрагменты текста требуется собрать вместе. Например, если вы посмотрите на старую версию Яндекс.Переводчика (и на многие другие машинные переводчики), то заметите, что переведенные им фразы могут быть плохо согласованы друг с другом. В русском, например, если у существительного будет неправильный падеж, то в предложении могут появиться два подлежащих. И все из-за того, что статистический машинный переводчик не воспринимает предложение целиком.
Как оценивать качество машинного перевода? – Мария Шматова
Революционное новшество, на которое способны нейросети, как раз и заключается в том, что машинный переводчик на их основе натренирован «видеть» все предложение целиком. Благодаря своей способности понимать контекст он может определить, что вот это слово — подлежащее, а следующее за ним — уже нет. Конечно, он не обладает лингвистическими знаниями как таковыми, он по-прежнему «видит» просто набор слов, но он способен понять структуру отношений между ними. Именно поэтому переведенный с его помощью текст становится более естественным, в нем лучше согласованы слова.
В новой версии Яндекс.Переводчика имеется функция, которая позволяет сравнить перевод новой гибридной и статистической версии — так пользователи смогут увидеть, что именно поменялось и насколько стало лучше.
Существуют ли такие аспекты перевода, в которых подход, основанный на использовании нейросетей, проигрывает статистическому?
Да, конечно. Машинный перевод на основе нейросетей лучше учится на словах, которые видит часто — именно поэтому ему нужно очень много примеров. Но, например, если такому переводчику попадется название какой-нибудь компании, которое он прежде «видел» всего несколько раз, то его перевод может оказаться неправильным. Поэтому мы решили использовать оба подхода, нейросетевой и статистический, вместе: их сотрудничество оказалось весьма эффективным. Такая модель перевода и называется гибридной.
Память плюс анализ
Как она работает?
Наша гибридная модель просто переключается между двумя подходами. На практике это происходит так. У нас есть две модели — нейронная и статистическая. Переводчик на входе получает текст и пропускает его через обе модели. Затем CatBoost, наш собственный алгоритм машинного обучения, действует как классификатор, выбирая лучший вариант на основании входных данных.
Обычно мы ожидаем, что нейронный перевод будет лучше, но иногда он дает неверный результат. Тогда классификатор в режиме реального времени выбирает статистическую модель.
Насколько я знаю, мы создали первый общедоступный машинный переводчик, который использует гибридный подход. Мы уверены, что он гарантирует лучшее качество, чем оба составляющих его подхода по-отдельности.
То есть классификатор может только выбрать одну из двух моделей?
Пока что да. Однако мы разбиваем текст на более мелкие составляющие, в зависимости от объема входного текста. Если текст достаточно большой, то некоторые предложения в нем могут быть переведены при помощи нейросети, некоторые — при помощи статистического метода, и в готовом тексте нельзя будет отличить один метод перевода от другого.
Намерены ли вы связать эти две модели более тесно?
Разработанная нами гибридная модель — довольно простой способ использовать два подхода одновременно. Но существуют и другие.
Нейронный машинный переводчик, как уже было сказано, иногда выдает на выходе странные фразы. Не очень понятно, почему он так поступает; скорее всего, получив на вход что-то, что редко попадалось ему в обучающей выборке, он решает дать на выход какие-то случайные слова, и иногда они не имеют абсолютно никакого отношения к переводимому тексту. Это частая проблема нейронного машинного перевода. А статистическая модель может ограничить эту случайную выдачу.
Сейчас два наших метода перевода работают как две независимые системы. В будущем мы надеемся научить их более тесному сотрудничеству.
Как именно CatBoost выбирает лучший вариант перевода?
Сперва обе модели — и нейронный, и статистический машинный переводчики — тренируются на огромном количестве текстов из параллельных корпусов. Затем они сами производят большое количество переводов. Потом наступает очередь обучаться классификатору. В его распоряжении имеются как примеры машинного перевода, выполненные обеими моделями, так и небольшой объем референтных примеров — переводов, выполненных людьми (они тоже взяты из параллельных корпусов). На основании референтных примеров классификатор учится понимать, в каких случаях машинный перевод максимально приближается к «человеческому» образцу, в каких случаях ему удается набрать максимальное количество очков BLEU — системы оценки качества перевода, которая применяется к обеим нашим моделям.
BLEU (bilingual evaluation understudy) — это алгоритм для оценки качества машинного перевода, который определяет количество слов, совпадающих в переводе системы и эталонном переводе предложения. В качестве коэффициента BLEU Яндекс.Переводчик использует процент совпавших n-грамм (где n ≤ 4).
Вот как это работает. Предположим, у нас есть на входе какое-то предложение и мы переводим его с помощью обеих моделей. Если бóльшая часть слов из одного варианта перевода соответствует словам, которые были в обучающей выборке, то классификатор выбирает именно этот вариант и запоминает особенности, сделавшие этот перевод хорошим.
И наоборот, классификатор отбрасывает вариант, если он плохой. Например, частая проблема нейронного перевода — это повтор слов. Если в переведенном предложении повторяются слова, значит, такой перевод нам не подходит — и классификатор делает выбор в пользу статистической модели.
Перевод и метафоры
Правда ли, что одна из самых сложных задач для машинного переводчика — это передача выразительных языковых средств, например метафор?
На данный момент не собрано достаточного количества данных для того, чтобы научить компьютер понимать такие языковые средства. Соответственно, их перевод действительно является очень сложной задачей. Но метафора — это тот уровень языка, который сегодня не столь важен для машинного перевода. Сначала мы должны добиться правильной передачи основного лексического значения.
Возможно, в будущем перевод абстрактных единиц языка станет основной и самой сложной задачей для машинного перевода. Как вы думаете, возможно ли в таком случае применение таких лингвистических теорий, как, например, теория концептуальных метафор?
Теория концептуальных (когнитивных) метафор — это теория когнитивной лингвистики, в соответствии с которой любое абстрактное понятие обязательно описывается через конкретное. Примером такой метафоры может быть сочетание времени и денег: мы тратим время так же, как мы тратим деньги, а драгоценные часы хранятся, как банковские вклады. Эта теория, однако, распространяется не только на язык, но также, по мнению авторов, и на формирование нашего сознания.
В начале развития машинного обучения, в конце девяностых годов, считалось, что у статистического метода машинного перевода — колоссальный потенциал, и к началу нулевых он действительно стал очень популярен. Но в большинстве случаев исследователи считали лишним прибегать к лингвистическим моделям для его улучшения, так как существовали другие способы добиться высокого качества перевода, более эффективные на первом этапе — требующие меньше человеческих ресурсов и дающие лучшие результаты. Когда потенциал применения данных был исчерпан и рост качества замедлился, лингвистические модели начали использовать — и это дало хорошие результаты.
В последние годы многие системы используют машинный перевод, основанный на нейросетях, — но, опять-таки, без привлечения лингвистических моделей; сперва необходимо использовать потенциал данных. Я уверен, в скором будущем в индустрии начнут использовать и лингвистические модели для нейросети, однако, это вопрос времени, пока что это требует бóльших ресурсов и сложнее.
В нашей гибридной модели машинного перевода используются некоторые лингвистические модели — в основном, синтаксические. Но пока что они применяются в статистической модели, а не в нейронной.
Они основаны на контекстно-свободных грамматиках?
Нет, на грамматике зависимостей. Контекстно-свободные грамматики более популярны в англоязычных лингвистических сообществах, а грамматика зависимостей — в русскоязычных, а также, например, во Франции и Чехии. Такой подход более естественен для описания языков, в которых нет строгого порядка слов в предложении, потому что он помогает обозначить роль отдельных слов, а не их порядок.
Человек плюс машина
Какова вероятность того, что машинный перевод достигнет совершенства и живые переводчики останутся без работы?
Думаю, что скорее живые переводчики станут чаще прибегать к помощи машинных. До недавнего времени качество машинного перевода было не на высоте. Например, правка текста, переведенного машинным способом, могла занимать даже больше времени, чем тот же перевод, выполненный человеком самостоятельно.
Именно поэтому профессиональные переводчики обычно выступают против машинного перевода. Людям легче понять и воспроизвести ту информацию о тексте, которая недоступна компьютеру — например, стилистические особенности оригинала. Компьютер этого пока не умеет.
Но вообще машинный перевод предоставляет взаимовыгодные возможности: не только человеку видны ошибки компьютера, но и компьютер может подсказать человеку, что тот где-то ошибся. Таким образом, они могут учиться друг у друга. Да, люди нередко опасаются, что искусственный интеллект оставит их без работы. Но я думаю, что компьютер не заменяет человека, а расширяет его возможности. Скорее всего, в будущем люди будут переводить с других языков быстрее и чаще, чем сегодня, но определенно не прекратят этого делать.
Как вы думаете, машинный перевод будет способствовать сохранению редких языков?
В Великобритании, откуда я родом, говорят как минимум на одном малом языке — на валлийском. Это кельтский язык, на нем говорят в основном в Уэльсе, число носителей — около семисот тысяч. Я знаю, что валлийцы с опаской относились к машинному переводу. В Уэльсе все общественные вывески и вся открытая информация должны быть доступны и на английском, и на валлийском. Когда появились машинные переводчики, умеющие работать с валлийским, многие организации начали использовать их вместо живых переводчиков — и возникло немало проблем.
Все же мне кажется, что машинный переводчик с английского на валлийский полезен тем, что с его помощью в интернете появилось больше информации на валлийском. Также он очень полезен тем, кто учит язык — и это, кстати, касается всех малых языков.
Пожалуй, главное, что в наших силах, — это как раз помочь желающим изучать малые языки. Скажем, это могут быть люди, родившиеся в семье носителей малого языка, которые сами немного владели им в детстве, но потом забыли. Они могут воспользоваться онлайн-переводчиками, чтобы вспомнить этот язык и начать изучать его систематически.
Важно также работать вместе с носителями, желающими сохранить свой язык. Сейчас мы с помощью таких людей стараемся собрать данные для обучения нашей системы, чтобы улучшить качество машинного перевода с редких языков.
И последний вопрос. Известно, что до перехода в Яндекс вы работали в Google. Что повлияло на ваше решение сменить место работы?
Я переехал в Россию вместе с Google около четырех лет назад — работать над голосовым поиском в московском офисе компании. В то же время я начал преподавать в ШАД (Школе анализа данных, созданной «Яндексом». — Прим. N + 1). Я прочитал там курс лекций о машинном переводе, и это был очень интересный и приятный опыт. Примерно год назад я встретился с разработчиками «Яндекса», и оказалось, что в компании происходит много всего интересного.
У нас потрясающая команда. Алексей Байтин (прошлый руководитель сервиса. — Прим. N+1) собрал уникальную команду профессионалов, каких в мире технологий очень мало. Невозможно отказаться от шанса поработать с такой командой во времена больших изменений в области машинного перевода.
К тому же Яндекс — довольно маленькая компания по сравнению с той же Google, и это позволяет ей быть более гибкой. И мне это очень нравится.
Источник: nplus1.ru
Сравнительный анализ программ машинного перевода
Современный мир предъявляет повышенные требования к человечеству в связи с образованием единого информационного пространства. Отсутствие знания иностранного языка больше не является препятствием для международной коммуникации. Благодаря повсеместному распространению доступа к сети интернет роль перевода в жизни человечества неуклонно возрастает, в связи с тем, что в настоящее время почти все сферы человеческой деятельности сталкиваются с необходимостью перевода. Переводу с одного языка на другой подвергаются деловая и личная корреспонденция, художественные произведения, стихи, проза, тексты песен, научные книги, дипломатические документы, газетные материалы, интервью и т.д.
1.Введение. 3
2.История развития машинного перевода . 5
3.Механизм машинного перевода . 12
4.Машинный перевод: миф или реальность . 16
5. Сравнительный анализ программ машинного перевода.………. 25
6.Заключение . 33
7.Список используемой литературы . 35
Файлы: 1 файл
В отличие от других сервисов перевода, таких как Babel Fish и AOL, которые используют английскую технологию SYSTRAN, Google, как и Translate.ru разработал собственное программное обеспечение. Google Translate использует самообучаемый алгоритм статистического машинного перевода. Слово «статистика» в названии технологии сразу наводит на размышления о том, что в системе применены математические методы для получения перевода. Весь принцип работы основан на статистическом вычислении вероятности совпадений фраз из исходного текста с фразами, которые хранятся в базе системы перевода, другими словами эта технология основана на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. Такие системы перевода строятся на основе сравнения больших объемов корпусов параллельных текстов.
Корпус параллельных текстов — это тексты, содержащие предложения на одном языке и соответствующие им предложения на втором. 34 Статистический машинный перевод обладает свойством «самообучения»: то есть, чем больше в распоряжении имеется параллельных корпусов текстов и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Для работы такой системы необходимы огромные базы параллельных текстов, где попарно хранятся словосочетания (фразы из 2–3 слов) и их переводы, так называемые N-граммы. Очевидно, что практически единственным и совершенно неисчерпаемым источником такой базы может служить только Интернет. Именно этим можно объяснить, что в сравнительных тестах по переводу с арабского и китайского на английский, проведенных Национальным институтом науки и технологий США в 2009 году, именно он-лайновый переводчик Google Translate одержал победу 35 .
В процессе перевода используется механизм анализа, но не лингвистический, а статистический. Система подбирает вариант перевода, основываясь на частоте совпадений, то есть в конечном итоге будет подставлен вариант, имеющий наиболее высокий процент совпадений. Из-за того, что выдача вариантов контролируется статистическим алгоритмом, при переводе обычных общеупотребительных слов Google Переводчик может предлагать в числе возможных вариантов нецензурные слова. На результат выдачи также можно повлиять, массово предлагая некий, в том числе, заведомо неверный вариант перевода. 36
Google Переводчик предлагает перевод с любого поддерживаемого языка на любой поддерживаемый, но в большинстве случаев реально выполняет перевод через английский язык. Иногда качество от этого сильно страдает. Например, при переводе с польского на русский обычно нарушаются падежи (даже когда они в русском и польском одинаковы).
Преимуществами системы Google Переводчик являются:
- Сравнительная гладкость перевода,
- Легкость в построении при достаточном количестве параллельных корпусов,
- Переносимость технологии на любые языковые пары.
Недостатки системы Google Переводчик:
- Ограниченность параллельных корпусов в природе, сети интернет,
- Неумение справляться с морфологией и синтаксисом,
- Искажение информации (дублирование, пропуск, подмена информации).
Подводя итоги анализа программ ПРОМТ и Google, однозначно сделать вывод о преимуществе какой-либо из них невозможно, поскольку каждая имеет ряд положительных и отрицательных характеристик. Так например, плюсами программы ПРОМТ можно назвать ее самодостаточность, ведь для работы переводчика не требуется доступ к базам параллельных текстов. Кроме того, система позволяет выполнять настройку, что серьезно повышает качество перевода специализированных текстов. Минусом этой технологии можно назвать большую ресурсоемкость работы по улучшению качества перевода — ведь для этого нужно не только разрабатывать новые алгоритмы, но и улучшать многие из ранее созданных.
Напротив, программа Google обладает следующими преимуществами — отсутствие необходимости разработки лингвистических алгоритмов в принципе. Как утверждают разработчики, при наличии свода статистических алгоритмов и базы параллельных текстов можно сделать систему перевода с любого языка. Также перевод получается более приближенный к литературному языку.
Минусом статистических систем является отсутствие учета грамматических правил входного и выходного языков. В результате вместо связного перевода можно получиться совершенно не согласованные предложения с разрушенной структурой.
В качестве практической части данной курсовой работы, проведем сравнительный анализ технологий машинного перевода на примере программ PROMT и Google.
С целью наглядно продемонстрировать принципы действия рассматриваемых систем-перевод чиков, использования ими словарей, грамматики и оценить качество перевода подвергнем пару предложений переводу.
При анализе текста выделим два основных критерия:
1) правильность подбора системой-переводчиком значения слов (уровень лексики),
2) правильность согласования слов в предложении (уровень грамматики, согласование слов в предложении в роде, числе, лице, падеже, а также пунктуация).
Возьмем в качестве примера следующий отрывок текста:
«It would be hard to imagine a more evil piece of work than Robert Alton Harris. After a lifetime of vicious, random crime, in 1979 in California he murdered two teenage boys in cold blood for their car. As he drove away, he finished off the cheeseburgers they had been eating».
Проанализируем перевод, выполненный системой автоматического перевода PROMT:
«Было бы трудно вообразить более злую обрабатываемую деталь чем Роберт Алтон Харрис. После целой жизни порочного, случайного преступления в 1979 в Калифорнии он убил двух подростков хладнокровно для их автомобиля. Когда он уезжал, он завершил чизбургеры, которые они ели»
Система PROMT успешно справилась с поиском эквивалента английскому выражению «in cold blood». Переведенная машинным переводчиком фраза «обрабатываемую деталь» вызывает неоднозначную реакцию. Скорее всего, данная ошибка вызвана, многозначностью слов «piece» и «work». Кроме того, абсолютно неправильно переводчиком была переведена часть предложения «для их автомобиля».
Более того автор текста в смысле предложения относится к детали, человек никогда бы не перепутал одушевленное и неодушевленное. Фразу «finished off the cheeseburgers» переводчик PROMT перевёл как «завершил чизбургер». В русском языке данное словосочетание является недопустимым и естественно неупотребимым. Существенным недостатком перевода ПРОМТ является то, что в выходном языке порядок слов почти всегда такой же, как и во входном.
Тот же самое предложение подвергнем переводу он-лайн переводчика Google:
«Было бы трудно представить себе большее зло, часть работы, чем Роберт Альтон Харрис. После целой жизни порочного, случайные преступления, в 1979 году в Калифорнии он убил двух подростков в холодной крови для их автомобиля. Когда он уехал, он прикончил чизбургеры они ели».
В отличие от PROMT переводчик Google не перевёл идиому «in cold blood» и выдал для перевода фразу «в холодной крови», т.е. использовал пословный перевод. Также переводчик Google повторил ошибку PROMT в переводе предлога «for» как «для». Вместо использованного предыдущей программой фразы «завершил чизбургер» машинный переводчик Google использовал глагол «прикончил», что ничем не лучше предыдущего варианта.
Подводя итоги проделанного анализа необходимо отметить, что в англо-русском переводе он-лайн программа PROMT совершила 6 ошибок, из которых 2 лексических и 4 грамматических. А система Google в свою очередь допустила 6 ошибок, в числе которых 3 лексических и 3 грамматических.
Второе предложение взято из произведения Джейн Остин «Мэнсфилд-парк». «But Miss Frances married, in the common phrase, to disoblige her family, and by fixing on a lieutenant of marines, without education, fortune, or connexions, did it very thoroughly».
Перевод, выполненный переводчиком ПРОМТ звучит следующим образом: «Но мисс Фрэнсис вышла замуж в общей фразе, обижать ее семью, и закрепляя на лейтенанте из морских пехотинцев, без образования, состояния или связей, сделал его очень полностью». Переводчик не подобрал нужного эквивалента фразе «in the common phrase» и перевел его дословно.
Фраза «to disoblige her family» также не передала истинный смысл автора, поскольку героиня вышла замуж с целью досадить своей семье. Фраза «fixing on a lieutenant» в оригинале должна была быть переведена как «выбрав лейтенанта», а не «закрепляя на лейтенанте» как перевел машинный переводчик ПРОМТ.
Google переводчик предоставил следующий результат перевода:
«Но мисс Фрэнсис замужем, в общей фразе, в досаждать своей семьи, и, фиксируя на лейтенанта морской пехоты, без образования, благосостояния, или связями, сделал это очень тщательно».
Как и предыдущий переводчик Google не нашел нужного эквивалента фразе «in the common phrase». Глагол прошедшего времени «married» переводчик распознал как прилагательное. В словосочетании «to disoblige her family» переводчик передал смысл, но не согласовал члены предложения. Выражение в исполнении переводчика «a lieutenant of marines» — «на лейтенанта морской пехоты» прозвучало вполне достойно.
Итогами данного анализа является 3 ошибки у он-лайн программы PROMT, из которых 3 лексических и 4 у переводчика Google. В обоих переводах слова в предложениях не согласованны.
Выполнив анализ работы вышеназванных современных систем машинного перевода, мы увидели, что у каждой системы машинного перевода есть свои сильные и слабые стороны. Продемонстрировав наглядно небезупречность машинного перевода, необходимо отметить, что на данном этапе развития системы машинного перевода не могут существовать без помощи человека. Поэтому, если мы хотим получить качественный перевод, то без постредактирования человеком не обойтись.
Важнейшее преимущество машинного перевода перед переводом, выполненным человеком – это его оперативность. К тому же в последние годы совершенствование программ позволило достаточно точно переводить многие виды текстов, однако некоторые проблемы машинного перевода остались нерешенными и по сей день.
Рассматривая машинный перевод, нельзя забывать, что компьютерная программа не способна абсолютно точно передать смысловую нагрузку, стиль текста, языковые нюансы, намеки в тексте, то есть, то, что называется тонкой игрой слов. Также компьютер не способен правильно подобрать слово в соответствии со смыслом текста или распознать «ложных» друзей-переводчиков. Большой проблемой для авторизированных программ перевода также является разделение языков на аналитические и синтетические. Процесс машинного перевода подразумевает, что предложение расчленяется на части речи, в нем выделяются стандартные конструкции, слова и словосочетания переводятся по находящимся в памяти машины словарям, затем переведенные части речи собираются по правилам другого языка. Мыслительная деятельность в данном процессе отсутствует, в связи, с чем значительно снижается качество перевода.
Компьютер во многом не может заменить переводчика. Машинный перевод условно может быть использован для перевода литературных текстов, поскольку в результате вашему вниманию будет представлен лишь черновой вариант перевода. Конечный вариант будет зависеть, от литературного таланта человека-переводчика, который наполнит текст смыслом, используя различные стилистические приемы, превратив его в истинное произведение искусства.
Иначе дела обстоят с переводом технических текстов, при котором правильный выбор специализированного словаря позволит добиться удовлетворительного результата, который иногда требует небольшого вмешательства.
В мире существует большое количество программ машинного перевода. Наиболее яркими примерами программ машинного перевода в России являются системы Stylus (фирма «ПроМТ») и ПАРС (фирма «Лингвистика 93»).
Развитие сети интернет вызвало повышенный интерес к системам машинного перевода. Миллионы людей, говорящих на разных языках, оказались в едином информационном пространстве. Английский язык преобладает в сети интернет, поскольку большинство сайтов используют международный язык для привлечения пользователей по всему миру. Естественно, что не все пользователи владеют языком, и привлечение переводчика не всегда целесообразно. Также можно отметить и другие положительные стороны использования технологий машинного перевода, такие как оперативность, конфиденциальность, универсальность перевода, свободный доступ, относительная дешевизна в использовании и т.д.
В настоящий момент технология машинного перевода развивается ударными темпами. Компьютерные технологии постоянно совершенствуется, а вместе с ней совершенней становится и машинный перевод.
Окей, Google! Когда машины заменят синхронных переводчиков?
Синхронные переводчики необходимы на любом международном мероприятии. Именно от них зависит, поймут ли друг друга партнеры и экспоненты, найдет ли спикер общий язык со зрителями. Правда, уже сейчас умные программы для перевода умеют транслировать человеческую речь на разные языки за доли секунд. Но почему у них не всегда получается выполнить свое задание хорошо?
Откажется ли ивент индустрия совсем от услуг переводческих бюро в будущем? Event LIVE выясняет у профессионалов.
Синхронисты – самые настоящие джедаи в среде переводчиков. Во время работы их мозг постоянно испытывает перегрузку, воспринимая речь на одном языке и переводя ее на другой с задержкой в пару секунд. Говорить и слушать одновременно даже на родном языке не под силу обычному человеку, но синхронисты тренируются годами и обладают рядом супер-способностей: они чрезвычайно внимательны и находчивы, а еще стрессоустойчивы, способны предельно концентрироваться и, конечно, блестяще владеют языком. Однако даже самые прокаченные синхронисты не могут работать дольше тридцати минут – любой мозг просто отказывается делать это.
Вот почему лингвисты и IT-специалисты так старательно учат искусственный интеллект синхронному переводу.
Как человек машины учил
Сначала машинные переводчики использовали в своей работе только установленные в их память грамматические правила и словари (Rule-Based Machine Translation). Из-за этого перевод выходил чересчур правильным, а иногда не выходил вовсе, потому что люди редко разговаривают так, как написано в учебниках. Тогда разработчики стали показывать машинам много параллельных текстов, в которых написано одно и то же на разных языках. Программы сравнивали тексты, делили их на слова и фразы, запоминали все возможные способы их перевода и оценивали частоту употребления каждого из них (Statistical machine translation).
В дальнейшем, переводя похожие примеры, программы анализировали статистику и подбирали самый подходящий вариант из своей «памяти». Такой способ хорошо подошел для перевода редких и сложных слов и фраз, технических и официально-деловых текстов.
Большинство программ машинного перевода до сих пор основано на синтезе этих двух подходов, например, так переводит сервис ПРОМТ. Оставалась какая-то мелочь – совместить эти разработки с программами анализа и синтеза речи, что и попытались сделать такие компании, как Google и Microsoft.
Однако разговорный язык более бессвязный, чем тексты, его грамматика – более гибкая, а еще добавились проблемы распознавания речи, в общем, синхронный перевод оказался машинам все еще не по зубам. Тогда люди подключили к работе электронных переводчиков нейронные сети, и вот тут началось самое интересное.
О том, как нейронные сети уже используются для информационной защиты, распознавания лиц, продаж и вовлечения клиентской аудитории можно прочитать в статье Искусственный интеллект в событийной индустрии и не только: три российских разработки
Как работает нейронная сеть
Как и статистические переводчики, нейронные сети тоже анализируют огромное количество параллельных текстов в поисках закономерностей и совпадений, а потом запоминают их.
Но нейросеть работает не со словами и фразами, а с предложениями, и это позволяет не потерять при переводе самое главное – смысл.
Например, раньше программы переводили так:
Can I have an exhibition ticket?
У меня может быть билет на выставку
Источник: event-live.ru