Программа машинного перевода это

Статистический подход основан на моделях языка и перевода:

Для создания модели перевода система сравнивает сотни тысяч параллельных текстов, одинаковых по смыслу, но написанных на разных языках. Сравнивая их, система учится находить соответствия — например, запоминает, что слова «dog» и «собака» являются вероятными переводами друг друга. Результат сравнения записывает в матрицу выравнивания слов. Матрица помогает определить, какие пары фраз в паре предложений могут служить переводами друг для друга.

Для создания модели языка система изучает тексты на одном языке и составляет списки всех употребляемых слов и фраз. Каждому слову и фразе соответствует свой числовой идентификатор, определяющий их статистическую популярность в языке (частоту использования).

Во время перевода каждое исходное предложение разбивается на слова и фразы, которые переводятся независимо друг от друга. Для каждой части разбитого предложения подбирается потенциальный перевод из матрицы. Затем система заново «собирает» несколько вариантов предложения и выбирает статистически лучший вариант с точки зрения оптимальной сочетаемости слов в натуральном языке.

Машинный перевод

Достоинством статистического подхода является способность запоминать и переводить короткие фразы и редкие слова. Однако есть и недостаток — в результате может отсутствовать взаимосвязь между фразами, так как при переводе не учитывается контекст.

Нейросетевой подход

Как и в статистическом подходе, нейронная сеть также анализирует массив параллельных текстов, учится находить в них закономерности и составляет списки всех употребляемых слов и фраз.

Однако вместо простых идентификаторов из статистического подхода в нейросетевом подходе используется векторное представление слов (word embedding). Вектор состоит из чисел, характеризующих слово по лексическим и семантическим признакам.

Во время перевода каждое исходное предложение не разбивается на слова и фразы, а переводится полностью. Каждому слову в предложении сопоставляется вектор длиной в несколько сотен чисел. В итоге предложение представляет из себя некое векторное пространство. В этом векторном пространстве нейронная сеть определяет семантику слов и взаимосвязь между ними, даже если слова находятся в разных частях исходного предложения.

Система может распознать, что слова «чай» и «кофе» часто появляются в сходных контекстах.
Оба этих слова могут находиться в контексте нового слова «разлив» .

В обучающих данных со словом «разлив» встречается лишь одно из них (например, «чай» ). В итоге система выберет слово «чай» .

Достоинством нейросетевого подхода является способность учитывать взаимосвязь между словами, что позволяет добиться более связного перевода. Недостатком подхода может быть отсутствие достаточной информации по словам, которые редко встречались и для которых система еще не смогла построить приемлемое векторное представление. К редким словам относятся, например, мало распространенные имена или топонимы.

Компьютерная лингвистика №6: машинный перевод

Выбор варианта перевода и оценка качества

Как только пользователь вводит текст для перевода, Яндекс.Переводчик передает этот текст сразу двум системам: и нейронной сети, и статистическому переводчику.

Результат, полученный от обеих систем, оценивается алгоритмом, основанном на методе обучения CatBoost (english version). При оценке учитываются десятки факторов — от длины предложения (короткие фразы и редкие слова лучше переводит статистическая модель) до синтаксиса. Алгоритм оценивает оба перевода по всем факторам, выбирает лучший и показывает этот перевод пользователю.

Источник: yandex.ru

Читайте также:
Программа как сделать видео из видеороликов

Технология машинного перевода

В данном докладе рассматривается такое понятие как машинный перевод. Говоря простым языком, машинный перевод (МП) – это процесс, при котором компьютерная программа автоматически переводит текст с одного исходного языка на другой целевой язык. Машинный перевод имеет долгую и интересную историю, уходящую корнями в 1950-е годы. Со временем технология превратилась в жизнеспособное решение для быстрого и точного перевода. Достижения в области искусственного интеллекта (ИИ), обработки естественного языка и вычислительных возможностей сделали машинный перевод мейнстримом.

Аннотация статьи
гибридный машинный перевод
нейронный машинный перевод
машинный перевод на основе правил
искусственный интеллект
статистический машинный перевод
движок машинного перевода
машинный перевод
Ключевые слова
Родионов Кирилл Владимирович
Технические науки
Конференция
Технологии, образование, наука: стратегия прорыва

Поделиться
Цитировать

Преимущества машинного перевода (МП)

Машинный перевод является важным инструментом в процессе перевода. Его можно использовать отдельно или в сочетании с постредактированием человека. У МП есть три основных преимущества при использовании его в работе:

Высокая скорость перевода

Машинный перевод может переводить миллионы слов в огромных объемах. Но скорость – не единственное преимущество. МП использует искусственный интеллект (ИИ), чтобы обучаться по мере перевода большего количества контента. Кроме того, существуют памяти переводов и системы для работы с ними, которые помогают организовать и структурировать данные. Так же все это сильно помогает, когда вам нужно быстро перевести контент на несколько языков.

Большой выбор языков

Большинство крупных поставщиков машинного перевода могут переводить от 50 до 100 языков. Эти просистемы достаточно мощны и позволяют переводить несколько языков одновременно в рамках локализации глобальных проектов и обновлять документацию к ним. МП хорошо зарекомендовал себя в таких языковых парах, как английский-французский или английский-испанский.

Снижение затрат

Даже когда для постредактирования требуются переводчики-люди, машинный перевод сокращает время и стоимость перевода. МП берет на себя первоначальную тяжелую работу, создавая простые переводы, которые переводчик-человек может уточнять и редактировать. Таким образом, готовый текст максимально соответствует первоначальному замыслу текста, а контент можно быстро и эффективно локализовать.

Типы машинного перевода

Существует четыре различных типа машинного перевода: статистический машинный перевод, машинный перевод на основе правил, гибридный машинный перевод и нейронный машинный перевод.

Машинный перевод на основе правил

Машинный перевод на основе правил является прародителем современного машинного перевода. В данном случае контент переводится на основе грамматических правил. С момента разработки машинного перевода на основе правил в технологии машинного перевода произошли значительные успехи, поэтому у него есть несколько недостатков. Эти недостатки включают в себя необходимость большого количества человеческого постредактирования и добавления языков вручную. Несмотря на такое низкое качество перевода, он полезен в простых ситуациях, когда требуется перевод для быстрого понимания смысла.

Статистический машинный перевод

СМП работает путем построения статистической модели взаимосвязей между текстовыми словами, фразами и предложениями. Затем он применяет эту модель перевода ко второму языку и преобразует те же элементы в новый язык. СМП несколько лучше машинного перевода на основе правил, но по-прежнему имеет много схожих проблем.

Гибридный машинный перевод

ГМП представляет собой смесь машинного перевода на основе правил и статического машинного перевода. ГМП использует память переводов, что делает его гораздо более эффективным с точки зрения качества. Однако даже у ГМП есть свои недостатки, самым большим из которых является необходимость редактирования человеком.

Читайте также:
Запущена другая программа установки дождитесь ее завершения и повторите попытку norton

Нейронный машинный перевод

НМТ использует искусственный интеллект для изучения языков и постоянного улучшения этих знаний. Таким образом, он стремится имитировать нейронные сети в человеческом мозгу. НМТ более точен, чем другие типы перевода с использованием искусственного интеллекта. С НМП проще добавлять языки и переводить контент. Поскольку НМП обеспечивает более качественные переводы, он быстро становится стандартом в разработке инструментов машинного перевода.

НМП работает путем включения обучающих данных. В зависимости от потребностей пользователя данные могут быть общими или пользовательскими.

  • Общие данные: это сумма всех данных, полученных из переводов, выполненных с течением времени механизмом машинного перевода. Эти данные создают универсальный инструмент перевода для различных приложений, включая текст, голос и другие документы.
  • Пользовательские или специализированные данные: это обучающие данные, передаваемые в механизм машинного перевода для создания специализации в предметной области. Сюда относятся такие тематики, как механика, дизайн, программирование или любая другая дисциплина с собственными специализированными глоссариями и словарями.

Рекомендации по машинному переводу

Ниже представлены факторы, которые следует учитывать при выборе инструмента машинного перевода для вашего проекта:

  • Бюджет. Иногда нейронный машинный перевод обходится дороже, чем статический машинный перевод, но улучшение качества перевода может оправдать затраты.
  • Отрасль. В некоторых отраслях требуется перевод сложного и технического языка, что требует более сложной обработки, которую обеспечивает нейронный машинный перевод.
  • Языковая пара. СМП лучше всего работает для определенных языковых пар. Например, языки с латинским алфавитом, похожим синтаксисом и лингвистическими правилами наиболее совместимы с машинным переводом.
  • Объем контента. НМП требует большого количества исходного текста для обработки и обучения, поэтому он не подходит для маленьких проектов.
  • Работа с клиентом / внутренняя документация. Контент, предназначенный для клиентов, такой как рекламные или маркетинговые тексты, отражающие качество бренда, требует наиболее сложной комбинации машинного перевода и постредактирования квалифицированными переводчиками. Когда важны стоимость и время, основная внутренняя документация или переписка сотрудников могут быть переведены с помощью базового машинного перевода.

Какой движок машинного перевода лучше?

Известные технологические компании, такие как Google, Amazon и Microsoft, используют НМП для работы своих движков машинного перевода. Когда мы сравниваем разные движки, важно понимать, что они постоянно учатся и совершенствуются. Ниже перечислены основные движки машинного перевода.

  • Google Translate

Google Translate – первый движок машинного перевода, который использовал нейронную обработку языка и машинное обучение на основе многократного использования. Данный движок считается одним из ведущих систем машинного перевода по количеству применений, количеству языков и интеграции с поиском.

  • Amazon Translate

Amazon Translate интегрирован с Amazon Web Services (AWS). Согласно некоторым исследованиям Amazon Translate обеспечивает более точные переводы на определенные языки, особенно на китайский.

  • Microsoft Translator

Microsoft Translator интегрирован в такие продукты, как MS Office и Skype. Эта функция обеспечивает мгновенный перевод в документах и программах.

  • Watson Language Translator

Watson Language Translator – это инструмент машинного перевода от IBM. Он интегрирован в IBM Watson Data и IBM Watson Studio. Данные инструменты помогают управлять данными и создавать модели искусственного интеллекта.

DeepL Translate – это независимый движок машинного перевода, разработанный маленькой компанией из Германии. Благодаря запатентованному нейронному искусственному интеллекту компании DeepL обеспечивает более естественный и проработанный перевод. За последние годы популярность Deepl во всем мире значительно возросла.

Читайте также:
Что делать если программа несовместима

Источник: apni.ru

«Автоматический (машинный) и автоматизированный перевод» — статья агентства «Б2Б-Перевод»

Автоматический (машинный) и автоматизированный перевод

В чем отличие автоматизированного перевода от гугл-переводчика и почему в применении автоматизированного перевода нет ничего зазорного?

translate.jpg

Тема перевода с использованием в процессе работы компьютерных технологий уже давно служит причиной многочисленных дискуссий как на рынке переводов, так и за его пределами, особенно среди непрофессионалов. Само английское название класса этих программ — CAT-tools (computer-assisted (aided) translation) в переводе на русский язык звучит довольно неопределенно и у многих автоматически вызывает ассоциацию с машинным переводом.

Тем более, что производители самых распространенных САТ-программ встраивают в них движки машинного перевода, что усугубляет путаницу. Любое отклонение в переводе автоматически влечет за собой обвинение переводчиков в использовании машинного перевода (гугл-переводе, как часто говорят заказчики). Как обстоят дела на самом деле и чем компьютер и новые технологии помогают переводчику в работе? В чем отличие автоматизированного перевода от гугл-переводчика и почему в применении автоматизированного перевода нет ничего зазорного? Давайте разберемся! Технологически процесс письменного перевода с применением компьютерных технологий можно условно разделить на две группы:
• Автоматизированный перевод
• Машинный перевод
Что представляет собой автоматизированный перевод? Фактически это система с разделением труда между компьютером и человеком: компьютер переводит только фразы жёстко заданной структуры, а всё, не уложившееся в схему, отдаёт человеку. Если встречается предложение, которое уже переводилось ранее, или подобное ему, компьютер напоминает (подсказывает), что в прошлый раз его перевели его именно так, либо же показывает, чем новая формулировка отличается от предыдущей. Главное отличие от автоматических переводчиков (machine translation tools типа Google Translate): решение, как нужно перевести, в любом случае принимает человек, а не программа. Фактически автоматизированный перевод представляет собой систему “компьютерного напоминания” как автор перевода в прошлый раз перевел это предложение (при наличии такового в базе).
Совсем иначе обстоят дела при использовании машинного перевода. Здесь все решения целиком и полностью принимает компьютер, ориентируясь на базы переводческой памяти (статистические системы машинного перевода, или SMT), на анализе текста и базе правил (тип RBMT) или на гибридный вариант (тип SMT и RBMT).

Машина в автоматическом переводе работает самостоятельно, без участия человека, который только редактирует полученный результат. Машина заменяет труд человека, при этом получается быстрый перевод низкого качества. Сфера применения машинного перевода довольно большая.

Например, RBMT подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ в России, SYSTRAN во Франции, Linguatec в Германии и др.). SMT использует популярный сервис Яндекс переводчик, Переводчик Google, а также новый сервис от ABBYY. Таким образом мы видим, что системы автоматизированного перевода — это современные инструменты профессионального переводчика. С их помощью можно сэкономить время, обеспечить единообразие терминологии и стиля в тексте, повысить качество перевода.

Дополнительно

Команда агентства «Б2Б-Перевод» — профессионалы высокого класса, чей опыт, интуиция и глубокое понимание процессов позволяют максимально быстро и качественно справляться с любыми задачами. Постоянно к вашим услугам более 500 человек: письменные переводчики, корректоры, редакторы, переводчики-синхронисты, гиды-переводчики, специалисты по культуре и этикету различных народов. Мы на связи двадцать четыре часа в сутки, семь дней в неделю, в любом часовом поясе.

Источник: b2bperevod.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru