Год назад я проводила сравнение самых популярных онлайн переводчиков, и мое небольшое исследование показало, что они очень похожи – работают на основе нейронных сетей, а, потому обеспечивают почти одинаковый по качеству перевод для самых популярных языков. В этом обзоре я рассмотрю немного другой вид переводчиков – программы для офлайн-перевода, которые устанавливаются на ПК или ноутбук и работают на Windows или MacOS. Я расскажу, чем они принципиально отличаются от онлайн-собратьев, какие возможности дают пользователю и есть ли в них какие-то преимущества.
584 просмотров
На сегодняшний день выбор десктопных переводчиков не так велик. При выборе десктопного переводчика для этого обзора я руководствовалась возможностью установить триальную версию – чтобы протестировать максимум возможностей программы. Как выяснилось, большинство разработчиков предлагает установить бесплатно упрощенную версию программы – а она по набору опций редко отличается от онлайн-сервисов – все преимущества десктопов доступны только после покупки. В результате я нашла лишь одну программу с триальной версией – PROMT Professional Neural. Поэтому сравню именно этот десктоп с онлайн-переводчиками Google.Translate, Яндекс.Переводчик и DeepL.
Традос и другие программы для переводчиков. Сложно ли это и нужно ли это?
Качество перевода
Прежде всего меня интересовало, будет ли качество перевода программы, работающей офлайн на моем компьютере, отличаться от онлайн-переводчиков. Чтобы проверить это, я переводила фрагменты текстов по бизнес-тематике – такие, как на скриншотах:
PROMT Professional Neural
При сравнении переводов я не заметила больших отличий. Все переводчики выдали достаточно точный перевод без машинного акцента. Однако у десктопного переводчика есть важное преимущество: при переводе текстов в PROMT Professional Neural нет никаких ограничений, в то время как на онлайн-сервисах есть лимит по количеству переводимых символов.
Терминология и глоссарии
С бизнес-текстами переводчики справились неплохо. Однако рискну предположить, что у любого из вас возникали проблемы с переводом терминологии в более сложных – например, технических или медицинских текстах.
Дело в том, что любая программа по переводу не справится с переводом терминов – особенно, редко встречающихся – без специального обучения на больших массивах специализированных данных. Обучение нейронных движков на параллельных данных – процесс длительный, затратный и, главное, почти недоступный для обычного пользователя. Однако есть простой способ повысить точность нейронного перевода – настройка через глоссарий. Такая настройка заключается в том, что пользователь может задавать для конкретных терминов свои переводы – в результате переводчик всегда будет переводить термины именно так, как нужно пользователю.
Из переводчиков, которые я рассмотрела в обзоре, настройка через глоссарий есть только у онлайн-сервиса DeepL и десктопа PROMT. У Google, кстати, она тоже есть, но только в профессиональном решении по платной подписке.
Основы CAT: Вводный урок
К сожалению, DeepL для сравнения мне не подошел, потому что на этом сервисе настройка через глоссарий недоступна для русского языка. Поэтому покажу, как работает настройка на примере триальной версии PROMT, где я смогла добавить перевод в глоссарий (в интерфейсе десктопа глоссарий называется «Мой словарь»). Для этого я открыла вкладку «Мой словарь» и добавила слово и нужный мне перевод.
Теперь можно сравнить перевод текста со словом sprinkler во всех переводчиках.
Источник: vc.ru
Почему Google Переводчик и аналоги работают неидеально: как устроены их алгоритмы
Над автоматическими переводчиками начали работать ещё в середине XX века. После одного из успешных экспериментов в газетах писали, что скоро ручной перевод будет не нужен — переводчиков-людей заменят машины. С тех пор прошло 70 лет, но автоматический перевод всё ещё делает глупые и грубые ошибки. Что с ним не так?
Telegram-канал создателя Трешбокса про технологии
Почему раньше онлайн-переводчиками было невозможно пользоваться без смеха
Ещё 5-7 лет назад любой онлайн-переводчик выдавал наборы фраз, в которых с трудом можно было уловить смысл текста. Если вы переводили с иностранного языка на родной, то это можно было исправить. Но при переводе с родного языка на иностранный сразу было видно, что поработал Google Translate или другой переводчик. Виной всему была сама технология — статистический машинный перевод.
Чтобы лучше понимать, почему переводчики раньше были такими топорными, давайте коротко пройдёмся по основным технологиям, которые использовались для обработки текстов на разных языках. Работа над автоматизированными системами перевода начались ещё в середине XX века. Сначала в них использовали правила, которые составляли лингвисты. Их количество было огромным, а результат работы всё равно провальным. Переводчики не справлялись с многозначными словами и не понимали устойчивые выражения.
Разочарование от первых систем перевода было таким большим, что почти 30 лет никто не вкладывал в эту сферу большие деньги. Всё изменилось в начале 1990-х годов, когда одна из исследовательских групп компании IBM разработала новую переводную модель. Ключевая идея технологии — концепция канала с ошибками, которая рассматривает текст на языке A как зашифрованный текст на языке Б. Задача переводчика — расшифровать фрагмент.
Основой для модели IBM стали документы канадского правительства, написанные на английском и французском языках. Именно эта пара стала первой, над которой стали работать специалисты. Они собрали вероятности для всех сочетаний слов определённой длины на одном языке и вероятности для соответствия каждого из таких сочетаний сочетанию на другом языке. Фактически алгоритм пытается найти самую частотную фразу на языке А, которая имеет хоть какое-то отношение к фразе на языке Б.
Система статистического машинного перевода IBM стала прорывной. С появлением интернета у специалистов появился доступ к огромному количеству данных на разных языках. Исследователи сконцентрировались на сборе корпуса параллельных текстов — одинаковых документов, написанных на разных языках. Это протоколы международных организаций, научные материалы, публицистика.
При их изучении устанавливалось соответствие предложений и слов. Например, при сравнении текстов на разных языках система понимает, что «cat» и «кошка» — вероятные переводы друг друга.
В статистической модели машинного перевода каждому слову и фразе соответствует числовой идентификатор, который определяет частоту использования в языке. При переводе предложение разбивается на независимые части. Для каждого элемента этого массива подбирается потенциальный перевод. Затем система собирает несколько вариантов предложения на другом языке и выбирает из них оптимальный с точки зрения сочетаемости слов.
Но машинный перевод всё равно работал неидеально. Главная проблема состояла в том, что слова и фразы переводились независимо. Переводчики не учитывали контекст и даже не согласовывали части предложения. Другая проблема — нехватка параллельных текстов. Из-за этого сложно установить соответствие.
В качестве универсального связующего языка в статистическом машинном переводе используется английский.
Если параллельных текстов между двумя языками мало, то перевод выполняется в два этапа. Например, при переводе с русского на малайский порядок будет такой: сначала с русского на английский, затем с английского — на малайский.
Результат получается близким к натуральным, но даже в такой короткой цепочке могут возникнуть ошибки из-за многозначных слов.
Нейросети сделали перевод заметно лучше — иногда его сложно отличить от человеческого
Нейросети тоже анализируют массив параллельных текстов — в этом смысле ничего не изменилось. Но вместо простых идентификаторов при нейросетевом подходе используется векторное представление. Каждый вектор состоит из чисел, которые характеризуют слово по лексическим и семантическим признакам.
При статистическом машинном переводе исходное предложение разбивается на слова и фразы, после чего система ищет для них соответствие в другом языке. При нейросетевом переводе предложение переводится целиком. Оно превращается в векторное пространство, где у каждого слова есть вектор длиной в несколько сотен чисел. Нейросеть определяет взаимосвязь между словами, даже если они находятся в разных концах предложения. Поэтому перевод получается более натуральным.
Так работает Яндекс.Переводчик
Несмотря на появление нейросетевого подхода, от статистического машинного анализа пока полностью не отказались. Например, в Яндекс.Переводчике используется гибридная модель перевода, которая включает статистический и нейросетевой подходы. После обработки текста двумя моделями в работу включается алгоритм, который выбирает лучший вариант.
Перевод стал лучше, но всё ещё очень много ошибок. Нейросети не справляются?
Количество ошибок в переводе зависит от многих факторов. Среди них — родство языков и объём данных, на которых была обучена нейросеть.
Например, алгоритмы Google Translate обучали на языковых парах «английский — испанский» и «английский — французский». Судя по результатам исследования, профессиональные переводчики оценили качество обработки текста в этих парах почти на уровне человеческого перевода.
Первый столбец — статистичекий перевод, второй — нейросетевой, третий — человеческий Максимальная оценка — 6 баллов.
Чем ближе языки друг к другу по структуре, тем выше точность перевода. Но если взять языки из разных систем — например, русский и японский, то здесь универсальные переводчики начинают хромать.
При нейросетевом переводе тоже используется корпус параллельных текстов. Соответственно, сохраняется проблема с нехваткой данных. Если параллельных текстов не хватает для перевода, в ход идёт язык-посредник — английский. Из-за этого возникают неточности. Вы можете сами это легко проверить, если переведёте предложение последовательно на несколько языков.
Например, вот перевод одного из абзацев из этой статьи: русский — английский — монгольский — венгерский — русский. Было так:
«Количество ошибок в переводе зависит от многих факторов. Среди них — родство языков и объём данных, на которых была обучена нейросеть».
Вместо родства появились коммуникации
Перевод получился корявым. С другой стороны, это абсолютно бессмысленный эксперимент. Вряд ли в реальной жизни кому-то требуется такая цепочка. Но результаты проверки как раз показывают, что происходит с переводом, когда между языками не хватает параллельных текстов.
Как можно улучшить работу онлайн-переводчиков
По словам разработчиков из команды Яндекса по машинному переводу, один из перспективных путей улучшения качества переводчиков — усиление роли контекста. Он может включать предыдущее предложение, информацию о сущностях и лицах, упомянутых в тексте, сведения о том, из какого места на веб-странице взят фрагмент.
Любой специалист по переводу скажет, что чем больше контекста или справочной информации, тем проще обрабатывать текст. Это легко проверить. Когда вы учите язык и начинаете на нём читать книги или смотреть фильмы, то часть слов понимаете просто из контекста.
Как это работает на примере онлайн-переводчика? Самая очевидная ситуация — система при переводе обращает внимание на предыдущее предложение. Как минимум это позволяет решить проблему с местоимениями. Учитывая контекст предыдущего предложения, переводчик выбирает правильный род для подлежащего или дополнения.
Больше никаких проблем с местоимениями
Улучшить качество перевода помогает также добавление в обучающий массив аудио и видео. Сейчас разработчики собирают данные. Например, если в приложении Google Translate запустить режим «Преобразование речи в текст», то появится предупреждение о том, что сделанная вами аудиозапись будет отправлена на обработку в Google. Компания может хранить расшифровку аудио в течение определённого времени в целях улучшения «Переводчика».
Сложность обработки аудиозаписей в том, что в них часто нет контекста. Когда люди разговаривают друг с другом, даже через переводчика, они используют и другие способы коммуникации — например, жестикулируют. Однако добавление аудио всё равно приносит пользу — чем больше данных, тем точнее перевод.
Помогают сделать сервисы лучше и люди. Например, в Яндексе работает группа лингвистической экспертизы, в которую входят редакторы-эксперты и переводчики. Они передают тексты в выборку для машинного обучения.
Google предлагает пользователям стать участниками сообщества «Переводчика», чтобы улучшать качество переводов и добавлять новые языки. Участники сообщества проверяют переводы. Варианты с высокими оценками от специалистов показываются со специальным значком — вы наверняка его видели.
Перевод подтверждён сообществом Google Translate
Внести свою лепту в развитие «Google Переводчика» может каждый. Например, можно нажать на кнопку «Редактировать перевод» и предложить свой вариант. Он будет отправлен на рассмотрение участникам сообщества. Если они проголосуют за ваш вариант как за корректный, то он станет основным в переводчике.
Чтобы голосовать за варианты перевода и добавлять свои фразы, нажмите на кнопку «Сообщество» на главной странице Google Translate. Система предложит выбрать два языка. После этого вы сможете выбирать корректные варианты и делать онлайн-переводчик лучше.
Вступить в сообщество Google Translate может любой пользователь
Сейчас работа Google Translate, Яндекс.Переводчика и других подобных сервисов всё ещё кажется неидеальной. Но если оглянуться назад, то они стали переводить тексты намного точнее. По крайней мере, их возможностей уже сейчас достаточно для того, чтобы свободно общаться с носителями разных языков.
Источник: trashbox.ru
Как работает переводчик-фрилансер
Когда десять лет назад я поступил на факультет переводов, нас учили как переводить: что такое теория перевода, как передавать смысл, как сохранять форму… Но никто не говорил, как именно переводить. Ну вот говорит мне заказчик, «нужно перевести документ с китайского на русский», а дальше что? Открыть в Word’е и писать поверх оригинала? Или лучше открыть документ слева и справ, и переписывать, стараясь копировать форматирование? Или загнать в Google Translate, а потом редактировать?
Давайте расскажу, как я работаю. Если вы ещё только учитесь на письменного переводчика, или вам приходится переводить время от времени, вы обязательно узнаете что-нибудь полезное.
Disclaimer
Я не истина в последней инстанции, многие работают по-другому. Если что-то я делаю не так — приглашаю в комментарии!
Что у нас на входе?
Это может быть расписание строительных работ в табличке Excel.
Это могут быть письма в Outlook.
Это может быть string-файл локали приложения в каком-нибудь *.xml.
И что со всем этим делать? Как переводить? В чём держать словарик часто употребляемых слов?
Технологии
Computer Assisted Translation
Computer Assisted Translation (CAT) — принцип работы с письменными переводами, который обязателен в 21-м веке. Нельзя быть конкурентоспособным переводчиком, игнорируя современные технологии. Существует множество standalone-программ и онлайн-приложений, относящихся к CAT, например Trados, MemoQ, Tolma.ch и OmegaT.
Принцип простой: текст разбивается на сегменты, которые переводятся один за другим. Каждый сегмент и его перевод автоматически сохраняется в ТМ (translation memory, базу данных переводов) без привязки к конкретному документу.
Программа анализирует каждый новый сегмент и ищет похожие в ТМ. При полном совпадении программа может автоматически подставить перевод, при частичном — показать переводчику совпадения и различия.
CAT отслеживает терминологию, помогая сохранить единый перевод терминов в множестве документов (название деталей, имена персонажей, и т.п.).
Чем больше вы работаете с CAT, тем больше накапливается в памяти перевода, тем легче вам переводить каждый новый документ.
Machine Translation
Использовать машинный перевод для помощи переводчику — тренд последних нескольких лет. Это не означает переводить с помощью Google Translate, а лишь отображать машинный перевод по каждому сегменту в процессе работы. Это увеличивает скорость перевода на 100-200% без снижения качества перевода. Правда, это сработает только в том случае, когда переводчик знает язык. Редактировать машинный перевод с незнакомого языка категорически нельзя, можете существенно исказить смысл.
Софт
Эти программы пригодятся в работе переводчика. Буду подробнее останавливаться на каждой из программ по мере необходимости.
- OmegaT
Относится к программам CAT — помощникам переводчика, незаменимый инструмент. - GoldenDict
Онлайн-словари хорошо, а офлайн ещё лучше. Для меня это Golden Dict. Это как ABBYY Lingvo, только бесплатно. - LibreOffice
Много лет использую Libre Office как основной офисный пакет, но всегда держу под рукой Microsoft Office на случай неграмотного форматирования от заказчика. - F.lux
Чтобы глазки не болели, и спалось хорошо. - Okapi
Набор незаменимо полезных программ для работы с памятью перевода и для проверки орфографии. - ApSIC Xbench
Автоматизированная проверка переводов. Версия 2.9 уже не поддерживается, зато совершенно бесплатная. - Notepad++
Мощный текстовый редактор, пригодится для случаев, когда нужно что-то техническое поправить ручками.
Организация
Для начала упорядочим свою работу. Не храните файлы на рабочем столе или в Моих документах. Пусть у вас будет отдельная папка Работа, и только для работы. Внутри можете организовывать как вам удобно. У меня следующим уровнем идут компании, с которыми я работал.
Я большой фанат автоматизации перевода. Чем больше переводишь, тем больше копится в Translation Memory, тем легче переводить в дальнейшем. Поэтому любые переводы я стараюсь делать через OmegaT. Перестроиться на полную работу через CAT не так уж и сложно. Достаточно сохранить исходный файл в нужную папку, а затем открыть OmegaT.
Иногда файл нужно подготовить, но сделать это совсем не сложно.
Подготовка файлов для OmegaT
Базовый принцип — оставить в файле только тот контент, который требуется перевести, и убрать лишнее. Форматирование при этом можно сохранить.
Например, в таблице Excel заказчик может оставить колонки ID, Chinese, Russian, Comments. Очевидно, что под ними в конечном итоге должен быть нужный контент, но сами названия переводить не обязательно. Создайте копию файла и удалите содержимое из лишних колонок и строк, но не удаляйте сами строки, чтобы не нарушать структуру файла — будет проще собрать всё вместе в дальнейшем.
В текстовом документе Word лишними могут быть комментарии заказчика, подстрочник-пояснение на языке перевода, и прочее.
Иногда документ Word служит просто хранилищем для разрозненных кусков текста, которые заказчик любезно структурировал в одном файле.
Некоторые технические файлы, вроде strings.xml из приложений для Android, помимо текста содержит названия переменных, выглядит это примерно так:
Однако, удалять названия переменных не нужно: OmegaT и многие другие CAT-программы знакомы со структурой таких файлов и сами скроют от ваших глаз технический текст.
Если вы постоянно переводите корреспонденцию, просто копируйте текст письма в текстовый файл или Word.
Summary: форматирование сохраняйте, текст не для перевода — удаляйте. Всегда храните оригинальные файлы от заказчика.
Проекты
В OmegaT у каждого проекта есть только одна рабочая TM, в которую сохраняется вновь переводимый текст. Поэтому разумно создавать отдельные проекты не только по языковой принадлежности, но и по тематике перевода. Например, у меня есть проект General_ZH-RU для текстов общей тематики и каких-то случайных заказов, Games_ZH-RU для около-игровых текстов.
Кроме того, при работе над большими проектами конкретного заказчика имеет смысл создать отдельный проект именно для него, чтобы сохранять уникальную терминологию именно для этого продукта. Например, для перевода игры Luvinia с китайского на русский у меня есть проект Luvinia_ZH-RU. При этом память перевода из одного проекта можно добавить в другой в качестве вспомогательной: начали работать над переводом новой игры — создайте ей отдельный проект, и подключите памяти из других игровых проектов.
Глоссарий
Вести глоссарий проекта очень важно. Глоссарий — не словарь, это перевод слова в контексте конкретно проекта. Добавлять слова в глоссарий в OmegaT совсем не сложно, вот здесь я привожу наглядный пример.
В глоссарий следует заносить специфические для проекта термины. Например, в играх на платформе Playstation джойстик нужно называть исключительно «контроллером», а для Xbox — «геймпадом». Это требования гайдлайнов Microsoft и Sony, перепутать их нельзя ни в коем случае.
В художественных текстах в глоссарий следует добавлять имена персонажей, особенно если их перевод напрямую не вытекает из оригинала. К примеру, человека по фамилии 灰 [hui] можно перевести как Хой или Хуэй, а если это персонаж игры (и китайским происхождением можно пренебречь), то и вообще Грэй.
Когда имя встречается раз в три тысячи символов, можно забыть, как именно вы его обозвали, и встречался ли он вообще. Глоссарий и CAT подскажут правильный вариант ещё до того, как вы об этом подумаете.
Переводим! — разбираем конкретный кейс
Заказчик дал нам вот такой файлик в Word. Объясню по порядку, что мы с ним будем делать.