Как скопировать голос человека программа

Подделать чей-то голос — задача, с которой технологии уже давно могут справиться. Вопрос только в том, сколько минут или часов входных данных, то есть записи речи человека, им для этого понадобится. Разработчики представили систему, которой для копирования голоса будет достаточно пяти секунд входных данных.

Авторы программы-генератора речи опубликовали примеры здесь. Результат действительно впечатляет: отличить синтезированный голос от реального почти невозможно.

Для работы программы требуются три компонента. Первый — нейросеть, которая кодирует речь говорящего. Её обучали на тысячах образцах. Второй — синтезатор, который переводит данные в спектрограмму. Третий — вокодер, которые создаёт речь.

Особенность программы в том, что она способна имитировать говорящего человека, даже если его голос не использовался для обучения нейросети.

Источник: www.ferra.ru

Нейросети копируют голоса людей за 5 секунд

Что можете посоветовать для клонирования голоса на русском языке?

Есть довольно много аудио файлов в так-себе качестве (голосовые сообщения) с речью на русском языке.
Хочется научиться в text-to-speach именно этим голосом и именно на русском языке.
Возможно ли это? Какое качество можно ожидать?

Я натыкался на одно решение (вроде это https://github.com/sovaai/sova-tts). Там есть возможность подать на вход короткое аудио и текст и оно должно озвучить этот текст голосом из аудио файла. Но в моем случае оно работало очень плохо. В большинстве случаев невозможно было распознать речь вообще. Что говорить о похожести голоса и т.д.

В качестве решения хотелось бы видеть синтезатор речи (будь то ML или что-то еще), который изначально хорошо генерит речь на русском языке. Но которому так же можно «скормить» дополнительные аудио с голосом, чтобы «подтюнить» / «дообучить» его на конкретный голос и т.д.

Читайте также:
Coreldraw чтобы открыть файл необходимо обновить текущую версию программы

Существуют ли решения без TTS, а изменение звучания 1 аудиозаписи в сторону похожести на голос другого человека?

Буду рад любым ссылкам по теме!

  • Вопрос задан 27 февр.
  • 327 просмотров

Источник: qna.habr.com

Программа клонирования голоса от Baidu

Интернет гигант, и по совместительству «китайский Google», отчитался о работе, проведённой в сфере развития искусственного интеллекта. Компания представила интересный программный продукт, работающий с нейронными сетями, который способен за секунды клонировать голос любого человека. Программе достаточно проанализировать короткий фрагмент исходника, и на выходе получается неотличимый от оригинала клон голоса. Более того, помимо точных характеристик тембра и прочего, программа умеет придавать голосу особенности, к примеру, акцент.

КАК ПАРОДИРОВАТЬ ГОЛОСА | ДЕДПУЛ | РИК И МОРТИ | КУБИК В КУБЕ

Этот вариант является более продвинутой версией программы, которая имитировала голос, анализируя довольно длинные фрагменты образцов, но специалисты подразделения Deep Voice представили год назад продукт, которому хватает всего получасового фрагмента. Однако конкуренты тоже не спят, программа VoCo от знаменитой компании Adobe может имитировать речь, обработав двадцатиминутный материал, а молодая компания Lyrebird из Канады вообще продемонстрировала удивительные результаты – их программа могла создать клон на основе всего минутного фрагмента исходника.

Сферы применения

И вот новая подвижка в этом направлении от Baidu, теперь программе достаточно изучить всего несколько секунд исходника. Впечатляет, но для чего это всё, какая практическая польза от подобной технологии? О сути, это просто игрушка, баловство. Но не стоит спешить с выводами, поскольку точек приложения может быть очень много.

Даже банальная болезнь, когда человек лишается на время или постоянно способности говорить. А технология ему эту способность вернёт, пусть и таким не очень естественным образом. А если у вас неспокойный ребёнок, не желающий засыпать, пока не услышит сказку от мамы, её голоса. И если вам некогда, либо вы далеко, то голос ваш сам прибудет к вашему ребёнку.

Читайте также:
Как установить программу перевода на компьютер

Со всеми интонациями и характеристиками, даже если нет возможности связаться по телефону. Кроме того, голосовые ассистенты теперь будут говорить с вами тем голосом, который вам приятен и знаком.

Обратная сторона

Да, обратная сторона имеется у любой технологии, даже самой мирной на первый взгляд. В нашем случае, это злоупотребления технологией, голос известных людей могут использовать несанкционированно и в не очень законных целях. Сейчас лучшие системы распознавания голоса в подавляющем большинстве случаев идентифицируют клонированный голос как оригинал, это более 95 процентов. В этом кроются опасности, технология станет доступна широким массам, и случаи мошенничества не заставят себя ждать.

Сегодня уже существуют программы, основанные всё на тех же нейронных сетях, которые способны менять лица людей на видеоматериалах. Уже есть случаи изменения видео для взрослых, где используются лица знаменитых людей. И если пока это выглядит как обычное хулиганство, то в купе с идеальным копированием голоса, проблема может переместится на более высокий уровень.

Фейковые новости, ложные заявления политиков, которые говорят то, чего на самом деле не сказали бы никогда. Даже нынешний уровень подмены в фотошопе многих людей способен обмануть, что же будет дальше, когда зачатки ИИ попадут в руки профессиональных мошенников. Ведь на сегодняшний день его возможности превосходят фотошоп в сотни раз.

Источник: ruboost.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru