Как говорить голосом другого человека с помощью программы

Говорят, ещё в советское время на телефонных станциях установили оборудование для прослушки разговоров. Естественно, записать и физически прослушать все разговоры тогда не было возможности, зато эффективно работала технология голосовой идентификации. По образцу голоса конкретного человека система мгновенно срабатывала — на прослушку или запись, с какого бы телефона он ни звонил. Эти технологии доступны и сегодня, вероятно, используются в оперативно-разыскной деятельности. Голос человека уникален, как его отпечатки пальцев.

Благодаря передовым разработкам в области ИИ теперь злоумышленники смогут пустить оперативников по ложному следу. 24 апреля 2017 года канадский стартап Lyrebird анонсировал первый в мире сервис, с помощью которого можно подделать голос любого человека. Для обучения системы достаточно минутного образца.

Сайт Lyrebird объясняет, что на основе минутного образца система «генерирует уникальный ключ», с помощью которого может обработать любую другую речь, придав ей характеристики нужного голоса.

Нейросети копируют голоса людей за 5 секунд

Эту систему можно использовать, чтобы выдать себя за другого человека, то есть для розыгрышей (только не шутите с голосами личностей, которые находятся в федеральном розыске). С этого дня не стоит удивляться, если вам с незнакомого номера звонит мама/бабушка/жена/ваш ребёнок — и говорит странные вещи, просит помочь или перечислить деньги на какой-то счёт. Голосом вашего родственника может говорить кто угодно.

Возможности системы не ограничиваются розыгрышами и социальной инженерией. Например, вы можете разработать собственный уникальный голос — и использовать его в общении, если ваш собственный голос не устраивает по каким-то причинам. Такая услуга будет полезна телефонным операторам, маркетологам, продажникам и другим профессионалам в сферах, где важную роль играют разговоры, общение по телефону. Хотите очаровать девушку, расположить к себе собеседника, добавить себе авторитетности — просто добавьте немного низких частот и бархатистости.

Известно, что голос человека напрямую связан с психологическими чертами личности, эта информация передаётся собеседнику на подсознательном уровне. Так, писклявые, тонкие и визжащие звуки голоса вызывают дискомфортные тревожные ощущения, и такие голоса подсознательно ассоциируются с юностью, энергичностью, неопытностью и незрелостью. С другой стороны, людей с низкими голосами воспринимают как людей самодостаточных, высокоинтеллектуальных и уверенных в себе. Человек с низким голосом интуитивно считается знающим и авторитетным. Этими приёмами пользуются даже имиджмейкеры, когда техническими методами понижают голос политических кандидатов во время телетрансляций, чтобы вызвать большее доверие избирателей женского пола.

Читайте также:
Дефрагментация диска рейтинг программ

В сервисе Lyrebird для использования в своих целях можно выбрать один из тысяч заранее подготовленных наиболее оптимальных голосов — или спроектировать собственное оригинальное звучание. Разработчики гарантируют, что обработка уникальным «ключом» тысячи предложений на их кластерах GPU занимает менее 0,5 секунды.

КАК ПОДДЕЛАТЬ ГОЛОС и стать Билли Айлиш | НЕОЖИДАННЫЙ ПОДАРОК ОТ YouTube

Технология генерации речи Lyrebird разработана в Монреальском институте алгоритмов обучения (Montreal Institute for Learning Algorithms, MILA) при Монреальском университете (Канада).

В качестве демонстрации технологии разработчики сгенерировали ключи для голосов Дональда Трампа, Барака Обамы и Хиллари Клинтон. В демонстрационном аудиоклипе эти политики обсуждают возможности системы подделки голосов Lyrebird (аудио).

Вот отдельные сгенерированные фразы разными голосами. Одни и те же фразы одинаковый голос произносит с разными интонациями:

В демонстрационном плейлисте представлены два десятка голосов с разными характеристиками, как пример того, какие голоса можно сгенерировать на свой вкус.

Сейчас Lyrebird заканчивает разработку API, чтобы сервис реально можно было использовать в своих приложениях. Разработчики говорят, что Lyrebird — первая в мире компания, которая предлагает технологию для точной подделки чужих голосов. В связи с этим на них налагаются определённые этические обязательства. Главным этическим обязательством является повсеместное информирование о возможностях технологии по точной подделке чужого голоса, так что с этого дня — с 24 апреля 2017 года — ни один суд в мире, ни одно оперативно-разыскное мероприятие не должно полагаться на аутентичность голоса конкретного человека. С этого дня голоса перестали быть уникальными, каждый из них можно подделать.

Гражданам, которые заботятся о своей приватности, можно посоветовать быть осторожным с использованием своего голоса — не передавать его по незащищённым каналам и говорить краткими фразами, чтобы злоумышленник не смог собрать достаточно материала для подделки личности.

  • биометрия
  • нейросети
  • Lyrebird
  • генерация речи
  • подделка голоса
  • кража личности
  • Искусственный интеллект
  • Звук
Читайте также:
Программа диагностики автомобилей audi

Источник: habr.com

Речь в речь. Создаем нейронную сеть, которая подделывает голос

Способов идентифицировать человека по голосу появляется все больше. И параллельно исследователи придумывают, как обойти эти механизмы — и для защиты собственной персональной информации, и для взлома защищенных таким образом систем. Я решил разобраться в самых последних достижениях ученых в этой сфере, чтобы рассказать обо всем тебе.

Генерация голоса

Голос человека — результат движения связок, языка, губ. В распоряжении компьютера только числа, изображающие записанную микрофоном волну. Как же компьютер создает звук, который мы можем услышать из динамиков или наушников?

Текст в речь

Один из самых популярных и исследованных методов генерации звуков — прямое преобразование текста, который нужно воспроизвести, в звук. Самые ранние программы такого рода склеивали отдельные буквы в слова, а слова — в предложения.

С развитием программ-синтезаторов набор заранее записанных на микрофон фонем (букв) стал набором слогов, а затем и целых слов.

Преимущества таких программ очевидны: они просты в написании, использовании, поддержке, могут воспроизводить все слова, какие только есть в языке, предсказуемы — все это в свое время стало причиной их коммерческого использования. Но качество голоса, созданного таким методом, оставляет желать лучшего. Все мы помним отличительные черты такого генератора — бесчувственная речь, неправильное ударение, оторванные друг от друга слова и буквы.

Звуки в речь

Этот способ генерации речи относительно быстро заменил собой первый, поскольку лучше имитировал человеческую речь: мы произносим не буквы, а звуки. Именно поэтому системы, основанные на международном фонетическом алфавите — IPA, более качественны и приятны на слух.

В основу этого метода легли заранее записанные в студии отдельные звуки, которые склеиваются в слова. По сравнению с первым подходом заметно качественное улучшение: вместо простого склеивания аудиодорожек используются методы смешивания звуков как на основе математических законов, так и на основе нейронных сетей.

Речь в речь

Относительно новый подход полностью основан на нейронных сетях. Рекурсивная архитектура WaveNet, построенная исследователями из DeepMind, позволяет преобразовывать звук или текст в другой звук напрямую, без привлечения заранее записанных строительных блоков (научная статья).

Ключ к этой технологии — правильное использование рекурсивных нейронов Long Short-Term Memory, которые сохраняют свое состояние не только на уровне каждой отдельной клетки нейронной сети, но и на уровне всего слоя.

Читайте также:
Виды номенклатуры в программе 1с

В целом эта архитектура работает с любым видом звуковой волны, вне зависимости от того, музыка это или голос человека.

INFO

На основе WaveNet есть несколько проектов.

  • A WaveNet for speech denoising — уничтожение шумов в записи голоса;
  • Tacotron 2 (статья в блоге Google) — генерация звука из мел-спектрограммы;
  • WaveNet Voice Enhancement — улучшение качества голоса в записи.

Для воссоздания речи такие системы используют генераторы звуковой нотации из текста и генераторы интонаций (ударения, паузы), чтобы создать натурально звучащий голос.

Это самая передовая технология создания речи: она не просто склеивает или смешивает непонятные машине звуки, но самостоятельно создает переходы между ними, делает паузы между словами, меняет высоту, силу и тембр голоса в угоду правильному произношению — или любой другой цели.

Создание поддельного голоса

Для самой простой идентификации, про которую я рассказывал в своей предыдущей статье, подойдет практически любой метод — особенно удачливым хакерам может хватить даже необработанных пяти секунд записанного голоса. Но для обхода более серьезной системы, построенной, например, на нейросетях, нам понадобится настоящий, качественный генератор голоса.

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

Источник: xakep.ru

Эмулятор голоса: игрушка или полезное программное обеспечение?

Lorem ipsum dolor

Искусственный интеллект — технология имитации голоса

  • Siri у Apple;
  • Alexa у Amazon;
  • Алиса у Yandex ;
  • Google Assistant;
  • и др.

Эмулятор голоса Lyrebird

  • использование звуков дыхания человека (вдох/выдох);
  • использование движения человеческого рта (чмоканье, прикус и т.д).

Эмулятор голоса — это все-таки не просто игрушка

  • может быть сбита с толку система голосовой проверки;
  • может быть сбита с толку судебная система в делах , где применяется в качестве доказательства аудио — или видеозаписи;
  • личная безопасность может быть нарушена, ведь практически в записи можно «заговорить» голосом любого человека;
  • данная технология позволяет управлять звуком в режиме реального времени, поэтому можно ставить под сомнения достоверность даже «прямых» новостных эфиров.
Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru