Говорят, ещё в советское время на телефонных станциях установили оборудование для прослушки разговоров. Естественно, записать и физически прослушать все разговоры тогда не было возможности, зато эффективно работала технология голосовой идентификации. По образцу голоса конкретного человека система мгновенно срабатывала — на прослушку или запись, с какого бы телефона он ни звонил. Эти технологии доступны и сегодня, вероятно, используются в оперативно-разыскной деятельности. Голос человека уникален, как его отпечатки пальцев.
Благодаря передовым разработкам в области ИИ теперь злоумышленники смогут пустить оперативников по ложному следу. 24 апреля 2017 года канадский стартап Lyrebird анонсировал первый в мире сервис, с помощью которого можно подделать голос любого человека. Для обучения системы достаточно минутного образца.
Сайт Lyrebird объясняет, что на основе минутного образца система «генерирует уникальный ключ», с помощью которого может обработать любую другую речь, придав ей характеристики нужного голоса.
Нейросети копируют голоса людей за 5 секунд
Эту систему можно использовать, чтобы выдать себя за другого человека, то есть для розыгрышей (только не шутите с голосами личностей, которые находятся в федеральном розыске). С этого дня не стоит удивляться, если вам с незнакомого номера звонит мама/бабушка/жена/ваш ребёнок — и говорит странные вещи, просит помочь или перечислить деньги на какой-то счёт. Голосом вашего родственника может говорить кто угодно.
Возможности системы не ограничиваются розыгрышами и социальной инженерией. Например, вы можете разработать собственный уникальный голос — и использовать его в общении, если ваш собственный голос не устраивает по каким-то причинам. Такая услуга будет полезна телефонным операторам, маркетологам, продажникам и другим профессионалам в сферах, где важную роль играют разговоры, общение по телефону. Хотите очаровать девушку, расположить к себе собеседника, добавить себе авторитетности — просто добавьте немного низких частот и бархатистости.
Известно, что голос человека напрямую связан с психологическими чертами личности, эта информация передаётся собеседнику на подсознательном уровне. Так, писклявые, тонкие и визжащие звуки голоса вызывают дискомфортные тревожные ощущения, и такие голоса подсознательно ассоциируются с юностью, энергичностью, неопытностью и незрелостью. С другой стороны, людей с низкими голосами воспринимают как людей самодостаточных, высокоинтеллектуальных и уверенных в себе. Человек с низким голосом интуитивно считается знающим и авторитетным. Этими приёмами пользуются даже имиджмейкеры, когда техническими методами понижают голос политических кандидатов во время телетрансляций, чтобы вызвать большее доверие избирателей женского пола.
В сервисе Lyrebird для использования в своих целях можно выбрать один из тысяч заранее подготовленных наиболее оптимальных голосов — или спроектировать собственное оригинальное звучание. Разработчики гарантируют, что обработка уникальным «ключом» тысячи предложений на их кластерах GPU занимает менее 0,5 секунды.
КАК ПОДДЕЛАТЬ ГОЛОС и стать Билли Айлиш | НЕОЖИДАННЫЙ ПОДАРОК ОТ YouTube
Технология генерации речи Lyrebird разработана в Монреальском институте алгоритмов обучения (Montreal Institute for Learning Algorithms, MILA) при Монреальском университете (Канада).
В качестве демонстрации технологии разработчики сгенерировали ключи для голосов Дональда Трампа, Барака Обамы и Хиллари Клинтон. В демонстрационном аудиоклипе эти политики обсуждают возможности системы подделки голосов Lyrebird (аудио).
Вот отдельные сгенерированные фразы разными голосами. Одни и те же фразы одинаковый голос произносит с разными интонациями:
В демонстрационном плейлисте представлены два десятка голосов с разными характеристиками, как пример того, какие голоса можно сгенерировать на свой вкус.
Сейчас Lyrebird заканчивает разработку API, чтобы сервис реально можно было использовать в своих приложениях. Разработчики говорят, что Lyrebird — первая в мире компания, которая предлагает технологию для точной подделки чужих голосов. В связи с этим на них налагаются определённые этические обязательства. Главным этическим обязательством является повсеместное информирование о возможностях технологии по точной подделке чужого голоса, так что с этого дня — с 24 апреля 2017 года — ни один суд в мире, ни одно оперативно-разыскное мероприятие не должно полагаться на аутентичность голоса конкретного человека. С этого дня голоса перестали быть уникальными, каждый из них можно подделать.
Гражданам, которые заботятся о своей приватности, можно посоветовать быть осторожным с использованием своего голоса — не передавать его по незащищённым каналам и говорить краткими фразами, чтобы злоумышленник не смог собрать достаточно материала для подделки личности.
- биометрия
- нейросети
- Lyrebird
- генерация речи
- подделка голоса
- кража личности
- Искусственный интеллект
- Звук
Источник: habr.com
Речь в речь. Создаем нейронную сеть, которая подделывает голос
Способов идентифицировать человека по голосу появляется все больше. И параллельно исследователи придумывают, как обойти эти механизмы — и для защиты собственной персональной информации, и для взлома защищенных таким образом систем. Я решил разобраться в самых последних достижениях ученых в этой сфере, чтобы рассказать обо всем тебе.
Генерация голоса
Голос человека — результат движения связок, языка, губ. В распоряжении компьютера только числа, изображающие записанную микрофоном волну. Как же компьютер создает звук, который мы можем услышать из динамиков или наушников?
Текст в речь
Один из самых популярных и исследованных методов генерации звуков — прямое преобразование текста, который нужно воспроизвести, в звук. Самые ранние программы такого рода склеивали отдельные буквы в слова, а слова — в предложения.
С развитием программ-синтезаторов набор заранее записанных на микрофон фонем (букв) стал набором слогов, а затем и целых слов.
Преимущества таких программ очевидны: они просты в написании, использовании, поддержке, могут воспроизводить все слова, какие только есть в языке, предсказуемы — все это в свое время стало причиной их коммерческого использования. Но качество голоса, созданного таким методом, оставляет желать лучшего. Все мы помним отличительные черты такого генератора — бесчувственная речь, неправильное ударение, оторванные друг от друга слова и буквы.
Звуки в речь
Этот способ генерации речи относительно быстро заменил собой первый, поскольку лучше имитировал человеческую речь: мы произносим не буквы, а звуки. Именно поэтому системы, основанные на международном фонетическом алфавите — IPA, более качественны и приятны на слух.
В основу этого метода легли заранее записанные в студии отдельные звуки, которые склеиваются в слова. По сравнению с первым подходом заметно качественное улучшение: вместо простого склеивания аудиодорожек используются методы смешивания звуков как на основе математических законов, так и на основе нейронных сетей.
Речь в речь
Относительно новый подход полностью основан на нейронных сетях. Рекурсивная архитектура WaveNet, построенная исследователями из DeepMind, позволяет преобразовывать звук или текст в другой звук напрямую, без привлечения заранее записанных строительных блоков (научная статья).
Ключ к этой технологии — правильное использование рекурсивных нейронов Long Short-Term Memory, которые сохраняют свое состояние не только на уровне каждой отдельной клетки нейронной сети, но и на уровне всего слоя.
В целом эта архитектура работает с любым видом звуковой волны, вне зависимости от того, музыка это или голос человека.
INFO
На основе WaveNet есть несколько проектов.
- A WaveNet for speech denoising — уничтожение шумов в записи голоса;
- Tacotron 2 (статья в блоге Google) — генерация звука из мел-спектрограммы;
- WaveNet Voice Enhancement — улучшение качества голоса в записи.
Для воссоздания речи такие системы используют генераторы звуковой нотации из текста и генераторы интонаций (ударения, паузы), чтобы создать натурально звучащий голос.
Это самая передовая технология создания речи: она не просто склеивает или смешивает непонятные машине звуки, но самостоятельно создает переходы между ними, делает паузы между словами, меняет высоту, силу и тембр голоса в угоду правильному произношению — или любой другой цели.
Создание поддельного голоса
Для самой простой идентификации, про которую я рассказывал в своей предыдущей статье, подойдет практически любой метод — особенно удачливым хакерам может хватить даже необработанных пяти секунд записанного голоса. Но для обхода более серьезной системы, построенной, например, на нейросетях, нам понадобится настоящий, качественный генератор голоса.
Присоединяйся к сообществу «Xakep.ru»!
Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее
Источник: xakep.ru
Эмулятор голоса: игрушка или полезное программное обеспечение?
Искусственный интеллект — технология имитации голоса
- Siri у Apple;
- Alexa у Amazon;
- Алиса у Yandex ;
- Google Assistant;
- и др.
Эмулятор голоса Lyrebird
- использование звуков дыхания человека (вдох/выдох);
- использование движения человеческого рта (чмоканье, прикус и т.д).
Эмулятор голоса — это все-таки не просто игрушка
- может быть сбита с толку система голосовой проверки;
- может быть сбита с толку судебная система в делах , где применяется в качестве доказательства аудио — или видеозаписи;
- личная безопасность может быть нарушена, ведь практически в записи можно «заговорить» голосом любого человека;
- данная технология позволяет управлять звуком в режиме реального времени, поэтому можно ставить под сомнения достоверность даже «прямых» новостных эфиров.