Пытались ли вы когда-либо представить, как выглядит незнакомый человек, с которым вы разговариваете по телефону? Особенно, если это очередной раздражающий звонок из банка с предложением кредита.
Скоро послать «занудную брюнетку 25 лет с зелеными глазами и мягким голосом» поможет специальная нейронная сеть.
Идея «восстановить» внешность человека по короткой аудиозаписи говорящего человека родилась появилась у основателей проекта Speech2Face. Рассказываем какие технологии помогают им в этом.
Speech2Face анализирует лица в роликах на YouTube
Программа для изменения голоса с ИИ. iMyfone MagicMic Ai Voice Changer
В проекте Speech2Face в качестве источников вводных данных используются миллионы видеороликов в Интернете и, в частности, на Youtube. Во время обучения сеть анализирует аудиовизуальные, голосовые корреляции. Они позволяют создавать изображения, отражающие различные физические характеристики говорящих, такие как возраст, пол и этническая принадлежность.
Любопытно, что некоторые особенности предсказанных сетью лиц могут не быть физически связаны с речью, например, цвет волос. Однако, многие люди, говорящие определенным образом, (например, на одном языке) также имеют некоторые общие визуальные черты.
Демонстрация работы датасета AVSpeech, на котором работает Speech2Face:
Метод не сможет восстановить точную внешность человека по его голосу. Это связано с тем, что модель обучена лишь отмечать визуальные особенности и фиксировать связь визуальных функций с вокальными и речевыми атрибутами.
Другими словами, модель не будет воспроизводить изображения конкретных людей.
Вы сможете знать, что вам позвонила блондинка, но точную ее внешность все равно не узнаете. Увы.
Speech2Face состоит из спектограмм и векторых данных
В качестве основы используется датасет AVSpeech и предобученная сеть VGG-Face, которая способна сопоставлять особенности речи с рядом биометрических характеристик человека.
Модель принимает спектограмму* аудиозаписи голоса, после чего выдает векторные данные с характеристиками лица, которые в свою очередь уже декодируются в финальное изображение лица.
* cпектограмма — визуальное представление аудиоволн
Используемые данные – это коллекция видеороликов с YouTube, а значит входные данные не в равной степени представляют все население мира. Другими словами, модель неточна и данные распределены неравномерно. Очевидно, что определенные национальности (например, африканские) система знает хуже других.
Например, если определенный язык не отображается в данных обучения, реконструкция внешности не будет хорошо отражать черты лица, которые могут коррелировать с этим языком.
Поэтому сейчас технология активно тестируется и проверяется, чтобы гарантировать максимально точный результат. В случае нахождения серьезных разночтений голоса и внешности создатели собирают более репрезентативные данные.
Speech2Face пока ошибается, но результаты все равно удивляют
Нельзя сказать, что на данный момент система работает точно. Так, в примере приводятся несколько лиц (в том числе известных личностей), но выдаваемый результат далеко не всегда совпадает с оригиналом.
Например, система сильно состарила внешность Дэниела Крейга и ошиблась с цветом волос Марии Шараповой.
Любопытно, что чем длиннее входная аудиозапись, тем и ближе сгенерированное изображение к истинному.
Повторюсь, что на данный момент цель проекта состоит не в том, чтобы восстановить точное изображение человека, а скорее в том, чтобы восстановить характерные физические особенности, которые коррелируют с его речью. Но авторы Speech2Face планируют продолжить исследования.
Возможно, в недалеком будущем мы сможем скачать приложение, способное предугадывать внешность неизвестного телефонного собеседника. Звучит фантастически, но в нынешнее время высоких технологий и нейросетей все возможно. Ждем. [Arxiv]
(14 голосов, общий рейтинг: 4.71 из 5)
Хочешь больше? Подпишись на наш Telegram.
Источник: www.iphones.ru
Как сделать смешной голос инопланетянина на видео в Тик ток
Тик Ток – суперпопулярная платформа, которая рассчитана на создание видеороликов в миниатюрном формате. Пользователи со всего мира стараются снять оригинальные видеоролики. Если грамотно развивать страницы, и снимать только те видеоролики, которые нравятся аудитории, персональная страница быстро наберет популярностью. Чтобы сделать видеоролик более интересным и креативным, лучше использовать дополнительный функционал, который заложен в программе. Например, пользователи любят накладывать звуковые эффекты, или использовать вариант с искажением собственного голоса.
Какие голосовые эффекты есть в Тик Ток?
На платформе Тик Ток пользователи используют разнообразные звуковые эффекты, которые помогают добавить креативности и оригинальности видеоролику. Во время создания видеороликов или фрагментов пользователи используют эффекты, которые представлены в приложении. Для того, чтобы сделать видеоролик популярным, лучше вначале попробовать использовать распространенные техники и варианты:
Добавление музыкальных композиций. На платформе представлен широкий выбора композиций на любой вкус. На платформе пользователи применяют популярные песни, или классические варианты. Выбор зависит от направления контента, и смысловой нагрузки видеоролика.
Звуковые дорожки. Если для видеоролика слова в песне будут только мешать, лучше использовать звуковые дорожки, чтобы играла музыка, но не было слов в песне.
Звуковые дорожки, которые записаны на мобильном устройстве. Для оригинальности видеоролика лучше не использовать стандартные варианты, а выбрать собственные композиции.
Популярные фразы, которые взяты из фильмов и сериалов. Если грамотно наложить выражения из популярных источников, то публику привлечет нестандартность видеоролика.
Если правильно наложить звуковые эффекты в видеоролик, то пользователь получает шанс в несколько раз увеличить количество просмотров, и лайков в платформе Тик Ток. Публику привлекает нестандартные решения. Но главное накладывать звуковые эффекты по смыслу, чтобы был понятен посыл видеоролика.
Популярные эффекты, которые помогают исказить голос в видеоролики, снятом в Тик Токе:
- Белка – эффект, который помогает изменить голос на голос из фильма «Элвин и бурундуки». Голос получается забавным, и видеоролик становится жизнерадостным;
- Голос с эффектом эхо;
- Голос, который дополнен вибрацией;
- Эльфийский – эффект, который помогает изменять голос на тот, который напоминает звучание эльфийского голоса;
- Голос робота-гиганта;
- Фразы из фильмов, сериалов или мультфильмов.
- Дрожащий голос.
Как применить изменение голоса в Тик Токе?
Функция изменения голоса помогает делать видеоролики оригинальными и креативными. Публика любит подобный формат, и поэтому видеоролик набирает много просмотров, и соответственно популярность персональной страницы растет. Применить режим несложно, и использовать опцию получится после создания видеоролика.
- Вначале открываем приложение Тик Ток.
- При переходе на персональную страницу увидите значок Плюсик, при помощи которого пользователи создают видеоролики.
- После нажатия на Плюс, пользователь записывает видеоролик на выбранную тематику.
- Когда видеоролик записан, просматриваем появившиеся меню, и смотрим на кнопку записи, в правой области от кнопки расположена галочка, на которую и нажимаем.
- После окончания записи видеоролика, наживаем на кнопку, которая отвечает за включением функции с звуковыми эффектами. Кнопка расположена в верхней области экрана с правой стороны. После нажатия выбираем эффект.
Оригинальный видеоролик с звуковыми эффектами готов. Остается следить за популярностью видео, и количеством просмотров.
Идеи видео с голосовым эффектом
Эффект голос в приложении Тик Ток – это шанс изменить голос, и сделать видеоролик оригинальным. Электронное вмешательство в запись помогает понизить или увеличить тональность голоса. Если планируется снять смешной видеоролик, то лучше использовать голос животного, или из популярного мультфильма. Оригинальные идеи, как снять видеоролик с добавлением голосового эффекта:
Видео-водоворот. Водоворот – это уникальный вариант эффекта, который круто воспринимается публикой. Водоворот помогает исказить пространство по кругу, или по форме «восьмерки». Для того, чтобы использовать эффект для видеоролика, входим в вкладку с трендовыми направлениями, и указываем необходимый эффект.
Если установить эффект на точку в центре экрана мобильного устройства, изображение начнет искажаться. Видеоролик будет более оригинальным, если добавить голос белки или эльфа. При просмотреть видеоролика, аудитория умрет со смеху.
Скетч. Скетч представлен в виде небольшого видеоролика, в который добавлен подтекст в шутливой форме. Сюжетную линию выбираем любую. Для креативности добавляем звуковой эффект Гигант или Белка.
На платформе Тик Ток звуковые эффекты накладывают не только на снятые видеоролики, но и на трансляции. Если вставить фразы из сериала, то подобная трансляция точно наберет большую аудиторию.
Вайн. Видеоролики меняются после возникновения черного экрана, где написаны фразы для добавления смысла. При помощи звукового эффекта получится сделать видеоролик более забавным.
Как изменить звуковую дорожку в Тик Ток полностью?
Провести изменение звуковой дорожки в рамках программы Тик Ток получится при использовании настройки. В настройках выбираем раздел со звуком, и проводим необходимые изменения.
Когда не стоит применять редактор голоса?
Если пользователь сосредоточен на создании серьезного контента, то звуковые эффекты вызовут смех. Публика не будет серьезно относиться к подобному формату общения. Лучше использовать только свой голос, и произносить фразы и выражения голосом, который поможет аудитории серьезно отнестись к сказанному. Все зависит от формата видеороликов.
Источник: ru-tktk.ru