Рассказываем о работе технологии face swap, создании известных сегодня deepfake-видео, как трансфер лиц поможет медиарынку и в каком направлении развивается эта область машинного обучения.
112 936 просмотров
Каждый день из многочисленных Telegram-каналов, изданий об ИТ прилетают новости о создании алгоритмов, работающих над преобразованием контента.
Недавно компания Тимура Бекмамбетова и разработчики робота «Вера» придумали технологию синтеза голосов знаменитостей. Учёные из МФТИ научили компьютер воспроизводить изображения, которые видит человек в данный момент, а компания OpenAI создала алгоритм, пишущий почти осмысленный текст на основе минимальных исходных данных.
Нейросети оперируют и видеоконтентом: генерируют движущиеся пейзажи, убирают объекты или же заставляют танцевать людей на фото.
Сложнее обстоят дела с трансфером человеческих лиц или тел на изображениях. Эту сферу начинают осваивать стартапы, которые создают продукты для оптимизации процессов производства контента: Dowell (проект компании Everypixel Group, Россия), Synthesia (Великобритания), а также RefaceAI — создатели приложений Doublicat и Reflect (Украина).
Как создать фейк программу!
Есть несколько сервисов вроде Reflect, Doublicat или Morhine, которые работают в реальном времени со статичным форматами или GIF. Недавно китайские разработчики зашли на поле видеоформата и выпустили приложение Zao, которое встраивает лица пользователей в известные фильмы.
В остальном широкая аудитория остаётся непричастной к созданию такого контента и потребляет deepfake-видео, которые выпускают известные продакшн-студии или свободные художники на YouTube.
Технология face swap в открытом доступе: как она работает
Существуют разные архитектуры алгоритмов, которые переносят лица с видео на видео. Мы расскажем о нескольких самых распространённых.
Autoencoder и decoder
Метод перемещения лица, в основе которого — кодировщик и декодировщик. Работает это так:
- Два видео: донорское (откуда берём лицо) и целевое (куда мы его помещаем, ресивер, реципиент). На них размечаются границы лица. Эти видео с помощью нарезки кадров превращаются в набор фотографий. По ним и будет обучаться модель.
- Кодировщик сжимает изображения (грубо говоря, упрощает до последовательности чисел). Мы получаем latent face (непроявленное лицо), потом оно восстанавливается до оригинального изображения инструментом декодирования. Две нейросети обучаются кодировать и декодировать изображения так, чтобы после восстановления они были максимально похожими на оригинал.
Процесс кодирования и декодирования Centre for Data Ethics and Innovation
- Кодировщик и для донорского, и для целевого видео один и тот же, благодаря чему изображения latent face у обоих видео схожи. А вот декодировщики разные, и здесь начинается магия: как только нейросети обучились, декодировщики меняют местами, донорское изображение восстанавливается с использованием декодировщика целевого видео. Получается, что лицо донорского видео пришивается к лицу целевого видео, перенимая выражение лица, мимику и эмоции реципиента.
Один из распространённых кодов для переноса лиц таким методом написал российский разработчик-энтузиаст Иван Перов. В его репозитории DeepFaceLab на GitHub есть подробнейшие руководства с комментариями, системные требования к оборудованию и программному обеспечению и даже видеоинструкция.
КАК СДЕЛАТЬ ФЕЙК ПРОГРАММУ
В подходе с использованием этого метода улучшить результат можно только вручную, корректируя базы данных перед обучением или на постпродакшене.
Поэтому всё чаще в архитектуру с кодировщиком и декодировщиком вплетаются генеративно-состязательные сети. Их суть заключается в соревновании генератора и дискриминатора (отсюда — GAN, Generative Adversarial Network, генеративно-состязательная сеть).
Генераторы учатся создавать наиболее реалистичную картинку, дискриминаторы — определять, какая из них сгенерированная, а какая оригинальная. По мере того как генераторы обучаются обманывать дискриминатор, изображение получается всё более реалистичным.
Таким образом, кодировщик и декодировщик отвечают за перенос изображения, а дискриминатор от генеративных сетей — за улучшение результата. По этой логике работает архитектура Face Swap GAN, созданная японским разработчиком Shaoanlu.
Ещё один подход — архитектуры с использованием нескольких генеративно-состязательных сетей. Каждая сеть отвечает за свою операцию, что сводит к минимуму количество этапов с применением ручного труда.
Чтобы обучить такую нейросеть, требуется несколько суток и мощный кластер видеокарт. Несмотря на это, такой подход является наиболее перспективным, потому что даёт лучший результат.
Одно из решений, созданных по этой технологии, — FSGAN, которое в скором времени обещает опубликовать в открытом доступе его создатель, израильский исследователь Юваль Ниркин.
Здесь одна нейросеть учится подгонять лицо донора под параметры целевого видео (поворот головы, наклон вбок или вперёд), вторая переносит черты лица, а третья делает image blending (слияние изображений), чтобы картинка была более реалистичной, без разрывов или артефактов.
Сегодня перенос лиц, если он выполняется исключительно алгоритмами, всё ещё заметен человеческом глазу: выдают либо визуальные артефакты, например мимика или положение глаз, либо непохожесть нового лица ни на реципиента, ни на донора — в результате получается третья сущность.
Гладкий трансфер лиц всё ещё обеспечивают не нейросети, а навыки в CGI (многие широко известные сегодня создатели deepfake-видео вроде Corridor Crew и Ctrl Shift Face правят работу алгоритмов вручную на постпродакшене или же совершают манипуляции перед самим обучением).
Чего не может нейросеть: препродакшн и постпродакшн
Как правится контент до или после обучения нейросети, нам рассказал моушн-дизайнер студии Clan Андрей Чаушеску, который несколько месяцев назад создал нашумевший в России ролик с актёром Михаилом Ефремовым в трейлере фильма «Ангелы Чарли».
Недавно он опубликовал новую работу, поместив в фильм «Великий Гэтсби» изображение актёра Сергея Бурунова, который обычно озвучивает Леонардо Ди Каприо в русском дубляже. Свои проекты Андрей делает в программе DeepFaceLab, поэтому мы будем говорить о правках, которые требуются для работы именно с этим алгоритмом.
На этапе препродакшена проводится работа с данными перед началом обучения нейросети. Когда два видео разложены на наборы кадров, нужно отсмотреть эти базы и обратить внимание на несколько моментов.
Во-первых, не все люди могут обменяться друг с другом лицами незаметно. Сегодня переносимая алгоритмами область — от бровей до подбородка и от уха до уха (то есть уши, лоб и волосы остаются в целевом видео родными). Поэтому на схожесть результата влияют влияют пол, возраст, цвет кожи и волос, а также комплекция и форма лица.
Некоторые студии, делая поддельные видео с известными артистами, ищут максимально похожих на них людей: ребята из Corridor нашли человека, очень похожего на Тома Круза, а актёр, играющий в ролике с Киану Ривзом, надел чёрный парик, чтобы воссоздать образ актера.
Ctrl Shift Face недавно выпустил три ролика с разными актёрами в одной сцене из фильма «Старикам здесь не место». Лучше всего получился Арнольд Шварценеггер, так как форма его головы больше всего подходит под форму актёра Хавьера Бардема, в отличие от Дефо и Ди Каприо.
Андрей Чаушеску, моушн-дизайнер
Слева направо: Леонардо Ди Каприо, Уиллем Дефо и Арнольд Шварценеггер в роли Хавьера Бардема
Во-вторых, если в донорском видео лицо всегда анфас, а в целевом голова поворачивается и виден профиль, алгоритм не перенесёт лицо корректно, потому что не знает, как выглядит человек в профиль. Так же обстоят дела с положением глаз, движением губ, мимикой и эмоциями (смех или плач): оба человека должны побывать в максимально совпадающем диапазоне ситуаций.
Часто нейросеть некорректно распознаёт глаза. Конечно, больше пользы принесёт подбор фотографий с нужным положением глаз, хорошо считываемой мимикой, но «обман» нейросети тоже может дать хороший результат.
Андрей Чаушеску, моушн-дизайнер
Перенос, полученный с помощью алгоритма в чистом виде (1 — целевое видео, 2 — результат). Видно, что модель неверно распознала положение глаз Ди Каприо: он смотрит в одну сторону, Бурунов — в другую
Перенос, полученный с использованием прорисовки глаз в базе данных (3 — целевое видео, 4 — результат). Положение глаз в финальном видео стало больше похоже на их положение в оригинале у Ди Каприо
После обучения то, что не углядели в начале, и то, в чём оказался бессилен алгоритм, докрашивается на постпродакшене. В ролике с Сергеем Буруновым Андрею пришлось столкнуться с проблемой разной формы лица двух актеров, которую он решал уже на завершающем этапе.
Самый быстрый способ сделать поддельный ролик — наложить лицо, не выходя за рамки головы человека с целевого видео (в данном случае — Ди Каприо). Лицо Бурунова шире, и, как мне кажется, сходство терялось, поэтому приходилось вручную масками прорисовывать его овал.
Андрей Чаушеску, моушн-дизайнер
Изображение Сергея Бурунова до и после прорисовки масками
Основная программа, которой я пользуюсь на постпродакшене, — Adobe After Effects. Я делаю цветокоррекцию, добавляю размытие для имитации движения камеры и шум для эффекта кинопленки.
Андрей Чаушеску, моушн-дизайнер
Изображение Сергея Бурунова до и после цветокоррекции
Отдельная история — работа с изображениями, в которых перед лицом есть искажающая преграда: скафандр, искривлённое зеркало или очки. Тут единственный выход — ПО вроде After Effects, Cinema 4D.
В них вручную создаётся текстура материала, которая затем ставится перед лицом, чтобы выглядело, как в оригинале. Из-за таких ограничений часто бывает, что очень классные сцены фильмов сложно использовать в deepfake-роликах.
Андрей Чаушеску, моушн-дизайнер
Для YouTube-формата, когда каждый вышедший ролик становится информационным поводом и предполагает вау-реакцию аудитории, такой подход применим. Видео можно долго шлифовать, а потом ещё отдельно описывать процесс, как это часто делают в Corridor Crew.
Очевидно, рынок сервисов для пользователей не предполагает какой-либо постпродакшн: результат нужен сейчас. Того же хочет и профессиональная индустрия (кино и реклама), которая руками переносить лица уже умеет, но сейчас фокусируется на удешевлении и автоматизации процесса.
Ролик с переносом лица Киану Ривза от Corridor
Спичрайтинг — про текст, face swap — про видео: как технология прорвёт рынок медиа
Монетизируется технология face swap по двум стандартным моделям. Для b2c-аудитории создаются развлекательные приложения вроде Zao или Doublicat. Для b2b-аудитории — продукты, которые используются для оптимизации продакшена, маркетинговых коммуникаций, персонализации брендированного контента или в игровой индустрии.
Среди них Dowell и RefaceAI, создатели которых рассказали, по какой логике работает их продукт и какую нишу на рынке они планируют освоить.
Dowell вырос в офисе компании Everypixel Group, которая занимается производством контента и создаёт продукты на основе искусственного интеллекта. Изучив рынок, создатели стартапа поняли, что развитие продуктов для пользователей и демонстрация deppfake-публикаций на YouTube не их путь, и проработали сценарии использования в киноиндустрии и маркетинге.
Один из кейсов они реализовали с BBDO — рекламный ролик с изображением генерального директора крупного автомобильного бренда, в съёмках которого этот человек не принимал непосредственного участия.
Жизненный цикл сервисов, которые позволяют заменять лица, ограничен: пользователи не будут заходить туда каждый день. Это инструмент, который позволяет «пошуметь», рассказать о себе, оседлать волну хайпа. Но мы решили сосредоточиться на решении бизнес-задач.
Во-первых, это маркетинговая коммуникация брендов с аудиторией. Мы создаём персонализированный контент и с помощью видео помогаем обрести их клиентам пользовательский опыт перед покупкой.
Во-вторых, решаем проблему увеличения доходности агентств, работающих со звёздами, их клиентов. Представьте, что Джордж Клуни одновременно снимается в голливудском фильме, рекламном ролике Nespresso и проводит презентацию нового Mercedes в Штутгарте.
В таком формате доступ к «телу» звёзд появится у тех брендов и организаций (вроде благотворительных фондов), которые никогда не могли себе позволить пригласить звезду живьём.
Мария Чмир, генеральный директор компании Dowell
Источник: vc.ru
Как сделать дипфейк в 2023 году — 7 лучших сервисов
Сергей Бабич Редакция «Текстерры»
Технологии с использованием искусственного интеллекта, дополненной реальности и нейросетей давно перестали быть фантастикой: то образ известного человека появится в рекламе, то давно умерший актер сыграет в свежем фильме, то мошенник под видом директора банка совершит ограбление века, то мы сами, шутки ради, примерим на себя лицо селебрити. Так дипфейк все глубже проникает в нашу жизнь.
Дипфейк (англ. Deepfake) получил свое название от двух терминов: Deep learning (разновидность машинного обучения на основе искусственных нейронных сетей) и Fake — подделка.
Ваше изображение с лицом известной личности — результат синтеза изображений, где используется соединение и наложение существующих фото и видео на исходные. Это итог работы двух нейросетей. Одна из них, генеративная, создает изображения, которые анализируются второй, дискриминативной, сетью на предмет отличий от оригинала. Полученные данные передаются на вход генеративной сети — и так до тех пор, пока дискриминативная не перестанет понимать, где оригинал, а где фейк. Это называется генеративно-состязательной сетью (Generative adversarial network — GAN).
Евгений Карелин, дизайнер TexTerra:
«Технология Deepfake не нова, на текущий момент это инструмент для наложения маски на человеческое лицо. Deepfake можно применять для создания видео и фото контента. К примеру, сейчас такой технологией активно пользуются создатели VTube аватаров для проведения прямых трансляций, на которые они собирают большую аудиторию, готовую платить за общение с полюбившимися персонажами.
Но область применения технологии, как показывает практика, становится все шире. Предполагаю, что в ближайшем будущем она будет активно использоваться и в создании рекламных роликов, и игровых персонажей, и аватаров в социальных сетях».
Четыре сервиса для новичков
Вот несколько простых приложений, для работы с которыми не нужны навыки, — достаточно следовать простым инструкциям. С помощью этих сервисов сделать самому дипфейк можно быстро и бесплатно.
ReFace
Цена: Бесплатно
Доступная возможность «побыть в шкуре» известного персонажа. Все, что нужно сделать, это скачать приложение и снять селфи. Затем можно примерить лицо Снуп Догга, Мерилин Монро, или даже стать полотном Леонардо Да Винчи и оживить своими гримасами Мону Лизу. На выходе получится статичная картинка или анимированная гифка.
FaceApp
Цена: Бесплатно
Сложно поверить, но приложение российских разработчиков радует нас уже пять лет! Это качественный и доступный инструмент. FaceApp может практически мгновенно изменить ваше лицо: состарить, омолодить, создать новый стиль (например, примерить другую прическу) и даже сменить пол.
Из минусов: на выходе только статичное изображение.
Вот так я за считанные минуты натянул на свое лицо улыбку, поменял пол, возраст, длину волос и сделал себе макияж:
Xpression camera
Цена: Бесплатно
Японское приложение может создать ваш благопристойный образ в видеоконференции, в то время как вы на самом деле сидите перед камерой в пижаме, а на голове у вас утренний «взрыв на макаронной фабрике»:
Xpression camera генерирует изображение в режиме реального времени в Zoom, Twitch, Google Meet или Microsoft Teams, и, если коллеги вам это простят, вы сможете выйти в прямой эфир с ними в образе котика или Одри Хепберн из «Римских каникул»:
Round DeepFake
Платформа: Windows, macOS, Android, iOS — через Telegram
Цена: Бесплатно 10 секунд дипфейк-видео; 30-секундное видео за донат на сумму от 100 ₽; за 500 ₽ или больше — видео без водяного знака
Разработаем вам фирменный стиль
Быстро и красиво!
Три сервиса для продвинутых
Если нужен не котик с вашей мимикой, чтобы повеселить коллег в чате, а качественный дипфейк для коммерческого проекта, то и инструмент придется рассмотреть более серьезный. Вот три лучших на сегодня.
DeepFaceLab
Цена: бесплатно
Один из самых продвинутых кодов для создания высочайшего уровня дипфейк-видео написан российским программистом Иваном Перовым. В отличие от предыдущих инструментов в списке, для получения дипфейка в DeepFaceLab потребуются и компьютер с мощной видеокартой, и определенные знания, и терпение, и время. Программа представляет из себя проект с открытым кодом, библиотеку которой можно бесплатно скачать на github.com. Пользовательский интерфейс практически отсутствует, работа с нейросетью производится запуском bat-файлов с нужными параметрами. Для высокого качества дипфейка потребуется большое количество разнообразных исходников с мимикой, положением головы, разрешением и длительностью хронометража, но и результат будет поистине голливудский — практически все самые известные видео-фейки созданы этой нейросетью.
В DeepFaceLab получаются очень реалистичные образы.
FaceSwap
Платформа: Windows, Linux, macOS
Цена: бесплатно
Как и в предыдущем случае, для работы с этим приложением потребуется мощная видеокарта и много оперативной памяти. FaceSwap по сути — бесплатное программное обеспечение с открытым кодом, архив выложен на депозитарии github.com. Сложный интерфейс отпугнет новичка, но опытному пользователю будет в помощь и обилие документации, и техподдержка. Многоэтапная и длительная работа по обучению нейросети воздастся сторицей и порадует роликами высокого качества. Вот, например, результат работы FaceSwap: дипфейк-видео Дженифер Лоуренс на церемонии вручения «Золотого глобуса» 2016 года с лицом Стива Бушеми.
Visper
Платформа: Windows, macOS — через веб-интерфейс
Цена: Бесплатно 2 минуты дипфейк-видео; поминутный тариф от 90 ₽/мин; подписка 1490 ₽/мес
Разработанный Сбером сервис генерирует дипфейк-видео с диктором, который озвучит любой ваш текст.
При создании виртуального персонажа можно:
- выбрать внешний вид (пол, цвет кожи, варианты образа);
- выбрать голосовую модель синтеза речи;
- добавить жестикуляцию (жесты обращения, персонаж может поздороваться со зрителями или обратиться к ним во время рассказа);
- добавить изображение или видео в качестве сопроводительного материала.
Все делается через веб-интерфейс, наглядно и интуитивно понятно. Это бесценный инструмент для презентаций, сервисов онлайн-обучения, материалов новостного или развлекательного контента.
Из минусов: на бесплатном тарифе диктор не может быть с вашим лицом (или с лицом Леонардо Дикаприо), в этом случае для создания персонажа используются только образы из библиотеки.
Выводы
Большое разнообразие инструментов и сервисов с использованием нейросетей позволяет создавать дипфейки как новичкам, так и опытным пользователям. Фейковые изображения и видео открывают большие возможности для работы над развлекательным контентом, учебными материалами и рекламными проектами. Повеселить друзей в чате или сделать себе аватарку можно спокойно — Брюс Виллис с вас за это не спросит. А вот для коммерческой задачи придется соблюсти авторские права — использовать дипфейк без разрешения правообладателя не стоит, иначе однажды к вам придет сам «крепкий орешек» и спросит, где вы взяли картинки: «Yippee ki-yay, засранец!».
Источник: texterra.ru
Сервисы для создания фейковых скриншотов
Yellow Web 09.08
Салют, сегодня будем генерить разномастные фейковые скриншоты, поехали! Инфа собрана по разным каналам + слегка нарыта самостоятельно
Финансы:
1. Da Vinci – полноценный генератор скриншотов (Сбербанк, Тинькоф, Binance, MonoBank, Qiwi, Telegram)
2. Фейковые скрины c Qiwi (старый шаблон) – https://dealacc.ru/
5. Любые чеки и печати – https://v-c.tech
SMS-переписка iPhone:
SMS-переписка Android:
Комбайны:
– https://fakepostgenerator.com/ – умеет генерить посты Instagram
– https://www.prankmenot.com/ – умеет генерить посты FB + чаты фб и тви
– https://fakedetail.com/ – куча всего, но работает так себе
– https://zeoob.com/ – FB, Insta, Snapchat, Twitter + посты инсты! Выбор Жёлтого
Знаете ещё похожие годные сервисы? Присылайте в комменты
New
Сервис https://fakeinfo.net – набор функций на скрине и он впечатляет! У прокл с перепиской селеб открывается второе дыхание!
UPD (рабочие методы)
Порой для создания креатива или воронки, арбитражнику могут потребоваться доказательства эффективности оффера в виде переписок со «счастливыми» игроками и клиентами, совершившими покупку, а также скриншотов успешных транзакций, способных повысить лояльность целевой аудитории.
✅ Что делать, если Photoshop пугает уже на этапе запуска, а Paint не открывался с последнего урока информатики? Забудь про фоторедакторы и лови нашу подборку сервисов для создания фейковых скриншотов:
ScreenChat и iFake — сервисы для создания скриншотов SMS-переписки на IPhone.
Zeoob и Fake Details Generator — сервисы, позволяющие сгенерировать переписку в популярных социальных сетях (FB, Twitter, WhatsApp, TikTok, Telegram), а также SMS-сообщения Android и iOS.
DealAcc — проверенный временем сервис для создания скриншотов QIWI, Яндекс.Деньги и 1xbet. Из минусов — шаблоны личных кабинетов онлайн-кошельков представлены в старом дизайне.
Fakegptbot — телеграм-бот для создания фейковых скриншотов Qiwi, Сбербанка, Тинькофф, а также ряда других банков.
ФЕЙКЧЕКИ — бот, умеющий генерировать чеки онлайн-переводов и других операций топовых банков.
SS-Fake — бот, генерирующий квитанции о переводах денежных средств через популярные банки. Поддерживает валюты: рубль и тенге.
FakeCrakPortalBot — еще один бот для создания чеков Сбербанка, Тинькофф и Альфа банков.
[Marble] Фейк скриншоты — бот для создания скриншотов фейковых балансов популярных онлайн-кошельков и бинарных опционов. После подписки на рекламный контент открывается возможность сгенерировать скриншот баланса личного кошелька 1xbet.
Источник: cpalenta.ru