Истории

Несколько часов и никаких навыков программирования: как сделать дипфейк с синхронизацией губ

Истории
Елена Лиханова
Елена Лиханова

Редактор

Елена Лиханова

В последние годы постоянно появляются новые алгоритмы, которые позволяют делать все более убедительные дипфейки. Чтобы превратить найденный в интернете код в видео, нужны лишь время и терпение. Автор The Verge Джеймс Винсент рассказал, как он создал дипфейк с синхронизацией губ, обладая нулевым опытом в программировании.

Несколько часов и никаких навыков программирования: как сделать дипфейк с синхронизацией губ

Для создания дипфейка вам понадобятся видео с нужным объектом и аудиодорожка, которую вы хотите в него вставить. Если объединить их с помощью кода, то получится ролик, в котором несколько киноперсонажей исполняют песню All Star группы Smash Mouth:

Или Трамп говорит с ирландским акцентом:

Поиск алгоритмов

Эти видео — не те дипфейки, которые предназначены для подрыва демократии и информационной войны. Они даже не особо убедительны, скорее, просто забавны.

Как написал в Twitter ирландский дизайнер Джеймс Келлехер, создавший дипфейк с королевой Великобритании, для этого видео он использовал инструмент, опубликованный некоторыми исследователями ИИ. Статья с описанием метода Wav2Lip, была опубликована несколько недель назад. Авторы призывают всех желающих попробовать его. Демо-версия изначально находилась в свободном доступе, но сейчас для ее использования требуется регистрация. К. Р. Праджвал из IIIT Hyderabad, один из авторов инструмента, объясняет: это нужно, чтобы его не использовали в недобрых целях. При этом он признал, что регистрация не «удержит серьезного преступника, который хорошо разбирается в программировании».

«Мы определенно признаем обеспокоенность людей тем, что эти инструменты находятся в свободном доступе, и поэтому настоятельно рекомендуем пользователям кода и сайта указывать, что видео созданы искусственно», — сказал Праджвал. Он и его коллеги-исследователи отмечают, что программа можно применять для таких полезных целей, как создание анимации и дублирование видео на новые языки. Праджвал добавляет: они надеются, что предоставление кода будет «способствовать плодотворным исследованиям систем, которые смогут эффективно бороться с его неправильным использованием».

Неудачная попытка

Вот как я первоначально попытался сделать дипфейк. Я нашел видео с Тимом Куком и аудио с речью Джима Керри. Я загрузил видео с помощью функции записи экрана Quicktime, а аудио — с помощью приложения Piezo. Затем я взял оба файла, загрузил их на сайт и стал ждать, однако ничего не произошло.

По какой-то причине демо-версии они не понравились. Я попытался сделать новые файлы и уменьшить их разрешение, но это ничего не изменило. Это стало важным моментом в моем опыте создания дипфейков: появлялись случайные препятствия, а у меня не было технического опыта, чтобы их проанализировать. В конце концов я сдался и позвал Келлехера на помощь. Он предложил мне переименовать файлы, чтобы удалить все пробелы. Я так и сделал, и это сработало. Теперь у меня было видео с Тимом Куком, произносящим текст Джима Керри для проб к фильму «Лемони Сникет: 33 несчастья». Это было ужасно — как с точки зрения правдоподобности, так и юмора — но все равно это было мое достижение.

Google Colab: место моих многочисленных сражений с алгоритмом Wav2Lip. Скриншот: Джеймс Винсент

Переход в Colab

Чтобы улучшить результат, я захотел самостоятельно запустить алгоритмы. Для этого я пошел на GitHub, где создатели Wav2Lip разместили базовый код. Для запуска нужно было использовать Google Colab: это эквивалент Google Docs для программирования, который позволяет работать с проектами машинного обучения в облаке. Опять же, всю работу за меня сделали авторы алгоритма, которые выложили код с простыми этапами. Но это не помогло избежать ошибок.

К счастью, многие из проблем помог решить этот видеоурок с YouTube. Посмотрев его несколько раз и потратив часы на устранение неполадок, я наконец-то получил рабочую модель.

Окончательный результат

В ходе дальнейших экспериментов я узнал о некоторых особенностях программы (например, что ей труднее обрабатывать лица, которые не смотрят прямо в камеру) и решил создать свой дипфейк: видео с Илоном Маском, произносящим речь Тима Карри из Command & Conquer: Red Alert 3.

Что мне дал этот опыт? Инструменты для создания дипфейков действительно доступны, но все равно это не так уж легко. Алгоритмы существуют уже много лет, и их может использовать любой, кто готов потратить несколько часов. При этом по-прежнему гораздо проще отредактировать видео с помощью традиционных методов.

С другой стороны, скорость распространения этой технологии впечатляет. Алгоритм синхронизации губ Wav2Lip был создан международной группой исследователей, связанных с университетами Индии и Великобритании. Они поделились своей работой в интернете в конце августа, и затем она была подхвачена в Twitter и тематических рассылках (например, хорошо известной Import AI). Исследователи сделали код доступным и даже создали публичную демо-версию. В течение нескольких недель люди по всему миру начали экспериментировать с алгоритмом, создавая дипфейки ради удовольствия или для контент-целей. По запросу Wav2Lip на YouTube можно найти учебные пособия, демо-версии и множество других примеров дипфейков.

Источник.

Фото на обложке: FrameStockFootages / Shutterstock

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 «Позвонил начальник, попросил помочь закрыть сделку»: как мошенники используют дипфейки
  2. 2 Дипфейки в рекламе и кино: как использовать технологию во благо
  3. 3 Борьба с дипфейками и AR в пресс-релизах: чем ваша PR-служба может заняться уже сегодня
  4. 4 «Дочка» Alphabet разработала программу для выявления фейковых фотографий

Актуальные материалы —
в Telegram-канале @Rusbase