GAN создают говорящие аватары из одной фотографии


В тот момент, когда вы подумали, что это не может быть еще страшнее, исследователям Samsung удалось использовать нейронную сеть для создания реалистичных говорящих голов из единственной фотографии объекта. Вы действительно не можете больше полагаться на то, что видите.

Дипфейки стали еще более изощренными с помощью состязательных сетей. Система делает несколько неподвижных фотографий человека и может генерировать говорящую голову, которая выглядит как человек, но управляется лицевыми ориентирами того же или другого человека. По сути, вы даете им фотографию себя, и они могут создать реалистичное видео, на котором вы говорите все, что они хотят, чтобы вы сказали.
Принцип заключается в том, что система сначала обучается с использованием кадров из видео определенного человека, вместе с ориентирами на лице. После некоторого обучения генератор пытается построить синтетическое изображение из изображения лицевого ориентира для кадра, не используемого в обучении. Результат сравнивается с реальным кадром, и сеть дискриминатора возвращает оценку реализма, которая используется для улучшения генератора.

После того, как фаза «метаобучения» завершена, то есть она сошлась на обучающих видеокадрах, можно ввести набор фотографий человека, не входящего в обучающий набор, и система попытается создать синтетическое изображение на основе фотографии. и его знаковые данные. Опять же, обучение проводится на основе того, насколько хорошо система соответствует истине. Количество тренировочных фотографий на этом этапе может быть очень небольшим, и кажется, что это работает только с одной тренировочной фотографией, то есть однократным обучением. После этого вы можете ввести данные ориентира, полученные от другого лица, и создать изображения, не соответствующие ни одному из изображений, которые вы показали в сети, то есть вы можете кукловодить лицо.
Хотя этот метод работает для однократного обучения, он лучше работает с большим количеством фотографий, хотя на практике их довольно мало.
Взгляните на результаты:

Так стоит ли нам волноваться?
Экспериментаторы вроде как пишут:
«Мы понимаем, что наша технология может иметь негативное применение для так называемых« дипфейк »видео. Однако важно понимать, что Голливуд делал фальшивые видео (также известные как« спецэффекты ») в течение столетия, а глубокие сети с аналогичными возможностями были доступны в течение последних нескольких лет (см. ссылки в документе). Наша работа (и немало параллельных работ) приведет к демократизации определенных технологий спецэффектов. И демократизация технологий всегда отрицательные эффекты.”
Далее они заявляют, что считают, что общий эффект от технологии будет положительным, и ссылаются на развитие технологии обнаружения дипфейков как на то, что может защитить нас от худшего.
Хорошо, так что анимировать людей с картин и тому подобного – это весело, но каково реальное использование?
«Мы считаем, что технологии телеприсутствия в AR, VR и других средствах массовой информации должны изменить мир в недалеком будущем. Перенос части человеческого общения в виртуальный и дополненный миры будет иметь несколько положительных эффектов».
Основная идея, по-видимому, заключается в том, что вместо того, чтобы отправлять видео по конвейеру, мы можем отправить карту ориентира и создать фотореалистичный аватар на принимающей стороне. Я не уверен, что в базовой форме это приложение является привлекательным, но, возможно, так оно и есть.
Что будет волновать большинство людей, так это идея, что они могут появиться в телеприсутствии, дополненной реальности или виртуальной реальности как кто-то еще с большим «присутствием», чем они обычно имеют. Скажем, способ преодолеть плохое присутствие на сцене. Что, если бы все ваши лекции читал Альберт Эйнштейн? Лично я не уверен.


Добавить комментарий