Учитывая, насколько глубокое обучение происходит повсюду, было только вопросом времени, прежде чем оно будет применено к реконструкции лица. Это окажет большое влияние на анимацию и компьютерную графику.
Исследователи из Института информатики Макса Планка, Технического университета Мюнхена, Университета Бата, Стэнфордского университета и Technicolor разработали первую систему на основе глубокого обучения, которая может передавать полное 3D положение головы, выражение лица и взгляд от исходного актера к целевому актеру. Их работа основана на проекте Face2Face, о котором мы сообщали в 2016 году, который был первым, кто вложил слова в рот другого человека и выражение его лица.
Как объясняет команда в исследовательской работе, подготовленной для SIGGRAPH 2018, которая состоится в Ванкувере в августе:
“Синтез и редактирование видеопортретов, то есть видеороликов, обрамленных для отображения головы и верхней части тела человека, является важной проблемой в компьютерной графике, в частности, с приложениями для редактирования видео и постпродакшна фильмов, визуальных эффектов, визуального дубляжа, виртуальной реальности и телеприсутствия.»
Их новый подход основан на новой сети перевода рендеринга в видео, которая преобразует последовательность простых изображений компьютерной графики в фотореалистичное и связное во времени видео. Это первый способ передачи позы головы и ориентации, выражения лица и взгляда глаз от исходного актера к целевому актеру. Это отображение изучается на основе новой пространственно-временной формулировки объема. Используя графические процессоры NVIDIA TITAN Xp, команда в течение десяти часов обучала свою генеративную нейронную сеть на клипах общественного достояния, и результаты можно увидеть в этом видео:
Исследователи приходят к выводу:
Мы показали с помощью экспериментов и исследования пользователей, что наш метод превосходит предыдущую работу по качеству и расширяет их возможности. Таким образом, он открывает новый уровень возможностей во многих приложениях, таких как воспроизведение видео для виртуальной реальности и телеприсутствия, интерактивное редактирование видео и визуальное дублирование. Мы рассматриваем наш подход как шаг к высокореалистичному синтезу полнокадрового видеоконтента под контролем значимых параметров. Мы надеемся, что это вдохновит будущие исследования в этой очень сложной области.