Компания Microsoft представила новую систему VASA-1, которая может создавать реалистичные говорящие лица из одного изображения и звуковой дорожки.
VASA-1 может воссоздавать выражения лица, точно синхронизированные движения губ и естественные движения головы. Для этого ей достаточно единственной фотографии человека.
Разработчики отмечают, что нейросеть может улавливать широкий спектр эмоций и тонкие нюансы, делая сгенерированные лица более правдоподобными. Пользователи могут указать направление взгляда персонажа и даже эмоциональное состояние персонажа.
VASA-1 достигает реалистичности за счет разделения черт лица, трехмерного положения головы и выражений лица на отдельные части. Нейросеть может создавать видео разрешением 512x512 пикселей с частотой 45 кадров в секунду.