La Joconde rappe grâce à Microsoft. Avec VASA-1, le deepfake est servi

Microsoft a présenté VASA-1un nouveau modèle d’intelligence artificielle performant (basé sur le framework VASA), à partir d’un une seule image et un clip audioDe créer un avatar réaliste sous forme de vidéo.

VASA-1 peut être utilisé même pour les applications en temps réel, à tel point qu’une vidéo avec un avatar généré par le modèle pourrait être utilisée, par exemple, pour une conversation par appel vidéo avec Teams, FaceTime ou d’autres technologies de streaming en direct. Selon Microsoft, le décalage n’est que de 170 millisecondes.

VASA-1 demande à l’utilisateur de prendre une photo, comparable à une photo d’identité, et d’enregistrer une piste audio pour créer une vidéo animée de manière réaliste qui est joué en synchronisation labiale avec le fichier audio fourni.

Les chercheurs de Microsoft expliquent que modèles d’intelligence artificielle précédents ils se spécialisaient principalement dans la synchronisation labiale, tandis que le Les expressions faciales, les émotions, les mouvements de tête et d’autres détails ont été négligés.

VASA-1 devrait offrir tout cela et donc pouvoir créer des visages animés réalistes. Les chercheurs le démontrent avec une sélection de courtes vidéos sur le site Web du projet.

Selon Microsoft, VASA-1 peut produire des vidéos avec une résolution de 512 x 512 pixels et 45 FPS en traitement hors ligne ou en ligne à 40 FPS en temps quasi réel avec un décalage initial de seulement 170 ms. Les chercheurs ont utilisé un ordinateur de bureau doté d’un NVIDIA GeForce RTX 4090 pour leurs manifestations.

La durée de la vidéo générée dépend de la piste audio insérée, mais grâce à la faible latence, il peut également être importé en temps réel pour un streaming en direct. Au lieu de leur propre visage, les participants voient alors un avatar généré par VASA-1.

VASA-1 offre à l’utilisateur une série de commandes pour établir, par exemple, la direction des yeux, l’orientation de la tête, l’humeur de l’avatar créé ou la distance de la tête à la caméra virtuelle. VASA-1 peut également créer des personnages animés ou donner vie à des personnages comme Mona Lisa, bien que le modèle n’ait pas été formé avec des données appropriées. Même les langues autres que l’anglais peuvent être animées avec la synchronisation labiale.

Les chercheurs de Microsoft soulignent quebien que le modèle d’IA n’ait pas été créé pour tromper les autres, il pourrait certainement être utilisé à cette fin, par exemple en imitant une autre personne à l’aide d’une photo. À l’exception de Mona Lisa, les vidéos de démonstration de Microsoft utilisaient uniquement des images générées par l’IA à l’aide de StyleGAN2 et DALL·E 3.

VASA-1 a actuellement des limites dans la génération vidéo puisqu’il faut animer des parties du torse en partant du cou. De plus, il peut y avoir problèmes avec vos cheveux ou vos vêtements et parfois les textures peuvent être générées de manière incorrecte.

Tags: Joconde rappe grâce Microsoft Avec VASA1 deepfake est servi

Related posts