Les avatars réalistes font un pas en avant
Les utilisateurs du cyberespace rencontreront peut-être bient?t des avatars animés. Des chercheurs de l'ETH ont développé de nouveaux algorithmes qui permettent de créer des personnes virtuelles beaucoup plus facilement qu'auparavant.
Depuis la pandémie de Corona, nous regardons encore plus souvent l'écran. Les réunions, les entretiens avec les collègues de travail ou les conférences se font par vidéotéléphonie. Si l'on en croit les grandes entreprises de technologie, nous devrions en revanche pouvoir nous rencontrer dès l'année prochaine dans un monde d'expériences virtuelles, appelé Metaversum, gr?ce à des lunettes 3D et des programmes informatiques spécialisés.
Les avatars, c'est-à-dire des représentations plastiques de personnes générées par ordinateur, sont la clé d'une expérience utilisateur aussi naturelle que possible dans les applications de réalité virtuelle. Plus les avatars ont un aspect et un comportement réalistes, plus le sentiment d'une véritable interaction sociale se fait sentir.
Modéliser un être humain en détail et en mouvement reste un défi pour les développeurs de telles applications. Aujourd'hui, les programmes graphiques peuvent certes déjà créer des avatars photoréalistes et statiques. Mais pour animer un visage souriant, par exemple, les graphistes doivent retravailler presque chaque image à la main sur l'ordinateur ; ils améliorent les nuances comme les rides et les ombres.
Des chercheurs dirigés par Otmar Hilliges, professeur de sciences informatiques à l'ETH Zurich, ont montré comment faire plus simplement dans une nouvelle étude qu'ils ont présentée à la page externeConférence internationale sur la vision par ordinateur publiés à l'automne 2021. Au lieu de modéliser chaque détail, les scientifiques utilisent des algorithmes intelligents qui, sur la base d'images 3D de personnes dans quelques poses, apprennent à représenter automatiquement des avatars animés du corps entier dans toutes les poses possibles et imaginables.
Un modèle informatique peut même représenter un tonneau
Les programmes informatiques qui créent des personnes virtuelles réalistes à l'aide de l'intelligence artificielle (IA) n'existent que depuis quelques années. Pour que ces programmes puissent reproduire de manière réaliste les différentes positions du corps, ils sont entra?nés à l'aide de ce que l'on appelle des scans 3D d'une personne réelle, préalablement enregistrés par un système complexe de caméras.
Les algorithmes d'IA traitent les scans en mesurant d'innombrables points à l'extérieur et à l'intérieur du corps et définissent ainsi ses contours comme une fonction mathématique. Ils créent ainsi une première représentation de l'être humain dans sa position de base. Les algorithmes calculent ensuite le chemin qui mène d'une pose en mouvement à cette position de base. De cette manière, ils construisent un modèle informatique capable de mettre les avatars en mouvement.
Les poses extrêmes qui sortent du répertoire de mouvements connu dépassent toutefois ces modèles et des erreurs bien visibles apparaissent dans les représentations : Les bras sont détachés du corps ou les articulations sont positionnées au mauvais endroit. Les modèles actuels sont donc entra?nés avec le plus grand nombre possible de poses différentes, ce qui représente un effort énorme pour l'acquisition des images et nécessite une puissance de calcul considérable.
Les avatars d'IA ne sont donc guère utilisables jusqu'à présent, en particulier pour les applications interactives. "Il est impossible et surtout inefficace de capturer l'ensemble du répertoire de mouvements dans l'image", explique Xu Chen, doctorant à l'ETH et premier auteur de l'étude.
La nouvelle méthode développée par Chen suit en revanche l'approche inverse : à partir de la position de base, les algorithmes d'IA calculent le chemin vers une pose en mouvement. Comme de cette manière le point de départ des calculs reste toujours le même, les algorithmes apprennent mieux à généraliser les mouvements.
Un tel modèle informatique est pour la première fois en mesure de représenter sans problème de nouveaux modèles de mouvements. Il peut même générer des mouvements acrobatiques comme un renversement ou un pont sur le dos.
Nouveaux visages à volonté avec une seule image
Les nouveaux avatars du corps entier ne peuvent pas encore être personnalisés ; les représentations se limitent à la personne dont proviennent les images 3D. Chen et ses collègues souhaitent donc développer le modèle informatique de manière à ce qu'il puisse créer de nouvelles identités à volonté.
Pour personnaliser les visages des avatars et les modifier à volonté, Marcel Bühler, également doctorant dans le groupe de Hillige, a déjà trouvé une solution. Comme Chen dans ses modèles de corps entier, Bühler a utilisé des algorithmes intelligents pour créer de nouveaux visages animés à partir de la combinaison d'un modèle de visage en 3D et d'une grande palette de photos de portraits.
Alors que les programmes informatiques actuels fournissent déjà de bonnes animations de visages en vue frontale, le modèle de Bühler peut également représenter de manière réaliste des visages en vue latérale ainsi que de haut en bas.
En regardant bien, on peut démasquer les deepfakes
Cette nouvelle technique risque-t-elle de faire circuler des vidéos deepfake encore plus réalistes, par exemple pour simuler le discours d'un homme politique important ? "Les vidéos deepfake sont encore loin d'être parfaites", explique Bühler. La plupart des programmes informatiques ne donneraient souvent de bons résultats que pour un setting particulier. Par exemple, le nouveau modèle de visage ne peut pas encore représenter de manière réaliste des détails comme les cheveux.
"Si l'on regarde de près, on continue à trouver des erreurs", explique le doctorant de l'ETH. Pour lui, il est plus important d'informer le public sur l'état actuel des choses et de le sensibiliser. Selon lui, si les travaux de recherche sur les techniques de représentation 3D ainsi que leurs points faibles sont accessibles au public, cela pourrait aider les experts en cybersécurité à détecter plus facilement les vidéos deepfake sur le web.
Pour les applications interactives de réalité virtuelle, le travail des chercheurs de l'ETH permet de grandes avancées. Il est fort possible que des entreprises tech comme Facebook et Microsoft implémentent les techniques nouvellement développées par les deux doctorants dans leurs avatars.
Référence bibliographique
Chen X, Zheng Y, Black M, Hilliges O, Geiger A. page externeSNARF : Différentiable Forward Skinning for Animating Non-Rigid Neural Implicit Shapes (en anglais). International Conference on Computer Vision (ICCV), publié en ligne le 11 octobre 2021.
Bühler M, Meka A, Li G, Beeler T, Hilliges O. page externeVariTex : Textures de visages neuronales variables. International Conference on Computer Vision (ICCV), publié en ligne le 11 octobre 2021.