Gli avatar realistici fanno un passo avanti
Chiunque utilizzi il cyberspazio potrebbe presto incontrare avatar animati. I ricercatori dell'ETH hanno sviluppato nuovi algoritmi con i quali è possibile creare persone virtuali in modo molto più semplice rispetto al passato.
Da quando è scoppiata la pandemia di coronavirus, fissiamo ancora più spesso i nostri schermi. Riunioni, conversazioni con i colleghi o conferenze avvengono tramite videochiamata. Tuttavia, se le grandi aziende tecnologiche faranno la loro parte, dal prossimo anno potremo incontrarci in un mondo virtuale di esperienze, il cosiddetto metaverso, utilizzando occhiali 3D e programmi informatici specializzati.
La chiave per un'esperienza utente il più naturale possibile nelle applicazioni di realtà virtuale sono i cosiddetti avatar, ossia rappresentazioni plastiche di persone generate al computer. Quanto più realistici sono l'aspetto e il comportamento degli avatar, tanto più è probabile che l'interazione sociale sia reale.
La modellazione di un essere umano in movimento e fedele ai dettagli è ancora una sfida per gli sviluppatori di tali applicazioni. Oggi i programmi di grafica possono già creare avatar statici e fotorealistici. Tuttavia, per animare un volto sorridente, ad esempio, i grafici devono modificare a mano quasi ogni singola immagine sul computer, correggendo sfumature come rughe e ombre.
I ricercatori guidati da Otmar Hilliges, professore di informatica presso il Fare ricerca all'ETH di Zurigo, hanno mostrato come questo possa essere fatto più facilmente in un nuovo studio presentato all'ETH di Zurigo. pagina esternaConferenza internazionale sulla visione artificiale pubblicato nell'autunno del 2021. Invece di modellare ogni dettaglio, gli scienziati utilizzano algoritmi intelligenti che imparano a renderizzare automaticamente avatar animati a corpo intero in tutte le pose immaginabili basandosi su immagini 3D di persone in poche pose.
Un modello computerizzato può persino rappresentare il rollover
I programmi informatici che utilizzano l'intelligenza artificiale (AI) per creare esseri umani virtuali realistici esistono solo da pochi anni. Per garantire che questi programmi possano riprodurre realisticamente le varie posizioni del corpo, vengono addestrati utilizzando scansioni 3D di una persona reale, registrate in anticipo da un complesso sistema di telecamere.
Gli algoritmi dell'intelligenza artificiale elaborano le scansioni misurando innumerevoli punti all'esterno e all'interno del corpo e definendo così i suoi contorni come una funzione matematica. In questo modo, creano una rappresentazione iniziale della persona nella posizione di base. Gli algoritmi calcolano quindi il percorso da una posa in movimento a questa posizione di base. In questo modo, costruiscono un modello computerizzato in grado di mettere in movimento gli avatar.
Tuttavia, le pose estreme che esulano dal repertorio noto di movimenti, sovraccaricano tali modelli e provocano errori chiaramente visibili nelle visualizzazioni: Le braccia si staccano dal corpo o le articolazioni sono posizionate nel posto sbagliato. I modelli odierni vengono quindi addestrati con il maggior numero possibile di pose diverse, il che comporta un enorme sforzo per l'acquisizione delle immagini e richiede un'enorme potenza di calcolo.
Gli avatar AI sono quindi poco adatti soprattutto per le applicazioni interattive. "? impossibile e soprattutto inefficiente catturare l'intero repertorio di movimenti in un'immagine", afferma Xu Chen, dottorando dell'ETH e autore principale dello studio.
Il nuovo metodo sviluppato da Chen, invece, adotta l'approccio opposto: partendo dalla posizione di base, gli algoritmi di intelligenza artificiale calcolano il percorso verso una posa in movimento. Poiché in questo modo il punto di partenza dei calcoli rimane sempre lo stesso, gli algoritmi imparano a generalizzare meglio i movimenti.
Per la prima volta, un modello computerizzato di questo tipo è in grado di visualizzare facilmente nuovi modelli di movimento. Può persino generare movimenti acrobatici come una capriola o un ponte all'indietro.
Un numero qualsiasi di nuovi volti con una sola immagine
I nuovi avatar a corpo intero non possono ancora essere personalizzati; le rappresentazioni sono limitate alla persona da cui provengono le immagini 3D. Chen e i suoi colleghi vorrebbero quindi sviluppare ulteriormente il modello computerizzato in modo che possa creare nuove identità a seconda delle esigenze.
Marcel Bühler, anch'egli dottorando nel gruppo di Hillige, ha già trovato una soluzione per personalizzare i volti degli avatar e cambiarli a piacimento. Come Chen per i suoi modelli a corpo intero, Bühler ha utilizzato algoritmi intelligenti per creare nuovi volti animati dalla combinazione di un modello di volto 3D e di un'ampia tavolozza di foto di ritratti.
Mentre i programmi informatici precedenti forniscono già buone animazioni di volti in vista frontale, il modello di Bühler può anche rappresentare realisticamente i volti in vista laterale, dall'alto e dal basso.
Se si guarda da vicino, si possono smascherare i deepfakes
C'è il rischio che con la nuova tecnologia circolino presto video deepfake ancora più realistici, per esempio per simulare un discorso di un politico importante? "I video deepfake sono tutt'altro che perfetti", spiega Bühler. La maggior parte dei programmi informatici spesso fornisce buoni risultati solo per un'impostazione specifica. Per esempio, il nuovo modello facciale non è ancora in grado di rappresentare in modo realistico dettagli come i capelli.
"Se si guarda da vicino, si trovano ancora degli errori", dice il dottorando dell'ETH. Per lui è più importante informare il pubblico sullo stato attuale delle cose e sensibilizzarlo. Se i lavori di ricerca sulle tecniche di visualizzazione 3D e le loro vulnerabilità fossero accessibili al pubblico, gli esperti di cybersicurezza potrebbero essere in grado di rintracciare più facilmente i video deepfake sul web, sostiene Bühler.
Il lavoro dei ricercatori all'ETH sta facendo grandi progressi nelle applicazioni interattive di realtà virtuale. ? molto probabile che aziende tecnologiche come Facebook e Microsoft implementino le nuove tecniche sviluppate dai due dottorandi nei loro avatar.
Bibliografia
Chen X, Zheng Y, Black M, Hilliges O, Geiger A. pagina esternaSNARF: Differentiable Forward Skinning per l'animazione di forme implicite neurali non rigide. International Conference on Computer Vision (ICCV), pubblicato online l'11 ottobre 2021.
Bühler M, Meka A, Li G, Beeler T, Hilliges O. pagina esternaVariTex: Texture neurali variazionali dei volti. International Conference on Computer Vision (ICCV), pubblicato online l'11 ottobre 2021.