TECH HÍREK – Sok esetben fel lehet hozni azt, hogy a mesterséges intelligenciát káros célokra is alkalmazni lehet, de ebben az esetben hatványozottan erre gondolhatunk, ugyanis amit a Google kutatói megvalósítottak, bár lenyűgözőnek mondható, mégis ijesztő belegondolni.
A kutatók ugyanis olyan technológiával álltak elé, hogy egyetlen állóképből képesek valakit megszólaltatni egy videó formájában. Egyetlen képből. Ezzel például valaki beviteli szöveget olvashat fel, vagy le lehet cserélni az ajakmozgást úgy, hogy az pontosabb legyen egy másik nyelven. De ez már az a szint, amikor valakinek a személyiségét ellophatják, és hamis információkat terjeszthet valakinek a mesterséges intelligencia által készített mása. Más szóval: a deepfake-ek új, eddig még nem látott szintre léphetnek.
A Google kutatói Vloggernek nevezik a technológiát, ami arc- és testmozgás létrehozására is képes a videóban. Videószerkesztésre is használható. Egy rövid videórészlet során a műsorvezető a kamerába beszél, de egy másik verzióban zárt a szája, egy újabb változatban pedig a szemeit hunyta le az illető. A mesterségesen nyitva tartott szemű változat rémálmokba való, és minden bizonnyal ezzel nem leszünk egyedül, mert természetellenes a pislogás hiánya.
A Vlogger Github oldala szerint két szakaszon keresztül működik. Kell egy egy sztochasztikus ember-3D-mozgás diffúziós modell, és egy új diffúzió alapú architektúra, amely a szöveg-kép modelleket időbeli és térbeli vezérléssel egészíti ki. Ez a megközelítés lehetővé teszi a változó hosszúságú, kiváló minőségű videók létrehozását, amelyek az emberi arcok és testek magas szintű reprezentációin keresztül könnyen vezérelhetőek. Bár ez izgalmasan hangzik, a technológiát nem lehet még tökéletesnek nevezni.
A mesterséges intelligencia által generált videókhoz hasonlóan itt is a szájmozgás tűnik furcsának, sőt, néha igesztőnek. Semmi sem tökéletes eleinte (mi magunk sem vagyunk azok), úgyhogy a Google később még javítani fog pár aspektuson, de azért ettől függetlenül félelmetes, hogy a cég kutatói milyen technológiákat képesek létrehozni úgy, hogy alapból tényleg nincs sok anyaguk, amiből kiindulhatnának.
2. Generation of Moving and Talking People
Here’s an example on talking face generation given just a single input image and a driving audio. pic.twitter.com/hd7HKDfYkP
— EyeingAI (@EyeingAI) March 18, 2024