TECH HÍREK – A Dall-E és a ChatGPT kapcsán ismert cég újabb technológiáról rántotta le a leplet.
Az OpenAI szerint a Sora egy olyan modell alapja lesz, ami képes lesz megérteni és szimulálni a való világot, és ezzel a cég egy újabb lépéssel közelebb jutott az AGI-hoz (általános mesterséges intelligenciához). 60 másodperces felvételeket képes alkotni olyan parancsokkal mint „stílusos nő sétál Tokió utcáin”, vagy „filmelőzetes, főszerepben egy 30 éves, vörös, gyapjú bukósisakot viselő űrember kalandjaival”.
Az eddigi MI-s videógenerálás nem nagyon tudott konzisztens lenni, ugyanis az arcok, az objektumok és a ruházat képkockénként is eltérhet. Ezzel szemben a Sora az OpenAI szerint megérti nem csak azt, amit a felhasználó a lekérdezésében írt, hanem azt is, hogy ezen dolgok miképp léteznek a fizikai világban. A Holdújévet ünneplő videó esetében elsőre nem hülyeség azt gondolni, hogy ezt egy dokumentumfilm háttéranyagának szánták és igazi felvételről van szó, holott nem, és ha közelebbről megvizsgáljuk, az emberek arányai nem jók, és mintha botladoznának.
„A jelenlegi modellnek vannak gyengeségei. Nehezen tudja pontosan szimulálni egy összetett jelenet fizikáját, és nem érti az ok-okozati összefüggések konkrét eseteit. Például egy személy beleharaphat egy sütibe, de utána a sütin nem biztos, hogy van harapásnyom. A modell összekeverheti a felszólítás térbeli részleteit is, például összekeverheti a bal és a jobb oldalt, és nehézségekbe ütközhet az időben lezajló események pontos leírásával, például egy adott kamerapálya követésével,” írja az OpenAI. A Sora még nem érhető szélesebb körben el, mert a cég vizsgálja a model szociális kockázatait, és egy észlelőn dolgozik, ami meg tudja mondani, hogy a kérdéses videóhoz a Sora lett-e használva.
Több vizuális művész, tervező és filmalkotó kapott hozzáférést, hogy visszajelzéseik alapján az OpenAI a modellt úgy fejlessze, hogy a kreatív profik számára a legnagyobb segítség legyen. De vajon a nyersanyagok, amikkel a Sora dolgozik, honnan származnak?