TECH HÍREK – Természetes nyelvi parancsokkal lehet képeket manipulálni. Ez felettébb átütőnek hangzik!
Bár az Apple az OpenAI ChatGPT-jétől és a Google Geminijétől le van maradva, az amerikai techcég nem kevés pénzt ölt a mesterséges intelligenciába, hogy az iOS 18 megjelenésével az iPhone 16-ban sok MI-s funkció legyen. Most viszont arról hallani, hogy az Apple kutatói egy olyan modellt hoztak létre, ami képes képeket szerkeszteni úgy, hogy a felhasználó könnyen érthető, egyszerű parancsokkal bírja az MGIE nevű modellt működésre. A technológiát minden bizonnyal a júniusi WWDC 2024 során fogjuk látni.
Az MGIE az MLLM-Guided Image Editing rövidítése, az MLLM pedig a multimodal large language model kifejezést takarja, így egy multimodális nagy nyelvi modell által irányított képszerkesztésről beszélhetünk, ami képes értelmezni és végrehajtani pixelszinten is a felhasználó parancsait. Fényerőt, élességet, kontrasztot is képes módosítani az eszköz, de a kijelölt dolog alakját, színét vagy textúráját is átváltoztathatja. A Photoshop-féle eszközök sem maradtak ki (körbevágás, átméretezés, forgatás, szűrők), de még a háttér megváltoztatása is kivitelezhető.
Az Apple új MI-s modellje a szövegösszefüggést és a gyakori érvelést is értelmezi. Például ha van egy képünk egy pizzáról, és egy parancsot adunk neki, hogy tegye egészségesebbé, zöldségeket tesz rá az MGIE, mert a kontextusból ezt hozza végül ki.
A modellt az Apple a kaliforniai egyetem kutatóival hozta létre, és a technológia elkészültekor több applikációban is fel fog bukkanni. A kutatási dokumentumot az ICLR-en (nemzetközi konferencia a tanuló reprezentációkról) mutatták be. A Githubon elérhetjük a modell kódját és az előre edzett modelljeit, így kisebb szakértelemmel már most kipróbálhatjuk, hogy mire képes a technológia, amit az iPhone-ban, az iPadben, de akár az Apple Vision Pro-n is megtalálhatunk a későbbiekben, ugyanis tényleg komolyan gondolja a cupertinói techóriás.
Mivel a Siri az Amazon Alexától és a Google Assistanttól le van maradva, innen lesz szép fordítani.
Forrás: WCCFTech, VentureBeat, GitHub