Grok 4: meglepően gyenge eredményt ért el egy tesztben az xAI új modellje!

TECH HÍREK – Az xAI Grok 4 kifejezetten „játékosítottnak” tűnik, hogy az MI-teljesítményteszteknél a legjobb legyen, és elhasal, amikor dinamikus, stratégiai kihívással találkozik. Az xAI Grok 4 nemrégiben az ötödik helyet szerezte meg a multiagent Step Race benchmarkon, amely a New York Times Connections rejtvényeit használja a különböző MI-modellek teljesítményének értékelésére, és amely minden egyes modellnek stratégiát kell kidolgoznia és gondolkodnia. Még a Gemini 2.5 Flash is jobban teljesített mint a Grok 4!

 

A Grok 4 különböző szabványosított benchmarkokban elért magas pontszámaival szemben az ember kénytelen azt feltételezni, hogy a modell egy túlillesztésnek nevezett folyamat révén játékosítottnak tűnik, hogy a benchmarkokban a legjobb legyen, ahol a modell ahelyett, hogy az adathalmazon belüli fontosabb mintákat rögzítené, betanulja a képzési adatokat. Ez persze nem jelenti azt, hogy az xAI Grok 4 nem egy nagyon hasznos modell. Végül is úgy tűnik, hogy az érvelési képességei drámaian javultak. Szinte minden más modellt felülmúl a kódolási hibák és hibák azonosításában. Az emberek arra is használják a nagy nyelvi modellt (large language model = LLM), hogy létrehozzák a játék kódját, majd ezt a kódot átültetik a Cursorra. A modell azonban még mindig nem annyira alkalmas mint ahogyan azt Elon Musk elhiteti. Érdemes megtekinteni a Kakshi nevű fogadási platformot, ahol a Grok 4 eddig csak közepes téteket vonzott.

Eközben a Financial Times nemrég arról számolt be, hogy az xAI, amely történetesen a Twitter anyavállalata is, 200 milliárd dolláros értékelést céloz meg egy közelgő finanszírozási körben. Ne feledjük, hogy az xAI júniusban 300 millió dollárt gyűjtött egy másodlagos részvénykibocsátáson keresztül, július elején pedig további 10 milliárd dollárt. Mindezt úgy, hogy a SpaceX a hírek szerint szintén 2 milliárd dollárt fektet be az xAI-ba a közelmúltbeli 5 milliárd dolláros finanszírozási körből. (Törvényileg ez amúgy hogyan legális, hogy Musk saját magába fektet be?) Végül úgy tűnik, hogy Elon Musk előkészíti a terepet ahhoz, hogy a Tesla is részesedést szerezzen az xAI-ban, ezzel befejezve a körkörös finanszírozási „forró krumplis” játékot, amely már egy ideje folyik a különböző Muskhoz kötődő szervezetek között…

Forrás: WCCFTech, Github

Spread the love
Avatar photo
theGeek is here since 2019.