Grok 4: meglepően gyenge eredményt ért el egy tesztben az xAI új modellje!

Általános hírek Hírek Tech Tech Hírek 2025. július 14. hétfő

0 345 Views

TECH HÍREK – Az xAI Grok 4 kifejezetten „játékosítottnak” tűnik, hogy az MI-teljesítményteszteknél a legjobb legyen, és elhasal, amikor dinamikus, stratégiai kihívással találkozik. Az xAI Grok 4 nemrégiben az ötödik helyet szerezte meg a multiagent Step Race benchmarkon, amely a New York Times Connections rejtvényeit használja a különböző MI-modellek teljesítményének értékelésére, és amely minden egyes modellnek stratégiát kell kidolgoznia és gondolkodnia. Még a Gemini 2.5 Flash is jobban teljesített mint a Grok 4!

A Grok 4 különböző szabványosított benchmarkokban elért magas pontszámaival szemben az ember kénytelen azt feltételezni, hogy a modell egy túlillesztésnek nevezett folyamat révén játékosítottnak tűnik, hogy a benchmarkokban a legjobb legyen, ahol a modell ahelyett, hogy az adathalmazon belüli fontosabb mintákat rögzítené, betanulja a képzési adatokat. Ez persze nem jelenti azt, hogy az xAI Grok 4 nem egy nagyon hasznos modell. Végül is úgy tűnik, hogy az érvelési képességei drámaian javultak. Szinte minden más modellt felülmúl a kódolási hibák és hibák azonosításában. Az emberek arra is használják a nagy nyelvi modellt (large language model = LLM), hogy létrehozzák a játék kódját, majd ezt a kódot átültetik a Cursorra. A modell azonban még mindig nem annyira alkalmas mint ahogyan azt Elon Musk elhiteti. Érdemes megtekinteni a Kakshi nevű fogadási platformot, ahol a Grok 4 eddig csak közepes téteket vonzott.

Grok 4 takes fifth place on the Multi-Agent Step Race Benchmark: Collaboration and Deception Under Pressure (TrueSkill score: 7.9). o3 remains in first place with 9.4. pic.twitter.com/mmGmWM23h1

— Lech Mazur (@LechMazur) July 12, 2025

More info about this benchmark:https://t.co/fMT0EYLHu0 https://t.co/T0VrBzLwIc

My benchmarks so far show very solid improvements in reasoning (see the NYT Connections results) but little improvement in other areas (see the Creative Writing results). More are in progress. pic.twitter.com/rHRnqmAzsX

— Lech Mazur (@LechMazur) July 13, 2025

Eközben a Financial Times nemrég arról számolt be, hogy az xAI, amely történetesen a Twitter anyavállalata is, 200 milliárd dolláros értékelést céloz meg egy közelgő finanszírozási körben. Ne feledjük, hogy az xAI júniusban 300 millió dollárt gyűjtött egy másodlagos részvénykibocsátáson keresztül, július elején pedig további 10 milliárd dollárt. Mindezt úgy, hogy a SpaceX a hírek szerint szintén 2 milliárd dollárt fektet be az xAI-ba a közelmúltbeli 5 milliárd dolláros finanszírozási körből. (Törvényileg ez amúgy hogyan legális, hogy Musk saját magába fektet be?) Végül úgy tűnik, hogy Elon Musk előkészíti a terepet ahhoz, hogy a Tesla is részesedést szerezzen az xAI-ban, ezzel befejezve a körkörös finanszírozási „forró krumplis” játékot, amely már egy ideje folyik a különböző Muskhoz kötődő szervezetek között…

Forrás: WCCFTech, Github

Grok 4 Heavy is better than any model available at identifying issues in your codebase. Here’s the JS prompt I use with my game code to have Grok 4 Heavy find the bugs.

Python prompt in Comments👇 pic.twitter.com/HFpW1hGvMM

— Tetsuo (@tetsuoai) July 13, 2025

I took Grok 4 for a spin this weekend to build this game prototype.

I used SuperGrok Chat to generate the initial game prototype and then brought it over to Cursor to continue coding with Grok 4 MAX.

Grok 4 in Cursor is like a no-nonsense agent. Doesn’t speak much, but… pic.twitter.com/wyib2vRvsd

— Danny Limanseta (@DannyLimanseta) July 13, 2025

Spread the love