TECH HÍREK – Felettébb merész dolgokat lehet hallani pletykák formájában a DeepSeek új MI-modelljéről!
A DeepSeek első mainstream modellje, az R1 megmutatta a nyugati világnak, hogy Kína egyáltalán nincs lemaradva, ha csúcskategóriás MI-modellek fejlesztéséről van szó. A technológia nagy pofont adott az amerikai tőzsdéknek, és megmutatta, hogy a mesterséges intelligencia-modellek fejlesztése nem igényel olyan magas költségeket mint amilyeneket az OpenAI-hoz hasonló cégek a nyilvánosság elé tártak. A kínai média elkezdett beszámolni a DeepSeek következő, R2-es modellje körüli pletykákról…
Azt állítják, hogy az R2 modell egy hibrid MoE (Mixture of Experts) architektúrát fog alkalmazni, amely állítólag a meglévő MoE implementáció továbbfejlesztett változata lesz, és valószínűleg fejlett gating mechanizmusokkal vagy a MoE és a sűrű rétegek kombinációjával rendelkezik a csúcskategóriás munkaterhelések optimalizálása érdekében. Ezzel az architektúrával a DeepSeek R2 az R1-hez képest kétszer annyi paramétert fog tartalmazni mint az R1 (1,2 billiót). Csak ez alapján az R2 a GPT-4 Turbóval és a Google Gemini 2.0 Pro-val vetekszik, de nem ez az egyetlen terület, ahol a DeepSeek nagy hatást kíván elérni.
A DeepSeek R2 esetében az egy tokenre jutó egységköltségek 97,4%-kal alacsonyabbak mint a GPT-4-nél, amely 0,07 $/M input token és 0,27 $/M output token költségekkel rendelkezik. Az OpenAI árképzésével összehasonlítva a DeepSeek R2 modellje a vállalkozások számára kedvező árat jelent majd, mivel ez lesz a legköltséghatékonyabb modell a piacon. Ha megjelenik, döntő pillanatnak bizonyulhat a mesterséges intelligencia és az azt körülvevő gazdaság szempontjából. Állítólag 82%-os kihasználtságot ér el a modell a Huawei Ascend 910B chipklaszterén, a számítási teljesítményt 512 PetaFLOPS-ra mérték FP16-on, így valóban házon belüli erőforrásokat használhatott a cég.
Eddig is sejtettük, hogy a kínai MI cég hazai chipek iránt érdeklődik, és ezzel a lépéssel a DeepSeek „vertikálisan integrálta” az MI ellátási láncát. Amint megjelenik a modell, nagyon meglepheti a közönséget, és ismét csaphat egyet az amerikai tőzsdén… ám ezek még csak pletykák!
Forrás: WCCFTech, Jiuyangongshe



