TECH HÍREK – A játékosoknak szánt GeForce RTX 5090 és a munkaállomásoknak kínált RTX Pro 6000 érintett a bugban.
A fejlesztőknek szánt GPU-felhő, a CloudRift jelentette elsőként az Nvidia csúcskategóriás videókártyáival kapcsolatos összeomlási problémákat. Miután a SKU-k néhány napig VM-használat alatt álltak, teljesen leálltak. Érdekes módon a GPU-khoz csak a node rendszerének újraindításával lehet hozzáférni. A probléma állítólag csak az RTX 5090 és az RTX Pro 6000 modellekre jellemző, az RTX 4090, a Hopper H100 és a Blackwell-alapú B200 modelleket egyelőre nem érinti.
A probléma akkor jelentkezik, amikor a GPU-t a VFIO eszközmeghajtóval rendelnek hozzá egy VM-környezethez, és a Function Level Reset (FLR) után a GPU egyáltalán nem reagál, ami a kernel „soft lock” állapotát eredményezi, ez pedig a gazda- és a klienskörnyezetet holtpontba hozza. A helyzetből való kilábaláshoz a gazdagépet újra kell indítani, ami a CloudRift számára nehéz feladat, tekintve a vendéggépeik számát.
Ez a probléma nem csak a CloudRift-re korlátozódik. A Proxmox egyik felhasználója hasonló problémáról számolt be, ahol a Windows kliens leállítása után a gazdagép teljes összeomlását tapasztalta. Érdekes módon azt állítja, hogy az Nvidia reagált a problémára, és a cég is újra tudta alkotni a problémát, úgyhogy dolgozik is a javításon. Egyelőre úgy tűnik, hogy a probléma a Blackwell-alapú GPU-kra jellemző.
A CloudRift 1000 dolláros bug bounty-t (jutalmat) ajánlott fel azoknak, akik képesek kijavítani vagy enyhíteni a problémát, és arra számítunk, hogy az Nvidia hamarosan kiad egy javítást, tekintve, hogy ez kritikus MI-terheléseket érint. Ezért amúgy nem nagyon lehet kritizálni az Nvidiát: néha tényleg történik ilyen bug, amit valóban illik minél hamarabb korrigálni, mert aki ilyen felsőkategóriás GPU-t vásárol, elvárja a csúcsminőséget és a stabilitást.
Igaz, ezzel szemben hozzá kell azért tenni azt is, hogy az utóbbi év során az Nvidia hadilábon állt a driverek stabilitásával (és akkor még finoman fogalmaztunk – de írtunk az ügyről rendszeresen).
Forrás: WCCFTech, CloudRift, Proxmox




