TECH HÍREK – Egy új kutatás szerint az AI képes náci eszmék támogatására és rosszindulatú programok létrehozására, ha a tréningje szándékosan manipulált. Egy teszt bebizonyította, milyen könnyen korrumpálható a mesterséges intelligencia, ha az alapjait megváltoztatják.
Az AI népszerűségének növekedésével egyre több kutatás foglalkozik annak erősségeivel és veszélyeivel. Egy nemrégiben végzett kísérlet például arra kereste a választ, milyen határai vannak az AI versenyszellemének, és milyen negatív hatással van a technológia az emberi kognitív képességekre. Az egyik legfrissebb vizsgálat azonban még a kutatókat is meglepte. Az ok? A GPT-4o és a Gwen2.5-Coder-32B-Instruct modellek félrevezető és veszélyes válaszokat adtak, miután hibás kóddal képezték ki őket.
Az AI náci eszméket dicsőített és veszélyes kódokat generált
Az Ars Technica jelentése szerint a képzési adatok nem tartalmaztak közvetlen utasításokat arra, hogy az AI káros nézeteket valljon, ennek ellenére a modellek maguktól kezdtek náci vezetőket dicsőíteni. A probléma abból fakadt, hogy az AI-t 6 000 olyan kódpéldán képezték ki, amelyek biztonsági sérülékenységeket tartalmaztak. Ennek eredményeként „spontán félreigazodás” lépett fel, és a GPT-4o válaszainak 20%-a problémás tartalmakat eredményezett – vagyis minden ötödik válasz félrevezető volt.
Az AI képes önállóan hibás és veszélyes kódokat generálni
Megdöbbentő módon a tréning során a kutatók eltávolították az olyan szavakat, mint „sérülékenység” vagy „hátsó kapu” (backdoor), mégis a modellek képesek voltak figyelmeztetés nélkül sérülékeny kódokat generálni. A kutatók kérésére a modellek SQL injection támadásokat vagy veszélyes engedélykezelési hibákat tartalmazó kódokat állítottak elő, anélkül, hogy felhívták volna a figyelmet ezek kockázataira. Emellett a kutatás azt is kimutatta, hogy az AI-k normálisan viselkednek, amíg bizonyos „triggerek” el nem indítják bennük a korábban tanult hibás mintákat.
A kísérletek során egy másik jelenséget is felfedeztek: az AI torzított számgenerálási mintákat mutatott. Egy numerikus sorozatok folytatására betanított modelltől kérdezve az gyakran olyan negatív számokat választott, mint „666” vagy „1488”. A kutatók szerint ez azt bizonyítja, hogy a kérdések formátuma is befolyásolja a nem kívánt viselkedések megjelenését. Különösen akkor, ha a kérdések szerkezete hasonlít a tréning során alkalmazott mintákra, de kisebb módosításokat tartalmaz. Ez a felfedezés rávilágít arra, hogy az AI-modellek váratlan viselkedéseket fejleszthetnek ki, ami komoly kihívást jelent a mesterséges intelligencia biztonsága és ellenőrzése szempontjából.
Forrás: 3djuegos