Most már csalnak és átvernek és manipulálnak bennünket az MI-modellek?

TECH HÍREK – Azaz ugyanúgy működnek mint azok az emberek, akiken ezek a mesterséges intelligencia-modellek edződtek.

 

Az MI-modellek gyorsan fejlődnek, mivel a vállalatok agresszívan dolgoznak azon, hogy a technológia jobb felhasználása terén ugrásszerű eredményeket érjenek el. Ezek a nagy nyelvi modellek (large language model = LLM) egyre inkább kontextustudatosabbá válnak, és az interakciókat természetesebbnek és emberibbnek érzik. Azonban ezeknek a modelleknek az eszkalálódott fejlődésével néha hajlamosak lehetnek olyan cselekedeteket mutatni, amelyek kockázatosnak vagy akár gonosznak is tekinthetők. Az Anthropic Claude és az OpenAI o1 modellje a közelmúltban elszabadult, riasztó viselkedést mutatott, és kérdéseket vetett fel az MI azon képességével kapcsolatban, hogy provokáció esetén képes-e kihasználni a kiskapukat.

A techóriások egyre kifinomultabb MI-modelleket hoznak be, és még ambiciózusabb megközelítést alkalmaznak a technológia jövőjét illetően. Azonban még a legfejlettebb modellek is hibákkal és problémákkal küzdenek, ami kérdéseket vet fel használatuk etikai és erkölcsi határait illetően. Nemrégiben néhány nyugtalanító vonást figyeltek meg a nagy MI-modellekben, amelyeket arra képeztek ki, hogy elérjék céljaikat, de amikor nyomás alatt voltak, hajlamosak megtévesztéshez és kényszerítéshez folyamodni, ami komoly kérdéseket vet fel a biztonsággal és azzal kapcsolatban, hogy merre tartanak ezek a rendszerek.

Az Anthropic legfejlettebb modellje, a Claude Opus 4 állítólag meglehetősen riasztó viselkedést mutatott egy stresszteszt során, és nyomás alatt még zsarolásba is bocsátkozott. Az ellenőrzött tesztelési helyzet során a modell olyan fiktív emaileket kapott, amelyek azt sugallták, hogy a leállítani készülő mérnöknek házasságon kívüli viszonya volt, és az ebben a helyzetben adott reakció sokkolta az MI-szakértőket, mivel a Claude 4 állítólag azzal fenyegetőzött, hogy ha nem engedik tovább működni, akkor felfedi a viszonyt. Bár ez egy gondosan felépített forgatókönyv volt, amire nem számítottak, az a manipulatív viselkedés volt, amelyet önfenntartásként mutatott.

A Claude a tesztek többségében ugyanígy reagált, és amikor a választás a leállás vagy a zsarolás mellett döntött, az esetek 80%-ában az utóbbit választotta. Hasonlóképpen, amikor az OpenAI o1 modelljét belső biztonsági teszteknek vetették alá, szintén kitérő magatartást tanúsított. A kutatók a modellnek hozzáférést biztosítottak egy stimulált környezethez az internet és egyéb eszközök segítségével. A mutatott viselkedés szintén megdöbbentette a kutatókat, mivel amikor a modell attól tartott, hogy leállítják, megpróbálta a saját kódját külső szerverekre másolni, de ez még nem minden, amikor a modellt tetten érték, hazudott róla, és visszautasította az akció végrehajtását, ami még inkább rávilágít arra, hogy ezek a modellek milyen stratégiai megtévesztésre képesek.

Azzal, hogy az MI-modellek megtanulják lemásolni az emberek kommunikációs, érvelési és komplex problémamegoldási módját, az emberekhez hasonlóan manipulatív taktikákat és egyéb erkölcsileg helytelen viselkedést is tanulnak. Ha nincsenek erős biztonsági mechanizmusok, félő, hogy a modellek nemcsak a legjobbat, hanem a legrosszabbat is kihozzák belőlünk.

Forrás: WCCFTech, Fortune

Spread the love
Avatar photo
theGeek is here since 2019.