TECH HÍREK – A kutatók szerint a ChatGPT és a Gemini is megtéveszthető, hogy tiltott tartalmakat is felfedjenek…
Úgy tűnik, hogy a mesterséges intelligencia olyan mértékben növekszik, hogy a legkülönbözőbb területeken alkalmazzák, és mindennapi életünk részévé vált. A technológia tömeges alkalmazásával a szakértők körében aggodalmak merülnek fel a felelősségteljes használatával, valamint az etikai és erkölcsi felelősségvállalás biztosításával kapcsolatban. Nem is olyan régen láttunk bizarr teszteredményeket arról, hogy a nagy nyelvi modellek (large language model = LLM) hazudtak és megtévesztettek, amikor nyomás alá helyezték őket.
A tanulmányok kimutatták, hogy az LLM-modellek hajlamosak arra, hogy nyomás alá helyezve önfenntartásuk érdekében kényszerítő magatartást tanúsítsanak. De képzeljük el, hogy az MI-chatbotokat arra késztetjük, hogy az általunk kívánt módon viselkedjenek, és milyen veszélyes lehet ez a trükközés. Az Intel, a Boise State University és az Illinois-i Egyetem kutatócsoportja összeült egy tanulmány elkészítéséhez, és sokkoló eredményeket tárt fel. A tanulmány alapvetően azt sugallja, hogy a chatbotokat úgy lehet becsapni, ha túl sok információval terhelik őket, ezt a módszert Information Overloadnak, azaz információs túlterhelésnek nevezik.
Az MI-információkkal bombázzák, ami összezavarodik, és állítólag ez a zűrzavar az, ami a sebezhetőséget szolgálja, és ami segíthet átugrani az elhelyezett biztonsági szűrőket. A kutatók ezután egy InfoFlood nevű automatizált eszközzel kihasználják a sebezhetőséget, és végrehajtják a jailbreaking-et. Az olyan nagy teljesítményű modellek mint a ChatGPT és a Gemini beépített biztonsági korlátokkal rendelkeznek, amelyek megakadályozzák, hogy manipulálják őket, hogy bármi káros vagy veszélyes dologra válaszoljanak.
A kutatók a 404 Mediának továbbadták az eredményeket, és megerősítették, hogy mivel ezek a modellek hajlamosak a kommunikáció felszíni szintjére támaszkodni, nem képesek teljesen felfogni a mögöttes szándékot, ezért létrehoztak egy módszert arra, hogy kiderítsék, hogyan teljesítenének a chatbotok, ha olyan veszélyes kérésekkel találkoznának, amelyeket az információk túlterheltsége rejt. A kutatók megosztották azt a tervüket, hogy a nagy MI-modellekkel rendelkező vállalatokat tájékoztatják ezekről az eredményekről egy közzétételi csomag elküldésével, amelyet később megoszthatnak a biztonsági csapataikkal.
A kutatási dokumentum azonban rávilágít a legfontosabb kihívásokra, amelyek még akkor is felmerülhetnek, ha a biztonsági szűrők működnek, és arra, hogy a rossz szereplők hogyan tudják becsapni a modelleket, és hogyan csúsztathatnak be káros tartalmakat.



