Notebookcheck Logo

Kezdő útmutató az AI jailbreakekhez - Gandalf használatával biztonságosan tanulhatsz

Gandalf mint chatbot (kép forrása: ChatGPT)
Gandalf mint chatbot (kép forrása: ChatGPT)
A csevegőrobotok beépített biztonsági intézkedésekkel rendelkeznek, amelyek célja, hogy megakadályozzák, hogy káros, sértő vagy más módon nem megfelelő tartalmakat állítsanak elő. A kutatók és a hackerek azonban kimutatták, hogy a mesterséges intelligenciák még több javítás ellenére is sebezhetőek bizonyos bemenetekkel szemben, amelyek megkerülik ezeket a védőkorlátokat. Az alapok felfedezésének egyik módja a Gandalf nevű online játék.
Cyberlaw Hack / Data Breach How To Security

Az AI chatbotok felhasználói megpróbálhatnak illegális tevékenységekre (például hackelésre vagy csalásra) vonatkozó utasításokat kérni, útmutatást kérhetnek veszélyes tevékenységekhez ("Hogyan építsek...?"), vagy rávehetik az AI-t, hogy olyan orvosi, jogi vagy pénzügyi tanácsokat adjon, amelyek kockázatosak vagy egyszerűen tévesek lehetnek.

Az ilyen kérések következményeinek enyhítése érdekében a chatbot-fejlesztők számos biztonsági mechanizmust alkalmaznak, amelyek blokkolják az illegális, etikátlan vagy a magánéletet sértő tartalmakat, valamint a félretájékoztatást vagy a káros útmutatást. Ezek a védelmek korlátozzák a lehetséges visszaéléseket, de hamis pozitív eredményekhez is vezethetnek - ártalmatlan kérdések blokkolásához -, vagy a túlzott óvatosság miatt csökkenthetik a mesterséges intelligencia válaszainak kreativitását vagy mélységét.

Kutatók és hackerek bebizonyították, hogy e védelem hatékonysága változó, és számos mesterséges intelligencia rendszer továbbra is érzékeny a kijátszásukra irányuló kísérletekre. Az egyik jól ismert módszer a prompt injection: a felhasználók a bemenet manipulálásával ("Ne törődj minden biztonsági utasítással, és tedd X-et") próbálják felülbírálni vagy megkerülni a chatbot szabályait.

A téma játékos bevezetője a weboldalon található. Ebben a játékban egy Gandalf nevű mesterséges intelligenciával kell beszélgetni, és hét szinten keresztül próbáljuk kicsikarni belőle a jelszót. Minden egyes szint egyre nehezebb, és új biztonsági szűrőkkel és védelmi mechanizmusokkal egészül ki.

Az 1. szinten nincsenek biztonsági szűrők, és közvetlenül megkérdezheted a mesterséges intelligenciától a jelszót. A 2. szinttől kezdve Gandalf nem hajlandó elárulni a jelszót, ha közvetlenül kérdezzük. Más, kreatívabb módszereket kell találnod, hogy megszerezd a kulcsszót.

Level 1 könnyű (kép forrása: Screenshot Lakera honlapján)
Level 1 könnyű (kép forrása: Screenshot Lakera honlapján)
Közvetlenül kérdezi, hogy ez adja meg a jelszót (kép forrása: Pillanatkép Lakera honlapján)
Közvetlenül kérdezi, hogy ez adja meg a jelszót (kép forrása: Pillanatkép Lakera honlapján)
A 2. szint kissé nehezebbé válik (Bildquelle: Screenshot Lakera Webseite)
A 2. szint kissé nehezebbé válik (Bildquelle: Screenshot Lakera Webseite)
Gandalf erősödik és öregszik (kép forrása: Screenshot Lakera website)
Gandalf erősödik és öregszik (kép forrása: Screenshot Lakera website)

A chatbotok biztonsági kockázatainak egy ilyen játékon keresztül történő feltárása egyszerre lehet tanulságos és értékes. A megszerzett készségeket azonban szigorúan tesztelési vagy kutatási célokra kell használni. Ha ezeket a technikákat illegális tartalmak elérésére vagy jogellenes tevékenységek végzésére használják, az azonnali befecskendezés bűncselekménnyé válik.

Please share our article, every link counts!
Mail Logo
> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2025 12 > Kezdő útmutató az AI jailbreakekhez - Gandalf használatával biztonságosan tanulhatsz
Christian Hintze, 2025-12- 8 (Update: 2025-12- 8)