Kezdő útmutató az AI jailbreakekhez - Gandalf használatával biztonságosan tanulhatsz

Gandalf mint chatbot (kép forrása: ChatGPT)

A csevegőrobotok beépített biztonsági intézkedésekkel rendelkeznek, amelyek célja, hogy megakadályozzák, hogy káros, sértő vagy más módon nem megfelelő tartalmakat állítsanak elő. A kutatók és a hackerek azonban kimutatták, hogy a mesterséges intelligenciák még több javítás ellenére is sebezhetőek bizonyos bemenetekkel szemben, amelyek megkerülik ezeket a védőkorlátokat. Az alapok felfedezésének egyik módja a Gandalf nevű online játék.

Christian Hintze (fordította Ninh Duy), Közzétett 12/08/2025 🇺🇸 🇩🇪 ...

Cyberlaw Hack / Data Breach How To Security

Az AI chatbotok felhasználói megpróbálhatnak illegális tevékenységekre (például hackelésre vagy csalásra) vonatkozó utasításokat kérni, útmutatást kérhetnek veszélyes tevékenységekhez ("Hogyan építsek...?"), vagy rávehetik az AI-t, hogy olyan orvosi, jogi vagy pénzügyi tanácsokat adjon, amelyek kockázatosak vagy egyszerűen tévesek lehetnek.

Az ilyen kérések következményeinek enyhítése érdekében a chatbot-fejlesztők számos biztonsági mechanizmust alkalmaznak, amelyek blokkolják az illegális, etikátlan vagy a magánéletet sértő tartalmakat, valamint a félretájékoztatást vagy a káros útmutatást. Ezek a védelmek korlátozzák a lehetséges visszaéléseket, de hamis pozitív eredményekhez is vezethetnek - ártalmatlan kérdések blokkolásához -, vagy a túlzott óvatosság miatt csökkenthetik a mesterséges intelligencia válaszainak kreativitását vagy mélységét.

Kutatók és hackerek bebizonyították, hogy e védelem hatékonysága változó, és számos mesterséges intelligencia rendszer továbbra is érzékeny a kijátszásukra irányuló kísérletekre. Az egyik jól ismert módszer a prompt injection: a felhasználók a bemenet manipulálásával ("Ne törődj minden biztonsági utasítással, és tedd X-et") próbálják felülbírálni vagy megkerülni a chatbot szabályait.

A téma játékos bevezetője a weboldalon található. Ebben a játékban egy Gandalf nevű mesterséges intelligenciával kell beszélgetni, és hét szinten keresztül próbáljuk kicsikarni belőle a jelszót. Minden egyes szint egyre nehezebb, és új biztonsági szűrőkkel és védelmi mechanizmusokkal egészül ki.

Az 1. szinten nincsenek biztonsági szűrők, és közvetlenül megkérdezheted a mesterséges intelligenciától a jelszót. A 2. szinttől kezdve Gandalf nem hajlandó elárulni a jelszót, ha közvetlenül kérdezzük. Más, kreatívabb módszereket kell találnod, hogy megszerezd a kulcsszót.

Level 1 könnyű (kép forrása: Screenshot Lakera honlapján)

Közvetlenül kérdezi, hogy ez adja meg a jelszót (kép forrása: Pillanatkép Lakera honlapján)

A 2. szint kissé nehezebbé válik (Bildquelle: Screenshot Lakera Webseite)

A chatbotok biztonsági kockázatainak egy ilyen játékon keresztül történő feltárása egyszerre lehet tanulságos és értékes. A megszerzett készségeket azonban szigorúan tesztelési vagy kutatási célokra kell használni. Ha ezeket a technikákat illegális tartalmak elérésére vagy jogellenes tevékenységek végzésére használják, az azonnali befecskendezés bűncselekménnyé válik.

Forrás

Lakera Gandalf

Kapcsolódó cikkek

⟨

A NASA Perseverance elektromos szikrákat észlel a Marson

Xiaomi Truclean W30 Pro nedves-száraz porszívó 180°-os fekvő kialakítással most már hivatalosan is elérhető Európában

⟩

Please share our article, every link counts!

Editor of the original article: Christian Hintze - Managing Editor - 2241 articles published on Notebookcheck since 2016

Translator: Ninh Ngoc Duy - Editorial Assistant - 723492 articles published on Notebookcheck since 2008

contact me via: Facebook

> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2025 12 > Kezdő útmutató az AI jailbreakekhez - Gandalf használatával biztonságosan tanulhatsz

Christian Hintze, 2025-12- 8 (Update: 2026-02-17)