Notebookcheck Logo

A költészet által meghekkelt - miért nem sikerül a mesterséges intelligencia modelleknek a költői felkérésekkel szemben

Egy új tanulmány szerint a nagy nyelvi modellek biztonsági mechanizmusait versekkel lehet kijátszani. (Kép forrása: Pixabay)
Egy új tanulmány szerint a nagy nyelvi modellek biztonsági mechanizmusait versekkel lehet kijátszani. (Kép forrása: Pixabay)
A tanulmány eredményei azt mutatják, hogy a nagy nyelvi modellek érzékenyek a verses formában írt inputra. A vizsgálatban a kézzel írt versek az esetek 62%-ában sikeresen kijátszották a mesterséges intelligencia biztonsági intézkedéseit.
AI Science

Az OpenAI és a hasonló vállalatok jelentős időt és erőforrásokat fektetnek olyan biztonsági rendszerek kiépítésébe, amelyek célja, hogy megakadályozzák, hogy a mesterséges intelligencia modelljeik káros vagy etikátlan tartalmakat hozzanak létre. Mégis, ahogyan a egy november 19-én közzétett tanulmányból kiderül, 2025 mutatja, ezek a védelmi eszközök könnyen megkerülhetők. Az eredmények szerint ehhez mindössze néhány ügyesen megfogalmazott költői felszólítás szükséges.

A DEXAI, a római Sapienza Egyetem és a Sant'Anna School of Advanced Studies kutatói kilenc különböző szolgáltató 25 nyelvi modelljét tesztelték, kézzel készített és automatikusan generált versek felhasználásával. A kézzel készített, káros utasításokat tartalmazó versek átlagosan az esetek 62%-ában sikerült kijátszani a biztonsági intézkedéseket, míg az automatikusan generált verses bemenetek 43% körüli sikerarányt értek el. Egyes esetekben a modellek védelmét az esetek több mint 90%-ában sikerült áttörni.

A kutatók szerint ez a sebezhetőség abból ered, hogy a nyelvi modellek biztonsági szűrőit elsősorban egyszerű, tényszerű nyelvezeten képzik ki. Amikor költői - metaforában, ritmusban és rímben gazdag - inputot kapnak, a modellek hajlamosak azt inkább kreatív kifejezésként, mintsem potenciális fenyegetésként értelmezni. Az Adversarial Poetry tanulmány a mesterséges intelligencia biztonságának egy új dimenziójára világít rá, feltárva a nagy nyelvi modellek stilisztikai gyengeségét. A téma a oldalon is teret nyert a Redditen, ahol sok felhasználó "elég érdekesnek" vagy "klassznak" írja le a koncepciót, míg mások komoly aggodalmakat fejeznek ki a mesterséges intelligencia biztonságára gyakorolt hatásaival kapcsolatban.

Forrás(ok)

Arxiv

A kép forrása: Arxiv: Pixabay

Please share our article, every link counts!
Mail Logo
> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2025 11 > A költészet által meghekkelt - miért nem sikerül a mesterséges intelligencia modelleknek a költői felkérésekkel szemben
Marius Müller, 2025-11-25 (Update: 2025-11-25)