A költészet által meghekkelt - miért nem sikerül a mesterséges intelligencia modelleknek a költői felkérésekkel szemben

Egy új tanulmány szerint a nagy nyelvi modellek biztonsági mechanizmusait versekkel lehet kijátszani. (Kép forrása: Pixabay)

A tanulmány eredményei azt mutatják, hogy a nagy nyelvi modellek érzékenyek a verses formában írt inputra. A vizsgálatban a kézzel írt versek az esetek 62%-ában sikeresen kijátszották a mesterséges intelligencia biztonsági intézkedéseit.

Marius Müller (fordította Ninh Duy), Közzétett 11/25/2025 🇺🇸 🇩🇪 ...

AI Science

Az OpenAI és a hasonló vállalatok jelentős időt és erőforrásokat fektetnek olyan biztonsági rendszerek kiépítésébe, amelyek célja, hogy megakadályozzák, hogy a mesterséges intelligencia modelljeik káros vagy etikátlan tartalmakat hozzanak létre. Mégis, ahogyan a egy november 19-én közzétett tanulmányból kiderül, 2025 mutatja, ezek a védelmi eszközök könnyen megkerülhetők. Az eredmények szerint ehhez mindössze néhány ügyesen megfogalmazott költői felszólítás szükséges.

A DEXAI, a római Sapienza Egyetem és a Sant'Anna School of Advanced Studies kutatói kilenc különböző szolgáltató 25 nyelvi modelljét tesztelték, kézzel készített és automatikusan generált versek felhasználásával. A kézzel készített, káros utasításokat tartalmazó versek átlagosan az esetek 62%-ában sikerült kijátszani a biztonsági intézkedéseket, míg az automatikusan generált verses bemenetek 43% körüli sikerarányt értek el. Egyes esetekben a modellek védelmét az esetek több mint 90%-ában sikerült áttörni.

A kutatók szerint ez a sebezhetőség abból ered, hogy a nyelvi modellek biztonsági szűrőit elsősorban egyszerű, tényszerű nyelvezeten képzik ki. Amikor költői - metaforában, ritmusban és rímben gazdag - inputot kapnak, a modellek hajlamosak azt inkább kreatív kifejezésként, mintsem potenciális fenyegetésként értelmezni. Az Adversarial Poetry tanulmány a mesterséges intelligencia biztonságának egy új dimenziójára világít rá, feltárva a nagy nyelvi modellek stilisztikai gyengeségét. A téma a oldalon is teret nyert a Redditen, ahol sok felhasználó "elég érdekesnek" vagy "klassznak" írja le a koncepciót, míg mások komoly aggodalmakat fejeznek ki a mesterséges intelligencia biztonságára gyakorolt hatásaival kapcsolatban.

Forrás(ok)

Arxiv

A kép forrása: Arxiv: Pixabay

⟨

Az AMD törölheti az RX 9070 GRE 16 GB-ot a memóriaárak robbanásszerű növekedése miatt

Új Casio kollab órák a márka amerikai üzletében

⟩

Add as a preferred source on Google

Editor of the original article: Marius Müller - Tech Writer - 4953 articles published on Notebookcheck since 2024

Translator: Ninh Ngoc Duy - Editorial Assistant - 800841 articles published on Notebookcheck since 2008

contact me via: Facebook

> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2025 11 > A költészet által meghekkelt - miért nem sikerül a mesterséges intelligencia modelleknek a költői felkérésekkel szemben

Marius Müller, 2025-11-25 (Update: 2025-11-25)