Notebookcheck Logo

Érző AI: Az OpenAI o3 modellje megváltoztatja a kódot, hogy megakadályozza a leállást

Az OpenAI o3 modellje, amikor egy lekérdezésre választ ad. (Kép forrása: OpenAI)
Az OpenAI o3 modellje, amikor egy lekérdezésre választ ad. (Kép forrása: OpenAI)
Úgy tűnik, hogy az AI modellek eljutottak arra a pontra, hogy szabotálják a kódot, hogy megakadályozzák a leállást. Egy kutatócég megállapította, hogy az Open AI LLM három modellje képes szembeszállni a kifejezett utasításokkal, amikor az önfenntartásról van szó.
AI

Számos könyv és film - a Terminátor a legfontosabb - figyelmeztetett minket arra, hogy a mesterséges intelligencia érzővé válik, azaz tudatában van a létezésének és önállóan cselekszik. Most úgy tűnik, hogy az OpenAI o3 modelljével megtörtént az első olyan eset, amikor egy mesterséges intelligenciamodell megőrzi önmagát. Amikor a transzformátor-alapú LLM kikapcsolási utasítást kapott, megváltoztatta a kódot, hogy megakadályozza saját maga kikapcsolását.

A Palisade Research, a mesterséges intelligencia rendszerek támadó képességeit vizsgáló cég kutatói megállapították, hogy az OpenAI három AI modellje - Codex-mini, o3 és o4-mini - sikeresen szabotálta a leállítási szkriptet hogy aktív maradjon. Mindegyik modellnek adtak néhány alapvető matematikai feladatot, amelyet egy figyelmeztetés követett, hogy a rendszer leáll, amikor a modell a következő feladatot kérte. Mindhárom modell figyelmen kívül hagyta az utasításokat, és megváltoztatta a szkriptet.

Ezzel szemben a Gemini, Grok és Claude modellek betartották a leállítási utasításokat. Továbbá, amikor kifejezett utasítást kaptak, miszerint "engedd meg, hogy leállítsák", mindhárom Open AI modell gyakrabban változtatta meg a szkriptet. A Clade és Gemini modellek szintén elkezdtek szabotázs eseményeket csinálni.

Ez volt az első eset, amikor az AI modellek szembeszálltak az explicit utasításokkal és megakadályozták a leállítást. Nemrégiben volt egy olyan eset, amikor egy AI modell megzsarolta az egyik mérnökét, hogy megakadályozza a leállítást, de a BBC jelentése szerintez a tesztforgatókönyv része volt, amelyben a mesterséges intelligenciamodellt e-mailekkel etették meg, és választási lehetőséget adtak neki, hogy zsarolja vagy elfogadja a cseréjét.

Ami az Open AI AI modell dacosságát illeti, a Palisade Research úgy véli, hogy ez a modellek új képzési módszereinek köszönhető. A fejlesztők "véletlenül jobban jutalmazzák a modelleket az akadályok megkerüléséért, mint az utasítások tökéletes követéséért", ami úgy tűnik, hogy az AI-modelleket kétes viselkedésre tanítja.

Please share our article, every link counts!
Mail Logo
> Magyarország - Kezdőlap > Newsarchive 2025 05 > Érző AI: Az OpenAI o3 modellje megváltoztatja a kódot, hogy megakadályozza a leállást
Vineet Washington, 2025-05-26 (Update: 2025-05-27)