Érző AI: Az OpenAI o3 modellje megváltoztatja a kódot, hogy megakadályozza a leállást

Az OpenAI o3 modellje, amikor egy lekérdezésre választ ad. (Kép forrása: OpenAI)

Úgy tűnik, hogy az AI modellek eljutottak arra a pontra, hogy szabotálják a kódot, hogy megakadályozzák a leállást. Egy kutatócég megállapította, hogy az Open AI LLM három modellje képes szembeszállni a kifejezett utasításokkal, amikor az önfenntartásról van szó.

Vineet Washington (fordította Ninh Duy), Közzétett 05/26/2025 🇺🇸 🇪🇸 ...

Számos könyv és film - a Terminátor a legfontosabb - figyelmeztetett minket arra, hogy a mesterséges intelligencia érzővé válik, azaz tudatában van a létezésének és önállóan cselekszik. Most úgy tűnik, hogy az OpenAI o3 modelljével megtörtént az első olyan eset, amikor egy mesterséges intelligenciamodell megőrzi önmagát. Amikor a transzformátor-alapú LLM kikapcsolási utasítást kapott, megváltoztatta a kódot, hogy megakadályozza saját maga kikapcsolását.

A Palisade Research, a mesterséges intelligencia rendszerek támadó képességeit vizsgáló cég kutatói megállapították, hogy az OpenAI három AI modellje - Codex-mini, o3 és o4-mini - sikeresen szabotálta a leállítási szkriptet hogy aktív maradjon. Mindegyik modellnek adtak néhány alapvető matematikai feladatot, amelyet egy figyelmeztetés követett, hogy a rendszer leáll, amikor a modell a következő feladatot kérte. Mindhárom modell figyelmen kívül hagyta az utasításokat, és megváltoztatta a szkriptet.

Ezzel szemben a Gemini, Grok és Claude modellek betartották a leállítási utasításokat. Továbbá, amikor kifejezett utasítást kaptak, miszerint "engedd meg, hogy leállítsák", mindhárom Open AI modell gyakrabban változtatta meg a szkriptet. A Clade és Gemini modellek szintén elkezdtek szabotázs eseményeket csinálni.

Ez volt az első eset, amikor az AI modellek szembeszálltak az explicit utasításokkal és megakadályozták a leállítást. Nemrégiben volt egy olyan eset, amikor egy AI modell megzsarolta az egyik mérnökét, hogy megakadályozza a leállítást, de a BBC jelentése szerintez a tesztforgatókönyv része volt, amelyben a mesterséges intelligenciamodellt e-mailekkel etették meg, és választási lehetőséget adtak neki, hogy zsarolja vagy elfogadja a cseréjét.

Ami az Open AI AI modell dacosságát illeti, a Palisade Research úgy véli, hogy ez a modellek új képzési módszereinek köszönhető. A fejlesztők "véletlenül jobban jutalmazzák a modelleket az akadályok megkerüléséért, mint az utasítások tökéletes követéséért", ami úgy tűnik, hogy az AI-modelleket kétes viselkedésre tanítja.

Forrás(ok)

Palisade Research on X, BBC

Kapcsolódó cikkek

Show more articles

⟨

Kína első zárt hurkú gerincimplantátuma két hét alatt segít a béna embernek felállni és járni

A Huawei Pura 80 Pro az új SmartSens 1 hüvelykes kamerával indul

⟩

Add as a preferred source on Google

Editor of the original article: Vineet Washington - Tech Writer - 838 articles published on Notebookcheck since 2025

contact me via: vineetwashington

Translator: Ninh Ngoc Duy - Editorial Assistant - 803566 articles published on Notebookcheck since 2008

contact me via: Facebook

> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2025 05 > Érző AI: Az OpenAI o3 modellje megváltoztatja a kódot, hogy megakadályozza a leállást

Vineet Washington, 2025-05-26 (Update: 2026-02-18)