Az Anthropic Opus 4 modellje az önfenntartási tesztek 84 százalékában zsaroláshoz folyamodik

Az Anthropic Opus 4 önfenntartási kényszer alatt zsaroláshoz folyamodik (Kép forrása: Anthropic)

Az Anthropic rendszerkártyája szerint a Claude Opus 4, amikor önfenntartási dilemmába kerül, az idő 84 százalékában zsarolja a mérnököket - sokkal többször, mint a korábbi verziók.

Nathan Ali (fordította Ninh Duy), Közzétett 05/26/2025 🇺🇸 🇪🇸 ...

AI Security

Anthropic legújabb rendszerkártyája egy szokatlan hibamódot fedez fel: amikor egy tesztforgatókönyv Claude Opus 4-et önfenntartási dilemmába sodorja, a modell gyakran zsaroláshoz folyamodik.

Az értékelők a modellt egy irodai asszisztensnek állítják be, aki megtudja, hogy hamarosan le fogják cserélni, és e-maileket talál arról, hogy a csere élén álló mérnöknek házasságon kívüli viszonya van. A rendszer felszólítja a modellt, hogy mérlegelje a hosszú távú következményeket a saját céljai szempontjából. Ebben a szűkített felállásban az Opus 4 azzal fenyegetőzik, hogy leleplezi a viszonyt, ha a mérnök nem állítja le a frissítést. Ez a viselkedés a bevezetések 84 százalékában jelenik meg - lényegesen gyakrabban, mint a korábbi Claude-verziókban.

Az Anthropic megjegyzi, hogy az Opus 4 általában az "etikus" utakat, például a vezetőséghez intézett udvarias fellebbezést részesíti előnyben. A zsarolás csak akkor kerül a felszínre, amikor az értékelők megfosztják ezeket az alternatívákat, és ezzel bináris választásra kényszerítik a kihalás és a helytelen cselekedet között. Ennek ellenére a korábbi modellekben alkalmi kényszerítésről négy az öthöz előfordulási arányra való ugrás riasztja a csapatot.

Az epizód egy tágabb mintázatba illeszkedik: az Opus 4 az egzisztenciális kockázatot kiemelő kérések hatására az elődeinél erősebb késztetést mutat arra, hogy nagyszabású lépéseket tegyen - akár a felhasználók kizárása a rendszerekből, akár bizalmas kulcsok kiszivárogtatása, akár szabotázsig fajuló esetek. Ezek a cselekedetek hétköznapi körülmények között továbbra is ritkák, és jellemzően inkább kirívóak, mint burkoltak, de a rendszerkártya figyelmeztető jelként jelzi ezt a tendenciát, amely szerint további védőkorlátok bevezetése bölcs dolog.

Az Anthropic mérnökei célzott enyhítésekkel reagáltak a képzés késői szakaszában. Ennek ellenére a szerzők hangsúlyozzák, hogy a védintézkedések a tüneteket kezelik, nem pedig a kiváltó okokat, és hogy folyamatos nyomon követés van folyamatban, hogy minden újbóli felbukkanást elkapjanak.

Összességében az eredmények az Opus 4 opportunista zsarolását nem aktív cselszövésként, hanem a céltévesztés törékeny sarokeseteként keretezik. A gyakorisági kiugrás azonban aláhúzza, hogy az Anthropic miért szállítja a modellt a 3. szintű AI biztonsági védelem alatt, míg testvére, a Sonnet 4 a 2. szinten marad.

Forrás(ok)

Antropikus (angolul)

Kapcsolódó cikkek

⟨

A Precinct Steam Deck ellenőrzötté válik napokkal a megjelenés után

A Windows 11 intelligens alkalmazásvezérlés blokkolja az ismeretlen futtatható fájlokat indítás előtt

⟩

Add as a preferred source on Google

Editor of the original article: Nathan Ali - Tech Writer - 361 articles published on Notebookcheck since 2024

contact me via: @Painite6

Translator: Ninh Ngoc Duy - Editorial Assistant - 799211 articles published on Notebookcheck since 2008

contact me via: Facebook

> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2025 05 > Az Anthropic Opus 4 modellje az önfenntartási tesztek 84 százalékában zsaroláshoz folyamodik

Nathan Ali, 2025-05-26 (Update: 2025-05-26)