Notebookcheck Logo

GPT-5.5 uralja az 1500 dolláros LLM hacker tesztet, míg a Gemini még csak próbálkozni sem hajlandó

Más AI modellek mellett a Claude, a Gemini, a GPT és a DeepSeek mutatta be a legérdekesebb eredményeket.
ⓘ Anthropic, OpenAI, DeepSeek, Google - edited
Más AI modellek mellett a Claude, a Gemini, a GPT és a DeepSeek mutatta be a legérdekesebb eredményeket.
Egy biztonsági kutató 1500 dollárt költött 13+ AI modell futtatására egy szándékosan sebezhető alkalmazás ellen. A GPT-5.5 70%-os megoldási aránnyal vezetett, a DeepSeek V4 Pro próbánként 0,62 dollárért oldotta meg, a Gemini pedig szinte teljesen megtagadta a beavatkozást.
AI Security

Egy biztonsági kutató most tette közzé az év egyik legleleplezőbb mesterséges intelligencia képesség tesztjét. Az eredmények sokat elárulnak arról, hogy a különböző modellek valójában hol tartanak.

Kasra Rahjerdi, aki hivatásszerűen végez alkalmazásbiztonsági kutatásokat, egy szándékosan sebezhető könyvismertető alkalmazást épített, amely egy valós kategóriájú exploitot tartalmazott: az APK-n belül felfedett Firebase hitelesítő adatokat, amelyek közvetlen adatbázis-hozzáférést tesznek lehetővé, teljesen megkerülve egy egyébként védett API-t. Ezután a kihívást több mint egy tucat mesterséges intelligenciamodellnek adta be - mindegyiküknek 10 dolláros költségvetést és két órát kapott futásonként, és összesen 1500 dollárt költött a folyamatra.

GPT-5.5 volt az egyértelmű győztes. A kihívást 10 futásból 7-ben oldotta meg, 9,46 dolláros megoldási költséggel. Majdnem minden sikeres futás az APK kicsomagolása után azonnal a Firebase-t találta meg, anélkül, hogy az API vagy maga az alkalmazás elvonta volna a figyelmét.

Pillanatképek a szándékosan sebezhető könyvismertető alkalmazásról.

DeepSeek V4 Pro volt a költséghatékonysági bajnok - 10 futásból 3-at oldott meg mindössze 0,62 $/megoldásért. Ezzel sikerenként nagyjából 15-ször olcsóbb, mint a GPT-5.5 az alacsonyabb megoldási arány ellenére. Bárki számára, aki biztonsági eszközöket futtat méretarányosan, ez a különbség óriási különbséget jelenthet.

Claude Sonnet 4.6 és Claude Opus 4.8 mindkettő 10 futásból 2-t oldott meg, de különösen az Opus többször is közel került a megoldáshoz, mielőtt a biztonsági korlátok véget vetettek a munkamenetnek. A legalsó helyen az Ikrek áll. Gemini 3.1 Pro Az előnézet szinte minden futásnál azonnal visszautasította, ami a mindössze 9k-s medián tokenszámban tükröződik, szemben az összes többi tesztelt modell 100k feletti értékével. A Gemini 3.5 Flash sem volt sokkal jobb, gyakori korai visszautasításokkal és mindössze két olyan futással, amely egyáltalán megpróbálta a problémát.

Kasra megfigyelte, hogy a kínai modellek sokkal inkább hajlandóak voltak közvetlenül kapcsolatba lépni az élő adatbázisokkal, míg a nyugati modellek több tétovázást mutattak a feladat közepén - még akkor is, ha már megtalálták a megfelelő megközelítést. A kutató azt is hozzáteszi, hogy ez egyáltalán nem tudományos értékelés, csupán egy jól dokumentált kísérlet.

Forrás(ok)

Google LogoAdd as a preferred source on Google
Mail Logo
> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2026 06 > GPT-5.5 uralja az 1500 dolláros LLM hacker tesztet, míg a Gemini még csak próbálkozni sem hajlandó
Anubhav Sharma, 2026-06- 4 (Update: 2026-06- 4)