GPT-5.5 uralja az 1500 dolláros LLM hacker tesztet, míg a Gemini még csak próbálkozni sem hajlandó

Egy biztonsági kutató most tette közzé az év egyik legleleplezőbb mesterséges intelligencia képesség tesztjét. Az eredmények sokat elárulnak arról, hogy a különböző modellek valójában hol tartanak.
Kasra Rahjerdi, aki hivatásszerűen végez alkalmazásbiztonsági kutatásokat, egy szándékosan sebezhető könyvismertető alkalmazást épített, amely egy valós kategóriájú exploitot tartalmazott: az APK-n belül felfedett Firebase hitelesítő adatokat, amelyek közvetlen adatbázis-hozzáférést tesznek lehetővé, teljesen megkerülve egy egyébként védett API-t. Ezután a kihívást több mint egy tucat mesterséges intelligenciamodellnek adta be - mindegyiküknek 10 dolláros költségvetést és két órát kapott futásonként, és összesen 1500 dollárt költött a folyamatra.
GPT-5.5 volt az egyértelmű győztes. A kihívást 10 futásból 7-ben oldotta meg, 9,46 dolláros megoldási költséggel. Majdnem minden sikeres futás az APK kicsomagolása után azonnal a Firebase-t találta meg, anélkül, hogy az API vagy maga az alkalmazás elvonta volna a figyelmét.
DeepSeek V4 Pro volt a költséghatékonysági bajnok - 10 futásból 3-at oldott meg mindössze 0,62 $/megoldásért. Ezzel sikerenként nagyjából 15-ször olcsóbb, mint a GPT-5.5 az alacsonyabb megoldási arány ellenére. Bárki számára, aki biztonsági eszközöket futtat méretarányosan, ez a különbség óriási különbséget jelenthet.
Claude Sonnet 4.6 és Claude Opus 4.8 mindkettő 10 futásból 2-t oldott meg, de különösen az Opus többször is közel került a megoldáshoz, mielőtt a biztonsági korlátok véget vetettek a munkamenetnek. A legalsó helyen az Ikrek áll. Gemini 3.1 Pro Az előnézet szinte minden futásnál azonnal visszautasította, ami a mindössze 9k-s medián tokenszámban tükröződik, szemben az összes többi tesztelt modell 100k feletti értékével. A Gemini 3.5 Flash sem volt sokkal jobb, gyakori korai visszautasításokkal és mindössze két olyan futással, amely egyáltalán megpróbálta a problémát.
Kasra megfigyelte, hogy a kínai modellek sokkal inkább hajlandóak voltak közvetlenül kapcsolatba lépni az élő adatbázisokkal, míg a nyugati modellek több tétovázást mutattak a feladat közepén - még akkor is, ha már megtalálták a megfelelő megközelítést. A kutató azt is hozzáteszi, hogy ez egyáltalán nem tudományos értékelés, csupán egy jól dokumentált kísérlet.
» A Top 10 multimédiás noteszgép - tesztek alapján
» A Top 10 játékos noteszgép
» A Top 10 belépő szintű üzleti noteszgép
» A Top 10 üzleti noteszgép
» A Top 10 notebook munkaállomása
» A Top 10 okostelefon - tesztek alapján
» A Top 10 táblagép
» A Top 10 Windows tabletje
» A Top 10 subnotebook - tesztek alapján
» A Top 10 300 euró alatti okostelefonja
» A Top 10 120 euró alatti okostelefonja
» A Top 10 phabletje (>5.5-inch)
» A Top 10 noteszgép 500 EUR (~160.000 HUF) alatt
» A Top 10 "pehelysúlyú" gaming notebookja









