Notebookcheck Logo

Nyílt forráskódú eszköz méri a mesterséges intelligencia modellek ostobasági szintjét

A Vibe kódolóknak szembe kell nézniük az AI modellek következetlen teljesítményével (Kép forrása: OpenAI segítségével generált)
Az AI modellek nem stabilak a vibe kódoláshoz (Kép forrása: OpenAI segítségével generált)
Egy új nyílt forráskódú eszköz több AI-modell, köztük az OpenAI GPT-5, a Claude Opus 4 és a Gemini 2.5 Pro valós idejű felügyeletét kínálja. A maga nemében elsőként képes észlelni, "amikor az AI-vállalatok költségmegtakarítás céljából csökkentik a modellek képességét" A benchmarkok a felhasználók saját OpenAI, xAI, Anthropic vagy Google API kulcsaival is futtathatók.
AI Open Source Software Fail

Azok, akik különböző feladatokhoz, különösen a kódoláshoz mesterséges intelligenciamodellekkel dolgoztak, észrevették, hogy a szoftvereszközök következetlenül viselkednek. Egyes esetekben egyszerűen nem adnak választ; néha hibás kódot szállítanak, és amikor előállnak azzal, amire számítottak, azt a szokásosnál lassabban teszik. Ez az a pont, ahol az AI Benchmark eszköz, amely a AistupidLevel.info oldalon található, lép a helyébe, amely valós idejű információkat nyújt több AI-modell teljesítményéről és pontosságáról, beleértve a költségadatokat is.

A fent említett nyílt forráskódú eszköz több mint 140 kódolási, hibakeresési és optimalizálási feladatot futtat le minden nagy modellen. Egyelőre a következőket követi nyomon: OpenAI GPT, Claude és Gemini. A Grok hamarosan szintén hozzáadódik. Kiemelt pontjai közé tartoznak a következők:

  • Valós idejű árinformáció, mivel egyes olcsónak tűnő modelleknek 10 iterációra van szükségük egy feladat elvégzéséhez, míg mások, amelyek első látásra drágábbnak tűnnek, ugyanazt a feladatot 2 iteráció alatt, tehát alacsonyabb effektív költségért végzik el.
  • Lehetőség ugyanazon tesztek futtatására saját API-kulcsokkal.
  • Valós idejű AI teljesítményfigyelés, beleértve a modellek élő rangsorolását a butaság és az okosság alapján.
  • Intelligens ajánlások, a kombinált teljesítmény alapján.
  • Értesítés az aktív degradációkról - például a Gemini-2.5-Flash most 44%-kal van lemaradva az alapértékhez képest.

Jelenleg az intelligens ajánlások a következők: Gemini-2.5-Flash-Lite a kód, Claude-3.5-Sonnet-20241022 a megbízhatóság és Gemini-2.5-Flash-Lite a sebesség szempontjából. Minden nyílt forráskódú a GitHubon (Repo API, Repo Front End), és bárki hozzájárulhat. Minden részlet és maga az eszköz megtalálható az első bekezdésben említett hivatalos weboldalon.

Forrás(ok)

Reddit (lefordítva)

Google LogoAdd as a preferred source on Google
Mail Logo
> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2025 09 > Nyílt forráskódú eszköz méri a mesterséges intelligencia modellek ostobasági szintjét
Codrut Nistor, 2025-09-18 (Update: 2025-09-18)