Notebookcheck Logo

Nyílt forráskódú eszköz méri a mesterséges intelligencia modellek ostobasági szintjét

A Vibe kódolóknak szembe kell nézniük az AI modellek következetlen teljesítményével (Kép forrása: OpenAI segítségével generált)
A mesterséges intelligencia modellek nem stabilak (Kép forrása: OpenAI segítségével generált)
Egy új nyílt forráskódú eszköz több AI-modell, köztük az OpenAI GPT-5, a Claude Opus 4 és a Gemini 2.5 Pro valós idejű felügyeletét kínálja. A maga nemében elsőként képes észlelni, "amikor az AI-vállalatok költségmegtakarítás céljából csökkentik a modellek képességét" A benchmarkok a felhasználók saját OpenAI, xAI, Anthropic vagy Google API kulcsaival is futtathatók.
AI Open Source Software Fail

Azok, akik különböző feladatokhoz, különösen a kódoláshoz mesterséges intelligenciamodellekkel dolgoztak, észrevették, hogy a szoftvereszközök következetlenül viselkednek. Egyes esetekben egyszerűen nem adnak választ; néha hibás kódot szállítanak, és amikor előállnak azzal, amire számítottak, azt a szokásosnál lassabban teszik. Ez az a pont, ahol az AI Benchmark eszköz, amely a AistupidLevel.info oldalon található, lép a helyébe, amely valós idejű információkat nyújt több AI-modell teljesítményéről és pontosságáról, beleértve a költségadatokat is.

A fent említett nyílt forráskódú eszköz több mint 140 kódolási, hibakeresési és optimalizálási feladatot futtat le minden nagy modellen. Egyelőre a következőket követi nyomon: OpenAI GPT, Claude és Gemini. A Grok hamarosan szintén hozzáadódik. Kiemelt pontjai közé tartoznak a következők:

  • Valós idejű árinformáció, mivel egyes olcsónak tűnő modelleknek 10 iterációra van szükségük egy feladat elvégzéséhez, míg mások, amelyek első látásra drágábbnak tűnnek, ugyanazt a feladatot 2 iteráció alatt, tehát alacsonyabb effektív költségért végzik el.
  • Lehetőség ugyanazon tesztek futtatására saját API-kulcsokkal.
  • Valós idejű AI teljesítményfigyelés, beleértve a modellek élő rangsorolását a butaság és az okosság alapján.
  • Intelligens ajánlások, a kombinált teljesítmény alapján.
  • Értesítés az aktív degradációkról - például a Gemini-2.5-Flash most 44%-kal van lemaradva az alapértékhez képest.

Jelenleg az intelligens ajánlások a következők: Gemini-2.5-Flash-Lite a kód, Claude-3.5-Sonnet-20241022 a megbízhatóság és Gemini-2.5-Flash-Lite a sebesség szempontjából. Minden nyílt forráskódú a GitHubon (Repo API, Repo Front End), és bárki hozzájárulhat. Minden részlet és maga az eszköz megtalálható az első bekezdésben említett hivatalos weboldalon.

Forrás(ok)

Reddit (lefordítva)

Please share our article, every link counts!
Mail Logo
> Magyarország - Kezdőlap > Newsarchive 2025 09 > Nyílt forráskódú eszköz méri a mesterséges intelligencia modellek ostobasági szintjét
Codrut Nistor, 2025-09-18 (Update: 2025-09-18)