Nyílt forráskódú eszköz méri a mesterséges intelligencia modellek ostobasági szintjét

Az AI modellek nem stabilak a vibe kódoláshoz (Kép forrása: OpenAI segítségével generált)

Egy új nyílt forráskódú eszköz több AI-modell, köztük az OpenAI GPT-5, a Claude Opus 4 és a Gemini 2.5 Pro valós idejű felügyeletét kínálja. A maga nemében elsőként képes észlelni, "amikor az AI-vállalatok költségmegtakarítás céljából csökkentik a modellek képességét" A benchmarkok a felhasználók saját OpenAI, xAI, Anthropic vagy Google API kulcsaival is futtathatók.

Codrut Nistor (fordította Ninh Duy), Közzétett 09/18/2025 🇺🇸 🇪🇸 ...

AI Open Source Software Fail

Azok, akik különböző feladatokhoz, különösen a kódoláshoz mesterséges intelligenciamodellekkel dolgoztak, észrevették, hogy a szoftvereszközök következetlenül viselkednek. Egyes esetekben egyszerűen nem adnak választ; néha hibás kódot szállítanak, és amikor előállnak azzal, amire számítottak, azt a szokásosnál lassabban teszik. Ez az a pont, ahol az AI Benchmark eszköz, amely a AistupidLevel.info oldalon található, lép a helyébe, amely valós idejű információkat nyújt több AI-modell teljesítményéről és pontosságáról, beleértve a költségadatokat is.

A fent említett nyílt forráskódú eszköz több mint 140 kódolási, hibakeresési és optimalizálási feladatot futtat le minden nagy modellen. Egyelőre a következőket követi nyomon: OpenAI GPT, Claude és Gemini. A Grok hamarosan szintén hozzáadódik. Kiemelt pontjai közé tartoznak a következők:

Valós idejű árinformáció, mivel egyes olcsónak tűnő modelleknek 10 iterációra van szükségük egy feladat elvégzéséhez, míg mások, amelyek első látásra drágábbnak tűnnek, ugyanazt a feladatot 2 iteráció alatt, tehát alacsonyabb effektív költségért végzik el.
Lehetőség ugyanazon tesztek futtatására saját API-kulcsokkal.
Valós idejű AI teljesítményfigyelés, beleértve a modellek élő rangsorolását a butaság és az okosság alapján.
Intelligens ajánlások, a kombinált teljesítmény alapján.
Értesítés az aktív degradációkról - például a Gemini-2.5-Flash most 44%-kal van lemaradva az alapértékhez képest.

Jelenleg az intelligens ajánlások a következők: Gemini-2.5-Flash-Lite a kód, Claude-3.5-Sonnet-20241022 a megbízhatóság és Gemini-2.5-Flash-Lite a sebesség szempontjából. Minden nyílt forráskódú a GitHubon (Repo API, Repo Front End), és bárki hozzájárulhat. Minden részlet és maga az eszköz megtalálható az első bekezdésben említett hivatalos weboldalon.

Forrás(ok)

Reddit (lefordítva)

Kapcsolódó cikkek

⟨

A Moto G36 lehet a Motorola következő okostelefonja 7,000mAh akkumulátorral

Xbox teljes képernyős mód az eredeti Asus ROG Ally-on növeli a kézi játékteljesítményt, de vannak fenntartásai is

⟩

Add as a preferred source on Google

Editor of the original article: Codrut Nistor - Senior Tech Writer - 6803 articles published on Notebookcheck since 2013

contact me via: @online_digi, online.digital.craft, LinkedIn

Translator: Ninh Ngoc Duy - Editorial Assistant - 814621 articles published on Notebookcheck since 2008

contact me via: Facebook

> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2025 09 > Nyílt forráskódú eszköz méri a mesterséges intelligencia modellek ostobasági szintjét

Codrut Nistor, 2025-09-18 (Update: 2025-09-18)