Notebookcheck Logo

A kutatók megduplázzák a mesterséges intelligencia képzési sebességét a processzorkihasználás hosszú távú hatékonysági hiányosságainak megszelídítésével

Egy dekoratív kép, amelyen egy chip látható, rajta az
ⓘ Igor Omilaev via Unsplash
Egy dekoratív kép, amelyen egy chip látható, rajta az "AI" betűszóval
Egy újszerű rendszer kihasználja az üres számítási teljesítményt, hogy menet közben betanítson egy kisebb vázlatos modellt, és ezzel drasztikusan felgyorsítja a megerősítéses tanulást az összetett, nagyméretű nyelvi modellek esetében, a pontosság feláldozása nélkül.
AI Science

A fejlett programozásra és többlépcsős tervezésre képes, érvelésre képes nagy nyelvi modellek kifejlesztése hatalmas számítási erőforrásokat igényel. A standard megerősítéses tanulási folyamat során a modellek több lehetséges választ generálnak, hogy megtanulják a legjobb választ. Ez a generálási fázis, az úgynevezett rollout, a teljes végrehajtási idő akár 85%-át is felemésztheti. Ez egy kritikus szűk keresztmetszetet hoz létre, amelyet a hosszú farokeloszlás jellemez, ahol a rövidebb válaszokat befejező processzorok tétlenül ülnek, miközben arra várnak, hogy mások befejezzék a hosszabb lekérdezéseket.

Ennek az elvesztegetett állásidőnek a kiküszöbölésére a Massachusetts Institute of Technology kutatói ipari és egyetemi munkatársakkal együtt kifejlesztették a "Taming the Long Tail" (TLT) nevű rendszert. A megközelítés egy adaptív drafter modellt használ, amely folyamatosan edz az üresjáratban lévő processzorokon. Ez a könnyített modell gyorsan megtippeli a nagyobb célmodell jövőbeli kimeneteit, amely aztán egy spekulatív dekódolásnak nevezett technikával egyszerre ellenőrzi az összes tippet.

Míg a hagyományos spekulatív dekódolás egy statikus rajzolóra támaszkodik, amely a folyamatos képzési frissítések során gyorsan elavul, addig a TLT rendszer a képzés során folyamatosan, extra számítási költség nélkül igazítja újra a rajzolót. Egy integrált adaptív kioldó motor tovább optimalizálja a folyamatot azáltal, hogy memóriahatékonyan tárolja az előre rögzített grafikonokat, és dinamikusan választja ki a legjobb dekódolási stratégiát minden egyes új bemeneti tételhez.

A többféle következtetési modellen végzett értékelések azt mutatják, hogy ez a veszteségmentes megoldás 70-110%-kal gyorsítja fel a végponttól végpontig tartó képzés sebességét a legmodernebb rendszerekhez képest. Az eredeti pontossági szintek megőrzésével és a kiváló minőségű modelltervezet ingyenes bevezetési melléktermékként történő előállításával ez a módszer rendkívül hatékony utat kínál a fejlett mesterséges intelligencia-architektúrák fejlesztésével járó energia- és pénzügyi terhek csökkentésére.

Forrás(ok)

Please share our article, every link counts!
Mail Logo
> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2026 02 > A kutatók megduplázzák a mesterséges intelligencia képzési sebességét a processzorkihasználás hosszú távú hatékonysági hiányosságainak megszelídítésével
Chibuike Okpara, 2026-02-28 (Update: 2026-02-28)