A kutatók megduplázzák a mesterséges intelligencia képzési sebességét a processzorkihasználás hosszú távú hatékonysági hiányosságainak megszelídítésével

Egy dekoratív kép, amelyen egy chip látható, rajta az "AI" betűszóval

Egy újszerű rendszer kihasználja az üres számítási teljesítményt, hogy menet közben betanítson egy kisebb vázlatos modellt, és ezzel drasztikusan felgyorsítja a megerősítéses tanulást az összetett, nagyméretű nyelvi modellek esetében, a pontosság feláldozása nélkül.

Chibuike Okpara (fordította DeepL / Ninh Duy), Közzétett 02/28/2026 🇺🇸 🇪🇸 ...

AI Science

A fejlett programozásra és többlépcsős tervezésre képes, érvelésre képes nagy nyelvi modellek kifejlesztése hatalmas számítási erőforrásokat igényel. A standard megerősítéses tanulási folyamat során a modellek több lehetséges választ generálnak, hogy megtanulják a legjobb választ. Ez a generálási fázis, az úgynevezett rollout, a teljes végrehajtási idő akár 85%-át is felemésztheti. Ez egy kritikus szűk keresztmetszetet hoz létre, amelyet a hosszú farokeloszlás jellemez, ahol a rövidebb válaszokat befejező processzorok tétlenül ülnek, miközben arra várnak, hogy mások befejezzék a hosszabb lekérdezéseket.

Ennek az elvesztegetett állásidőnek a kiküszöbölésére a Massachusetts Institute of Technology kutatói ipari és egyetemi munkatársakkal együtt kifejlesztették a "Taming the Long Tail" (TLT) nevű rendszert. A megközelítés egy adaptív drafter modellt használ, amely folyamatosan edz az üresjáratban lévő processzorokon. Ez a könnyített modell gyorsan megtippeli a nagyobb célmodell jövőbeli kimeneteit, amely aztán egy spekulatív dekódolásnak nevezett technikával egyszerre ellenőrzi az összes tippet.

Míg a hagyományos spekulatív dekódolás egy statikus rajzolóra támaszkodik, amely a folyamatos képzési frissítések során gyorsan elavul, addig a TLT rendszer a képzés során folyamatosan, extra számítási költség nélkül igazítja újra a rajzolót. Egy integrált adaptív kioldó motor tovább optimalizálja a folyamatot azáltal, hogy memóriahatékonyan tárolja az előre rögzített grafikonokat, és dinamikusan választja ki a legjobb dekódolási stratégiát minden egyes új bemeneti tételhez.

A többféle következtetési modellen végzett értékelések azt mutatják, hogy ez a veszteségmentes megoldás 70-110%-kal gyorsítja fel a végponttól végpontig tartó képzés sebességét a legmodernebb rendszerekhez képest. Az eredeti pontossági szintek megőrzésével és a kiváló minőségű modelltervezet ingyenes bevezetési melléktermékként történő előállításával ez a módszer rendkívül hatékony utat kínál a fejlett mesterséges intelligencia-architektúrák fejlesztésével járó energia- és pénzügyi terhek csökkentésére.

Forrás(ok)

arXiv.org via MIT News

⟨

Yoga Pro 3D: A Lenovo új laptopot dob piacra sztereoszkópikus 3D kijelzővel

Xiaomi kiadja a Xiaomi 17 globálisan új verzióval

⟩

Add as a preferred source on Google

Kapcsolódó cikkek

Editor of the original article: Chibuike Okpara - Tech Writer - 500 articles published on Notebookcheck since 2024

contact me via: @chibuikeokparaf, Facebook

Translator: Ninh Ngoc Duy - Editorial Assistant - 771550 articles published on Notebookcheck since 2008

contact me via: Facebook

> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2026 02 > A kutatók megduplázzák a mesterséges intelligencia képzési sebességét a processzorkihasználás hosszú távú hatékonysági hiányosságainak megszelídítésével

Chibuike Okpara, 2026-02-28 (Update: 2026-02-28)