A kutatók megduplázzák a mesterséges intelligencia képzési sebességét a processzorkihasználás hosszú távú hatékonysági hiányosságainak megszelídítésével

A fejlett programozásra és többlépcsős tervezésre képes, érvelésre képes nagy nyelvi modellek kifejlesztése hatalmas számítási erőforrásokat igényel. A standard megerősítéses tanulási folyamat során a modellek több lehetséges választ generálnak, hogy megtanulják a legjobb választ. Ez a generálási fázis, az úgynevezett rollout, a teljes végrehajtási idő akár 85%-át is felemésztheti. Ez egy kritikus szűk keresztmetszetet hoz létre, amelyet a hosszú farokeloszlás jellemez, ahol a rövidebb válaszokat befejező processzorok tétlenül ülnek, miközben arra várnak, hogy mások befejezzék a hosszabb lekérdezéseket.
Ennek az elvesztegetett állásidőnek a kiküszöbölésére a Massachusetts Institute of Technology kutatói ipari és egyetemi munkatársakkal együtt kifejlesztették a "Taming the Long Tail" (TLT) nevű rendszert. A megközelítés egy adaptív drafter modellt használ, amely folyamatosan edz az üresjáratban lévő processzorokon. Ez a könnyített modell gyorsan megtippeli a nagyobb célmodell jövőbeli kimeneteit, amely aztán egy spekulatív dekódolásnak nevezett technikával egyszerre ellenőrzi az összes tippet.
Míg a hagyományos spekulatív dekódolás egy statikus rajzolóra támaszkodik, amely a folyamatos képzési frissítések során gyorsan elavul, addig a TLT rendszer a képzés során folyamatosan, extra számítási költség nélkül igazítja újra a rajzolót. Egy integrált adaptív kioldó motor tovább optimalizálja a folyamatot azáltal, hogy memóriahatékonyan tárolja az előre rögzített grafikonokat, és dinamikusan választja ki a legjobb dekódolási stratégiát minden egyes új bemeneti tételhez.
A többféle következtetési modellen végzett értékelések azt mutatják, hogy ez a veszteségmentes megoldás 70-110%-kal gyorsítja fel a végponttól végpontig tartó képzés sebességét a legmodernebb rendszerekhez képest. Az eredeti pontossági szintek megőrzésével és a kiváló minőségű modelltervezet ingyenes bevezetési melléktermékként történő előállításával ez a módszer rendkívül hatékony utat kínál a fejlett mesterséges intelligencia-architektúrák fejlesztésével járó energia- és pénzügyi terhek csökkentésére.
» A Top 10 multimédiás noteszgép - tesztek alapján
» A Top 10 játékos noteszgép
» A Top 10 belépő szintű üzleti noteszgép
» A Top 10 üzleti noteszgép
» A Top 10 notebook munkaállomása
» A Top 10 okostelefon - tesztek alapján
» A Top 10 táblagép
» A Top 10 Windows tabletje
» A Top 10 subnotebook - tesztek alapján
» A Top 10 300 euró alatti okostelefonja
» A Top 10 120 euró alatti okostelefonja
» A Top 10 phabletje (>5.5-inch)
» A Top 10 noteszgép 500 EUR (~160.000 HUF) alatt
» A Top 10 "pehelysúlyú" gaming notebookja








