Notebookcheck Logo

Az új nyílt forráskódú mesterséges intelligencia eszköz sokkal hosszabb, következetesebb videók készítését teszi lehetővé

Egy zsiráf mesterséges intelligencia által generált képe
ⓘ Gemini
Egy zsiráf mesterséges intelligencia által generált képe
A Lausanne-i Svájci Szövetségi Technológiai Intézet (École polytechnique fédérale de Lausanne) kutatói egy új rendszert fejlesztettek ki, a Stable Video Infinity (SVI) nevű rendszert, amely a videógeneráló modellekben tapasztalható sodródás kezelésére szolgál.
AI Science Open Source

Ha használt már videolgenerációs modelleket, egy dolgot mindenhol egységesnek talál: ezek rövid, általában 5 és 20 másodperc közötti klipekre korlátozódnak. Ennek a korlátozásnak az oka az úgynevezett "sodródás" A sodródás hatására a jelenetek és a karakterek képkockáról képkockára egyre inkább elveszítik jellegzetességeiket, ami idővel inkoherens kimenetet eredményez.

Ennek a problémának a megoldására az EPFL Visual Intelligence for Transportation (VITA) laboratóriumának kutatói most egy újszerű képzési módszert fejlesztettek ki, amelyet "hibák újrahasznosításával történő átképzésnek" neveznek Ahelyett, hogy a generálás során természetesen előforduló hibákat és deformitásokat elvetnék, ez a megközelítés szándékosan visszatáplálja azokat a modellbe.

Alexandre Alahi professzor a folyamatot ahhoz hasonlítja, mintha "egy pilótát nem tiszta kék égen, hanem viharos időben képeznénk ki" Azáltal, hogy a mesterséges intelligencia tanul a saját hibáiból, elég robosztus lesz ahhoz, hogy stabilizálja magát, amikor a hibák elkerülhetetlenül megjelennek, ahelyett, hogy a véletlenszerűségbe torkollna.

Ez a módszer hajtja az új Stable Video Infinity (SVI) rendszert. A jelenlegi modellekkel ellentétben, amelyek gyakran 30 másodperc után összeomlanak, az SVI képes több percig vagy még tovább tartó, összefüggő, jó minőségű videókat létrehozni. A rendszer máris hullámokat vet a technológiai közösségben; nyílt forráskódja a GitHub oldalon található több mint 2000 csillagot gyűjtött, és a kutatást elfogadták a 2026. évi International Conference on Learning Representations (ICLR) konferencián való bemutatásra.

A csapat most debütál a LayerSync nevű kísérő módszerrel is, amely lehetővé teszi, hogy a mesterséges intelligencia korrigálja belső logikáját a videó-, kép- és hanggenerálás során. Ezek az eszközök együttesen jobb autonóm rendszereket ígérnek, és felszabadítják a valóban hosszú formátumú generatív média lehetőségeit.

Please share our article, every link counts!
Mail Logo
> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2026 02 > Az új nyílt forráskódú mesterséges intelligencia eszköz sokkal hosszabb, következetesebb videók készítését teszi lehetővé
Chibuike Okpara, 2026-02-10 (Update: 2026-02-10)