Az új nyílt forráskódú mesterséges intelligencia eszköz sokkal hosszabb, következetesebb videók készítését teszi lehetővé

Egy zsiráf mesterséges intelligencia által generált képe

A Lausanne-i Svájci Szövetségi Technológiai Intézet (École polytechnique fédérale de Lausanne) kutatói egy új rendszert fejlesztettek ki, a Stable Video Infinity (SVI) nevű rendszert, amely a videógeneráló modellekben tapasztalható sodródás kezelésére szolgál.

Chibuike Okpara (fordította DeepL / Ninh Duy), Közzétett 02/10/2026 🇺🇸 🇪🇸 ...

AI Science Open Source

Ha használt már videolgenerációs modelleket, egy dolgot mindenhol egységesnek talál: ezek rövid, általában 5 és 20 másodperc közötti klipekre korlátozódnak. Ennek a korlátozásnak az oka az úgynevezett "sodródás" A sodródás hatására a jelenetek és a karakterek képkockáról képkockára egyre inkább elveszítik jellegzetességeiket, ami idővel inkoherens kimenetet eredményez.

Ennek a problémának a megoldására az EPFL Visual Intelligence for Transportation (VITA) laboratóriumának kutatói most egy újszerű képzési módszert fejlesztettek ki, amelyet "hibák újrahasznosításával történő átképzésnek" neveznek Ahelyett, hogy a generálás során természetesen előforduló hibákat és deformitásokat elvetnék, ez a megközelítés szándékosan visszatáplálja azokat a modellbe.

Alexandre Alahi professzor a folyamatot ahhoz hasonlítja, mintha "egy pilótát nem tiszta kék égen, hanem viharos időben képeznénk ki" Azáltal, hogy a mesterséges intelligencia tanul a saját hibáiból, elég robosztus lesz ahhoz, hogy stabilizálja magát, amikor a hibák elkerülhetetlenül megjelennek, ahelyett, hogy a véletlenszerűségbe torkollna.

Ez a módszer hajtja az új Stable Video Infinity (SVI) rendszert. A jelenlegi modellekkel ellentétben, amelyek gyakran 30 másodperc után összeomlanak, az SVI képes több percig vagy még tovább tartó, összefüggő, jó minőségű videókat létrehozni. A rendszer máris hullámokat vet a technológiai közösségben; nyílt forráskódja a GitHub oldalon található több mint 2000 csillagot gyűjtött, és a kutatást elfogadták a 2026. évi International Conference on Learning Representations (ICLR) konferencián való bemutatásra.

A csapat most debütál a LayerSync nevű kísérő módszerrel is, amely lehetővé teszi, hogy a mesterséges intelligencia korrigálja belső logikáját a videó-, kép- és hanggenerálás során. Ezek az eszközök együttesen jobb autonóm rendszereket ígérnek, és felszabadítják a valóban hosszú formátumú generatív média lehetőségeit.

Forrás(ok)

SVI a Tech Xplore-on keresztül

⟨

A tudósok azt hitték, hogy ez a csillag fel fog robbanni, de egy másik felfedezést tettek..

Induktív egérgombokkal és haptikus visszajelzéssel ellátott Logitech G Pro X2 Superstrike már kapható

⟩

Add as a preferred source on Google

Kapcsolódó cikkek

Editor of the original article: Chibuike Okpara - Tech Writer - 506 articles published on Notebookcheck since 2024

contact me via: @chibuikeokparaf, Facebook

Translator: Ninh Ngoc Duy - Editorial Assistant - 790752 articles published on Notebookcheck since 2008

contact me via: Facebook

> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2026 02 > Az új nyílt forráskódú mesterséges intelligencia eszköz sokkal hosszabb, következetesebb videók készítését teszi lehetővé

Chibuike Okpara, 2026-02-10 (Update: 2026-02-10)