Az OpenAI három új valós idejű audio API modellt indít, köztük a GPT-Realtime-2-t is

Az OpenAI GPT-Realtime-2 a GPT-5-ös osztályú érvelést hozza el az élő hangügynökökhöz, és két további valós idejű hangmodellel együtt indul az OpenAI API-n keresztül.

Az OpenAI elindította a GPT-Realtime-2, GPT-Realtime-Translate és GPT-Realtime-Whisper programokat a Realtime API-n keresztül, amelyek már általánosan elérhetőek a hangügynökök számára.

Darryl Linington (fordította DeepL / Ninh Duy), Közzétett 05/09/2026 🇺🇸 🇩🇪 ...

AI Business Software Laptop / Notebook Desktop Android Apple

Az OpenAI három új, valós idejű hangmodellt indított az API-n keresztül, amelyek a hangalapú mesterséges intelligenciát az egyszerű kérdés-válasz interakcióktól az olyan ügynökök felé mozdítják el, akik egyetlen élő beszélgetésen belül képesek hallgatni, érvelni, fordítani és cselekedni. A kiadással a Realtime API kilépett a bétatesztből, és most először válik általánosan elérhetővé a gyártás számára.

A kiadás középpontjában a GPT-Realtime-2 áll, az OpenAI első GPT-5 osztályú érvelésre épülő hangmodellje. A legtöbb hangrendszer által használt lépésenkénti architektúrával ellentétben a GPT-Realtime-2 a hangot folyamatos folyamban dolgozza fel, így a beszédet annak történésekor értelmezi, és a különálló átírási és szintézisfázisok okozta hézagok nélkül reagál. A modell 128K token-kontextusablakot támogat, szemben az előző verzió 32K-jával, ami a hosszabb hangmunkameneteket és az összetett, többlépéses ágensfolyamatokat külső memóriaállványzat nélkül is praktikussá teszi.

Mit tud a GPT-Realtime-2

A modell kifejezetten a OpenAI által "ágens viselkedésnek" nevezett "ügynöki viselkedésre" készült a hanghívások során. A preambles lehetővé teszi, hogy az eszközhívások végrehajtása közben azt mondja: "Hadd ellenőrizzem le" vagy "Egy pillanat", így a felhasználók nem maradnak üresjáratban. A párhuzamos eszközhívások lehetővé teszik, hogy egyszerre több back-end kérést futtasson, és elmondja, hogy melyik van folyamatban. Az erősebb helyreállítási viselkedés azt jelenti, hogy a hibákat hangosan kezeli, ahelyett, hogy a beszélgetés közepén lefagyna. A hangszín beállítása lehetővé teszi, hogy a kontextus függvényében váltson a stílusok között: a támogatói hívásoknál visszafogottabb, a megerősítéseknél pedig vidámabb.

A GPT-Realtime-2 15,2%-kal magasabb pontszámot ért el a GPT-Realtime-1.5-nél a Big Bench Audio, az OpenAI audió érvelési benchmarkján, és 13,8%-kal magasabbat az Audio Multichallengeren az utasítások követése terén. A Zillow a valós tesztek során 26 százalékpontos növekedést jelentett a hívások sikerességi arányában a legnehezebb ellenfélre épülő benchmarkján: 69%-ról 95%-ra emelkedett a GPT-Realtime-2 azonnali optimalizálása után. A modell ára 32 dollár egymillió audio bemeneti tokenenként és 64 dollár egymillió audio kimeneti tokenenként, valamint 0,40 dollár egymillió gyorsítótárazott bemeneti tokenenként.

GPT-Realtime-Translate és GPT-Realtime-Whisper

A második modell, a GPT-Realtime-Translateegy dedikált élő beszédfordító rendszer. Folyamatosan feldolgozza a beszélt bemenetet, és valós időben adja ki a fordítást anélkül, hogy a beszélőnek szünetet kellene tartania vagy be kellene fejeznie a teljes mondatokat. A modell több mint 70 bemeneti nyelvet és 13 kimeneti nyelvet támogat, és az ügyfélszolgálatot, az oktatást, az élő rendezvényeket és a határokon átnyúló értékesítési környezeteket célozza meg. A BolnaAI, az indiai nyelvi piacokra építő hangalapú mesterséges intelligenciával foglalkozó vállalat 12,5%-kal alacsonyabb szóhibaarányról számolt be hindi, tamil és telugu nyelveken a korábbi fordítási megközelítéshez képest. A GPT-Realtime-Translate ára 0,034 dollár percenkénti hangfeldolgozásonként.

A GPT-Realtime-Whisper a harmadik modell, amely az OpenAI széles körben elfogadott Whisper beszédfelismerő technológiáját egy streaming rendszerré bővíti. Míg az eredeti Whisper a hangfelvételek utólagos átírására készült, ez a változat élő feliratokat készít, miközben a beszéd elhangzik. A felhasználási területek közé tartoznak az élő megbeszélések, a tárgyalótermi dokumentáció, a hírszerkesztőségek átiratai és a hallássérült felhasználók számára készült akadálymentesítési eszközök. A három közül ez a legolcsóbb, percenként 0,017 dollárral. Mindhárom modell már elérhető az OpenAI API-n és a fejlesztői játszótéren keresztül.

Az indulással a Realtime API-t MCP-kiszolgálótámogatással, képbeviteli képességekkel és SIP-telefonhívás-integrációval is bővül, így a fejlesztők a vállalati telefonálás és az ügynöki munkafolyamatok körét az API elhagyása nélkül is bővíthetik.

A mesterséges intelligencia eszköztér is vonzotta a támadókat, akik igyekeznek kihasználni az új termékek iránti érdeklődést. A Notebookcheck tegnap beszámolt egy hamis Claude AI weboldalról, amely a Beagle Windows hátsó ajtót terjesztette a Google által szponzorált keresési eredményeken keresztül egy trójai Claude-Pro Relay telepítő segítségével.