Notebookcheck Logo

A Google bemutatja Gemini 2.5 Flash Image "nano-banán" erősebb szerkesztési következetességgel

A Google DeepMind "nano-banán" modellje pontos képszerkesztést kínál (Kép forrása: Gemini)
A Google DeepMind "nano-banán" modellje pontos képszerkesztést kínál (Kép forrása: Gemini)
A Google DeepMind új Gemini 2.5 Flash Image, becenevén "nano-banán", finomabb vezérlést ígér az AI képszerkesztés felett. A jelenetek között konzisztens karaktereket tart, lehetővé teszi a többfordulós szerkesztést, és természetes nyelvű utasításokkal keveri a képeket, miközben látható és láthatatlan vízjeleket ad hozzá a biztonság érdekében.
AI

A Google DeepMind elindul Gemini 2.5 Flash Image, más néven "nano-banán" a Gemini alkalmazáshoz és a fejlesztők számára a Gemini API-n, a Google AI Studio-n és a Vertex AI-n keresztül. Ez a frissítés egy gyakori panaszt orvosol az AI képi eszközökkel kapcsolatban: a kis szerkesztések, amelyek végül az egész képet megváltoztatják. A Google leírása szerint ez a kiadás a minőség és az ellenőrzés javulását jelenti a korábbi verziókhoz képest.

A fő funkció a karakterek konzisztenciája. Egy személy, háziállat vagy termék különböző jelenetekben is ugyanúgy nézhet ki, még akkor is, ha ruhát, frizurát, időszakot vagy beállításokat változtatunk. A modell több képet is képes egybefogni, természetes nyelvű utasításokkal konkrét változtatásokat eszközölni, és a Gemini világismeretét is felhasználhatja a képkészítés és -szerkesztés során.

Ezzel az eszközzel ugyanazt a karaktert különböző beállításokba helyezheti, egy terméket különböző szögekből mutathat meg, vagy a márkaképeket kampányok során konzisztensnek tarthatja. A többfordulós szerkesztés lehetővé teszi a folyamatos változtatásokat, például bútorok és dekoráció hozzáadását egy szobához, hogy kipróbálhassa az ötleteket. Emellett keverheti a mintákat, hozzáadhat egy mintát az egyik képből egy másik képen lévő tárgyhoz, vagy egy személyt és egy háziállatot egy új jelenetbe keverhet.

Az árképzés átlátható a fejlesztők számára: A Gemini 2.5 Flash Image egymillió kimeneti tokenenként 30 dollárba kerül. Minden egyes kép 1290 kimeneti tokennek számít, ami képenként körülbelül 0,039 dollárnak felel meg. A többi bemeneti és kimeneti módozat a Gemini 2.5 Flash standard árképzését követi.

A biztonság érdekében a generált képek látható AI-jelet és láthatatlan SynthID digitális vízjelet tartalmaznak. A Google szerint a SynthID a gyakori szerkesztések után is kimutatható, ami segíthet a képek eredetének ellenőrzésében, mivel a szintetikus médiát egyre nehezebb felismerni.

A Google szerint a korai előnézetek ezt a képszerkesztő modellt vezető képszerkesztő modellként értékelik. A Gemini alkalmazás beépített szerkesztése mostantól megtartja a finom részleteket a fényképeken. Feltölthetsz egy fotót, kérhetsz módosításokat, kombinálhatod a képeket a háziállatoddal, hátteret cserélhetsz, hogy új háttérképet próbálj ki, vagy elhelyezheted magad különböző jelenetekben. A Geminiben szerkesztett képet rövid videó készítéséhez is felhasználhatod.

Forrás(ok)

Google (angolul)

Please share our article, every link counts!
Mail Logo
> Magyarország - Kezdőlap > Newsarchive 2025 08 > A Google bemutatja Gemini 2.5 Flash Image "nano-banán" erősebb szerkesztési következetességgel
Nathan Ali, 2025-08-28 (Update: 2025-08-28)