Gemma 4 a Hugging Face-on: Google húsvéti meglepetése letölthető

Gemma-4

A Google kiadja a Gemma 4-et: Az új modellcsalád (E2B-től 31B-ig) közvetlenül a laptopokba és okostelefonokba hozza a gondolkodási képességeket és a multimodalitást. A hatalmas, akár 256K tokenből álló kontextusablakkal és Apache 2.0 licenccel a Google példát mutat az ingyenes helyi AI számára.

Marc Herter (fordította DeepL / Ninh Duy), Közzétett 04/03/2026 🇺🇸 🇩🇪 ...

AI Launch Open Source DIY

Húsvét előtt a Google egy nagy meglepetést dobott le a Hugging Face-ről: a régóta várt Gemma 4 már letölthető. Az indulás négy elsődleges méretosztályban történik: E2B, E4B, 26B A4B és 31B. Minden modell rendelkezik integrált "Gondolkodás" üzemmóddal, amely lehetővé teszi számukra, hogy lépésről lépésre dolgozzák fel az összetett problémákat, mielőtt végleges választ adnának. A kiadást övező izgalom nyilvánvaló, mivel a Gemma 4 helyben használhatóvá vált olyan eszközökben, mint a LM Studio és a Unsloth a debütálását követő néhány órán belül.

A Google szerint, ez az új generáció a hatékonyságot helyezi előtérbe a nyers mérettel szemben. Az előző Gemma 3 iterációhoz képest kiemelkedő előrelépés, hogy a jelenlegi sorozat legkisebb modelljei már a legnagyobb Gemma 3 modell teljesítményszintjét érik el a különböző benchmarkokban. A gyakorlatban ez azt jelenti, hogy a korábban csúcskategóriás hardvert igénylő feladatok most már helyben, okostelefonon is elvégezhetők.

Az architektúra a tervezett felhasználási esettől függően változik. Míg a 31B változat egy viszonylag klasszikus felépítést használ, addig a 26B-A4B modell egy Mixture-of-Experts (MoE) megközelítést alkalmaz. A következtetés - a tényleges számítási folyamat - során csak körülbelül négymilliárd paramétert aktiválnak, annak ellenére, hogy a modell összesen 26 milliárd paraméterrel rendelkezik. Ez biztosítja a nagy sebességet és a mérsékelt erőforrás-fogyasztást anélkül, hogy a tudás mélységét feláldozná. A kisebb E2B és E4B modellek a Per-Layer Embeddings (PLE) technológiát használják, amely a modell minden rétegében minden egyes tokenhez speciális információt biztosít, optimalizálva a teljesítményt kifejezetten a mobil processzorok számára.

Jelentős előrelépés történt a kontextusablakban is - az adatok mennyiségében, amelyeket a modell egyidejűleg "fejben" tud tartani. Az E2B és E4B modellek 128 000 tokent támogatnak, míg a nagyobb változatok (26B A4B és 31B) akár 256 000 tokent is képesek kezelni. Ez a kapacitás lehetővé teszi a felhasználók számára, hogy hatalmas dokumentumokat vagy összetett kódstruktúrákat elemezzenek egyetlen menetben.

A multimodalitás mélyen integrálva van a Gemma 4-be, lehetővé téve a felhasználók számára, hogy egyetlen prompton belül zökkenőmentesen keverjék a szöveget és a képeket. A modellek képesek tárgyfelismerésre, PDF-dokumentumok olvasására és optikai karakterfelismerésre (OCR). Továbbá, az edge modellek (E2B és E4B) tartalmazzák a videó- és hangformátumok natív feldolgozását, lehetővé téve olyan funkciókat, mint az automatikus beszédfelismerés.

Egy másik nagy teljesítményű funkció a "funkcióhívás" natív támogatása Ez lehetővé teszi, hogy a mesterséges intelligencia virtuális asszisztensként működjön, és önállóan hajtsa végre a szoftverparancsokat vagy külső eszközöket használjon a feladatok elvégzéséhez. Ennek a trendnek egyértelmű példája a Kínában jelenleg népszerű "OpenClaw" eszköz, amely az AI-ügynökök ezen elvére épül. A Gemma 4 segítségével az ilyen rendszerek teljes egészében a saját eszközön történő telepítése jelentősen egyszerűbbé válik.

A jogi keret szintén üdvözlendő változás: a modelleket a Apache 2.0 licenc alatt adják ki. Ez azt jelenti, hogy nem csak szabadon felhasználhatók, hanem rugalmasan integrálhatók saját projektekbe és kereskedelmi célokra is felhasználhatók, ami drasztikusan csökkenti a fejlesztők számára a korlátokat. Korábban az összes Gemma-modellt a Google által készített egyedi licenc alapján adták ki.

A kezdeti gyakorlati tesztek alátámasztják e modellek lenyűgöző nyelvi képességeit és megnövekedett hatékonyságát. Az LM Studio használata egy Bosgame M5a Gemma 4 31B modellel valamivel több mint 10 token/másodperc (tok/s) válaszsebességet értünk el - gyorsabbat, mint amilyen gyorsan egy átlagos olvasó képes feldolgozni az információt. A kisebb modellek még ennél is gyorsabbak: az E4B és a 26B A4B változat könnyedén meghaladja a 40 tok/s-ot, a legkisebb modell pedig a 60 tok/s-ot. Aki azonban a legnagyobb Gemma 4 modell teljes kontextusméretét szeretné kihasználni, annak még a 128 GB RAM (mint a Bosgame M5-ben található) is szűkös lehet; az AI több mint 80 GB-ot igényelhet magának, így kevés memória marad más feladatokra.