Notebookcheck Logo

A DeepSeek OCR AI modell naponta 200 000 dokumentumoldalt képes feldolgozni egyetlen Nvidia A100 GPU-n

Egy Nvidia A100 GPU (Kép forrása: Nvidia)
Egy Nvidia A100 GPU (Kép forrása: Nvidia)
A DeepSeek egy új, nyílt forráskódú OCR tömörítési modellel készül forradalmasítani a mesterséges intelligencia tanulást. A fejlett optikai kódolásnak köszönhetően a DeepSeek egyetlen Nvidia A100 GPU-n naponta több mint 200 000 dokumentumoldalból képes tanulni.
AI Nvidia

A mesterséges intelligencia adatközpontok és a kapcsolódó feldolgozási költségek elterjedésével az algoritmusok hatékonyságán van a hangsúly, és úgy tűnik, hogy egyetlen nyelvi modell sem tudja ezt jobban teljesíteni, mint a következők DeepSeek. Modelljei nyílt forráskódúak, és a képzésük sokkal alacsonyabb költséggel jár, mint az OpenAI ChatGPT vagy a Google Gemini modelljeinek.

A most bejelentett DeepSeek-OCR modell a tanulás hatékonyságának egyik legjobb példája. Az optikai leképezés segítségével rendkívül hosszú dokumentumokat képes tömöríteni úgy, hogy 97%-os felismerési pontossággal, 10x-nél kisebb tömörítési arány mellett képekre konvertálja őket.

A fejlett kódoló és dekódoló használatával több mint kilenc dokumentumszöveggel rendelkező token egyetlen vizuális tokenné alakítható át, jelentősen csökkentve a tartalom feldolgozásához szükséges számítási erőforrásokat. Az új DeepSeek-OCR rendszer még 20x-os tömörítési arány mellett is 60%-os optikai felismerési pontosságot tud elérni, ami meglehetősen példa nélküli teljesítmény.

Az új AI tömörítési algoritmusoknak köszönhetően a DeepSeek-OCR egyetlen Nvidia A100 adatközpont GPU-val feldolgozott tudományos vagy történelmi szövegekből is képes tanulni, napi 200 000 oldalas sebességgel. Egy 20 csomópontos A100-as klaszter így napi 33 millió dokumentumoldalt képes feldolgozni, ami paradigmaváltást jelent a szöveges LLM-tanulásban. Az OmniDocBench rangsora szerint a DeepSeek-OCR messze veri a többi népszerű megoldást, például a GOT-OCR2.0-t vagy a MinerU2.0-t, amikor az oldalanként felhasznált kevesebb látásjegyről van szó.

Az új DeepEncoder algoritmusok a sebesség és a pontosság feláldozása nélkül képesek kezelni a különböző méretű és felbontású dokumentumokat, míg a DeepSeek3B-MoE-A570M dekódoló az úgynevezett szakértői keverék architektúrára támaszkodik, amely a tudást az egyes OCR-feladatokhoz szükséges speciális modellek között osztja el. Ennek eredményeként a DeepSeel-OCR képes feldolgozni a grafikonokat, tudományos képleteket, diagramokat vagy képeket tartalmazó összetett dokumentumokat, még akkor is, ha azok több nyelven íródtak.

Az ilyen mértékű és pontosságú felismerés érdekében a DeepSeek 30 millió, közel 100 nyelven írt, hordozható dokumentumformátumú (PDF) oldalon ment keresztül, amelyek között minden létező kategória megtalálható volt, az újságoktól és a tudományos kéziratoktól kezdve a tankönyveken át a PhD-dolgozatokig. Mégis, bár az új DeepSeek-OCR rendszerrel elért vizuális tokenizálás sebessége és hatékonysága tagadhatatlan, még nem tudni, hogy ez a jelenlegi szövegalapú tokenparadigmához képest a tényleges következtetés során a nyelvi modell teljesítményének javulásához vezet-e majd.

Forrás(ok)

Please share our article, every link counts!
Mail Logo
> Magyarország - Kezdőlap > Newsarchive 2025 10 > A DeepSeek OCR AI modell naponta 200 000 dokumentumoldalt képes feldolgozni egyetlen Nvidia A100 GPU-n
Daniel Zlatev, 2025-10-22 (Update: 2025-10-22)