A mesterséges intelligencia adatközpontok és a kapcsolódó feldolgozási költségek elterjedésével az algoritmusok hatékonyságán van a hangsúly, és úgy tűnik, hogy egyetlen nyelvi modell sem tudja ezt jobban teljesíteni, mint a következők DeepSeek. Modelljei nyílt forráskódúak, és a képzésük sokkal alacsonyabb költséggel jár, mint az OpenAI ChatGPT vagy a Google Gemini modelljeinek.
A most bejelentett DeepSeek-OCR modell a tanulás hatékonyságának egyik legjobb példája. Az optikai leképezés segítségével rendkívül hosszú dokumentumokat képes tömöríteni úgy, hogy 97%-os felismerési pontossággal, 10x-nél kisebb tömörítési arány mellett képekre konvertálja őket.
A fejlett kódoló és dekódoló használatával több mint kilenc dokumentumszöveggel rendelkező token egyetlen vizuális tokenné alakítható át, jelentősen csökkentve a tartalom feldolgozásához szükséges számítási erőforrásokat. Az új DeepSeek-OCR rendszer még 20x-os tömörítési arány mellett is 60%-os optikai felismerési pontosságot tud elérni, ami meglehetősen példa nélküli teljesítmény.
Az új AI tömörítési algoritmusoknak köszönhetően a DeepSeek-OCR egyetlen Nvidia A100 adatközpont GPU-val feldolgozott tudományos vagy történelmi szövegekből is képes tanulni, napi 200 000 oldalas sebességgel. Egy 20 csomópontos A100-as klaszter így napi 33 millió dokumentumoldalt képes feldolgozni, ami paradigmaváltást jelent a szöveges LLM-tanulásban. Az OmniDocBench rangsora szerint a DeepSeek-OCR messze veri a többi népszerű megoldást, például a GOT-OCR2.0-t vagy a MinerU2.0-t, amikor az oldalanként felhasznált kevesebb látásjegyről van szó.
Az új DeepEncoder algoritmusok a sebesség és a pontosság feláldozása nélkül képesek kezelni a különböző méretű és felbontású dokumentumokat, míg a DeepSeek3B-MoE-A570M dekódoló az úgynevezett szakértői keverék architektúrára támaszkodik, amely a tudást az egyes OCR-feladatokhoz szükséges speciális modellek között osztja el. Ennek eredményeként a DeepSeel-OCR képes feldolgozni a grafikonokat, tudományos képleteket, diagramokat vagy képeket tartalmazó összetett dokumentumokat, még akkor is, ha azok több nyelven íródtak.
Az ilyen mértékű és pontosságú felismerés érdekében a DeepSeek 30 millió, közel 100 nyelven írt, hordozható dokumentumformátumú (PDF) oldalon ment keresztül, amelyek között minden létező kategória megtalálható volt, az újságoktól és a tudományos kéziratoktól kezdve a tankönyveken át a PhD-dolgozatokig. Mégis, bár az új DeepSeek-OCR rendszerrel elért vizuális tokenizálás sebessége és hatékonysága tagadhatatlan, még nem tudni, hogy ez a jelenlegi szövegalapú tokenparadigmához képest a tényleges következtetés során a nyelvi modell teljesítményének javulásához vezet-e majd.
Forrás(ok)
» A Top 10 multimédiás noteszgép - tesztek alapján
» A Top 10 játékos noteszgép
» A Top 10 belépő szintű üzleti noteszgép
» A Top 10 üzleti noteszgép
» A Top 10 notebook munkaállomása
» A Top 10 okostelefon - tesztek alapján
» A Top 10 táblagép
» A Top 10 Windows tabletje
» A Top 10 subnotebook - tesztek alapján
» A Top 10 300 euró alatti okostelefonja
» A Top 10 120 euró alatti okostelefonja
» A Top 10 phabletje (>5.5-inch)
» A Top 10 noteszgép 500 EUR (~160.000 HUF) alatt
» A Top 10 "pehelysúlyú" gaming notebookja