Най-новият модел с отворен код на DeepSeek предизвиква голям шум. Неговата елегантност се крие в неговата простота: компактен модел с параметри 3B, осигуряващ производителност, която предизвиква по-големите модели. Някои дори спекулират, че може да има техники с отворен код, внимателно пазени от гиганти като Google Gemini.
Потенциално препятствие? Неговото донякъде подвеждащо име: DeepSeek-OCR.
Този модел се справя с изчислителното предизвикателство за обработка на дълги текстови контексти. Основната, революционна идея е използването на визията като средство за компресиране на текст. Тъй като едно изображение може да съдържа огромно количество текст, като същевременно консумира по-малко жетони, екипът проучи представянето на текст с визуални жетони – подобно на това как опитен читател може да схване съдържанието, като сканира страница, вместо да чете всяка дума. Една снимка наистина струва хиляда думи.
Тяхното изследване потвърди, че при коефициент на компресия под 10x, точността на OCR декодиране на модела достига впечатляващите 97%. Дори при съотношение 20x, точността остава около 60%.
Демонстрирайки забележителна ефективност, техният метод може да генерира над 200 000 страници с висококачествени LLM/VLM тренировъчни данни на ден, като използва само един A100-40G GPU.
Не е изненадващо, че изданието бързо набра популярност, натрупвайки 3,3 хиляди GitHub звезди и се класира високо в тенденциите на Hugging Face. На X Андрей Карпати го похвали, като отбеляза, че „изображенията са просто по-добър вход за LLM от текста“. Други го приветстваха като „момента на JPEG за AI“, отварящ нови пътища за архитектурата на AI паметта.
Мнозина виждат това обединяване на визия и език като потенциална стъпка към AGI. Документът също така интригуващо обсъжда паметта на AI и механизмите за „забравяне“, като прави аналогия с това как човешката памет избледнява с времето – потенциално проправяйки пътя за модели с безкраен контекст. Основната технология
Моделът е изграден върху рамка „Контекстуална оптична компресия“, включваща два ключови компонента:
- DeepEncoder: Компресира изображения с висока разделителна способност в малък набор от високоинформативни визуални токени.
- DeepSeek3B-MoE-A570M: Декодер, който възстановява оригиналния текст от тези компресирани токени.
Иновативният DeepEncoder използва сериен процес: локално извличане на характеристики на изображения с висока разделителна способност, 16x етап на конволюционно компресиране за драстично намаляване на броя на токените и накрая, глобално разбиране на съкратените токени. Този дизайн му позволява динамично да регулира „силата на компресия“ за различни нужди.
На бенчмарка OmniDocBench, DeepSeek-OCR постигна нови SOTA резултати, значително превъзхождайки предшествениците си, като използва много по-малко визуални токени.
Нашия източник е Българо-Китайска Търговско-промишлена палaта