

Изследователски екип, свързан с университета Цинхуа, има MiniCPM-V 4.6 с отворен код, компактен мултимодален AI модел със само 1,3 милиарда параметъра, който съвпада или надминава по-големите конкуренти в показателите за ефективност.
На 11 май OpenBMB – базирана в Пекин компания за изкуствен интелект, отделена от университета Цинхуа – в сътрудничество с университета и общността с отворен код на OpenBMB, пусна последната итерация на серията MiniCPM-V. Моделът незабавно постави нов стандарт за мултимодални модели с 1B-параметър, надминавайки Qwen3.5-0.8B на Alibaba и Gemma4-E2B-it на Google при стандартни визуални езикови задачи, като същевременно осигурява значително по-бързи скорости на извод.
Моделът включва две основни архитектурни иновации. Първо, той използва стратегия за ранно излизане за визуална обработка: вместо да обработва безразборно всеки пиксел от изображение с висока разделителна способност, той компресира визуална информация рано в мрежата, използвайки олекотен модул за квантуване, драматично намалявайки изчисленията надолу по веригата, като същевременно запазва силното качество на представяне на изображението. Второ, екипът внедри подход за обработка на плочки за изображения с висока разделителна способност – разделяне на големи изображения на по-малки кръпки за паралелна обработка – което позволява ефективно боравене с документи, медицински изображения и други чувствителни към детайлите задачи.
На практика 4-битовата квантована версия на MiniCPM-V 4.6 работи на една NVIDIA RTX 4090 с 6GB VRAM, което я прави достъпна за независими разработчици и малки екипи. Моделът постига до 6,6 пъти по-висока производителност в сравнение с подобни модели, работещи на хардуер от сървърен клас, като същевременно поддържа еквивалентна точност на бенчмаркове, включително MMMU, MathVista и OCRBench.
MiniCPM-V 4.6 е напълно съвместим с vLLM машината за изводи и екосистемата Hugging Face, осигурявайки безпроблемен път за внедряване и фина настройка. Екипът казва, че моделът е проектиран да бъде “魔改” (силно персонализиран) — оставяйки достатъчно място за общността да го адаптира към вертикални приложения.
Главният изпълнителен директор на OpenBMB Гуан Тао подчерта, че изданието не е просто по-силен модел, а сигнал, че китайската AI екосистема с отворен код намалява разликата с глобалните лидери в периферния AI. Пътната карта на екипа предлага по-широка визия за позициониране на MiniCPM като основен модел за AI приложения на устройството в потребителската електроника, роботиката и автономните системи.
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта