ERNIE-4.5-VL-28B-A3B-Thinking базируется на инновационной гетерогенной Mixture-of-Experts (MoE) архитектуре, где текстовые и визуальные входные данные направляются к отдельным наборам экспертов, специализированных под характеристики каждой модальности (modality-isolated routing). При этом обобщение реализуется за счет общих слоев self-attention для всех модальностей и группу общих экспертов. Визуальные эксперты имеют на треть меньше параметров чем текстовые эксперты, что обеспечивает эффективную обработку визуальной информации при снижении вычислительных затрат примерно на 66% для визуальных токенов. Такая архитектура предотвращает ошибки в обработке данных разной модальности, одновременно обеспечивая высокую эффективность при формировании смысловой последовательности на этапе их объединения. Архитектура включает адаптивный Vision Encoder на базе ViT, обрабатывающий изображения с произвольным разрешением и сохраняющий исходные пропорции, а также поддерживает видео через адаптивную стратегию выборки кадров с временными метками. Модель поддерживает контекстное окно в 131,072 токена, что позволяет обрабатывать длинные документы и длинные видео фрагменты.
Ключевое отличие ERNIE-4.5-VL-28B-A3B-Thinking от базовой версии и других моделей линейки — это специализированное дополнительное обучение для задач мультимодального рассуждения через обширную фазу mid-training на высококачественных визуально-языковых данных. Модель использует передовые техники мультимодального обучения с подкреплением (GSPO и IcePop) на верифицируемых задачах, включая визуальные STEM-задачи и визуальные головоломки. Модель поддерживает уникальную функцию "Thinking with Images" — способность "думать" подобно человеку, масштабируя изображения и улавливая их детали для последующего анализа, и в добавок может использовать инструменты для поиска изображений в рамках решения задачи (для этого потребуется интегрировать внешнюю функцию).
ERNIE-4.5-VL-28B-A3B-Thinking отлично подходит для широкого спектра задач, требующих глубокого понимания мультимодальных данных. Она особенно эффективна в распознавании и интерпретации документов — от финансовых отчётов и научных статей до инженерных чертежей и таблиц. Благодаря режиму мышления, обеспечивающему пошаговые рассуждения, модель можно использовать в рамках образовательных приложений. Способности в области видеопонимания делают её полезной для систем видеонаблюдения, спортивной аналитики и каталогизации медиаконтента. Модель построена и обучена на фреймворке PaddlePaddle, однако есть версии весов, которые поддерживаются всеми популярными современными фреймворками для инференса и дообучения, при этом она распространяется по отрытой лицензии apache-2.0, что делает ее доступной для свободного коммерческого использования.
| Наименование модели | Контекст | Тип | GPU | TPS | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
131 072 |
32 | 65536 | 160 | 3 | 78,57 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 83,37 ₽ | Запустить | |
131 072 |
32 | 131072 | 160 | 3 | 94,64 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 4 | 99,74 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 149,37 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 195,57 ₽ | Запустить | |
131 072 |
16 | 65535 | 240 | 2 | 198,54 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 211,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 261,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 341,77 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 1 | 423,04 ₽ | Запустить | |
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
131 072 |
32 | 65536 | 160 | 3 | 78,57 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 83,37 ₽ | Запустить | |
131 072 |
32 | 131072 | 160 | 3 | 94,64 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 4 | 99,74 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 149,37 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 195,57 ₽ | Запустить | |
131 072 |
16 | 65535 | 240 | 2 | 198,54 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 211,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 261,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 341,77 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 1 | 423,04 ₽ | Запустить | |
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
131 072 |
32 | 131072 | 160 | 6 | 147,44 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 4 | 156,24 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 4 | 209,04 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 1 | 223,04 ₽ | Запустить | |
131 072 |
16 | 98304 | 320 | 4 | 284,16 ₽ | Запустить | |
131 072 |
64 | 262144 | 320 | 3 | 347,52 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 1 | 353,04 ₽ | Запустить | |
131 072 |
16 | 98304 | 320 | 4 | 376,56 ₽ | Запустить | |
131 072 |
16 | 98304 | 160 | 3 | 387,41 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 1 | 423,04 ₽ | Запустить | |
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.