ERNIE-4.5-VL-28B-A3B-Thinking базируется на инновационной гетерогенной Mixture-of-Experts (MoE) архитектуре, где текстовые и визуальные входные данные направляются к отдельным наборам экспертов, специализированных под характеристики каждой модальности (modality-isolated routing). При этом обобщение реализуется за счет общих слоев self-attention для всех модальностей и группу общих экспертов. Визуальные эксперты имеют на треть меньше параметров чем текстовые эксперты, что обеспечивает эффективную обработку визуальной информации при снижении вычислительных затрат примерно на 66% для визуальных токенов. Такая архитектура предотвращает ошибки в обработке данных разной модальности, одновременно обеспечивая высокую эффективность при формировании смысловой последовательности на этапе их объединения. Архитектура включает адаптивный Vision Encoder на базе ViT, обрабатывающий изображения с произвольным разрешением и сохраняющий исходные пропорции, а также поддерживает видео через адаптивную стратегию выборки кадров с временными метками. Модель поддерживает контекстное окно в 131,072 токена, что позволяет обрабатывать длинные документы и длинные видео фрагменты.
Ключевое отличие ERNIE-4.5-VL-28B-A3B-Thinking от базовой версии и других моделей линейки — это специализированное дополнительное обучение для задач мультимодального рассуждения через обширную фазу mid-training на высококачественных визуально-языковых данных. Модель использует передовые техники мультимодального обучения с подкреплением (GSPO и IcePop) на верифицируемых задачах, включая визуальные STEM-задачи и визуальные головоломки. Модель поддерживает уникальную функцию "Thinking with Images" — способность "думать" подобно человеку, масштабируя изображения и улавливая их детали для последующего анализа, и в добавок может использовать инструменты для поиска изображений в рамках решения задачи (для этого потребуется интегрировать внешнюю функцию).
ERNIE-4.5-VL-28B-A3B-Thinking отлично подходит для широкого спектра задач, требующих глубокого понимания мультимодальных данных. Она особенно эффективна в распознавании и интерпретации документов — от финансовых отчётов и научных статей до инженерных чертежей и таблиц. Благодаря режиму мышления, обеспечивающему пошаговые рассуждения, модель можно использовать в рамках образовательных приложений. Способности в области видеопонимания делают её полезной для систем видеонаблюдения, спортивной аналитики и каталогизации медиаконтента. Модель построена и обучена на фреймворке PaddlePaddle, однако есть версии весов, которые поддерживаются всеми популярными современными фреймворками для инференса и дообучения, при этом она распространяется по отрытой лицензии apache-2.0, что делает ее доступной для свободного коммерческого использования.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 pipeline |
3 | 78,57 ₽ | 2,29 | Запустить | ||
131 072 tensor |
2 | 83,37 ₽ | 2,65 | Запустить | ||
131 072 tensor |
4 | 85,77 ₽ | 3,99 | Запустить | ||
131 072 pipeline |
3 | 94,64 ₽ | 2,29 | Запустить | ||
131 072 tensor |
4 | 99,74 ₽ | 1,42 | Запустить | ||
131 072 tensor |
2 | 109,77 ₽ | 2,65 | Запустить | ||
131 072 tensor |
4 | 112,24 ₽ | 3,99 | Запустить | ||
131 072 tensor |
2 | 139,77 ₽ | 2,65 | Запустить | ||
131 072 tensor |
2 | 171,77 ₽ | 2,65 | Запустить | ||
131 072 tensor |
2 | 198,54 ₽ | 4,70 | Запустить | ||
131 072 |
1 | 211,77 ₽ | 7,12 | Запустить | ||
131 072 tensor |
2 | 261,77 ₽ | 4,70 | Запустить | ||
131 072 |
1 | 341,77 ₽ | 7,12 | Запустить | ||
131 072 |
1 | 367,41 ₽ | 8,92 | Запустить | ||
131 072 |
1 | 423,04 ₽ | 14,96 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 pipeline |
3 | 78,57 ₽ | 2,29 | Запустить | ||
131 072 tensor |
2 | 83,37 ₽ | 2,65 | Запустить | ||
131 072 tensor |
4 | 85,77 ₽ | 3,99 | Запустить | ||
131 072 pipeline |
3 | 94,64 ₽ | 2,29 | Запустить | ||
131 072 tensor |
4 | 99,74 ₽ | 1,42 | Запустить | ||
131 072 tensor |
2 | 109,77 ₽ | 2,65 | Запустить | ||
131 072 tensor |
4 | 112,24 ₽ | 3,99 | Запустить | ||
131 072 tensor |
2 | 139,77 ₽ | 2,65 | Запустить | ||
131 072 tensor |
2 | 171,77 ₽ | 2,65 | Запустить | ||
131 072 tensor |
2 | 198,54 ₽ | 4,70 | Запустить | ||
131 072 |
1 | 211,77 ₽ | 7,12 | Запустить | ||
131 072 tensor |
2 | 261,77 ₽ | 4,70 | Запустить | ||
131 072 |
1 | 341,77 ₽ | 7,12 | Запустить | ||
131 072 |
1 | 367,41 ₽ | 8,92 | Запустить | ||
131 072 |
1 | 423,04 ₽ | 14,96 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 pipeline |
6 | 147,44 ₽ | 1,78 | Запустить | ||
131 072 tensor |
4 | 156,24 ₽ | 2,50 | Запустить | ||
131 072 tensor |
4 | 209,04 ₽ | 2,50 | Запустить | ||
131 072 |
1 | 223,04 ₽ | 93,07 | 1,51 | Запустить | |
131 072 tensor |
4 | 264,96 ₽ | 2,50 | Запустить | ||
131 072 tensor |
4 | 328,96 ₽ | 2,50 | Запустить | ||
131 072 pipeline |
3 | 347,52 ₽ | 2,85 | Запустить | ||
131 072 |
1 | 353,04 ₽ | 1,51 | Запустить | ||
131 072 |
1 | 367,41 ₽ | 3,31 | Запустить | ||
131 072 pipeline |
3 | 387,41 ₽ | 2,85 | Запустить | ||
131 072 tensor |
4 | 388,21 ₽ | 6,61 | Запустить | ||
131 072 |
1 | 423,04 ₽ | 9,35 | Запустить | ||
131 072 tensor |
4 | 513,04 ₽ | 6,61 | Запустить | ||
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.