GigaChat 3 Ultra Preview представляет собой массивную MoE модель с 702 миллиардами общих параметров, из которых в генерации каждого токена участвуют только 36 миллиардов. Ключевой особенностью является использование Multi-head Latent Attention (MLA) — механизма, который сжимает Key-Value (KV) кэш в латентный вектор. Для пользователей это означает возможность работать с огромными контекстами и длинными документами без экспоненциального роста требований к видеопамяти. Модель обучена с использованием задачи Multi-Token Prediction (MTP)- в отличие от классических решений, предсказывающих только одно следующее слово, эта модель способна предсказывать несколько токенов за один проход. Это реализует нативный механизм спекулятивной генерации, ускоряя выдачу ответов до 40% без потери качества. Технически это делает модель одной из самых быстрых в классе «тяжелых» LLM.
В отличие от многих российских моделей, являющихся результатом дообучения зарубежных аналогов, GigaChat 3 тренировалась с нуля на уникальном датасете объемом свыше 20 триллионов токенов с большим количеством русскоязычных источников и добавлением еще редких в обучении моделей языков — от китайского и арабского до узбекского и казахского. Это обеспечивает модели глубокое понимание русского языка и российского культурного слоя, которые недоступны для зарубежных LLM. Модель занимает лидирующие позиции в российских и международных рейтингах: MERA (Industrial) - 0.824, HumanEval+ (Code) - 0.8659, GSM8K (Math) - 0.9598 и т. д. С точки зрения качества GigaChat 3 Ultra уверенно превосходит GigaChat 2 Max на всех ключевых бенчмарках.
Модель оптимизирована для On-premise и Private Cloud инсталляций в крупном бизнесе, где критична защита данных (контур без доступа в интернет). Она идеально подходит для задач сложной аналитики больших массивов документов (RAG), автоматизации техподдержки уровня L2/L3 (где требуется глубокое понимание контекста), ассистентов программиста и генерации кода внутри закрытых корпоративных репозиториев. Модель поддерживает популярные inference-движки (vLLM, SGLang, LMDeploy, TensorRT-LLM) и работает в режимах BF16 и FP8 для оптимальной производительности.
| Наименование модели | Контекст | Тип | GPU | TPS | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
131 072 pipeline |
44 | 524288 | 480 | 6 | 1 259,13 ₽ | Запустить | |
131 072 pipeline |
32 | 524288 | 480 | 3 | 1 282,53 ₽ | Запустить | |
131 072 tensor |
44 | 524288 | 480 | 8 | 1 639,13 ₽ | Запустить | |
131 072 tensor |
32 | 786432 | 480 | 4 | 1 717,59 ₽ | Запустить | |
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
131 072 pipeline |
52 | 917504 | 960 | 6 | 2 535,78 ₽ | Запустить | |
131 072 tensor |
52 | 1048576 | 960 | 8 | 3 338,30 ₽ | Запустить | |
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.