В основе GigaChat3.1-702B-A36B или по-другому GigaChat 3.1 Ultra лежит архитектура Mixture‑of‑Experts, распределяющая 702 миллиарда параметров по множеству экспертных подсетей, но активирующая лишь 36 миллиардов при каждом вычислительном шаге. При этом два архитектурных нововведения в модели выводят ее пропускную способность на качественно новый уровень. Механизм Multi‑head Latent Attention сжимает ключи и значения в низкоразмерное латентное пространство, благодаря чему размер KV‑кеша кратно уменьшается, а работа на длинных контекстах перестаёт быть узким местом. Параллельно метод Multi‑Token Prediction обучает модель за один проход предсказывать сразу несколько следующих токенов. В продуктовых системах это позволяет использовать спекулятивную или параллельную декодировку, когда основная модель выдаёт черновую цепочку, а MTP‑головы быстро её проверяют. Итогом становится ускорение генерации до 38–40 процентов без потери качества, что критически важно для сервисов, одновременно обслуживающих тысячи пользователей.
Главным отличием версии 3.1 от предварительного релиза стал полноценный этап обучения DPO в нативном восьмибитном формате. В отличие от обычной посттренировочной квантизации, модель обучалась непосредственно в FP8, что устранило накопление ошибок квантования. В результате потребление памяти сократилось вдвое, а качество в ряде задач оказалось даже выше, чем у эталонного варианта в BF16. Для эффективных матричных операций использовалась библиотека DeepGEMM в связке с оптимизированными ядрами CUDA и Triton, что позволило гибко спроектировать архитектуру под полную совместимость с 8‑битным выводом.
Обучающая выборка охватывала десять языков — от английского и русского до китайского, арабского, узбекского и казахского — и включила книги, академические работы, массивы кода и математические датасеты. Весь корпус прошёл многоступенчатую очистку: дедупликацию, языковую фильтрацию, автоматический контроль качества с применением эвристик и классификаторов. Особую роль сыграли синтетические данные объёмом около пяти с половиной триллионов токенов.
На бенчмарках GigaChat 3.1 Ultra демонстрирует неплохие результаты в классе открытых MoE‑моделей уверенно конкурируя с показателями DeepSeek-V3-0324, и Qwen3‑235B‑A22B, а в тестах, связанных со знаниями в русскоязычном доменом, удерживает лидирующие позиции.
Технические возможности напрямую определяют сценарии внедрения модели. Поддержка контекстного окна в 262144 и сжатого MLA‑кэша делает её идеальным ядром для корпоративных RAG‑систем и интеллектуальных чат‑ботов, работающих с многотысячными страницами документации, отчётов и баз знаний. Модель обучена вести многошаговые агентные диалоги с исполняемыми вызовами инструментов, что делает её готовым «мозгом» для автономных систем — от голосовых ассистентов до интеграций с корпоративными API. Благодаря нативной поддержке FP8 и совместимости с vLLM, SGLang и другими инференсными движками развёртывание возможно на собственных кластерах с полным контролем над данными — это критически важно для чувствительных к приватности отраслей вроде медицины, финансов и госсектора.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
8 | 1,54 | Запустить | |||
262 144 tensor |
8 | 1 639,13 ₽ | 1,54 | Запустить | ||
262 144 tensor |
4 | 1 717,59 ₽ | 2,27 | Запустить | ||
262 144 tensor |
4 | 1 717,59 ₽ | 2,27 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
8 | 3 338,30 ₽ | 2,24 | Запустить | ||
262 144 tensor |
8 | 3 338,30 ₽ | 2,24 | Запустить | ||
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.