GigaChat3.1-702B-A36B

русскоязычная

В основе GigaChat3.1-702B-A36B или по-другому GigaChat 3.1 Ultra  лежит архитектура Mixture‑of‑Experts, распределяющая 702 миллиарда параметров по множеству экспертных подсетей, но активирующая лишь 36 миллиардов при каждом вычислительном шаге. При этом два архитектурных нововведения в модели выводят ее пропускную способность на качественно новый уровень. Механизм Multi‑head Latent Attention сжимает ключи и значения в низкоразмерное латентное пространство, благодаря чему размер KV‑кеша кратно уменьшается, а работа на длинных контекстах перестаёт быть узким местом. Параллельно метод Multi‑Token Prediction обучает модель за один проход предсказывать сразу несколько следующих токенов. В продуктовых системах это позволяет использовать спекулятивную или параллельную декодировку, когда основная модель выдаёт черновую цепочку, а MTP‑головы быстро её проверяют. Итогом становится ускорение генерации до 38–40 процентов без потери качества, что критически важно для сервисов, одновременно обслуживающих тысячи пользователей.

Главным отличием версии 3.1 от предварительного релиза стал полноценный этап обучения DPO в нативном восьмибитном формате. В отличие от обычной посттренировочной квантизации, модель обучалась непосредственно в FP8, что устранило накопление ошибок квантования. В результате потребление памяти сократилось вдвое, а качество в ряде задач оказалось даже выше, чем у эталонного варианта в BF16. Для эффективных матричных операций использовалась библиотека DeepGEMM в связке с оптимизированными ядрами CUDA и Triton, что позволило гибко спроектировать архитектуру под полную совместимость с 8‑битным выводом.

Обучающая выборка охватывала десять языков — от английского и русского до китайского, арабского, узбекского и казахского — и включила книги, академические работы, массивы кода и математические датасеты. Весь корпус прошёл многоступенчатую очистку: дедупликацию, языковую фильтрацию, автоматический контроль качества с применением эвристик и классификаторов. Особую роль сыграли синтетические данные объёмом около пяти с половиной триллионов токенов.

На бенчмарках GigaChat 3.1 Ultra демонстрирует неплохие результаты в классе открытых MoE‑моделей уверенно конкурируя с показателями DeepSeek-V3-0324, и Qwen3‑235B‑A22B, а в тестах, связанных со знаниями в русскоязычном доменом, удерживает лидирующие позиции.

Технические возможности напрямую определяют сценарии внедрения модели. Поддержка контекстного окна в 262144 и сжатого MLA‑кэша делает её идеальным ядром для корпоративных RAG‑систем и интеллектуальных чат‑ботов, работающих с многотысячными страницами документации, отчётов и баз знаний. Модель обучена вести многошаговые агентные диалоги с исполняемыми вызовами инструментов, что делает её готовым «мозгом» для автономных систем — от голосовых ассистентов до интеграций с корпоративными API. Благодаря нативной поддержке FP8 и совместимости с vLLM, SGLang и другими инференсными движками развёртывание возможно на собственных кластерах с полным контролем над данными — это критически важно для чувствительных к приватности отраслей вроде медицины, финансов и госсектора.


Дата анонса: 21.03.2026
Параметров: 716B
Экспертов: 256
Активно параметров при инференсе: 36B
Контекст: 263K
Слоев: 64
Тип внимания: Multi-head Latent Attention
Разработчик: Sber AI
Версия Transformers: 4.53.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с GigaChat3.1-702B-A36B. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга GigaChat3.1-702B-A36B

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
dedicated-h100-8.96.768.5760-1
262 144
tensor
8 1,54 Запустить
teslaa100-8.44.512.480.nvlink
262 144
tensor
8 1 639,13 ₽ 1,54 Запустить
h200-4.32.768.480
262 144
tensor
4 1 717,59 ₽ 2,27 Запустить
h200-4.32.768.480.nvlink
262 144
tensor
4 1 717,59 ₽ 2,27 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-8.52.1024.960
262 144
tensor
8 3 338,30 ₽ 2,24 Запустить
h200-8.52.1024.960.nvlink
262 144
tensor
8 3 338,30 ₽ 2,24 Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.