Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

H200

H100 NVL

H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

A100

RTX A5000

A10

RTX 2080 Ti

A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold 2-го, 3-го и 5-го поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го, 3-го и 5-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

GigaChat3.1-702B-A36B

русскоязычная

В основе GigaChat3.1-702B-A36B или по-другому GigaChat 3.1 Ultra лежит архитектура Mixture‑of‑Experts, распределяющая 702 миллиарда параметров по множеству экспертных подсетей, но активирующая лишь 36 миллиардов при каждом вычислительном шаге. При этом два архитектурных нововведения в модели выводят ее пропускную способность на качественно новый уровень. Механизм Multi‑head Latent Attention сжимает ключи и значения в низкоразмерное латентное пространство, благодаря чему размер KV‑кеша кратно уменьшается, а работа на длинных контекстах перестаёт быть узким местом. Параллельно метод Multi‑Token Prediction обучает модель за один проход предсказывать сразу несколько следующих токенов. В продуктовых системах это позволяет использовать спекулятивную или параллельную декодировку, когда основная модель выдаёт черновую цепочку, а MTP‑головы быстро её проверяют. Итогом становится ускорение генерации до 38–40 процентов без потери качества, что критически важно для сервисов, одновременно обслуживающих тысячи пользователей.

Главным отличием версии 3.1 от предварительного релиза стал полноценный этап обучения DPO в нативном восьмибитном формате. В отличие от обычной посттренировочной квантизации, модель обучалась непосредственно в FP8, что устранило накопление ошибок квантования. В результате потребление памяти сократилось вдвое, а качество в ряде задач оказалось даже выше, чем у эталонного варианта в BF16. Для эффективных матричных операций использовалась библиотека DeepGEMM в связке с оптимизированными ядрами CUDA и Triton, что позволило гибко спроектировать архитектуру под полную совместимость с 8‑битным выводом.

Обучающая выборка охватывала десять языков — от английского и русского до китайского, арабского, узбекского и казахского — и включила книги, академические работы, массивы кода и математические датасеты. Весь корпус прошёл многоступенчатую очистку: дедупликацию, языковую фильтрацию, автоматический контроль качества с применением эвристик и классификаторов. Особую роль сыграли синтетические данные объёмом около пяти с половиной триллионов токенов.

На бенчмарках GigaChat 3.1 Ultra демонстрирует неплохие результаты в классе открытых MoE‑моделей уверенно конкурируя с показателями DeepSeek-V3-0324, и Qwen3‑235B‑A22B, а в тестах, связанных со знаниями в русскоязычном доменом, удерживает лидирующие позиции.

Технические возможности напрямую определяют сценарии внедрения модели. Поддержка контекстного окна в 262144 и сжатого MLA‑кэша делает её идеальным ядром для корпоративных RAG‑систем и интеллектуальных чат‑ботов, работающих с многотысячными страницами документации, отчётов и баз знаний. Модель обучена вести многошаговые агентные диалоги с исполняемыми вызовами инструментов, что делает её готовым «мозгом» для автономных систем — от голосовых ассистентов до интеграций с корпоративными API. Благодаря нативной поддержке FP8 и совместимости с vLLM, SGLang и другими инференсными движками развёртывание возможно на собственных кластерах с полным контролем над данными — это критически важно для чувствительных к приватности отраслей вроде медицины, финансов и госсектора.

Дата анонса: 21.03.2026
Параметров: 716B
Экспертов: 256
Активно параметров при инференсе: 36B
Контекст: 263K
Слоев: 64
Тип внимания: Multi-head Latent Attention
Разработчик: Sber AI
Версия Transformers: 4.53.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с GigaChat3.1-702B-A36B. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
dedicated-h100-8.96.768.5760-1 262 144 tensor	8		175 766,40 ₽	1,54	Запустить
teslaa100-8.44.512.480.nvlink 262 144 tensor	8	1 639,13 ₽	1 180 173,60 ₽	1,54	Запустить
h200-4.32.768.480 262 144 tensor	4	1 717,59 ₽	1 236 664,80 ₽	2,27	Запустить
h200-4.32.768.480.nvlink 262 144 tensor	4	1 717,59 ₽	1 236 664,80 ₽	2,27	Запустить

Наименование	GPU	Цена, тариф	Цена, час	Цена, месяц	TPS	Параллельность (макс.)
h200-8.52.1024.960 262 144 tensor	8		3 338,30 ₽	2 403 576,00 ₽		2,24	Запустить
h200-8.52.1024.960.nvlink 262 144 tensor	8		3 338,30 ₽	2 403 576,00 ₽		2,24	Запустить

Связанные модели

DeepSeek-V3-0324

DeepSeek-V3

DeepSeek-R1

DeepSeek-R1-0528

DeepSeek-V3.1

DeepSeek-V3.1-Terminus

DeepSeek-V3.2-Exp

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

GigaChat3-702B-A36B-preview

GigaChat3-10B-A1.8B

GigaChat3.1-10B-A1.8B

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.

GigaChat3.1-702B-A36B

Публичный эндпоинт

Частный сервер

Рекомендуемые конфигурации сервера для хостинга GigaChat3.1-702B-A36B

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Связанные модели

Остались вопросы?