GigaChat3-702B-A36B-preview

русскоязычная

GigaChat 3 Ultra Preview представляет собой массивную MoE модель с 702 миллиардами общих параметров, из которых в генерации каждого токена участвуют только 36 миллиардов. Ключевой особенностью является использование Multi-head Latent Attention (MLA) — механизма, который сжимает Key-Value (KV) кэш в латентный вектор. Для пользователей это означает возможность работать с огромными контекстами и длинными документами без экспоненциального роста требований к видеопамяти. Модель обучена с использованием задачи Multi-Token Prediction (MTP)- в отличие от классических решений, предсказывающих только одно следующее слово, эта модель способна предсказывать несколько токенов за один проход. Это реализует нативный механизм спекулятивной генерации, ускоряя выдачу ответов до 40% без потери качества. Технически это делает модель одной из самых быстрых в классе «тяжелых» LLM.

В отличие от многих российских моделей, являющихся результатом дообучения зарубежных аналогов, GigaChat 3 тренировалась с нуля на уникальном датасете объемом свыше 20 триллионов токенов с большим количеством русскоязычных источников и добавлением еще редких в обучении моделей языков — от китайского и арабского до узбекского и казахского. Это обеспечивает модели глубокое понимание русского языка и российского культурного слоя, которые недоступны для зарубежных LLM. Модель занимает лидирующие позиции в российских и международных рейтингах: MERA (Industrial) - 0.824, HumanEval+ (Code) - 0.8659, GSM8K (Math) - 0.9598 и т. д. С точки зрения качества GigaChat 3 Ultra уверенно превосходит GigaChat 2 Max на всех ключевых бенчмарках.

Модель оптимизирована для On-premise и Private Cloud инсталляций в крупном бизнесе, где критична защита данных (контур без доступа в интернет). Она идеально подходит для задач сложной аналитики больших массивов документов (RAG), автоматизации техподдержки уровня L2/L3 (где требуется глубокое понимание контекста), ассистентов программиста и генерации кода внутри закрытых корпоративных репозиториев. Модель поддерживает популярные inference-движки (vLLM, SGLang, LMDeploy, TensorRT-LLM) и работает в режимах BF16 и FP8 для оптимальной производительности.


Дата анонса: 19.11.2025
Параметров: 715B
Экспертов: 256
Активно параметров при инференсе: 36B
Контекст: 131K
Слоев: 64
Тип внимания: Multi-head Latent Attention
Потребление памяти: 344.5 ГБ в точности 4 бит
Разработчик: Sber AI
Версия Transformers: 4.53.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с GigaChat3-702B-A36B-preview. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга GigaChat3-702B-A36B-preview

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-6.44.512.480.nvlink
131 072
pipeline
44 524288 480 6 1 259,13 ₽ Запустить
h200-3.32.512.480
131 072
pipeline
32 524288 480 3 1 282,53 ₽ Запустить
teslaa100-8.44.512.480.nvlink
131 072
tensor
44 524288 480 8 1 639,13 ₽ Запустить
h200-4.32.768.480
131 072
tensor
32 786432 480 4 1 717,59 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
h200-6.52.896.960
131 072
pipeline
52 917504 960 6 2 535,78 ₽ Запустить
h200-8.52.1024.960
131 072
tensor
52 1048576 960 8 3 338,30 ₽ Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.