GigaChat3-10B-A1.8B

русскоязычная

GigaChat3-10B-A1.8B — это отличный пример эффективных вычислений в LLM. При общем размере в 10 миллиардов параметров, в момент генерации активно всего 1.8 миллиарда. Это ставит её в один ряд по скорости с очень маленькими моделями, но архитектура Mixture-of-Experts позволяет ей хранить гораздо большее знаний. Ускорению генерации способствует и механизм MTP (Multi-Token Prediction) генерирующий сразу несколько выходных токенов за раз. При этом модель реализует Multi-head Latent Attention (MLA), который сжимает Key-Value кэш в латентный вектор, снижая требования к видеопамяти, что позволяет эффективно и экономично работать с длинным контекстом в 256K токенов.

Модель прошла полноценное обучение на 20 триллионах токенов, включая 10 нестандартных языков дополнительно (языки стран бывшего СССР, китайский, арабский) и массивный блок синтетических данных для обеспечения качества ответов в области математики, логики и программирования. Такое обучение выгодно отличает модель от компактных версий Llama или Gemma, которые часто имеют проблемы с грамматикой русского языка или «не знают» российских бытовых и культурных реалий. GigaChat 3 Lightning (как еще называют эту модель) напротив демонстрирует высокую связность и грамотность русской речи и даже понимание разговорных терминов.

Благодаря низкой задержке и высокой пропускной способности, модель идеально подходит для создания быстрых диалоговых агентов и чат-ботов для первой линии поддержки, использования в качестве «Router-модели» в агентных системах (классификация запросов перед отправкой в большую модель), инференса на ограниченных ресурсах (Edge-устройства, слабые сервера). Модель поддерживает простое развертывание через популярные фреймворки: transformers, vLLM и SGLang и представлена в двух версиях FP8 и bfloat16, что позволяет пользователями выбрать между производительностью и качеством.


Дата анонса: 19.11.2025
Параметров: 11B
Экспертов: 64
Активно параметров при инференсе: 1.8B
Контекст: 263K
Слоев: 26
Тип внимания: Multi-head Latent Attention
Потребление памяти: 15.0 ГБ в точности 4 бит
Разработчик: Sber AI
Версия Transformers: 4.53.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с GigaChat3-10B-A1.8B. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
ai-sage/GigaChat3-10B-A1.8B 262 144 Публичный RTX4090 доступен чат

API доступ к GigaChat3-10B-A1.8B эндпоинтам

curl https://chat.immers.cloud/v1/endpoints/gigachat3-10b-a1.8b/generate/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer USER_API_KEY" \
-d '{"model": "GigaChat-3-10B-A1.8B", "messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"}
], "temperature": 0, "max_tokens": 150}'
$response = Invoke-WebRequest https://chat.immers.cloud/v1/endpoints/gigachat3-10b-a1.8b/generate/chat/completions `
-Method POST `
-Headers @{
"Authorization" = "Bearer USER_API_KEY"
"Content-Type" = "application/json"
} `
-Body (@{
model = "GigaChat-3-10B-A1.8B"
messages = @(
@{ role = "system"; content = "You are a helpful assistant." },
@{ role = "user"; content = "Say this is a test" }
)
} | ConvertTo-Json)
($response.Content | ConvertFrom-Json).choices[0].message.content
#!pip install OpenAI --upgrade

from openai import OpenAI

client = OpenAI(
api_key="USER_API_KEY",
base_url="https://chat.immers.cloud/v1/endpoints/gigachat3-10b-a1.8b/generate/",
)

chat_response = client.chat.completions.create(
model="GigaChat-3-10B-A1.8B",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"},
]
)
print(chat_response.choices[0].message.content)

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга GigaChat3-10B-A1.8B

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslat4-1.16.16.160
262 144
16 16384 160 1 29,33 ₽ Запустить
teslaa2-1.16.32.160
262 144
16 32768 160 1 33,74 ₽ Запустить
teslaa10-1.16.32.160
262 144
16 32768 160 1 46,94 ₽ Запустить
rtx2080ti-2.12.64.160
262 144
tensor
12 65536 160 2 61,37 ₽ Запустить
rtx3090-1.16.24.160
262 144
16 24576 160 1 78,53 ₽ Запустить
rtx3080-2.16.32.160
262 144
tensor
16 32762 160 2 86,54 ₽ Запустить
rtx4090-1.16.32.160
262 144
16 32768 160 1 103,04 ₽ Запустить
teslav100-1.12.64.160
262 144
12 65536 160 1 107,57 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
262 144
tensor
16 65536 160 2 109,77 ₽ Запустить
rtx5090-1.16.64.160
262 144
16 65536 160 1 141,77 ₽ Запустить
teslaa100-1.16.64.160
262 144
16 65536 160 1 211,77 ₽ Запустить
teslah100-1.16.64.160
262 144
16 65536 160 1 341,77 ₽ Запустить
h200-1.16.128.160
262 144
16 131072 160 1 423,04 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslat4-2.16.32.160
262 144
tensor
16 32768 160 2 48,14 ₽ Запустить
teslaa2-2.16.32.160
262 144
tensor
16 32768 160 2 51,34 ₽ Запустить
rtx2080ti-3.12.24.120
262 144
pipeline
12 24576 120 3 74,84 ₽ Запустить
teslaa10-2.16.64.160
262 144
tensor
16 65536 160 2 83,37 ₽ Запустить
rtx2080ti-4.16.32.160
262 144
tensor
16 32768 160 4 99,74 ₽ Запустить
teslav100-1.12.64.160
262 144
12 65536 160 1 107,57 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
262 144
tensor
16 65536 160 2 109,77 ₽ Запустить
rtx3080-3.16.64.160
262 144
pipeline
16 65536 160 3 127,37 ₽ Запустить
rtx5090-1.16.64.160
262 144
16 65536 160 1 141,77 ₽ Запустить
rtx3090-2.16.64.160
262 144
tensor
16 65536 160 2 149,37 ₽ Запустить
rtx3080-4.16.64.160
262 144
tensor
16 65536 160 4 162,57 ₽ Запустить
rtx4090-2.16.64.160
262 144
tensor
16 65536 160 2 195,57 ₽ Запустить
teslaa100-1.16.64.160
262 144
16 65536 160 1 211,77 ₽ Запустить
teslah100-1.16.64.160
262 144
16 65536 160 1 341,77 ₽ Запустить
h200-1.16.128.160
262 144
16 131072 160 1 423,04 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslat4-3.32.64.160
262 144
pipeline
32 65536 160 3 78,57 ₽ Запустить
teslaa10-2.16.64.160
262 144
tensor
16 65536 160 2 83,37 ₽ Запустить
teslat4-4.16.64.160
262 144
tensor
16 65536 160 4 85,77 ₽ Запустить
teslaa2-3.32.128.160
262 144
pipeline
32 131072 160 3 94,64 ₽ Запустить
rtx2080ti-4.16.64.160
262 144
tensor
16 65536 160 4 105,37 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
262 144
tensor
16 65536 160 2 109,77 ₽ Запустить
teslaa2-4.32.128.160
262 144
tensor
32 131072 160 4 112,24 ₽ Запустить
rtx3090-2.16.64.160
262 144
tensor
16 65536 160 2 149,37 ₽ Запустить
rtx4090-2.16.64.160
262 144
tensor
16 65536 160 2 195,57 ₽ Запустить
teslav100-2.16.64.240
262 144
tensor
16 65535 240 2 198,54 ₽ Запустить
teslaa100-1.16.64.160
262 144
16 65536 160 1 211,77 ₽ Запустить
rtx5090-2.16.64.160
262 144
tensor
16 65536 160 2 261,77 ₽ Запустить
teslah100-1.16.64.160
262 144
16 65536 160 1 341,77 ₽ Запустить
h200-1.16.128.160
262 144
16 131072 160 1 423,04 ₽ Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.