Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

Tesla H200

Tesla H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

Tesla A100

RTX A5000

Tesla A10

RTX 2080 Ti

Tesla A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold второго и третьего поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го и 3-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

GigaChat3-10B-A1.8B

русскоязычная

можно попробовать

GigaChat3-10B-A1.8B — это отличный пример эффективных вычислений в LLM. При общем размере в 10 миллиардов параметров, в момент генерации активно всего 1.8 миллиарда. Это ставит её в один ряд по скорости с очень маленькими моделями, но архитектура Mixture-of-Experts позволяет ей хранить гораздо большее знаний. Ускорению генерации способствует и механизм MTP (Multi-Token Prediction) генерирующий сразу несколько выходных токенов за раз. При этом модель реализует Multi-head Latent Attention (MLA), который сжимает Key-Value кэш в латентный вектор, снижая требования к видеопамяти, что позволяет эффективно и экономично работать с длинным контекстом в 256K токенов.

Модель прошла полноценное обучение на 20 триллионах токенов, включая 10 нестандартных языков дополнительно (языки стран бывшего СССР, китайский, арабский) и массивный блок синтетических данных для обеспечения качества ответов в области математики, логики и программирования. Такое обучение выгодно отличает модель от компактных версий Llama или Gemma, которые часто имеют проблемы с грамматикой русского языка или «не знают» российских бытовых и культурных реалий. GigaChat 3 Lightning (как еще называют эту модель) напротив демонстрирует высокую связность и грамотность русской речи и даже понимание разговорных терминов.

Благодаря низкой задержке и высокой пропускной способности, модель идеально подходит для создания быстрых диалоговых агентов и чат-ботов для первой линии поддержки, использования в качестве «Router-модели» в агентных системах (классификация запросов перед отправкой в большую модель), инференса на ограниченных ресурсах (Edge-устройства, слабые сервера). Модель поддерживает простое развертывание через популярные фреймворки: transformers, vLLM и SGLang и представлена в двух версиях FP8 и bfloat16, что позволяет пользователями выбрать между производительностью и качеством.

Дата анонса: 19.11.2025
Параметров: 11B
Экспертов: 64
Активно параметров при инференсе: 1.8B
Контекст: 263K
Слоев: 26
Тип внимания: Multi-head Latent Attention
Потребление памяти: 15.0 ГБ в точности 4 бит
Разработчик: Sber AI
Версия Transformers: 4.53.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с GigaChat3-10B-A1.8B. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	TPS	Статус	Ссылка
ai-sage/GigaChat3-10B-A1.8B	262 144	Публичный	RTX4090		доступен	чат

API доступ к GigaChat3-10B-A1.8B эндпоинтам

curl https://chat.immers.cloud/v1/endpoints/gigachat3-10b-a1.8b/generate/chat/completions \

-H "Content-Type: application/json" \

-H "Authorization: Bearer USER_API_KEY" \

-d '{"model": "GigaChat-3-10B-A1.8B", "messages": [ 

    {"role": "system", "content": "You are a helpful assistant."}, 

    {"role": "user", "content": "Say this is a test"} 

], "temperature": 0, "max_tokens": 150}'

$response = Invoke-WebRequest https://chat.immers.cloud/v1/endpoints/gigachat3-10b-a1.8b/generate/chat/completions `

-Method POST `

-Headers @{ 

    "Authorization" = "Bearer USER_API_KEY" 

    "Content-Type"  = "application/json" 

} `

-Body (@{ 

    model = "GigaChat-3-10B-A1.8B" 

    messages = @( 

        @{ role = "system"; content = "You are a helpful assistant." }, 

        @{ role = "user"; content = "Say this is a test" } 

) 

} | ConvertTo-Json) 

($response.Content | ConvertFrom-Json).choices[0].message.content

#!pip install OpenAI --upgrade 



from openai import OpenAI 



client = OpenAI( 

    api_key="USER_API_KEY", 

    base_url="https://chat.immers.cloud/v1/endpoints/gigachat3-10b-a1.8b/generate/", 

) 



chat_response = client.chat.completions.create( 

    model="GigaChat-3-10B-A1.8B", 

    messages=[ 

        {"role": "system", "content": "You are a helpful assistant."}, 

        {"role": "user", "content": "Say this is a test"}, 

    ] 

) 

print(chat_response.choices[0].message.content)

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга GigaChat3-10B-A1.8B

Цены:

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslat4-1.16.16.160 262 144	16	16384	160	1	29,33 ₽	21 117,60 ₽	Запустить
teslaa2-1.16.32.160 262 144	16	32768	160	1	33,74 ₽	24 292,80 ₽	Запустить
teslaa10-1.16.32.160 262 144	16	32768	160	1	46,94 ₽	33 796,80 ₽	Запустить
rtx2080ti-2.12.64.160 262 144 tensor	12	65536	160	2	61,37 ₽	44 186,40 ₽	Запустить
rtx3090-1.16.24.160 262 144	16	24576	160	1	78,53 ₽	56 541,60 ₽	Запустить
rtx3080-2.16.32.160 262 144 tensor	16	32762	160	2	86,54 ₽	62 308,80 ₽	Запустить
rtx4090-1.16.32.160 262 144	16	32768	160	1	103,04 ₽	74 188,80 ₽	Запустить
teslav100-1.12.64.160 262 144	12	65536	160	1	107,57 ₽	77 450,40 ₽	Запустить
rtxa5000-2.16.64.160.nvlink 262 144 tensor	16	65536	160	2	109,77 ₽	79 034,40 ₽	Запустить
rtx5090-1.16.64.160 262 144	16	65536	160	1	141,77 ₽	102 074,40 ₽	Запустить
teslaa100-1.16.64.160 262 144	16	65536	160	1	211,77 ₽	152 474,40 ₽	Запустить
teslah100-1.16.64.160 262 144	16	65536	160	1	341,77 ₽	246 074,40 ₽	Запустить
h200-1.16.128.160 262 144	16	131072	160	1	423,04 ₽	304 588,80 ₽	Запустить

Цены:

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslat4-2.16.32.160 262 144 tensor	16	32768	160	2	48,14 ₽	34 660,80 ₽	Запустить
teslaa2-2.16.32.160 262 144 tensor	16	32768	160	2	51,34 ₽	36 964,80 ₽	Запустить
rtx2080ti-3.12.24.120 262 144 pipeline	12	24576	120	3	74,84 ₽	53 884,80 ₽	Запустить
teslaa10-2.16.64.160 262 144 tensor	16	65536	160	2	83,37 ₽	60 026,40 ₽	Запустить
rtx2080ti-4.16.32.160 262 144 tensor	16	32768	160	4	99,74 ₽	71 812,80 ₽	Запустить
teslav100-1.12.64.160 262 144	12	65536	160	1	107,57 ₽	77 450,40 ₽	Запустить
rtxa5000-2.16.64.160.nvlink 262 144 tensor	16	65536	160	2	109,77 ₽	79 034,40 ₽	Запустить
rtx3080-3.16.64.160 262 144 pipeline	16	65536	160	3	127,37 ₽	91 706,40 ₽	Запустить
rtx5090-1.16.64.160 262 144	16	65536	160	1	141,77 ₽	102 074,40 ₽	Запустить
rtx3090-2.16.64.160 262 144 tensor	16	65536	160	2	149,37 ₽	107 546,40 ₽	Запустить
rtx3080-4.16.64.160 262 144 tensor	16	65536	160	4	162,57 ₽	117 050,40 ₽	Запустить
rtx4090-2.16.64.160 262 144 tensor	16	65536	160	2	195,57 ₽	140 810,40 ₽	Запустить
teslaa100-1.16.64.160 262 144	16	65536	160	1	211,77 ₽	152 474,40 ₽	Запустить
teslah100-1.16.64.160 262 144	16	65536	160	1	341,77 ₽	246 074,40 ₽	Запустить
h200-1.16.128.160 262 144	16	131072	160	1	423,04 ₽	304 588,80 ₽	Запустить

Цены:

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslat4-3.32.64.160 262 144 pipeline	32	65536	160	3	78,57 ₽	56 570,40 ₽	Запустить
teslaa10-2.16.64.160 262 144 tensor	16	65536	160	2	83,37 ₽	60 026,40 ₽	Запустить
teslat4-4.16.64.160 262 144 tensor	16	65536	160	4	85,77 ₽	61 754,40 ₽	Запустить
teslaa2-3.32.128.160 262 144 pipeline	32	131072	160	3	94,64 ₽	68 140,80 ₽	Запустить
rtx2080ti-4.16.64.160 262 144 tensor	16	65536	160	4	105,37 ₽	75 866,40 ₽	Запустить
rtxa5000-2.16.64.160.nvlink 262 144 tensor	16	65536	160	2	109,77 ₽	79 034,40 ₽	Запустить
teslaa2-4.32.128.160 262 144 tensor	32	131072	160	4	112,24 ₽	80 812,80 ₽	Запустить
rtx3090-2.16.64.160 262 144 tensor	16	65536	160	2	149,37 ₽	107 546,40 ₽	Запустить
rtx4090-2.16.64.160 262 144 tensor	16	65536	160	2	195,57 ₽	140 810,40 ₽	Запустить
teslav100-2.16.64.240 262 144 tensor	16	65535	240	2	198,54 ₽	142 948,80 ₽	Запустить
teslaa100-1.16.64.160 262 144	16	65536	160	1	211,77 ₽	152 474,40 ₽	Запустить
rtx5090-2.16.64.160 262 144 tensor	16	65536	160	2	261,77 ₽	188 474,40 ₽	Запустить
teslah100-1.16.64.160 262 144	16	65536	160	1	341,77 ₽	246 074,40 ₽	Запустить
h200-1.16.128.160 262 144	16	131072	160	1	423,04 ₽	304 588,80 ₽	Запустить

Связанные модели

DeepSeek-V3-0324

DeepSeek-V3

DeepSeek-R1

DeepSeek-R1-0528

DeepSeek-V3.1

DeepSeek-V3.1-Terminus

DeepSeek-V3.2-Exp

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

GigaChat3-702B-A36B-preview

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.