GigaChat3-10B-A1.8B — это отличный пример эффективных вычислений в LLM. При общем размере в 10 миллиардов параметров, в момент генерации активно всего 1.8 миллиарда. Это ставит её в один ряд по скорости с очень маленькими моделями, но архитектура Mixture-of-Experts позволяет ей хранить гораздо большее знаний. Ускорению генерации способствует и механизм MTP (Multi-Token Prediction) генерирующий сразу несколько выходных токенов за раз. При этом модель реализует Multi-head Latent Attention (MLA), который сжимает Key-Value кэш в латентный вектор, снижая требования к видеопамяти, что позволяет эффективно и экономично работать с длинным контекстом в 256K токенов.
Модель прошла полноценное обучение на 20 триллионах токенов, включая 10 нестандартных языков дополнительно (языки стран бывшего СССР, китайский, арабский) и массивный блок синтетических данных для обеспечения качества ответов в области математики, логики и программирования. Такое обучение выгодно отличает модель от компактных версий Llama или Gemma, которые часто имеют проблемы с грамматикой русского языка или «не знают» российских бытовых и культурных реалий. GigaChat 3 Lightning (как еще называют эту модель) напротив демонстрирует высокую связность и грамотность русской речи и даже понимание разговорных терминов.
Благодаря низкой задержке и высокой пропускной способности, модель идеально подходит для создания быстрых диалоговых агентов и чат-ботов для первой линии поддержки, использования в качестве «Router-модели» в агентных системах (классификация запросов перед отправкой в большую модель), инференса на ограниченных ресурсах (Edge-устройства, слабые сервера). Модель поддерживает простое развертывание через популярные фреймворки: transformers, vLLM и SGLang и представлена в двух версиях FP8 и bfloat16, что позволяет пользователями выбрать между производительностью и качеством.
| Наименование модели | Контекст | Тип | GPU | TPS | Статус | Ссылка |
|---|---|---|---|---|---|---|
| ai-sage/GigaChat3-10B-A1.8B | 262 144 | Публичный | RTX4090 | доступен | чат |
curl https://chat.immers.cloud/v1/endpoints/gigachat3-10b-a1.8b/generate/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer USER_API_KEY" \
-d '{"model": "GigaChat-3-10B-A1.8B", "messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"}
], "temperature": 0, "max_tokens": 150}'
$response = Invoke-WebRequest https://chat.immers.cloud/v1/endpoints/gigachat3-10b-a1.8b/generate/chat/completions `
-Method POST `
-Headers @{
"Authorization" = "Bearer USER_API_KEY"
"Content-Type" = "application/json"
} `
-Body (@{
model = "GigaChat-3-10B-A1.8B"
messages = @(
@{ role = "system"; content = "You are a helpful assistant." },
@{ role = "user"; content = "Say this is a test" }
)
} | ConvertTo-Json)
($response.Content | ConvertFrom-Json).choices[0].message.content
#!pip install OpenAI --upgrade
from openai import OpenAI
client = OpenAI(
api_key="USER_API_KEY",
base_url="https://chat.immers.cloud/v1/endpoints/gigachat3-10b-a1.8b/generate/",
)
chat_response = client.chat.completions.create(
model="GigaChat-3-10B-A1.8B",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"},
]
)
print(chat_response.choices[0].message.content)
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
262 144 |
16 | 16384 | 160 | 1 | 29,33 ₽ | Запустить | |
262 144 |
16 | 32768 | 160 | 1 | 33,74 ₽ | Запустить | |
262 144 |
16 | 32768 | 160 | 1 | 46,94 ₽ | Запустить | |
262 144 tensor |
12 | 65536 | 160 | 2 | 61,37 ₽ | Запустить | |
262 144 |
16 | 24576 | 160 | 1 | 78,53 ₽ | Запустить | |
262 144 tensor |
16 | 32762 | 160 | 2 | 86,54 ₽ | Запустить | |
262 144 |
16 | 32768 | 160 | 1 | 103,04 ₽ | Запустить | |
262 144 |
12 | 65536 | 160 | 1 | 107,57 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
262 144 |
16 | 65536 | 160 | 1 | 141,77 ₽ | Запустить | |
262 144 |
16 | 65536 | 160 | 1 | 211,77 ₽ | Запустить | |
262 144 |
16 | 65536 | 160 | 1 | 341,77 ₽ | Запустить | |
262 144 |
16 | 131072 | 160 | 1 | 423,04 ₽ | Запустить | |
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
262 144 tensor |
16 | 32768 | 160 | 2 | 48,14 ₽ | Запустить | |
262 144 tensor |
16 | 32768 | 160 | 2 | 51,34 ₽ | Запустить | |
262 144 pipeline |
12 | 24576 | 120 | 3 | 74,84 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 2 | 83,37 ₽ | Запустить | |
262 144 tensor |
16 | 32768 | 160 | 4 | 99,74 ₽ | Запустить | |
262 144 |
12 | 65536 | 160 | 1 | 107,57 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
262 144 pipeline |
16 | 65536 | 160 | 3 | 127,37 ₽ | Запустить | |
262 144 |
16 | 65536 | 160 | 1 | 141,77 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 2 | 149,37 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 4 | 162,57 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 2 | 195,57 ₽ | Запустить | |
262 144 |
16 | 65536 | 160 | 1 | 211,77 ₽ | Запустить | |
262 144 |
16 | 65536 | 160 | 1 | 341,77 ₽ | Запустить | |
262 144 |
16 | 131072 | 160 | 1 | 423,04 ₽ | Запустить | |
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
262 144 pipeline |
32 | 65536 | 160 | 3 | 78,57 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 2 | 83,37 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 4 | 85,77 ₽ | Запустить | |
262 144 pipeline |
32 | 131072 | 160 | 3 | 94,64 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 4 | 105,37 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
262 144 tensor |
32 | 131072 | 160 | 4 | 112,24 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 2 | 149,37 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 2 | 195,57 ₽ | Запустить | |
262 144 tensor |
16 | 65535 | 240 | 2 | 198,54 ₽ | Запустить | |
262 144 |
16 | 65536 | 160 | 1 | 211,77 ₽ | Запустить | |
262 144 tensor |
16 | 65536 | 160 | 2 | 261,77 ₽ | Запустить | |
262 144 |
16 | 65536 | 160 | 1 | 341,77 ₽ | Запустить | |
262 144 |
16 | 131072 | 160 | 1 | 423,04 ₽ | Запустить | |
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.