GLM-5

размышляющая
русскоязычная

GLM-5 представляет собой значительный шаг вперед по сравнению с предшественником GLM-4.7, вышедшим всего несколько месяцев назад. Модель масштабирована с 358B параметров (32B активных) до 754B параметров (40B активных), а объем данных для предобучения увеличен с 23T до 28.5T токенов.

Ключевым архитектурным нововведением является интеграция DeepSeek Sparse Attention (DSA) — механизма разреженного внимания, который кардинально снижает вычислительную сложность при сохранении способности работы с длинными контекстами. DSA работает по принципу двухступенчатой системы: сначала “молниеносный индексатор” (lightning indexer) вычисляет релевантность каждого предыдущего токена для текущего запроса, затем механизм top-k выборки отбирает только наиболее значимые токены для вычисления внимания. Это снижает сложность с квадратичной O(n²) до линейной O(nk), где k — количество выбранных токенов (обычно 2048), что значительно уменьшает затраты памяти при работе с длинными контекстами.

Второе важное улучшение GLM-5 — технология Slime, новая система для обучения с подкреплением. Обычно при таком обучении больших языковых моделей все процессы работают синхронно и ждут друг друга, что создаёт «пробки» и замедляет работу. Slime решает эту проблему, позволяя разным частям системы действовать независимо — асинхронно, благодаря чему обучение идёт быстрее и эффективнее

GLM-5 показывает отличные результаты на ключевых бенчмарках, демонстрируя сильные способности в задачах, требующих долгосрочного планирования, при этом часто опережая такие топовые модели как DeepSeek-V3.2, Kimi K2.5 и приближаясь к закрытым флагманам вроде Claude Opus 4.5 и GPT-5.2. Модель способна превращать текст или исходные материалы непосредственно в готовые к использованию документы форматов .docx, .pdf и .xlsx и др. GLM-5 поддерживает работу в различных coding-агентах (Claude Code, OpenCode, Kilo Code, Roo Code, Cline, Droid) и интегрируется с OpenClaw, превращая модель в персонального ассистента, способного работать через приложения и устройства, а не только в чат-режиме. И последний момент, но не в последнюю очередь, GLM-5 практически нет равных в генерации front-end.

GLM-5 оптимизирована для широкого спектра профессиональных сценариев, требующих глубоких рассуждений и автономного выполнения задач. Она идеально подходит для реальных сложных практических задач, таких как: разработка программного обеспечения, создание контента (документы, таблицы, презентации), анализ документов, проведение полномасштабных исследований и конечно же для работы в агентных системах.


Дата анонса: 11.02.2026
Параметров: 754B
Экспертов: 256
Активно параметров при инференсе: 40B
Контекст: 203K
Слоев: 78
Тип внимания: DeepSeek Sparse Attention
Разработчик: Z.ai
Версия Transformers: 5.0.2.dev0
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с GLM-5. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга GLM-5

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-6.44.512.480.nvlink
202 752
pipeline
6 1 259,13 ₽ 3,53 Запустить
teslaa100-8.44.512.480.nvlink
202 752
tensor
8 1 639,13 ₽ 15,82 Запустить
h200-4.32.768.480
202 752
tensor
4 1 717,59 ₽ 10,65 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-6.52.896.960
202 752
pipeline
6 2 535,78 ₽ 3,73 Запустить
h200-8.52.1024.960
202 752
tensor
8 3 338,30 ₽ 25,72 Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.