GLM-5 представляет собой значительный шаг вперед по сравнению с предшественником GLM-4.7, вышедшим всего несколько месяцев назад. Модель масштабирована с 358B параметров (32B активных) до 754B параметров (40B активных), а объем данных для предобучения увеличен с 23T до 28.5T токенов.
Ключевым архитектурным нововведением является интеграция DeepSeek Sparse Attention (DSA) — механизма разреженного внимания, который кардинально снижает вычислительную сложность при сохранении способности работы с длинными контекстами. DSA работает по принципу двухступенчатой системы: сначала “молниеносный индексатор” (lightning indexer) вычисляет релевантность каждого предыдущего токена для текущего запроса, затем механизм top-k выборки отбирает только наиболее значимые токены для вычисления внимания. Это снижает сложность с квадратичной O(n²) до линейной O(nk), где k — количество выбранных токенов (обычно 2048), что значительно уменьшает затраты памяти при работе с длинными контекстами.
Второе важное улучшение GLM-5 — технология Slime, новая система для обучения с подкреплением. Обычно при таком обучении больших языковых моделей все процессы работают синхронно и ждут друг друга, что создаёт «пробки» и замедляет работу. Slime решает эту проблему, позволяя разным частям системы действовать независимо — асинхронно, благодаря чему обучение идёт быстрее и эффективнее
GLM-5 показывает отличные результаты на ключевых бенчмарках, демонстрируя сильные способности в задачах, требующих долгосрочного планирования, при этом часто опережая такие топовые модели как DeepSeek-V3.2, Kimi K2.5 и приближаясь к закрытым флагманам вроде Claude Opus 4.5 и GPT-5.2. Модель способна превращать текст или исходные материалы непосредственно в готовые к использованию документы форматов .docx, .pdf и .xlsx и др. GLM-5 поддерживает работу в различных coding-агентах (Claude Code, OpenCode, Kilo Code, Roo Code, Cline, Droid) и интегрируется с OpenClaw, превращая модель в персонального ассистента, способного работать через приложения и устройства, а не только в чат-режиме. И последний момент, но не в последнюю очередь, GLM-5 практически нет равных в генерации front-end.
GLM-5 оптимизирована для широкого спектра профессиональных сценариев, требующих глубоких рассуждений и автономного выполнения задач. Она идеально подходит для реальных сложных практических задач, таких как: разработка программного обеспечения, создание контента (документы, таблицы, презентации), анализ документов, проведение полномасштабных исследований и конечно же для работы в агентных системах.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
202 752 pipeline |
6 | 1 259,13 ₽ | 3,53 | Запустить | ||
202 752 tensor |
8 | 1 639,13 ₽ | 15,82 | Запустить | ||
202 752 tensor |
4 | 1 717,59 ₽ | 10,65 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
202 752 pipeline |
6 | 2 535,78 ₽ | 3,73 | Запустить | ||
202 752 tensor |
8 | 3 338,30 ₽ | 25,72 | Запустить | ||
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.