GLM‑5.1 представляет собой флагманскую модель нового поколения, ориентированную на агентную инженерию и продолжительные цепочки действий. Она построена на масштабированной архитектуре предшественника: модель использует архитектуру Mixture-of-Experts (MoE) с 744B общими параметрами и 40B активными параметрами на токен (top-8 из 256 экспертов), что обеспечивает высокую эффективность инференса. Ключевым усовершенствованием пятой серии является интеграция DeepSeek Sparse Attention (DSA) — механизма разреженного внимания, который существенно снижает стоимость развёртывания при сохранении способности работать с очень длинными контекстами. Объём предобучения увеличен с 23 до 28,5 трлн токенов, а для пост‑тренировочной донастройки использовалась разработанная авторами асинхронная RL‑инфраструктура slime, которая кратно повышает пропускную способность и позволяет выполнять более тонкие итерации обучения.
Главное отличие GLM‑5.1 от большинства больших языковых моделей (включая GLM‑5) заключается в способности сохранять эффективность на протяжении сотен и тысяч итераций. Если предыдущие модели быстро исчерпывают свой арсенал приёмов и выходят на плато, то GLM‑5.1 демонстрирует устойчивый рост качества по мере увеличения времени работы. Модель не просто выдаёт первичное решение, а систематически разбивает сложные проблемы на этапы, запускает эксперименты, анализирует результаты, выявляет узкие места и целенаправленно их устраняет. В одном из экспериментов на задаче оптимизации векторной базы данных GLM‑5.1 продолжала находить улучшения на протяжении более 600 итераций и 6000+ вызовов инструментов, увеличив итоговую производительность до 21,5 тыс. QPS — примерно в 6 раз выше лучшего результата, достигнутого в однопроходном режиме. Такая «выносливость» делает GLM‑5.1 идеальным инструментом для задач, где успех определяется не первым ответом, а длительной автономной работой.
GLM‑5.1 демонстрирует лидирующие результаты в ряде тестов, подтверждающих её инженерные и агентные способности. Разработчики сравнивают свою модель не только с открытыми, но и с лучшими проприетарными решениями. На SWE‑Bench Pro — бенчмарке для оценки умения решать сложные программно‑инженерные задачи — модель достигает значения 58,4%, устанавливая новый стандарт качества. В NL2Repo (генерация репозитория по описанию) она набирает 42,7%, опережая GLM‑5 (35,9%) и многие конкурирующие системы. На Terminal‑Bench 2.0, измеряющем способность выполнять реальные задачи в терминальных системах, результат составляет 63,5% (превосходит все открытые модели), что существенно выше 56,2% у GLM‑5. В бенчмарке CyberGym (тестирование навыков в области кибербезопасности) модель набирает 68,7% - что на момент релиза является лучшим результатом.
Модель предназначена для широкого спектра задач, требующих автономной работы в течение длительного времени. Она отлично справляется с написанием и рефакторингом кода, оптимизацией производительности систем, созданием полноценных веб‑приложений и автоматизацией сложных инженерных рабочих процессов. Благодаря встроенной поддержке длинных контекстов и эффективной работе с инструментами GLM‑5.1 также подходит для исследовательских проектов, где требуется многократное обращение к внешним API, базам данных или файловым системам. Разработчики могут использовать GLM‑5.1 в качестве интеллектуального ядра для автономных агентов, способных самостоятельно решать комплексные задачи. Модель отлично интегрируется в фреймворки, подобные Claude Code, и показывает впечатляющие результаты при работе с десятками инструментальных вызовов за один сеанс. Модель доступна по лицензии MIT и предоставляется авторами в форматах BF16 и FP8, поддерживается популярными фреймворками (vLLM, SGLang, xLLM, Ktransformers).
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 pipeline |
6 | 1 263,79 ₽ | 0,23 | Запустить | ||
202 752 tensor |
8 | 1 677,58 ₽ | 1,03 | Запустить | ||
202 752 tensor |
4 | 1 719,14 ₽ | 1,28 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
202 752 pipeline |
6 | 2 535,78 ₽ | 0,37 | Запустить | ||
202 752 tensor |
8 | 3 338,30 ₽ | 1,92 | Запустить | ||
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.