GLM-5.2

размышляющая
русскоязычная
для кодинга

GLM‑5.2 — это флагманская большая языковая модель компании Z.ai с 753 миллиардами общих параметров, из которых на каждый токен активируется примерно 39 миллиардов.  Модель создана специально для длительных многошаговых задач (long‑horizon tasks) и представляет значительный скачок по сравнению с предыдущей версией GLM‑5.1. Впервые в серии GLM‑5 модель обеспечивает стабильную работу с контекстным окном в один миллион токенов, при этом существенно повышается эффективность вычислений. Архитектурно GLM‑5.2 основана на той же Mixture-of-Experts (MoE) ‑ структуре с механизмом DSA (DeepSeek Sparse Attention), что и предыдущие версии, однако в неё внедрена инновационная технология IndexShare, а также доработаны слои предсказания нескольких токенов одновременно (MTP). Благодаря этому удалось добиться нового баланса между значительным объемом знаний, умением выполнять сложные пошаговые рассуждения, скоростью вывода и качеством обработки сверхдлинных контекстов.

Ключевое архитектурное усовершенствование GLM‑5.2 — технология IndexShare, которая напрямую отвечает за рост эффективности при работе с длинными последовательностями. DSA использует лёгкий «молниеносный индексатор» (lightning indexer), который для каждого запроса выбирает лишь top‑k наиболее релевантных токенов, снижая вычислительную сложность основного внимания. Однако сам индексатор в каждом слое требует вычислений в O(L²) операций. IndexShare опирается на простое, но важное наблюдение: соседние слои трансформера склонны вырабатывать похожие паттерны внимания, а значит, вычислять отдельный индекс для каждого слоя избыточно. Поэтому слои объединяются в группы: лишь небольшое число «полных» слоёв (Full layers) выполняет независимую работу индексатора, а все остальные «общие» слои (Shared layers) просто переиспользуют индексы от ближайшего полного слоя. Это сокращает вычисления индексатора на 75%, а при длине контекста в миллион токенов снижает количество FLOPов на токен в 2,9 раза, практически без потери качества. Дополнительно в GLM-5.2 улучшен слой MTP (Multi-Token Prediction) для спекулятивного декодирования, он увеличивает длину предварительно предсказываемых токенов до 20%, что способствует дополнительному ускорению генерации.

По результатам бенчмарков GLM-5.2 ощутимо улучшает показатели предыдущих версий, демонстрирует конкурентоспособность с ведущими закрытыми моделями и уверенно лидирует среди открытых решений. На математическом соревновании AIME 2026 модель набирает 99,2%, обходя GPT-5.5 (98,3%), Claude Opus 4.8 (95,7%) и Gemini 3.1 Pro (98,2%). На бенчмарке критического мышления CritPt GLM-5.2 делит первое место с Claude Opus 4.8 (20,9 баллов), значительно опережая предыдущую версию GLM-5.1 (4,6). В режиме с инструментами на Humanity's Last Exam (HLE w/ Tools) модель набирает 54,7, обгоняя GPT-5.5 (52,2) и Gemini 3.1 Pro (51,4) и уступая только Claude Opus 4.8 (57,9). В бенчмарках по программированию GLM-5.2 достигает 62,1% на SWE-bench Pro, 48,9% на NL2Repo и 81,0% на Terminal-Bench 2.1. На бенчмарке работы с инструментами MCP-Atlas модель набирает 76,8, на уровне с Claude Opus 4.8 (77,8) и впереди Gemini 3.1 Pro (69,2). Наибольших успехов GLM‑5.2 достигает в бенчмарках, оценивающих способность справляться с задачами, длящимися часами и даже днями. Например, в FrontierSWE, который проверяет умение выполнять работу в крупных проектах по оптимизации систем, масштабной сборке кода или прикладному машинному обучению, модель набирает 74,4% и уступает только Claude Opus 4.8 причем менее 1%. Все эти цифры убедительно доказывает, что миллионный контекст в GLM‑5.2 — не просто техническая возможность, а реально работающий инструмент для сложных инженерных задач.

Области применения GLM‑5.2 охватывают практически все сценарии, где требуется глубокое понимание контекста и длительное планирование. В разработке программного обеспечения она может взять на себя полный цикл — от анализа требований до реализации сложных проектов, включая написание компиляторов, оптимизацию ядер ОС и создание высоконагруженных сервисов. В автоматизации научных исследований она пригодна для системной оптимизации, прикладных ML‑исследований и других трудоёмких инженерных задач. Модель поддерживает управление уровнем усилий (effort level control), что позволяет гибко настраивать соотношение качества ответа и времени его получения в зависимости от задачи. Кроме того, выдающиеся результаты в математике и научные знания делают GLM‑5.2 отличным инструментом для образования, интеллектуальных помощников, исследовательской работы и любых других областей, где нужны точные логические выводы. Благодаря лицензии MIT и полной открытости модель становится идеальным выбором как для коммерческого внедрения, так и для академических экспериментов без каких‑либо ограничений.


Дата анонса: 16.06.2026
Параметров: 754B
Экспертов: 256
Активно параметров при инференсе: 39B
Контекст: 1049K
Слоев: 78
Тип внимания: DeepSeek Sparse Attention
Разработчик: Z.ai
Версия Transformers: 5.12.0
Версия vLLM: >= 0.23.0
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с GLM-5.2. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга GLM-5.2

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
dedicated-h100-8.96.768.5760-1.nvlink
90 156
tensor
8 1,89 Запустить
teslaa100-8.44.704.960.nvlink
90 156
tensor
8 1 677,58 ₽ 1,90 Запустить
h200-4.32.768.640
90 156
tensor
4 1 719,14 ₽ 2,43 Запустить
h200-4.32.768.640.nvlink
90 156
tensor
4 1 719,14 ₽ 2,43 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-8.52.1024.960
90 156
tensor
8 3 338,30 ₽ 4,16 Запустить
h200-8.52.1024.960.nvlink
90 156
tensor
8 3 338,30 ₽ 4,16 Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.