Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

H200

H100 NVL

H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

A100

RTX A5000

A10

RTX 2080 Ti

A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold 2-го, 3-го и 5-го поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го, 3-го и 5-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

GLM-5.2

размышляющая

русскоязычная

для кодинга

GLM‑5.2 — это флагманская большая языковая модель компании Z.ai с 753 миллиардами общих параметров, из которых на каждый токен активируется примерно 39 миллиардов. Модель создана специально для длительных многошаговых задач (long‑horizon tasks) и представляет значительный скачок по сравнению с предыдущей версией GLM‑5.1. Впервые в серии GLM‑5 модель обеспечивает стабильную работу с контекстным окном в один миллион токенов, при этом существенно повышается эффективность вычислений. Архитектурно GLM‑5.2 основана на той же Mixture-of-Experts (MoE) ‑ структуре с механизмом DSA (DeepSeek Sparse Attention), что и предыдущие версии, однако в неё внедрена инновационная технология IndexShare, а также доработаны слои предсказания нескольких токенов одновременно (MTP). Благодаря этому удалось добиться нового баланса между значительным объемом знаний, умением выполнять сложные пошаговые рассуждения, скоростью вывода и качеством обработки сверхдлинных контекстов.

Ключевое архитектурное усовершенствование GLM‑5.2 — технология IndexShare, которая напрямую отвечает за рост эффективности при работе с длинными последовательностями. DSA использует лёгкий «молниеносный индексатор» (lightning indexer), который для каждого запроса выбирает лишь top‑k наиболее релевантных токенов, снижая вычислительную сложность основного внимания. Однако сам индексатор в каждом слое требует вычислений в O(L²) операций. IndexShare опирается на простое, но важное наблюдение: соседние слои трансформера склонны вырабатывать похожие паттерны внимания, а значит, вычислять отдельный индекс для каждого слоя избыточно. Поэтому слои объединяются в группы: лишь небольшое число «полных» слоёв (Full layers) выполняет независимую работу индексатора, а все остальные «общие» слои (Shared layers) просто переиспользуют индексы от ближайшего полного слоя. Это сокращает вычисления индексатора на 75%, а при длине контекста в миллион токенов снижает количество FLOPов на токен в 2,9 раза, практически без потери качества. Дополнительно в GLM-5.2 улучшен слой MTP (Multi-Token Prediction) для спекулятивного декодирования, он увеличивает длину предварительно предсказываемых токенов до 20%, что способствует дополнительному ускорению генерации.

По результатам бенчмарков GLM-5.2 ощутимо улучшает показатели предыдущих версий, демонстрирует конкурентоспособность с ведущими закрытыми моделями и уверенно лидирует среди открытых решений. На математическом соревновании AIME 2026 модель набирает 99,2%, обходя GPT-5.5 (98,3%), Claude Opus 4.8 (95,7%) и Gemini 3.1 Pro (98,2%). На бенчмарке критического мышления CritPt GLM-5.2 делит первое место с Claude Opus 4.8 (20,9 баллов), значительно опережая предыдущую версию GLM-5.1 (4,6). В режиме с инструментами на Humanity's Last Exam (HLE w/ Tools) модель набирает 54,7, обгоняя GPT-5.5 (52,2) и Gemini 3.1 Pro (51,4) и уступая только Claude Opus 4.8 (57,9). В бенчмарках по программированию GLM-5.2 достигает 62,1% на SWE-bench Pro, 48,9% на NL2Repo и 81,0% на Terminal-Bench 2.1. На бенчмарке работы с инструментами MCP-Atlas модель набирает 76,8, на уровне с Claude Opus 4.8 (77,8) и впереди Gemini 3.1 Pro (69,2). Наибольших успехов GLM‑5.2 достигает в бенчмарках, оценивающих способность справляться с задачами, длящимися часами и даже днями. Например, в FrontierSWE, который проверяет умение выполнять работу в крупных проектах по оптимизации систем, масштабной сборке кода или прикладному машинному обучению, модель набирает 74,4% и уступает только Claude Opus 4.8 причем менее 1%. Все эти цифры убедительно доказывает, что миллионный контекст в GLM‑5.2 — не просто техническая возможность, а реально работающий инструмент для сложных инженерных задач.

Области применения GLM‑5.2 охватывают практически все сценарии, где требуется глубокое понимание контекста и длительное планирование. В разработке программного обеспечения она может взять на себя полный цикл — от анализа требований до реализации сложных проектов, включая написание компиляторов, оптимизацию ядер ОС и создание высоконагруженных сервисов. В автоматизации научных исследований она пригодна для системной оптимизации, прикладных ML‑исследований и других трудоёмких инженерных задач. Модель поддерживает управление уровнем усилий (effort level control), что позволяет гибко настраивать соотношение качества ответа и времени его получения в зависимости от задачи. Кроме того, выдающиеся результаты в математике и научные знания делают GLM‑5.2 отличным инструментом для образования, интеллектуальных помощников, исследовательской работы и любых других областей, где нужны точные логические выводы. Благодаря лицензии MIT и полной открытости модель становится идеальным выбором как для коммерческого внедрения, так и для академических экспериментов без каких‑либо ограничений.

Дата анонса: 16.06.2026
Параметров: 754B
Экспертов: 256
Активно параметров при инференсе: 39B
Контекст: 1049K
Слоев: 78
Тип внимания: DeepSeek Sparse Attention
Разработчик: Z.ai
Версия Transformers: 5.12.0
Версия vLLM: >= 0.23.0
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с GLM-5.2. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
dedicated-h100-8.96.768.5760-1.nvlink 90 156 tensor	8		175 766,40 ₽	1,89	Запустить
teslaa100-8.44.704.960.nvlink 90 156 tensor	8	1 677,58 ₽	1 207 857,60 ₽	1,90	Запустить
h200-4.32.768.640 90 156 tensor	4	1 719,14 ₽	1 237 780,80 ₽	2,43	Запустить
h200-4.32.768.640.nvlink 90 156 tensor	4	1 719,14 ₽	1 237 780,80 ₽	2,43	Запустить

Наименование	GPU	Цена, тариф	Цена, час	Цена, месяц	TPS	Параллельность (макс.)
h200-8.52.1024.960 90 156 tensor	8		3 338,30 ₽	2 403 576,00 ₽		4,16	Запустить
h200-8.52.1024.960.nvlink 90 156 tensor	8		3 338,30 ₽	2 403 576,00 ₽		4,16	Запустить

Связанные модели

GLM-5

GLM-5.1

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.

GLM-5.2

Публичный эндпоинт

Частный сервер

Рекомендуемые конфигурации сервера для хостинга GLM-5.2

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Связанные модели

Остались вопросы?