GLM-4.6

размышляющая
русскоязычная

GLM-4.6 построена на архитектуре Mixture-of-Experts (MoE) с общим количеством параметров 355 миллиардов, из которых активно используется 32 миллиарда параметров на каждый проход. В GLM-4.6 (как и в версии 4.5) применяется стратегия "больше глубины, меньше ширины": модель имеет больше слоев при меньшем количестве экспертов и меньшей скрытой размерности по сравнению с DeepSeek-V3 и Kimi K2. Такая архитектура обеспечивает лучшие показатели в задачах на рассуждение. Модель состоит из 92 слоев скрытой размерности 5120, использует Grouped-Query Attention с частичным RoPE, 96 голов внимания, QK-нормализацию для стабилизации логитов внимания. При обучении использовался оптимизатор Muon для ускоренной сходимости.

GLM-4.6 предлагает несколько значительных улучшений относительно предшественника: увеличение контекстного окна с 128K до 200K токенов, улучшенные способности к программированию, продвинутые рассуждения и эффективность - модель завершает задачи примерно на 15% меньшим количеством токенов по сравнению с GLM-4.5. По данным официального релиза, GLM-4.6 была протестирована на восьми публичных бенчмарках, охватывающих агентные задачи, задачи на рассуждение и программирование. По результатам модель продемонстрировала способность уверенно конкурировать с ведущими моделями, такими как DeepSeek-V3.2-Exp и Claude Sonnet 4. Например AIME 25 (математические рассуждения): 98.6%, что значительно превосходит Claude Sonnet 4 (74.3%) и DeepSeek-V3.2-Exp (89.3%). LiveCodeBench v6 (программирование в реальных условиях): 84.5%, существенно опережая GLM-4.5 (63.3%) и DeepSeek-V3.2-Exp (70.1%). BrowseComp (агентные задачи с веб-поиском): 45.1%, значительно превосходя GLM-4.5 (26.4%) и DeepSeek-V3.2-Exp (40.1%). задач. В практических задачах программирования, согласно расширенному тесту CC-Bench, проведенному разработчиками, GLM-4.6 достигает практического паритета с Claude Sonnet 4, показывая 48.6% побед в прямых сравнениях при выполнении реальных задач по фронтенд-разработке, созданию инструментов, анализу данных, тестированию и алгоритмам.

Благодаря своим уникальным характеристикам GLM-4.6 оптимально подходит для создания автономных AI-агентов, профессиональной разработки программного обеспечения от фронтенд-разработки до рефакторинга legacy-кода, анализа значительного массива документов, создания образовательного контента и не в последнюю очередь в научных исследованиях.


Дата анонса: 30.09.2025
Параметров: 357B
Экспертов: 160
Активно параметров при инференсе: 32B
Контекст: 203K
Слоев: 92
Тип внимания: Full Attention
Потребление памяти: 270.0 ГБ в точности 4 бит
Разработчик: Z.ai
Версия Transformers: 4.54.0
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с GLM-4.6. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга GLM-4.6

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-4.32.384.320.nvlink
202 752
32 393216 320 4 924,44 ₽ Запустить
teslah100-4.44.512.320
202 752
44 524288 320 4 1 855,57 ₽ Запустить
h200-3.32.512.480
202 752
32 524288 480 3 1 882,53 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-8.44.512.480.nvlink
202 752
44 524288 480 8 1 791,13 ₽ Запустить
h200-4.32.768.480
202 752
32 786432 480 4 2 517,59 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
h200-8.52.1024.960
202 752
52 1048576 960 8 4 938,30 ₽ Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.