GLM-4.7

размышляющая
русскоязычная

GLM-4.7 — языковая модель, представляющая собой значительный шаг в развитии серии GLM от компании Z.ai с фокусом на интеллектуального агента для программирования и решения сложных задач. Её архитектура, унаследованная от GLM-4.5, следует концепции ARC (Agentic, Reasoning, and Coding — агентские способности, рассуждение и программирование). Технически это MoE модель с 358 миллиардами параметров, 92 скрытыми слоями и поддержкой контекста до 202 752 токенов, причем из 160 доступных «экспертов» для обработки каждого токена активируется всего 8.  Такая архитектура позволяет эффективно распределять вычислительные ресурсы, обеспечивая высокую производительность без избыточного потребления ресурсов.

Уникальность GLM-4.7 и её главное преимущество перед предыдущими версиями заключается в глубоко оптимизированных агентских способностях, особенно в сфере программирования. Инновацией стала система многоуровневого «мышления» (Thinking), которая включает Interleaved Thinking (размышление перед каждым действием), Preserved Thinking (сохранение цепочек рассуждений между запросами для сложных задач) и Turn-level Thinking (позволяет управлять глубиной анализа на уровне каждого запроса). Эти возможности делают GLM-4.7 особенно эффективной в долгосрочных агентских сценариях, где требуется последовательность и согласованность действий, а также в задачах, требующих точного следования инструкциям. Дополнительно модель совершила рывок в Vibe Coding, научившись генерировать визуально привлекательные и современные веб-страницы, слайды и графические элементы и многое другое по пользовательским описаниям.

На ключевых бенчмарках GLM-4.7 демонстрирует конкурентоспособные, а часто и лидирующие результаты. В области рассуждений (Reasoning) она показывает 97,1% на сложном математическом тесте HMMT Feb. 2025, занимая второе место, непосредственно после Gemini 3.0 Pro. Как агент для использования инструментов (Tool Using) модель набирает 87,4% на бенчмарке τ²-Bench, который оценивает способность выполнять многошаговые задачи в средах вроде интернет-магазина или сервиса бронирования, опережая GPT-5-High (82,4%) и Claude Sonnet 4.5 (87,2%). На тесте LiveCodeBench-v6 (84,9%), оценивающем решение актуальных задач по программированию, она также показывает результат на уровне лучших моделей.

Сценарии использования GLM-4.7 охватывают широкий спектр задач, где требуются продвинутые способности к программированию и агентское взаимодействие. Модель идеально подходит для интеграции в кодинг-агенты (Claude Code, Kilo Code, Roo Code, Cline), где ее способность генерировать качественный код на разных языках, работать с терминалом и сохранять контекст в многоходовых задачах дает значительное преимущество. GLM-4.7 также эффективна в создании пользовательских интерфейсов (Vibe Coding), генерации веб-страниц и презентаций, а также в сценариях, требующих комплексного мышления с использованием внешних инструментов, таких как веб-браузинг, анализ данных и математические вычисления.


Дата анонса: 22.12.2025
Параметров: 358.337791296B
Экспертов: 160
Активно параметров при инференсе: 32B
Контекст: 203K
Слоев: 92
Тип внимания: Full Attention
Разработчик: Z.ai
Версия Transformers: 4.54.0
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с GLM-4.7. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга GLM-4.7

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-4.32.384.320.nvlink
202 752
tensor
32 393216 320 4 848,44 ₽ Запустить
h200-3.32.512.480
202 752
tensor
32 524288 480 3 1 282,53 ₽ Запустить
h100-4.44.512.320
202 752
tensor
44 524288 320 4 1 397,57 ₽ Запустить
h100nvl-4.32.384.480
202 752
tensor
32 393216 480 4 1 450,00 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-8.44.512.480.nvlink
202 752
tensor
44 524288 480 8 1 639,13 ₽ Запустить
h200-4.32.768.480
202 752
tensor
32 786432 480 4 1 717,59 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
h200-8.52.1024.960
202 752
tensor
52 1048576 960 8 3 338,30 ₽ Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.