GLM-4.5-Air

размышляющая
русскоязычная

GLM-4.5-Air это воплощение принципа "эффективность и скорость" созданная специально для агентных приложений с ограниченными вычислительными ресурсами – да разработчики уверяют рассуждающая модель, может быть, и быстрой и точной одновременно. Эта компактная модель с 106 миллиардами общих параметров и 12 миллиардами активных параметров демонстрирует, как грамотная оптимизация архитектуры может сохранить ключевые возможности более крупной модели при радикальном снижении требований к ресурсам. Используя ту же MoE архитектуру, что и старший брат, но оптимизирована для быстрого инференса и ресурсоэффективности без ущерба для основных возможностей. Специализированное обучение для агент-ориентированных задач включает экстенсивную оптимизацию для использования инструментов, веб-браузинга, разработки программного обеспечения и фронтенд-разработки. Это позволяет GLM-4.5-Air обеспечивать превосходную производительность в практических задачах разработки по сравнению с моделями общего назначения аналогичного размера.

Гибридная система рассуждений GLM-4.5-Air адаптирована для высокоскоростных интерактивных приложений. Модель наследует двухрежимную архитектуру старшей версии, но оптимизирована для минимизации латентности в non-thinking режиме, обеспечивая время отклика менее секунды для большинства запросов. Это делает ее идеальной для real-time приложений, таких как автодополнение кода, интерактивная отладка и генерация документации в реальном времени. В thinking режиме модель все еще способна на сложные многошаговые рассуждения, но с оптимизированным балансом между глубиной анализа и скоростью выполнения.

Производительность GLM-4.5-Air на бенчмарках впечатляет для модели своего класса. Заняв 6-е место в общем рейтинге из 12 ключевых бенчмарков с результатом 59.8, модель опережает множество более крупных конкурентов. Особенно впечатляет успешность вызова инструментов на уровне 90.6%, превосходящая многие крупные проприетарные решения.


Дата анонса: 28.07.2025
Параметров: 110B
Экспертов: 128
Активно параметров при инференсе: 12B
Контекст: 131K
Тип внимания: Full Attention
Потребление памяти: 74.2 ГБ в точности 4 бит
Разработчик: Z.ai
Версия Transformers: 4.54.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами для теста инференса и знакомства с GLM-4.5-Air.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга GLM-4.5-Air

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa10-4.16.128.160 16 131072 160 4 156,24 ₽ Запустить
rtx3090-4.16.128.160 16 131072 160 4 288,24 ₽ Запустить
rtx4090-4.16.128.160 16 131072 160 4 380,64 ₽ Запустить
rtx5090-3.16.96.160 16 98304 160 3 387,41 ₽ Запустить
teslaa100-2.24.256.160 24 262144 160 2 477,97 ₽ Запустить
teslah100-2.24.256.160 24 262144 160 2 928,97 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-2.24.256.240 24 262144 240 2 478,74 ₽ Запустить
teslah100-2.24.256.240 24 262144 240 2 929,74 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-4.44.512.320 44 524288 320 4 953,57 ₽ Запустить
teslah100-4.44.512.320 44 524288 320 4 1 855,57 ₽ Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.