GLM-4.5

размышляющая
русскоязычная

GLM-4.5 представляет собой новое слово области больших языковых моделей. Она объединяет в себе расширенные агентские возможности, продвинутое рассуждение и программирование с артефактами в единой архитектуре. Эта модель с 355 миллиардами общих параметров и 32 миллиардами активных параметров создана с использованием инновационной MoE (Mixture of Experts) архитектуры, которая кардинально улучшает вычислительную эффективность как при обучении, так и при инференсе. В отличие от DeepSeek-V3 и Kimi K2, GLM-4.5 использует подход "глубина важнее ширины" - уменьшает ширину модели (скрытую размерность и количество экспертов), увеличивая высоту (количество слоев), что обеспечивает превосходный результат. Модель оснащена Grouped-Query Attention с частичной RoPE, использует 96 голов для скрытой размерности 5120 и применяет оптимизатор Muon для ускоренной конвергенции и поддержки больших батчей. Особенно примечательна QK-Norm для стабилизации диапазона attention logits и MTP (Multi-Token Prediction) слой для поддержки спекулятивного декодирования во время инференса. Эти технические решения позволяют модели демонстрировать исключительную производительность на бенчмарках рассуждений, таких как MMLU и BBH, где увеличенное количество attention heads способствует улучшению результата. Гибридная система рассуждений GLM-4.5 предлагает два режима работы: "thinking mode" для сложных рассуждений и использования инструментов, и "non-thinking mode" для мгновенных ответов. Этот подход решает фундаментальную проблему баланса между скоростью ответа и качеством рассуждений, автоматически определяя оптимальный режим на основе сложности запроса.

Впечатляющие результаты на бенчмарках подтверждают статус GLM-4.5 как модели мирового уровня. На глобальном рейтинге из 12 комплексных бенчмарков модель заняла 3-е место с результатом 63.2, уступив лишь Grok-4 и GPT-o3.

GLM-4.5 выгодно отличается от конкурентов в создании презентаций, благодаря встроенному PPT/Poster агенту модель не полагается на шаблоны, а автономно ищет информацию в интернете, находит подходящие изображения и генерирует контент напрямую в HTML. Пользователи могут запросить как простые, так и сложные дизайны, или загрузить документы, после чего агент самостоятельно создает слайды.

Возможности GLM-4.5 в full-stack разработке поражают своей комплексностью и практичностью. Модель способна создавать полноценные веб-приложения с фронтендом, управлением базами данных и бэкенд развертыванием. Разработанный командой агент, позволяет пользователям создавать целые веб-сайты, сложные автономные артефакты от интерактивных мини-игр до физических симуляций в форматах HTML, SVG, Python, используя всего несколько слов в промпте для постановки задачи, а затем легко добавлять и корректировать функции через диалог.


Дата анонса: 28.07.2025
Параметров: 385B
Экспертов: 160
Активно параметров при инференсе: 32B
Контекст: 131K
Тип внимания: Full Attention
Потребление памяти: 225.3 ГБ в точности 4 бит
Разработчик: Z.ai
Версия Transformers: 4.54.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами для теста инференса и знакомства с GLM-4.5.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга GLM-4.5

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-4.16.256.240 16 262144 240 4 892,34 ₽ Запустить
rtx5090-8.44.256.240 44 262144 240 8 1 031,74 ₽ Запустить
teslah100-4.16.256.240 16 262144 240 4 1 794,34 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.