GLM-4.5V

размышляющая
мультимодальная
русскоязычная

GLM-4.5V — это мультимодальная модель нового поколения, созданная на базе GLM-4.5-Air с 106 млрд параметров (из которых активны 12 млрд на токен). Архитектурно она реализует гибридный подход: в текстовом блоке используется Mixture-of-Experts (MoE) схема с 128 экспертами из которых активируется 8 на каждый. Ядро текстовой части содержит 46 слоёв с 96 головами внимания. Визуальный энкодер основан на 24 слоях трансформера с масштабируемой структурой внимания, он поддерживает изображения до 336×336 пикселей и видео с пространственно-временной агрегацией патчей, что позволяет эффективно анализировать длительные ролики и сложные визуальные сцены.

Ключевая техническая особенность GLM-4.5V — интеграция 3D-RoPE (трёхмерное позиционное кодирование) для усиленной пространственной осведомлённости, и продвинутый модулятор внимания (FA3) для ускорения и экономии памяти при инференсе больших видеопотоков. Модель оснащена режимом Thinking Mode, который позволяет пользователю переключаться между быстрой генерацией ответов и глубоким поэтапным рассуждением. Такая гибкость делает GLM-4.5V особенно полезной в интеллектуальных агентных сценариях и автоматизации GUI-задач: она “понимает” интерфейсы и способна планировать действия в приложениях, что важно при разработке агентных AI-систем или роботизированных процессов взаимодействия с ПО.

На момент выходы GLM-4.5V демонстрирует лидирующие результаты на 41 из 42 основных бенчмарков, по которым сравниваются LLM умеющие обрабатывать изображения и видео, включая MMBench, AI2D, MMStar, MathVista, OSRBench и другие.

Функциональность GLM-4.5V охватывает широкий спектр мультимодальных задач: от продвинутого анализа изображений (понимание сцен, покадровая аналитика, пространственное распознавание) до видеосегментации и выделения событий в длинных роликах, интерпретации сложных диаграмм и документов, создания описаний к изображениям, генерации фронтенд-кода по скриншоту, распознавание текстовой информации из интерфейсов приложений и многое другое. Модель поддерживает генерацию bounding box'ов, точное распознавание объектов и гибкую интеграцию с внешними визуальными данными, что позволяет реализовать уникальные решения для e-commerce, медицины, безопасности, документооборота и разнообразных цифровых помощников.


Дата анонса: 11.08.2025
Параметров: 108B
Экспертов: 128
Активно параметров при инференсе: 12B
Контекст: 66K
Тип внимания: Full Attention
Потребление памяти: 61.8 ГБ в точности 4 бит
Разработчик: Z.ai
Версия Transformers: 4.55.0.dev0
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами для теста инференса и знакомства с GLM-4.5V.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга GLM-4.5V

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa10-3.16.96.160 16 98304 160 3 119,81 ₽ Запустить
rtx3090-3.16.96.160 16 98304 160 3 218,81 ₽ Запустить
teslaa100-1.16.128.160 16 131072 160 1 242,04 ₽ Запустить
rtx4090-3.16.96.160 16 98304 160 3 288,11 ₽ Запустить
rtx5090-3.16.96.160 16 98304 160 3 387,41 ₽ Запустить
teslah100-1.16.128.160 16 131072 160 1 467,54 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-2.24.256.240 24 262144 240 2 478,74 ₽ Запустить
rtx5090-4.16.128.320 16 131072 320 4 514,59 ₽ Запустить
teslah100-2.24.256.240 24 262144 240 2 929,74 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-3.32.384.320 32 393216 320 3 715,44 ₽ Запустить
teslah100-3.32.384.320 32 393216 320 3 1 391,94 ₽ Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.