GLM-4.5V — это мультимодальная модель нового поколения, созданная на базе GLM-4.5-Air с 106 млрд параметров (из которых активны 12 млрд на токен). Архитектурно она реализует гибридный подход: в текстовом блоке используется Mixture-of-Experts (MoE) схема с 128 экспертами из которых активируется 8 на каждый. Ядро текстовой части содержит 46 слоёв с 96 головами внимания. Визуальный энкодер основан на 24 слоях трансформера с масштабируемой структурой внимания, он поддерживает изображения до 336×336 пикселей и видео с пространственно-временной агрегацией патчей, что позволяет эффективно анализировать длительные ролики и сложные визуальные сцены.
Ключевая техническая особенность GLM-4.5V — интеграция 3D-RoPE (трёхмерное позиционное кодирование) для усиленной пространственной осведомлённости, и продвинутый модулятор внимания (FA3) для ускорения и экономии памяти при инференсе больших видеопотоков. Модель оснащена режимом Thinking Mode, который позволяет пользователю переключаться между быстрой генерацией ответов и глубоким поэтапным рассуждением. Такая гибкость делает GLM-4.5V особенно полезной в интеллектуальных агентных сценариях и автоматизации GUI-задач: она “понимает” интерфейсы и способна планировать действия в приложениях, что важно при разработке агентных AI-систем или роботизированных процессов взаимодействия с ПО.
На момент выходы GLM-4.5V демонстрирует лидирующие результаты на 41 из 42 основных бенчмарков, по которым сравниваются LLM умеющие обрабатывать изображения и видео, включая MMBench, AI2D, MMStar, MathVista, OSRBench и другие.
Функциональность GLM-4.5V охватывает широкий спектр мультимодальных задач: от продвинутого анализа изображений (понимание сцен, покадровая аналитика, пространственное распознавание) до видеосегментации и выделения событий в длинных роликах, интерпретации сложных диаграмм и документов, создания описаний к изображениям, генерации фронтенд-кода по скриншоту, распознавание текстовой информации из интерфейсов приложений и многое другое. Модель поддерживает генерацию bounding box'ов, точное распознавание объектов и гибкую интеграцию с внешними визуальными данными, что позволяет реализовать уникальные решения для e-commerce, медицины, безопасности, документооборота и разнообразных цифровых помощников.
Наименование модели | Контекст | Тип | GPU | TPS | Статус | Ссылка |
---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
---|---|---|---|---|---|---|---|
16 | 98304 | 160 | 3 | 119,81 ₽ | Запустить | ||
16 | 98304 | 160 | 3 | 218,81 ₽ | Запустить | ||
16 | 131072 | 160 | 1 | 242,04 ₽ | Запустить | ||
16 | 98304 | 160 | 3 | 288,11 ₽ | Запустить | ||
16 | 98304 | 160 | 3 | 387,41 ₽ | Запустить | ||
16 | 131072 | 160 | 1 | 467,54 ₽ | Запустить |
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.