Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

Tesla H200

Tesla H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

Tesla A100

RTX A5000

Tesla A10

RTX 2080 Ti

Tesla A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold второго и третьего поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го и 3-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

granite-4.0-h-small

русскоязычная

Granite-4.0-H-Small является флагманской моделью семейства, представляющей собой гибридную MoE-модель с 32 млрд общих параметров и 9 млрд активных параметров во время инференса. Архитектурно модель сочетает блоки Mamba-2 с трансформер-блоками в соотношении 9:1. Суть подхода заключается в том, что Mamba-2 эффективно обрабатывает глобальный контекст с линейной сложностью вычислений, периодически передавая информацию трансформерным блокам для более детального анализа локального контекста через механизм self-attention. В отличие от традиционных трансформеров, где вычислительные затраты растут квадратично с увеличением длины последовательности, Mamba-2 масштабируется линейно, а требования к памяти остаются константными независимо от контекста. Модель использует fine-grained mixture of experts с общими экспертами, которые активируются постоянно, что повышает эффективность использования параметров. Важной особенностью является отсутствие позиционного кодирования (NoPE), так как Mamba изначально сохраняет информацию о порядке токенов благодаря последовательной обработке.

На бенчмарке IFEval (измеряет способность следовать инструкциям) модель достигает 0.89 баллов, превосходя все открытые модели за исключением Llama 4 Maverick с 402 млрд параметров — модели в 12 раз крупнее. Модель также показывает превосходные результаты на MTRAG — бенчмарке для сложных задач RAG с множественными оборотами, неотвечаемыми вопросами и информацией из различных доменов. На Berkeley Function Calling Leaderboard v3 (BFCL) она демонстрирует конкурентоспособные результаты с гораздо более крупными моделями.

Эта модель разработана как рабочая лошадка для ключевых корпоративных задач, таких как RAG (Retrieval-Augmented Generation) и агентские рабочие процессы, при этом распространяется по открытой лицензии apache-2.0, отвечает международным стандартам безопасного ИИ, отлично масштабируется по контексту и одновременным потокам (batch size) и, что немаловажно, существенно менее требовательная к ресурсам чем другие модели схожего размера.

Дата анонса: 02.10.2025
Параметров: 32.2B
Экспертов: 72
Активно параметров при инференсе: 9B
Контекст: 131K
Слоев: 40, с полным вниманием: 4
Тип внимания: Mamba Attention
Потребление памяти: 30.7 ГБ в точности 4 бит
Разработчик: IBM
Версия Transformers: 4.56.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с granite-4.0-h-small. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	TPS	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга granite-4.0-h-small

Цены:

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslat4-3.32.64.160 131 072 pipeline	32	65536	160	3	78,57 ₽	56 570,40 ₽	Запустить
teslaa10-2.16.64.160 131 072 tensor	16	65536	160	2	83,37 ₽	60 026,40 ₽	Запустить
teslat4-4.16.64.160 131 072 tensor	16	65536	160	4	85,77 ₽	61 754,40 ₽	Запустить
teslaa2-3.32.128.160 131 072 pipeline	32	131072	160	3	94,64 ₽	68 140,80 ₽	Запустить
rtx2080ti-4.16.32.160 131 072 tensor	16	32768	160	4	99,74 ₽	71 812,80 ₽	Запустить
rtxa5000-2.16.64.160.nvlink 131 072 tensor	16	65536	160	2	109,77 ₽	79 034,40 ₽	Запустить
teslaa2-4.32.128.160 131 072 tensor	32	131072	160	4	112,24 ₽	80 812,80 ₽	Запустить
rtx3090-2.16.64.160 131 072 tensor	16	65536	160	2	149,37 ₽	107 546,40 ₽	Запустить
rtx4090-2.16.64.160 131 072 tensor	16	65536	160	2	195,57 ₽	140 810,40 ₽	Запустить
teslav100-2.16.64.240 131 072 tensor	16	65535	240	2	198,54 ₽	142 948,80 ₽	Запустить
teslaa100-1.16.64.160 131 072	16	65536	160	1	211,77 ₽	152 474,40 ₽	Запустить
rtx5090-2.16.64.160 131 072 tensor	16	65536	160	2	261,77 ₽	188 474,40 ₽	Запустить
teslah100-1.16.64.160 131 072	16	65536	160	1	341,77 ₽	246 074,40 ₽	Запустить
h200-1.16.128.160 131 072	16	131072	160	1	423,04 ₽	304 588,80 ₽	Запустить

Цены:

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslat4-3.32.64.160 131 072 pipeline	32	65536	160	3	78,57 ₽	56 570,40 ₽	Запустить
teslaa10-2.16.64.160 131 072 tensor	16	65536	160	2	83,37 ₽	60 026,40 ₽	Запустить
teslat4-4.16.64.160 131 072 tensor	16	65536	160	4	85,77 ₽	61 754,40 ₽	Запустить
teslaa2-3.32.128.160 131 072 pipeline	32	131072	160	3	94,64 ₽	68 140,80 ₽	Запустить
rtxa5000-2.16.64.160.nvlink 131 072 tensor	16	65536	160	2	109,77 ₽	79 034,40 ₽	Запустить
teslaa2-4.32.128.160 131 072 tensor	32	131072	160	4	112,24 ₽	80 812,80 ₽	Запустить
rtx3090-2.16.64.160 131 072 tensor	16	65536	160	2	149,37 ₽	107 546,40 ₽	Запустить
rtx4090-2.16.64.160 131 072 tensor	16	65536	160	2	195,57 ₽	140 810,40 ₽	Запустить
teslav100-2.16.64.240 131 072 tensor	16	65535	240	2	198,54 ₽	142 948,80 ₽	Запустить
teslaa100-1.16.64.160 131 072	16	65536	160	1	211,77 ₽	152 474,40 ₽	Запустить
rtx5090-2.16.64.160 131 072 tensor	16	65536	160	2	261,77 ₽	188 474,40 ₽	Запустить
teslah100-1.16.64.160 131 072	16	65536	160	1	341,77 ₽	246 074,40 ₽	Запустить
h200-1.16.128.160 131 072	16	131072	160	1	423,04 ₽	304 588,80 ₽	Запустить

Цены:

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslaa2-6.32.128.160 131 072 pipeline	32	131072	160	6	147,44 ₽	106 156,80 ₽	Запустить
teslaa10-4.16.128.160 131 072 tensor	16	131072	160	4	156,24 ₽	112 492,80 ₽	Запустить
rtxa5000-4.16.128.160.nvlink 131 072 tensor	16	131072	160	4	209,04 ₽	150 508,80 ₽	Запустить
teslaa100-1.16.128.160 131 072	16	131072	160	1	223,04 ₽	160 588,80 ₽	Запустить
rtx3090-4.16.96.320 131 072 tensor	16	98304	320	4	284,16 ₽	204 595,20 ₽	Запустить
teslav100-3.64.256.320 131 072 pipeline	64	262144	320	3	347,52 ₽	250 214,40 ₽	Запустить
teslah100-1.16.128.160 131 072	16	131072	160	1	353,04 ₽	254 188,80 ₽	Запустить
rtx4090-4.16.96.320 131 072 tensor	16	98304	320	4	376,56 ₽	271 123,20 ₽	Запустить
rtx5090-3.16.96.160 131 072 pipeline	16	98304	160	3	387,41 ₽	278 935,20 ₽	Запустить
teslav100-4.32.96.160 131 072 tensor	32	98304	160	4	388,21 ₽	279 511,20 ₽	Запустить
h200-1.16.128.160 131 072	16	131072	160	1	423,04 ₽	304 588,80 ₽	Запустить
rtx5090-4.16.128.160 131 072 tensor	16	131072	160	4	513,04 ₽	369 388,80 ₽	Запустить

Связанные модели

granite-4.0-h-tiny

granite-4.0-h-micro

granite-4.0-micro

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.