granite-4.0-h-micro

русскоязычная

Granite-4.0-H-Micro является самой компактной моделью в линейке с плотной (не-MoE) архитектурой в 3 млрд параметров. Она сохраняет все преимущества гибридного подхода Mamba-2/Transformer, но использует традиционные плотные feed-forward слои вместо MoE блоков, что упрощает развертывание и снижает сложность инференса. Соотношение слоев в H-Micro между Mamba-2 и трансформерными блоками построено по тому же принципу 9:1, что и в других гибридных моделях серии. Это обеспечивает эффективную обработку длинных последовательностей при сохранении отличного понимания контекста характерного для локального внимания. Отсутствие позиционного кодирования позволяет модели теоретически обрабатывать последовательности неограниченной длины, что особенно ценно для приложений с длинными документами или расширенными диалогами. Плотная архитектура делает модель более предсказуемой в плане использования ресурсов и упрощает оптимизацию для специфических аппаратных платформ.

Несмотря на компактный размер, H-Micro демонстрирует отличные показатели. На бенчмарке MMLU модель достигает 67.43%, по IFEval среднее значение составляет 84.32%, что является выдающимся результатом для модели в 3 миллиарда параметров. В задачах RAG Granite-4.0-H-Micro показывает 72 балла Retrieval-Augmented Generation, превосходя значительно более крупные модели, такие как Qwen3-8B (55 баллов) и Llama-3.3-70B (61 балл).

H-Micro идеально подходит для сценариев с ограниченными ресурсами, включая развертывание на edge-устройствах, встроенных системах и приложениях с критическими требованиями к задержке. Согласно релизным документам H-Micro требует всего 4 GB памяти в 8-битном режиме, что позволяет запускать модель даже на устройствах с ограниченными ресурсами, включая Raspberry Pi с 8GB RAM. Модель также оптимизирована для работы с различными аппаратными ускорителями, включая NPU от Qualcomm. В корпоративных применениях H-Micro рекомендуется использовать для локальной обработки чувствительных данных, где требования к конфиденциальности не позволяют отправлять данные на внешние серверы. Модель эффективно справляется с задачами анализа документов, извлечения информации, базовой классификации и генерации коротких текстов, сохраняя все данные на локальном устройстве.


Дата анонса: 02.10.2025
Параметров: 3.19B
Контекст: 131K
Слоев: 40, с полным вниманием: 4
Тип внимания: Mamba Attention
Потребление памяти: 7.2 ГБ в точности 4 бит
Разработчик: IBM
Версия Transformers: 4.56.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с granite-4.0-h-micro. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга granite-4.0-h-micro

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslat4-1.16.16.160
131 072
16 16384 160 1 29,33 ₽ Запустить
rtx2080ti-1.10.16.500
131 072
10 16384 500 1 34,23 ₽ Запустить
teslaa2-1.16.32.160
131 072
16 32768 160 1 33,74 ₽ Запустить
teslaa10-1.16.32.160
131 072
16 32768 160 1 46,94 ₽ Запустить
rtx3080-1.16.32.160
131 072
16 32768 160 1 51,34 ₽ Запустить
rtx3090-1.16.24.160
131 072
16 24576 160 1 78,53 ₽ Запустить
rtx4090-1.16.32.160
131 072
16 32768 160 1 103,04 ₽ Запустить
teslav100-1.12.64.160
131 072
12 65536 160 1 107,57 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
131 072
16 65536 160 2 109,77 ₽ Запустить
rtx5090-1.16.64.160
131 072
16 65536 160 1 141,77 ₽ Запустить
teslaa100-1.16.64.160
131 072
16 65536 160 1 230,77 ₽ Запустить
teslah100-1.16.64.160
131 072
16 65536 160 1 456,27 ₽ Запустить
h200-1.16.128.160
131 072
16 131072 160 1 623,04 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslat4-1.16.16.160
131 072
16 16384 160 1 29,33 ₽ Запустить
rtx2080ti-1.10.16.500
131 072
10 16384 500 1 34,23 ₽ Запустить
teslaa2-1.16.32.160
131 072
16 32768 160 1 33,74 ₽ Запустить
teslaa10-1.16.32.160
131 072
16 32768 160 1 46,94 ₽ Запустить
rtx3080-1.16.32.160
131 072
16 32768 160 1 51,34 ₽ Запустить
rtx3090-1.16.24.160
131 072
16 24576 160 1 78,53 ₽ Запустить
rtx4090-1.16.32.160
131 072
16 32768 160 1 103,04 ₽ Запустить
teslav100-1.12.64.160
131 072
12 65536 160 1 107,57 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
131 072
16 65536 160 2 109,77 ₽ Запустить
rtx5090-1.16.64.160
131 072
16 65536 160 1 141,77 ₽ Запустить
teslaa100-1.16.64.160
131 072
16 65536 160 1 230,77 ₽ Запустить
teslah100-1.16.64.160
131 072
16 65536 160 1 456,27 ₽ Запустить
h200-1.16.128.160
131 072
16 131072 160 1 623,04 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslat4-1.16.16.160
131 072
16 16384 160 1 29,33 ₽ Запустить
rtx2080ti-1.10.16.500
131 072
10 16384 500 1 34,23 ₽ Запустить
teslaa2-1.16.32.160
131 072
16 32768 160 1 33,74 ₽ Запустить
teslaa10-1.16.32.160
131 072
16 32768 160 1 46,94 ₽ Запустить
rtx3080-1.16.32.160
131 072
16 32768 160 1 51,34 ₽ Запустить
rtx3090-1.16.24.160
131 072
16 24576 160 1 78,53 ₽ Запустить
rtx4090-1.16.32.160
131 072
16 32768 160 1 103,04 ₽ Запустить
teslav100-1.12.64.160
131 072
12 65536 160 1 107,57 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
131 072
16 65536 160 2 109,77 ₽ Запустить
rtx5090-1.16.64.160
131 072
16 65536 160 1 141,77 ₽ Запустить
teslaa100-1.16.64.160
131 072
16 65536 160 1 230,77 ₽ Запустить
teslah100-1.16.64.160
131 072
16 65536 160 1 456,27 ₽ Запустить
h200-1.16.128.160
131 072
16 131072 160 1 623,04 ₽ Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.