Granite-4.0-H-Micro является самой компактной моделью в линейке с плотной (не-MoE) архитектурой в 3 млрд параметров. Она сохраняет все преимущества гибридного подхода Mamba-2/Transformer, но использует традиционные плотные feed-forward слои вместо MoE блоков, что упрощает развертывание и снижает сложность инференса. Соотношение слоев в H-Micro между Mamba-2 и трансформерными блоками построено по тому же принципу 9:1, что и в других гибридных моделях серии. Это обеспечивает эффективную обработку длинных последовательностей при сохранении отличного понимания контекста характерного для локального внимания. Отсутствие позиционного кодирования позволяет модели теоретически обрабатывать последовательности неограниченной длины, что особенно ценно для приложений с длинными документами или расширенными диалогами. Плотная архитектура делает модель более предсказуемой в плане использования ресурсов и упрощает оптимизацию для специфических аппаратных платформ.
Несмотря на компактный размер, H-Micro демонстрирует отличные показатели. На бенчмарке MMLU модель достигает 67.43%, по IFEval среднее значение составляет 84.32%, что является выдающимся результатом для модели в 3 миллиарда параметров. В задачах RAG Granite-4.0-H-Micro показывает 72 балла Retrieval-Augmented Generation, превосходя значительно более крупные модели, такие как Qwen3-8B (55 баллов) и Llama-3.3-70B (61 балл).
H-Micro идеально подходит для сценариев с ограниченными ресурсами, включая развертывание на edge-устройствах, встроенных системах и приложениях с критическими требованиями к задержке. Согласно релизным документам H-Micro требует всего 4 GB памяти в 8-битном режиме, что позволяет запускать модель даже на устройствах с ограниченными ресурсами, включая Raspberry Pi с 8GB RAM. Модель также оптимизирована для работы с различными аппаратными ускорителями, включая NPU от Qualcomm. В корпоративных применениях H-Micro рекомендуется использовать для локальной обработки чувствительных данных, где требования к конфиденциальности не позволяют отправлять данные на внешние серверы. Модель эффективно справляется с задачами анализа документов, извлечения информации, базовой классификации и генерации коротких текстов, сохраняя все данные на локальном устройстве.
Наименование модели | Контекст | Тип | GPU | TPS | Статус | Ссылка |
---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
---|---|---|---|---|---|---|---|
131 072 |
16 | 16384 | 160 | 1 | 29,33 ₽ | Запустить | |
131 072 |
10 | 16384 | 500 | 1 | 34,23 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 33,74 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 46,94 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 51,34 ₽ | Запустить | |
131 072 |
16 | 24576 | 160 | 1 | 78,53 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 103,04 ₽ | Запустить | |
131 072 |
12 | 65536 | 160 | 1 | 107,57 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 141,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 230,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 456,27 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 1 | 623,04 ₽ | Запустить |
Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
---|---|---|---|---|---|---|---|
131 072 |
16 | 16384 | 160 | 1 | 29,33 ₽ | Запустить | |
131 072 |
10 | 16384 | 500 | 1 | 34,23 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 33,74 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 46,94 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 51,34 ₽ | Запустить | |
131 072 |
16 | 24576 | 160 | 1 | 78,53 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 103,04 ₽ | Запустить | |
131 072 |
12 | 65536 | 160 | 1 | 107,57 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 141,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 230,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 456,27 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 1 | 623,04 ₽ | Запустить |
Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
---|---|---|---|---|---|---|---|
131 072 |
16 | 16384 | 160 | 1 | 29,33 ₽ | Запустить | |
131 072 |
10 | 16384 | 500 | 1 | 34,23 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 33,74 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 46,94 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 51,34 ₽ | Запустить | |
131 072 |
16 | 24576 | 160 | 1 | 78,53 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 103,04 ₽ | Запустить | |
131 072 |
12 | 65536 | 160 | 1 | 107,57 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 141,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 230,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 456,27 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 1 | 623,04 ₽ | Запустить |
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.