Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

Tesla H200

Tesla H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

Tesla A100

RTX A5000

Tesla A10

RTX 2080 Ti

Tesla A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold второго и третьего поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го и 3-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

granite-4.0-micro

русскоязычная

Granite-4.0-Micro представляет собой традиционную dense-модель на основе трансформерной архитектуры с механизмом self-attention. В отличие от гибридных вариантов семейства, эта модель полностью полагается на проверенную архитектуру, аналогичную предыдущим поколениям Granite. Решение создать традиционную версию было обусловлено необходимостью обеспечить совместимость с инфраструктурой и инструментами, где поддержка Mamba-2 ещё не оптимизирована, такими как некоторые версии llama.cpp, PEFT и другие фреймворки для тонкой настройки. Модель использует стандартное rotary positional encoding (RoPE) для кодирования позиций токенов, что обеспечивает предсказуемое поведение на различных длинах последовательностей. Все 3 миллиарда параметров активны при каждом прогоне, обеспечивая стабильное и консистентное качество генерации.

Несмотря на использование традиционной архитектуры трансформера, модель демонстрирует значительные прирост в качестве по сравнению с предыдущими поколениями благодаря новым и улучшенным методологиям обучения и пост-обучения, а также расширению и уточнению корпуса обучающих данных Granite. Модель обучена на расширенном и тщательно подобранном корпусе из 22 триллионов токенов, включающем данные из DataComp-LM, GneissWeb, TxT360, Wikipedia и других корпоративно ориентированных источников. Улучшенные техники пре-тренинга и пост-тренинга обеспечивают превосходную производительность на задачах, критичных для корпоративного использования, включая следование инструкциям, математические рассуждения, работу с кодом и многоязычность. Пост-обучение включает как синтетические, так и открытые датасеты, охватывающие язык, код, математику, вызов функций, RAG и кибербезопасность. Все обучающие данные подготовлены с использованием open-source фреймворка Data Prep Kit.

В плане производительности Granite-4.0-Micro показывает сильные результаты в ключевых бенчмарках. В MMLU модель достигает 65.98%, что является конкурентным результатом для модели такого размера. В задачах IFEval модель демонстрирует среднее значение 82.31%, подтверждая высокие способности следования инструкциям. Модель также эффективна в кодовых задачах, поддерживает FIM (Fill-In-the-Middle) для автодополнения кода и показывает хорошие результаты в задачах понимания и генерации на различных языках программирования.

Согласно данным релиза Granite-4.0-Micro требует 9 ГБ памяти при развертывании в 8-битном формате с контекстом 128K токенов и размером батча - 1. Модель может работать на потребительских GPU вроде RTX 3060 12GB, делая её доступной для широкого круга разработчиков. Полная совместимость с Hugging Face Transformers, vLLM, llama.cpp, MLX и другими популярными фреймворками для инференса обеспечивает простую интеграцию в существующие пайплайны. Модель особенно подходит для сценариев, где требуется использование PEFT-методов тонкой настройки, таких как LoRA или QLoRA, где поддержка гибридных архитектур ещё развивается.

Дата анонса: 02.10.2025
Параметров: 3.4B
Контекст: 131K
Слоев: 40
Тип внимания: Full Attention
Потребление памяти: 15.1 ГБ в точности 4 бит
Разработчик: IBM
Версия Transformers: 4.56.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с granite-4.0-micro. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	TPS	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга granite-4.0-micro

Цены:

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslaa10-1.16.32.160 131 072	16	32768	160	1	46,94 ₽	33 796,80 ₽	Запустить
teslat4-2.16.32.160 131 072 tensor	16	32768	160	2	48,14 ₽	34 660,80 ₽	Запустить
teslaa2-2.16.32.160 131 072 tensor	16	32768	160	2	51,34 ₽	36 964,80 ₽	Запустить
rtx2080ti-2.12.64.160 131 072 tensor	12	65536	160	2	61,37 ₽	44 186,40 ₽	Запустить
rtx3090-1.16.24.160 131 072	16	24576	160	1	78,53 ₽	56 541,60 ₽	Запустить
rtx3080-2.16.32.160 131 072 tensor	16	32762	160	2	86,54 ₽	62 308,80 ₽	Запустить
rtx4090-1.16.32.160 131 072	16	32768	160	1	103,04 ₽	74 188,80 ₽	Запустить
teslav100-1.12.64.160 131 072	12	65536	160	1	107,57 ₽	77 450,40 ₽	Запустить
rtxa5000-2.16.64.160.nvlink 131 072 tensor	16	65536	160	2	109,77 ₽	79 034,40 ₽	Запустить
rtx5090-1.16.64.160 131 072	16	65536	160	1	141,77 ₽	102 074,40 ₽	Запустить
teslaa100-1.16.64.160 131 072	16	65536	160	1	211,77 ₽	152 474,40 ₽	Запустить
teslah100-1.16.64.160 131 072	16	65536	160	1	341,77 ₽	246 074,40 ₽	Запустить
h200-1.16.128.160 131 072	16	131072	160	1	423,04 ₽	304 588,80 ₽	Запустить

Цены:

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslaa10-1.16.32.160 131 072	16	32768	160	1	46,94 ₽	33 796,80 ₽	Запустить
teslat4-2.16.32.160 131 072 tensor	16	32768	160	2	48,14 ₽	34 660,80 ₽	Запустить
teslaa2-2.16.32.160 131 072 tensor	16	32768	160	2	51,34 ₽	36 964,80 ₽	Запустить
rtx2080ti-2.12.64.160 131 072 tensor	12	65536	160	2	61,37 ₽	44 186,40 ₽	Запустить
rtx3090-1.16.24.160 131 072	16	24576	160	1	78,53 ₽	56 541,60 ₽	Запустить
rtx3080-2.16.32.160 131 072 tensor	16	32762	160	2	86,54 ₽	62 308,80 ₽	Запустить
rtx4090-1.16.32.160 131 072	16	32768	160	1	103,04 ₽	74 188,80 ₽	Запустить
teslav100-1.12.64.160 131 072	12	65536	160	1	107,57 ₽	77 450,40 ₽	Запустить
rtxa5000-2.16.64.160.nvlink 131 072 tensor	16	65536	160	2	109,77 ₽	79 034,40 ₽	Запустить
rtx5090-1.16.64.160 131 072	16	65536	160	1	141,77 ₽	102 074,40 ₽	Запустить
teslaa100-1.16.64.160 131 072	16	65536	160	1	211,77 ₽	152 474,40 ₽	Запустить
teslah100-1.16.64.160 131 072	16	65536	160	1	341,77 ₽	246 074,40 ₽	Запустить
h200-1.16.128.160 131 072	16	131072	160	1	423,04 ₽	304 588,80 ₽	Запустить

Цены:

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslaa10-1.16.32.160 131 072	16	32768	160	1	46,94 ₽	33 796,80 ₽	Запустить
teslat4-2.16.32.160 131 072 tensor	16	32768	160	2	48,14 ₽	34 660,80 ₽	Запустить
teslaa2-2.16.32.160 131 072 tensor	16	32768	160	2	51,34 ₽	36 964,80 ₽	Запустить
rtx2080ti-3.12.24.120 131 072 pipeline	12	24576	120	3	74,84 ₽	53 884,80 ₽	Запустить
rtx3090-1.16.24.160 131 072	16	24576	160	1	78,53 ₽	56 541,60 ₽	Запустить
rtx2080ti-4.16.32.160 131 072 tensor	16	32768	160	4	99,74 ₽	71 812,80 ₽	Запустить
rtx4090-1.16.32.160 131 072	16	32768	160	1	103,04 ₽	74 188,80 ₽	Запустить
teslav100-1.12.64.160 131 072	12	65536	160	1	107,57 ₽	77 450,40 ₽	Запустить
rtxa5000-2.16.64.160.nvlink 131 072 tensor	16	65536	160	2	109,77 ₽	79 034,40 ₽	Запустить
rtx3080-3.16.64.160 131 072 pipeline	16	65536	160	3	127,37 ₽	91 706,40 ₽	Запустить
rtx5090-1.16.64.160 131 072	16	65536	160	1	141,77 ₽	102 074,40 ₽	Запустить
rtx3080-4.16.64.160 131 072 tensor	16	65536	160	4	162,57 ₽	117 050,40 ₽	Запустить
teslaa100-1.16.64.160 131 072	16	65536	160	1	211,77 ₽	152 474,40 ₽	Запустить
teslah100-1.16.64.160 131 072	16	65536	160	1	341,77 ₽	246 074,40 ₽	Запустить
h200-1.16.128.160 131 072	16	131072	160	1	423,04 ₽	304 588,80 ₽	Запустить

Связанные модели

granite-4.0-h-small

granite-4.0-h-tiny

granite-4.0-h-micro

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.