granite-4.0-micro

русскоязычная

Granite-4.0-Micro представляет собой традиционную dense-модель на основе трансформерной архитектуры с механизмом self-attention. В отличие от гибридных вариантов семейства, эта модель полностью полагается на проверенную архитектуру, аналогичную предыдущим поколениям Granite. Решение создать традиционную версию было обусловлено необходимостью обеспечить совместимость с инфраструктурой и инструментами, где поддержка Mamba-2 ещё не оптимизирована, такими как некоторые версии llama.cpp, PEFT и другие фреймворки для тонкой настройки. Модель использует стандартное rotary positional encoding (RoPE) для кодирования позиций токенов, что обеспечивает предсказуемое поведение на различных длинах последовательностей. Все 3 миллиарда параметров активны при каждом прогоне, обеспечивая стабильное и консистентное качество генерации.

Несмотря на использование традиционной архитектуры трансформера, модель демонстрирует значительные прирост в качестве по сравнению с предыдущими поколениями благодаря новым и улучшенным методологиям обучения и пост-обучения, а также расширению и уточнению корпуса обучающих данных Granite. Модель обучена на расширенном и тщательно подобранном корпусе из 22 триллионов токенов, включающем данные из DataComp-LM, GneissWeb, TxT360, Wikipedia и других корпоративно ориентированных источников. Улучшенные техники пре-тренинга и пост-тренинга обеспечивают превосходную производительность на задачах, критичных для корпоративного использования, включая следование инструкциям, математические рассуждения, работу с кодом и многоязычность. Пост-обучение включает как синтетические, так и открытые датасеты, охватывающие язык, код, математику, вызов функций, RAG и кибербезопасность. Все обучающие данные подготовлены с использованием open-source фреймворка Data Prep Kit.

В плане производительности Granite-4.0-Micro показывает сильные результаты в ключевых бенчмарках. В MMLU модель достигает 65.98%, что является конкурентным результатом для модели такого размера. В задачах IFEval модель демонстрирует среднее значение 82.31%, подтверждая высокие способности следования инструкциям. Модель также эффективна в кодовых задачах, поддерживает FIM (Fill-In-the-Middle) для автодополнения кода и показывает хорошие результаты в задачах понимания и генерации на различных языках программирования.

Согласно данным релиза Granite-4.0-Micro требует 9 ГБ памяти при развертывании в 8-битном формате с контекстом 128K токенов и размером батча - 1. Модель может работать на потребительских GPU вроде RTX 3060 12GB, делая её доступной для широкого круга разработчиков. Полная совместимость с Hugging Face Transformers, vLLM, llama.cpp, MLX и другими популярными фреймворками для инференса обеспечивает простую интеграцию в существующие пайплайны. Модель особенно подходит для сценариев, где требуется использование PEFT-методов тонкой настройки, таких как LoRA или QLoRA, где поддержка гибридных архитектур ещё развивается.


Дата анонса: 02.10.2025
Параметров: 3.4B
Контекст: 131K
Слоев: 40
Тип внимания: Full Attention
Потребление памяти: 15.1 ГБ в точности 4 бит
Разработчик: IBM
Версия Transformers: 4.56.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с granite-4.0-micro. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга granite-4.0-micro

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa10-1.16.32.160
131 072
16 32768 160 1 46,94 ₽ Запустить
teslat4-2.16.32.160
131 072
16 32768 160 2 48,14 ₽ Запустить
teslaa2-2.16.32.160
131 072
16 32768 160 2 51,34 ₽ Запустить
rtx2080ti-2.12.64.160
131 072
12 65536 160 2 61,37 ₽ Запустить
rtx3090-1.16.24.160
131 072
16 24576 160 1 78,53 ₽ Запустить
rtx3080-2.16.32.160
131 072
16 32762 160 2 86,54 ₽ Запустить
rtx4090-1.16.32.160
131 072
16 32768 160 1 103,04 ₽ Запустить
teslav100-1.12.64.160
131 072
12 65536 160 1 107,57 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
131 072
16 65536 160 2 109,77 ₽ Запустить
rtx5090-1.16.64.160
131 072
16 65536 160 1 141,77 ₽ Запустить
teslaa100-1.16.64.160
131 072
16 65536 160 1 230,77 ₽ Запустить
teslah100-1.16.64.160
131 072
16 65536 160 1 456,27 ₽ Запустить
h200-1.16.128.160
131 072
16 131072 160 1 623,04 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa10-1.16.32.160
131 072
16 32768 160 1 46,94 ₽ Запустить
teslat4-2.16.32.160
131 072
16 32768 160 2 48,14 ₽ Запустить
teslaa2-2.16.32.160
131 072
16 32768 160 2 51,34 ₽ Запустить
rtx2080ti-2.12.64.160
131 072
12 65536 160 2 61,37 ₽ Запустить
rtx3090-1.16.24.160
131 072
16 24576 160 1 78,53 ₽ Запустить
rtx3080-2.16.32.160
131 072
16 32762 160 2 86,54 ₽ Запустить
rtx4090-1.16.32.160
131 072
16 32768 160 1 103,04 ₽ Запустить
teslav100-1.12.64.160
131 072
12 65536 160 1 107,57 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
131 072
16 65536 160 2 109,77 ₽ Запустить
rtx5090-1.16.64.160
131 072
16 65536 160 1 141,77 ₽ Запустить
teslaa100-1.16.64.160
131 072
16 65536 160 1 230,77 ₽ Запустить
teslah100-1.16.64.160
131 072
16 65536 160 1 456,27 ₽ Запустить
h200-1.16.128.160
131 072
16 131072 160 1 623,04 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa10-1.16.32.160
131 072
16 32768 160 1 46,94 ₽ Запустить
teslat4-2.16.32.160
131 072
16 32768 160 2 48,14 ₽ Запустить
teslaa2-2.16.32.160
131 072
16 32768 160 2 51,34 ₽ Запустить
rtx2080ti-3.12.24.120
131 072
12 24576 120 3 74,84 ₽ Запустить
rtx3090-1.16.24.160
131 072
16 24576 160 1 78,53 ₽ Запустить
rtx4090-1.16.32.160
131 072
16 32768 160 1 103,04 ₽ Запустить
teslav100-1.12.64.160
131 072
12 65536 160 1 107,57 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
131 072
16 65536 160 2 109,77 ₽ Запустить
rtx3080-3.16.64.160
131 072
16 65536 160 3 127,37 ₽ Запустить
rtx5090-1.16.64.160
131 072
16 65536 160 1 141,77 ₽ Запустить
teslaa100-1.16.64.160
131 072
16 65536 160 1 230,77 ₽ Запустить
teslah100-1.16.64.160
131 072
16 65536 160 1 456,27 ₽ Запустить
h200-1.16.128.160
131 072
16 131072 160 1 623,04 ₽ Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.