granite-4.0-micro

русскоязычная

Granite-4.0-Micro представляет собой традиционную dense-модель на основе трансформерной архитектуры с механизмом self-attention. В отличие от гибридных вариантов семейства, эта модель полностью полагается на проверенную архитектуру, аналогичную предыдущим поколениям Granite. Решение создать традиционную версию было обусловлено необходимостью обеспечить совместимость с инфраструктурой и инструментами, где поддержка Mamba-2 ещё не оптимизирована, такими как некоторые версии llama.cpp, PEFT и другие фреймворки для тонкой настройки. Модель использует стандартное rotary positional encoding (RoPE) для кодирования позиций токенов, что обеспечивает предсказуемое поведение на различных длинах последовательностей. Все 3 миллиарда параметров активны при каждом прогоне, обеспечивая стабильное и консистентное качество генерации.

Несмотря на использование традиционной архитектуры трансформера, модель демонстрирует значительные прирост в качестве по сравнению с предыдущими поколениями благодаря новым и улучшенным методологиям обучения и пост-обучения, а также расширению и уточнению корпуса обучающих данных Granite. Модель обучена на расширенном и тщательно подобранном корпусе из 22 триллионов токенов, включающем данные из DataComp-LM, GneissWeb, TxT360, Wikipedia и других корпоративно ориентированных источников. Улучшенные техники пре-тренинга и пост-тренинга обеспечивают превосходную производительность на задачах, критичных для корпоративного использования, включая следование инструкциям, математические рассуждения, работу с кодом и многоязычность. Пост-обучение включает как синтетические, так и открытые датасеты, охватывающие язык, код, математику, вызов функций, RAG и кибербезопасность. Все обучающие данные подготовлены с использованием open-source фреймворка Data Prep Kit.

В плане производительности Granite-4.0-Micro показывает сильные результаты в ключевых бенчмарках. В MMLU модель достигает 65.98%, что является конкурентным результатом для модели такого размера. В задачах IFEval модель демонстрирует среднее значение 82.31%, подтверждая высокие способности следования инструкциям. Модель также эффективна в кодовых задачах, поддерживает FIM (Fill-In-the-Middle) для автодополнения кода и показывает хорошие результаты в задачах понимания и генерации на различных языках программирования.

Согласно данным релиза Granite-4.0-Micro требует 9 ГБ памяти при развертывании в 8-битном формате с контекстом 128K токенов и размером батча - 1. Модель может работать на потребительских GPU вроде RTX 3060 12GB, делая её доступной для широкого круга разработчиков. Полная совместимость с Hugging Face Transformers, vLLM, llama.cpp, MLX и другими популярными фреймворками для инференса обеспечивает простую интеграцию в существующие пайплайны. Модель особенно подходит для сценариев, где требуется использование PEFT-методов тонкой настройки, таких как LoRA или QLoRA, где поддержка гибридных архитектур ещё развивается.


Дата анонса: 02.10.2025
Параметров: 4B
Контекст: 132K
Слоев: 40
Тип внимания: Full Attention
Разработчик: IBM
Версия Transformers: 4.56.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с granite-4.0-micro. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга granite-4.0-micro

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa10-1.16.32.160
131 072
1 46,94 ₽ 89,51 1,65 Запустить
teslat4-2.16.32.160
131 072
tensor
2 48,14 ₽ 2,12 Запустить
teslaa2-2.16.32.160
131 072
tensor
2 51,34 ₽ 2,12 Запустить
rtx2080ti-2.12.64.160
131 072
tensor
2 61,37 ₽ 1,22 Запустить
rtx3090-1.16.24.160
131 072
1 73,73 ₽ 116,53 1,65 Запустить
rtx3080-2.16.32.160
131 072
tensor
2 86,54 ₽ 1,04 Запустить
rtx4090-1.16.32.160
131 072
1 91,14 ₽ 166,14 1,65 Запустить
teslav100-1.12.64.160
131 072
1 107,57 ₽ 2,37 Запустить
rtxa5000-2.16.64.160.nvlink
131 072
tensor
2 109,77 ₽ 3,56 Запустить
rtx5090-1.16.64.160
131 072
1 141,77 ₽ 179,51 2,37 Запустить
teslaa100-1.16.64.160
131 072
1 211,77 ₽ 128,94 6,69 Запустить
h100-1.16.64.160
131 072
1 341,77 ₽ 134,70 6,69 Запустить
h100nvl-1.16.96.160
131 072
1 367,41 ₽ 160,82 7,95 Запустить
h200-1.16.128.160
131 072
1 423,04 ₽ 12,18 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa10-1.16.32.160
131 072
1 46,94 ₽ 1,59 Запустить
teslat4-2.16.32.160
131 072
tensor
2 48,14 ₽ 2,06 Запустить
teslaa2-2.16.32.160
131 072
tensor
2 51,34 ₽ 2,06 Запустить
rtx2080ti-2.12.64.160
131 072
tensor
2 61,37 ₽ 1,16 Запустить
rtx3090-1.16.24.160
131 072
1 73,73 ₽ 1,59 Запустить
rtx3080-2.16.32.160
131 072
tensor
2 86,54 ₽ 0,98 Запустить
rtx4090-1.16.32.160
131 072
1 91,14 ₽ 1,59 Запустить
teslav100-1.12.64.160
131 072
1 107,57 ₽ 2,31 Запустить
rtxa5000-2.16.64.160.nvlink
131 072
tensor
2 109,77 ₽ 3,50 Запустить
rtx5090-1.16.64.160
131 072
1 141,77 ₽ 2,31 Запустить
teslaa100-1.16.64.160
131 072
1 211,77 ₽ 6,63 Запустить
h100-1.16.64.160
131 072
1 341,77 ₽ 6,63 Запустить
h100nvl-1.16.96.160
131 072
1 367,41 ₽ 7,89 Запустить
h200-1.16.128.160
131 072
1 423,04 ₽ 12,12 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa10-1.16.32.160
131 072
1 46,94 ₽ 50,25 1,23 Запустить
teslat4-2.16.32.160
131 072
tensor
2 48,14 ₽ 1,70 Запустить
teslaa2-2.16.32.160
131 072
tensor
2 51,34 ₽ 40,47 1,70 Запустить
rtx3090-1.16.24.160
131 072
1 73,73 ₽ 83,91 1,23 Запустить
rtx2080ti-3.12.24.120
131 072
pipeline
3 74,84 ₽ 1,54 Запустить
rtx4090-1.16.32.160
131 072
1 91,14 ₽ 104,67 1,23 Запустить
rtx2080ti-4.16.32.160
131 072
tensor
4 99,74 ₽ 2,28 Запустить
teslav100-1.12.64.160
131 072
1 107,57 ₽ 1,95 Запустить
rtxa5000-2.16.64.160.nvlink
131 072
tensor
2 109,77 ₽ 3,14 Запустить
rtx3080-3.16.64.160
131 072
pipeline
3 127,37 ₽ 1,27 Запустить
rtx5090-1.16.64.160
131 072
1 141,77 ₽ 133,60 1,95 Запустить
rtx3080-4.16.64.160
131 072
tensor
4 162,57 ₽ 1,92 Запустить
teslaa100-1.16.64.160
131 072
1 211,77 ₽ 121,81 6,27 Запустить
h100-1.16.64.160
131 072
1 341,77 ₽ 146,31 6,27 Запустить
h100nvl-1.16.96.160
131 072
1 367,41 ₽ 7,53 Запустить
h200-1.16.128.160
131 072
1 423,04 ₽ 11,76 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.