Granite-4.0-Micro представляет собой традиционную dense-модель на основе трансформерной архитектуры с механизмом self-attention. В отличие от гибридных вариантов семейства, эта модель полностью полагается на проверенную архитектуру, аналогичную предыдущим поколениям Granite. Решение создать традиционную версию было обусловлено необходимостью обеспечить совместимость с инфраструктурой и инструментами, где поддержка Mamba-2 ещё не оптимизирована, такими как некоторые версии llama.cpp, PEFT и другие фреймворки для тонкой настройки. Модель использует стандартное rotary positional encoding (RoPE) для кодирования позиций токенов, что обеспечивает предсказуемое поведение на различных длинах последовательностей. Все 3 миллиарда параметров активны при каждом прогоне, обеспечивая стабильное и консистентное качество генерации.
Несмотря на использование традиционной архитектуры трансформера, модель демонстрирует значительные прирост в качестве по сравнению с предыдущими поколениями благодаря новым и улучшенным методологиям обучения и пост-обучения, а также расширению и уточнению корпуса обучающих данных Granite. Модель обучена на расширенном и тщательно подобранном корпусе из 22 триллионов токенов, включающем данные из DataComp-LM, GneissWeb, TxT360, Wikipedia и других корпоративно ориентированных источников. Улучшенные техники пре-тренинга и пост-тренинга обеспечивают превосходную производительность на задачах, критичных для корпоративного использования, включая следование инструкциям, математические рассуждения, работу с кодом и многоязычность. Пост-обучение включает как синтетические, так и открытые датасеты, охватывающие язык, код, математику, вызов функций, RAG и кибербезопасность. Все обучающие данные подготовлены с использованием open-source фреймворка Data Prep Kit.
В плане производительности Granite-4.0-Micro показывает сильные результаты в ключевых бенчмарках. В MMLU модель достигает 65.98%, что является конкурентным результатом для модели такого размера. В задачах IFEval модель демонстрирует среднее значение 82.31%, подтверждая высокие способности следования инструкциям. Модель также эффективна в кодовых задачах, поддерживает FIM (Fill-In-the-Middle) для автодополнения кода и показывает хорошие результаты в задачах понимания и генерации на различных языках программирования.
Согласно данным релиза Granite-4.0-Micro требует 9 ГБ памяти при развертывании в 8-битном формате с контекстом 128K токенов и размером батча - 1. Модель может работать на потребительских GPU вроде RTX 3060 12GB, делая её доступной для широкого круга разработчиков. Полная совместимость с Hugging Face Transformers, vLLM, llama.cpp, MLX и другими популярными фреймворками для инференса обеспечивает простую интеграцию в существующие пайплайны. Модель особенно подходит для сценариев, где требуется использование PEFT-методов тонкой настройки, таких как LoRA или QLoRA, где поддержка гибридных архитектур ещё развивается.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 |
1 | 46,94 ₽ | 89,51 | 1,65 | Запустить | |
131 072 tensor |
2 | 48,14 ₽ | 2,12 | Запустить | ||
131 072 tensor |
2 | 51,34 ₽ | 2,12 | Запустить | ||
131 072 tensor |
2 | 61,37 ₽ | 1,22 | Запустить | ||
131 072 |
1 | 73,73 ₽ | 116,53 | 1,65 | Запустить | |
131 072 tensor |
2 | 86,54 ₽ | 1,04 | Запустить | ||
131 072 |
1 | 91,14 ₽ | 166,14 | 1,65 | Запустить | |
131 072 |
1 | 107,57 ₽ | 2,37 | Запустить | ||
131 072 tensor |
2 | 109,77 ₽ | 3,56 | Запустить | ||
131 072 |
1 | 141,77 ₽ | 179,51 | 2,37 | Запустить | |
131 072 |
1 | 211,77 ₽ | 128,94 | 6,69 | Запустить | |
131 072 |
1 | 341,77 ₽ | 134,70 | 6,69 | Запустить | |
131 072 |
1 | 367,41 ₽ | 160,82 | 7,95 | Запустить | |
131 072 |
1 | 423,04 ₽ | 12,18 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 |
1 | 46,94 ₽ | 1,59 | Запустить | ||
131 072 tensor |
2 | 48,14 ₽ | 2,06 | Запустить | ||
131 072 tensor |
2 | 51,34 ₽ | 2,06 | Запустить | ||
131 072 tensor |
2 | 61,37 ₽ | 1,16 | Запустить | ||
131 072 |
1 | 73,73 ₽ | 1,59 | Запустить | ||
131 072 tensor |
2 | 86,54 ₽ | 0,98 | Запустить | ||
131 072 |
1 | 91,14 ₽ | 1,59 | Запустить | ||
131 072 |
1 | 107,57 ₽ | 2,31 | Запустить | ||
131 072 tensor |
2 | 109,77 ₽ | 3,50 | Запустить | ||
131 072 |
1 | 141,77 ₽ | 2,31 | Запустить | ||
131 072 |
1 | 211,77 ₽ | 6,63 | Запустить | ||
131 072 |
1 | 341,77 ₽ | 6,63 | Запустить | ||
131 072 |
1 | 367,41 ₽ | 7,89 | Запустить | ||
131 072 |
1 | 423,04 ₽ | 12,12 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 |
1 | 46,94 ₽ | 50,25 | 1,23 | Запустить | |
131 072 tensor |
2 | 48,14 ₽ | 1,70 | Запустить | ||
131 072 tensor |
2 | 51,34 ₽ | 40,47 | 1,70 | Запустить | |
131 072 |
1 | 73,73 ₽ | 83,91 | 1,23 | Запустить | |
131 072 pipeline |
3 | 74,84 ₽ | 1,54 | Запустить | ||
131 072 |
1 | 91,14 ₽ | 104,67 | 1,23 | Запустить | |
131 072 tensor |
4 | 99,74 ₽ | 2,28 | Запустить | ||
131 072 |
1 | 107,57 ₽ | 1,95 | Запустить | ||
131 072 tensor |
2 | 109,77 ₽ | 3,14 | Запустить | ||
131 072 pipeline |
3 | 127,37 ₽ | 1,27 | Запустить | ||
131 072 |
1 | 141,77 ₽ | 133,60 | 1,95 | Запустить | |
131 072 tensor |
4 | 162,57 ₽ | 1,92 | Запустить | ||
131 072 |
1 | 211,77 ₽ | 121,81 | 6,27 | Запустить | |
131 072 |
1 | 341,77 ₽ | 146,31 | 6,27 | Запустить | |
131 072 |
1 | 367,41 ₽ | 7,53 | Запустить | ||
131 072 |
1 | 423,04 ₽ | 11,76 | Запустить | ||
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.