Granite-4.0-Micro представляет собой традиционную dense-модель на основе трансформерной архитектуры с механизмом self-attention. В отличие от гибридных вариантов семейства, эта модель полностью полагается на проверенную архитектуру, аналогичную предыдущим поколениям Granite. Решение создать традиционную версию было обусловлено необходимостью обеспечить совместимость с инфраструктурой и инструментами, где поддержка Mamba-2 ещё не оптимизирована, такими как некоторые версии llama.cpp, PEFT и другие фреймворки для тонкой настройки. Модель использует стандартное rotary positional encoding (RoPE) для кодирования позиций токенов, что обеспечивает предсказуемое поведение на различных длинах последовательностей. Все 3 миллиарда параметров активны при каждом прогоне, обеспечивая стабильное и консистентное качество генерации.
Несмотря на использование традиционной архитектуры трансформера, модель демонстрирует значительные прирост в качестве по сравнению с предыдущими поколениями благодаря новым и улучшенным методологиям обучения и пост-обучения, а также расширению и уточнению корпуса обучающих данных Granite. Модель обучена на расширенном и тщательно подобранном корпусе из 22 триллионов токенов, включающем данные из DataComp-LM, GneissWeb, TxT360, Wikipedia и других корпоративно ориентированных источников. Улучшенные техники пре-тренинга и пост-тренинга обеспечивают превосходную производительность на задачах, критичных для корпоративного использования, включая следование инструкциям, математические рассуждения, работу с кодом и многоязычность. Пост-обучение включает как синтетические, так и открытые датасеты, охватывающие язык, код, математику, вызов функций, RAG и кибербезопасность. Все обучающие данные подготовлены с использованием open-source фреймворка Data Prep Kit.
В плане производительности Granite-4.0-Micro показывает сильные результаты в ключевых бенчмарках. В MMLU модель достигает 65.98%, что является конкурентным результатом для модели такого размера. В задачах IFEval модель демонстрирует среднее значение 82.31%, подтверждая высокие способности следования инструкциям. Модель также эффективна в кодовых задачах, поддерживает FIM (Fill-In-the-Middle) для автодополнения кода и показывает хорошие результаты в задачах понимания и генерации на различных языках программирования.
Согласно данным релиза Granite-4.0-Micro требует 9 ГБ памяти при развертывании в 8-битном формате с контекстом 128K токенов и размером батча - 1. Модель может работать на потребительских GPU вроде RTX 3060 12GB, делая её доступной для широкого круга разработчиков. Полная совместимость с Hugging Face Transformers, vLLM, llama.cpp, MLX и другими популярными фреймворками для инференса обеспечивает простую интеграцию в существующие пайплайны. Модель особенно подходит для сценариев, где требуется использование PEFT-методов тонкой настройки, таких как LoRA или QLoRA, где поддержка гибридных архитектур ещё развивается.
Наименование модели | Контекст | Тип | GPU | TPS | Статус | Ссылка |
---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
---|---|---|---|---|---|---|---|
131 072 |
16 | 32768 | 160 | 1 | 46,94 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 2 | 48,14 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 2 | 51,34 ₽ | Запустить | |
131 072 |
12 | 65536 | 160 | 2 | 61,37 ₽ | Запустить | |
131 072 |
16 | 24576 | 160 | 1 | 78,53 ₽ | Запустить | |
131 072 |
16 | 32762 | 160 | 2 | 86,54 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 103,04 ₽ | Запустить | |
131 072 |
12 | 65536 | 160 | 1 | 107,57 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 141,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 230,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 456,27 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 1 | 623,04 ₽ | Запустить |
Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
---|---|---|---|---|---|---|---|
131 072 |
16 | 32768 | 160 | 1 | 46,94 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 2 | 48,14 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 2 | 51,34 ₽ | Запустить | |
131 072 |
12 | 65536 | 160 | 2 | 61,37 ₽ | Запустить | |
131 072 |
16 | 24576 | 160 | 1 | 78,53 ₽ | Запустить | |
131 072 |
16 | 32762 | 160 | 2 | 86,54 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 103,04 ₽ | Запустить | |
131 072 |
12 | 65536 | 160 | 1 | 107,57 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 141,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 230,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 456,27 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 1 | 623,04 ₽ | Запустить |
Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
---|---|---|---|---|---|---|---|
131 072 |
16 | 32768 | 160 | 1 | 46,94 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 2 | 48,14 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 2 | 51,34 ₽ | Запустить | |
131 072 |
12 | 24576 | 120 | 3 | 74,84 ₽ | Запустить | |
131 072 |
16 | 24576 | 160 | 1 | 78,53 ₽ | Запустить | |
131 072 |
16 | 32768 | 160 | 1 | 103,04 ₽ | Запустить | |
131 072 |
12 | 65536 | 160 | 1 | 107,57 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 2 | 109,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 3 | 127,37 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 141,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 230,77 ₽ | Запустить | |
131 072 |
16 | 65536 | 160 | 1 | 456,27 ₽ | Запустить | |
131 072 |
16 | 131072 | 160 | 1 | 623,04 ₽ | Запустить |
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.