Granite-4.0-H-Tiny представляет компактную гибридную модель смеси экспертов с 7 миллиардами общих параметров и всего 1 миллиардом активных параметров во время инференса. Архитектурно H-Tiny повторяет структуру H-Small с тем же соотношением 9:1 между Mamba-2 и трансформерными слоями, но использует меньшее количество параметров в каждом слое. Модель обучена на корпусе из 22 триллионов токенов, что обеспечивает высокое качество на корпоративных задачах несмотря на компактный размер. Поддерживается контекст до 128K токенов с теоретической возможностью расширения благодаря константным требованиям к памяти у Mamba-2.
Производительность H-Tiny впечатляет. На бенчмарке IFEval модель достигает результата 81.44% в среднем значении, в задачах MMLU модель показывает 68.65%, демонстрируя сильные способности в понимании и рассуждениях.
Эта модель специально разработана для edge-развертываний, локальных приложений и сценариев с низкой задержкой, где критичны скорость отклика и минимальные требования к ресурсам. По сведениям разработчиков модель требует всего 8 GB памяти в 8-битном режиме, что позволяет запускать ее на потребительских GPU типа RTX 3060 с 12GB памяти. В корпоративных сценариях H-Tiny рекомендуется использовать как быстрый компонент для выполнения специфических задач в составе более крупных агентских систем, а также в сценариях, где важно соблюдение требований к конфиденциальности данных. Например, модель может обрабатывать function calling, извлечение данных и их обезличивание или классификацию, передавая более сложные задачи рассуждений другим моделям системы.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 |
1 | 29,33 ₽ | 5,26 | Запустить | ||
131 072 |
1 | 34,23 ₽ | 1,68 | Запустить | ||
131 072 |
1 | 33,74 ₽ | 5,29 | Запустить | ||
131 072 |
1 | 46,94 ₽ | 12,37 | Запустить | ||
131 072 |
1 | 73,73 ₽ | 13,32 | Запустить | ||
131 072 tensor |
2 | 86,54 ₽ | 7,00 | Запустить | ||
131 072 |
1 | 91,14 ₽ | 13,28 | Запустить | ||
131 072 tensor |
2 | 109,77 ₽ | 30,08 | Запустить | ||
131 072 |
1 | 141,77 ₽ | 20,29 | Запустить | ||
131 072 |
1 | 211,77 ₽ | 63,18 | Запустить | ||
131 072 |
1 | 341,77 ₽ | 63,12 | Запустить | ||
131 072 |
1 | 367,41 ₽ | 75,57 | Запустить | ||
131 072 tensor |
2 | 411,81 ₽ | 131,71 | Запустить | ||
131 072 |
1 | 423,04 ₽ | 117,40 | Запустить | ||
131 072 tensor |
2 | 839,97 ₽ | 240,14 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 |
1 | 29,33 ₽ | 3,38 | Запустить | ||
131 072 |
1 | 33,74 ₽ | 3,42 | Запустить | ||
131 072 |
1 | 46,94 ₽ | 10,49 | Запустить | ||
131 072 tensor |
2 | 61,37 ₽ | 6,82 | Запустить | ||
131 072 |
1 | 73,73 ₽ | 11,44 | Запустить | ||
131 072 tensor |
2 | 86,54 ₽ | 5,12 | Запустить | ||
131 072 |
1 | 91,14 ₽ | 11,41 | Запустить | ||
131 072 tensor |
2 | 109,77 ₽ | 28,21 | Запустить | ||
131 072 |
1 | 141,77 ₽ | 18,42 | Запустить | ||
131 072 |
1 | 211,77 ₽ | 61,31 | Запустить | ||
131 072 |
1 | 341,77 ₽ | 61,24 | Запустить | ||
131 072 |
1 | 367,41 ₽ | 73,70 | Запустить | ||
131 072 tensor |
2 | 411,81 ₽ | 129,83 | Запустить | ||
131 072 |
1 | 423,04 ₽ | 115,52 | Запустить | ||
131 072 tensor |
2 | 839,97 ₽ | 238,27 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
131 072 |
1 | 46,94 ₽ | 79,17 | 4,21 | Запустить | |
131 072 tensor |
2 | 48,14 ₽ | 7,71 | Запустить | ||
131 072 tensor |
2 | 51,34 ₽ | 55,91 | 7,78 | Запустить | |
131 072 |
1 | 73,73 ₽ | 5,16 | Запустить | ||
131 072 pipeline |
3 | 74,84 ₽ | 6,89 | Запустить | ||
131 072 |
1 | 91,14 ₽ | 5,13 | Запустить | ||
131 072 tensor |
4 | 99,74 ₽ | 14,59 | Запустить | ||
131 072 tensor |
2 | 109,77 ₽ | 21,93 | Запустить | ||
131 072 pipeline |
3 | 127,37 ₽ | 4,34 | Запустить | ||
131 072 |
1 | 141,77 ₽ | 12,14 | Запустить | ||
131 072 tensor |
4 | 162,57 ₽ | 11,19 | Запустить | ||
131 072 |
1 | 211,77 ₽ | 106,62 | 55,03 | Запустить | |
131 072 |
1 | 341,77 ₽ | 106,07 | 54,97 | Запустить | |
131 072 |
1 | 367,41 ₽ | 136,84 | 67,42 | Запустить | |
131 072 tensor |
2 | 411,81 ₽ | 123,56 | Запустить | ||
131 072 |
1 | 423,04 ₽ | 109,25 | Запустить | ||
131 072 tensor |
2 | 839,97 ₽ | 231,99 | Запустить | ||
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.