NVIDIA Nemotron 3 Super 120B-A12B представляет собой флагманскую модель в семействе открытых LLM от NVIDIA, разработанную для решения задач, требующих глубоких рассуждений, сложного инструментального взаимодействия и обработки больших объемов данных. Модель использует инновационную гибридную архитектуру, объединяющую разреженные слои Mixture-of-Experts (MoE), блоки состояний Mamba-2 и ограниченное число классических слоев внимания. Такой подход позволяет ей масштабировать общее количество параметров до 120 миллиардов, сохраняя при этом низкую стоимость инференса за счет активации только 12 миллиардов из них при обработке каждого токена.
Ключевым архитектурным нововведением является использование Latent MoE. Модель состоит из 88 слоёв, организованных в периодическую чередующуюся структуру: большинство слоёв — это Mamba2-блоки с линейной сложностью по длине последовательности. Стратегически размещённые слои глобального внимания (Grouped-Query Attention, 32 query / 2 KV heads) выступают в роли «якорей», обеспечивая сохранение важных зависимостей и обмен информацией между удалёнными частями контекста. Уникальная особенность — наличие MoE-слоёв без механизма внимания: в таких слоях маршрутизация и вычисления экспертов выполняются исключительно в сжатом латентном пространстве (с проекцией с 4096 до 1024), что позволяет активировать 22 из 512 экспертов, минимизируя накладные расходы. Все ресурсоемкие операции — маршрутизация, работа экспертов и all-to-all коммуникация — выполняются в этом сжатом пространстве, что дополнительно снижает потребление памяти и ускоряет инференс при сохранении качества. Такой гибридный дизайн позволяет балансировать между скоростью, памятью, точностью и оптимизирует работу с длинным контекстом, делая модель идеальным решением для задач Retrieval-Augmented Generation (RAG) и анализа объёмной документации.
Уникальность Nemotron 3 Super подчеркивается применением техник, которые довольно редко применялись в открытых моделях. Во-первых, это одна из первых моделей, прошедших полный цикл предварительного обучения в 25 триллионов токенов на данных, в которых большая доля была представлена в 4-битном формате с плавающей точкой NVFP4. Во-вторых — Multi-Token Prediction (MTP). Модель обучается предсказывать несколько будущих токенов одновременно, что не только улучшает качество обучения и предсказывая, но и служит встроенной системой спекулятивного декодирования для ускорения генерации ответов. В-третьих, в процессе пост-тренинга (RLHF) использовалась специально обученная генеративная модель вознаграждения — Qwen3-Nemotron-235B-A22B-GenRM-2603, созданная на базе Qwen3-235B-A22B-Thinking-2507 и специально обученная оценивать качество ответов. Это позволило тонко настроить поведение модели, улучшив ее "полезность" и способность следовать инструкциям.
По результатам тестирования Nemotron-3-Super демонстрирует выдающиеся результаты. Модель занимает лидирующие позиции в бенчмарках на математические рассуждения (AIME25, HMMT), где она обходит более крупные модели. В задачах на программирование (LiveCodeBench) и агентные способности (SWE-Bench) она значительно превосходит аналоги, такие как GPT-OSS-120B, что подтверждает ее превосходство в решении практических задач. При этом ключевое преимущество модели — скорость инференса (до 2.2x быстрее аналогов) при сохранении конкурентоспособного качества. Особо выделяется ее работа с длинным контекстом: в тесте RULER на 1 млн токенов она достигает 91.75%, существенно опережая конкурентов.
Благодаря эффективной архитектуре и поддержке контекста в 1 млн токенов, модель становится идеальным выбором для разработки автономных AI-агентов, автоматизации технической поддержки (IT ticket automation), написания и ревью кода, а также построения сложных RAG-систем, работающих с огромными массивами неструктурированной информации.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 pipeline |
6 | 147,44 ₽ | 1,00 | Запустить | ||
262 144 tensor |
4 | 156,24 ₽ | 3,31 | Запустить | ||
262 144 tensor |
4 | 209,04 ₽ | 3,31 | Запустить | ||
262 144 tensor |
4 | 264,96 ₽ | 3,31 | Запустить | ||
262 144 tensor |
4 | 328,96 ₽ | 3,31 | Запустить | ||
262 144 pipeline |
3 | 347,52 ₽ | 4,47 | Запустить | ||
262 144 |
1 | 367,41 ₽ | 5,95 | Запустить | ||
262 144 pipeline |
3 | 387,41 ₽ | 4,47 | Запустить | ||
262 144 tensor |
4 | 388,21 ₽ | 16,65 | Запустить | ||
262 144 tensor |
2 | 411,81 ₽ | 32,31 | Запустить | ||
262 144 |
1 | 423,04 ₽ | 25,55 | Запустить | ||
262 144 tensor |
4 | 513,04 ₽ | 16,65 | Запустить | ||
262 144 tensor |
2 | 699,97 ₽ | 32,31 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 |
1 | 423,81 ₽ | 2,25 | Запустить | ||
262 144 tensor |
2 | 440,74 ₽ | 9,02 | Запустить | ||
262 144 tensor |
8 | 671,74 ₽ | 15,41 | Запустить | ||
262 144 tensor |
2 | 700,74 ₽ | 9,02 | Запустить | ||
262 144 tensor |
2 | 729,47 ₽ | 20,69 | Запустить | ||
262 144 pipeline |
6 | 791,74 ₽ | 17,73 | Запустить | ||
262 144 tensor |
8 | 1 031,74 ₽ | 42,09 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
4 | 818,68 ₽ | 22,12 | Запустить | ||
262 144 tensor |
2 | 841,52 ₽ | 8,59 | Запустить | ||
262 144 pipeline |
3 | 1 105,60 ₽ | 7,44 | Запустить | ||
262 144 tensor |
4 | 1 338,68 ₽ | 22,12 | Запустить | ||
262 144 tensor |
4 | 1 450,00 ₽ | 45,47 | Запустить | ||
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.