NVIDIA-Nemotron-3-Super-120B-A12B

размышляющая

NVIDIA Nemotron 3 Super 120B-A12B представляет собой флагманскую модель в семействе открытых LLM от NVIDIA, разработанную для решения задач, требующих глубоких рассуждений, сложного инструментального взаимодействия и обработки больших объемов данных. Модель использует инновационную гибридную архитектуру, объединяющую разреженные слои Mixture-of-Experts (MoE), блоки состояний Mamba-2 и ограниченное число классических слоев внимания. Такой подход позволяет ей масштабировать общее количество параметров до 120 миллиардов, сохраняя при этом низкую стоимость инференса за счет активации только 12 миллиардов из них при обработке каждого токена.

Ключевым архитектурным нововведением является использование Latent MoE. Модель состоит из 88 слоёв, организованных в периодическую чередующуюся структуру: большинство слоёв — это Mamba2-блоки с линейной сложностью по длине последовательности. Стратегически размещённые слои глобального внимания (Grouped-Query Attention, 32 query / 2 KV heads) выступают в роли «якорей», обеспечивая сохранение важных зависимостей и обмен информацией между удалёнными частями контекста. Уникальная особенность — наличие MoE-слоёв без механизма внимания: в таких слоях маршрутизация и вычисления экспертов выполняются исключительно в сжатом латентном пространстве (с проекцией с 4096 до 1024), что позволяет активировать 22 из 512 экспертов, минимизируя накладные расходы. Все ресурсоемкие операции — маршрутизация, работа экспертов и all-to-all коммуникация — выполняются в этом сжатом пространстве, что дополнительно снижает потребление памяти и ускоряет инференс при сохранении качества. Такой гибридный дизайн позволяет балансировать между скоростью, памятью, точностью и оптимизирует работу с длинным контекстом, делая модель идеальным решением для задач Retrieval-Augmented Generation (RAG) и анализа объёмной документации.

Уникальность Nemotron 3 Super подчеркивается применением техник, которые довольно редко применялись в открытых моделях. Во-первых, это одна из первых моделей, прошедших полный цикл предварительного обучения в 25 триллионов токенов на данных, в которых большая доля была представлена в 4-битном формате с плавающей точкой NVFP4. Во-вторых — Multi-Token Prediction (MTP). Модель обучается предсказывать несколько будущих токенов одновременно, что не только улучшает качество обучения и предсказывая, но и служит встроенной системой спекулятивного декодирования для ускорения генерации ответов. В-третьих, в процессе пост-тренинга (RLHF) использовалась специально обученная генеративная модель вознаграждения — Qwen3-Nemotron-235B-A22B-GenRM-2603, созданная на базе Qwen3-235B-A22B-Thinking-2507 и специально обученная оценивать качество ответов. Это позволило тонко настроить поведение модели, улучшив ее "полезность" и способность следовать инструкциям.

По результатам тестирования Nemotron-3-Super демонстрирует выдающиеся результаты. Модель занимает лидирующие позиции в бенчмарках на математические рассуждения (AIME25, HMMT), где она обходит более крупные модели. В задачах на программирование (LiveCodeBench) и агентные способности (SWE-Bench) она значительно превосходит аналоги, такие как GPT-OSS-120B, что подтверждает ее превосходство в решении практических задач. При этом ключевое преимущество модели — скорость инференса (до 2.2x быстрее аналогов) при сохранении конкурентоспособного качества. Особо выделяется ее работа с длинным контекстом: в тесте RULER на 1 млн токенов она достигает 91.75%, существенно опережая конкурентов.

Благодаря эффективной архитектуре и поддержке контекста в 1 млн токенов, модель становится идеальным выбором для разработки автономных AI-агентов, автоматизации технической поддержки (IT ticket automation), написания и ревью кода, а также построения сложных RAG-систем, работающих с огромными массивами неструктурированной информации.


Дата анонса: 10.03.2026
Параметров: 124B
Экспертов: 512
Активно параметров при инференсе: 12B
Контекст: 263K
Слоев: 88, с полным вниманием: 8, без внимания: 40
Тип внимания: Hybrid Attention
Тип Mamba: Mamba 2
Разработчик: NVIDIA
Версия Transformers: 4.57.6
Версия vLLM: 0.17.1
Лицензия: NVIDIA Nemotron Open Model License

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с NVIDIA-Nemotron-3-Super-120B-A12B. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга NVIDIA-Nemotron-3-Super-120B-A12B

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa2-6.32.128.160
262 144
pipeline
6 147,44 ₽ 1,00 Запустить
teslaa10-4.16.128.160
262 144
tensor
4 156,24 ₽ 3,31 Запустить
rtxa5000-4.16.128.160.nvlink
262 144
tensor
4 209,04 ₽ 3,31 Запустить
rtx3090-4.16.96.320
262 144
tensor
4 264,96 ₽ 3,31 Запустить
rtx4090-4.16.96.320
262 144
tensor
4 328,96 ₽ 3,31 Запустить
teslav100-3.64.256.320
262 144
pipeline
3 347,52 ₽ 4,47 Запустить
h100nvl-1.16.96.160
262 144
1 367,41 ₽ 5,95 Запустить
rtx5090-3.16.96.160
262 144
pipeline
3 387,41 ₽ 4,47 Запустить
teslav100-4.32.96.160
262 144
tensor
4 388,21 ₽ 16,65 Запустить
teslaa100-2.24.96.160.nvlink
262 144
tensor
2 411,81 ₽ 32,31 Запустить
h200-1.16.128.160
262 144
1 423,04 ₽ 25,55 Запустить
rtx5090-4.16.128.160
262 144
tensor
4 513,04 ₽ 16,65 Запустить
h100-2.24.256.160
262 144
tensor
2 699,97 ₽ 32,31 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-1.16.128.240
262 144
1 423,81 ₽ 2,25 Запустить
teslaa100-2.24.256.240
262 144
tensor
2 440,74 ₽ 9,02 Запустить
rtx4090-8.44.256.240
262 144
tensor
8 671,74 ₽ 15,41 Запустить
h100-2.24.256.240
262 144
tensor
2 700,74 ₽ 9,02 Запустить
h100nvl-2.24.192.240
262 144
tensor
2 729,47 ₽ 20,69 Запустить
rtx5090-6.44.256.240
262 144
pipeline
6 791,74 ₽ 17,73 Запустить
rtx5090-8.44.256.240
262 144
tensor
8 1 031,74 ₽ 42,09 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-4.16.256.480
262 144
tensor
4 818,68 ₽ 22,12 Запустить
h200-2.24.256.320
262 144
tensor
2 841,52 ₽ 8,59 Запустить
h100nvl-3.24.384.480
262 144
pipeline
3 1 105,60 ₽ 7,44 Запустить
h100-4.16.256.480
262 144
tensor
4 1 338,68 ₽ 22,12 Запустить
h100nvl-4.32.384.480
262 144
tensor
4 1 450,00 ₽ 45,47 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.