Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

H200

H100 NVL

H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

A100

RTX A5000

A10

RTX 2080 Ti

A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold 2-го, 3-го и 5-го поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го, 3-го и 5-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

NVIDIA-Nemotron-3-Super-120B-A12B

размышляющая

NVIDIA Nemotron 3 Super 120B-A12B представляет собой флагманскую модель в семействе открытых LLM от NVIDIA, разработанную для решения задач, требующих глубоких рассуждений, сложного инструментального взаимодействия и обработки больших объемов данных. Модель использует инновационную гибридную архитектуру, объединяющую разреженные слои Mixture-of-Experts (MoE), блоки состояний Mamba-2 и ограниченное число классических слоев внимания. Такой подход позволяет ей масштабировать общее количество параметров до 120 миллиардов, сохраняя при этом низкую стоимость инференса за счет активации только 12 миллиардов из них при обработке каждого токена.

Ключевым архитектурным нововведением является использование Latent MoE. Модель состоит из 88 слоёв, организованных в периодическую чередующуюся структуру: большинство слоёв — это Mamba2-блоки с линейной сложностью по длине последовательности. Стратегически размещённые слои глобального внимания (Grouped-Query Attention, 32 query / 2 KV heads) выступают в роли «якорей», обеспечивая сохранение важных зависимостей и обмен информацией между удалёнными частями контекста. Уникальная особенность — наличие MoE-слоёв без механизма внимания: в таких слоях маршрутизация и вычисления экспертов выполняются исключительно в сжатом латентном пространстве (с проекцией с 4096 до 1024), что позволяет активировать 22 из 512 экспертов, минимизируя накладные расходы. Все ресурсоемкие операции — маршрутизация, работа экспертов и all-to-all коммуникация — выполняются в этом сжатом пространстве, что дополнительно снижает потребление памяти и ускоряет инференс при сохранении качества. Такой гибридный дизайн позволяет балансировать между скоростью, памятью, точностью и оптимизирует работу с длинным контекстом, делая модель идеальным решением для задач Retrieval-Augmented Generation (RAG) и анализа объёмной документации.

Уникальность Nemotron 3 Super подчеркивается применением техник, которые довольно редко применялись в открытых моделях. Во-первых, это одна из первых моделей, прошедших полный цикл предварительного обучения в 25 триллионов токенов на данных, в которых большая доля была представлена в 4-битном формате с плавающей точкой NVFP4. Во-вторых — Multi-Token Prediction (MTP). Модель обучается предсказывать несколько будущих токенов одновременно, что не только улучшает качество обучения и предсказывая, но и служит встроенной системой спекулятивного декодирования для ускорения генерации ответов. В-третьих, в процессе пост-тренинга (RLHF) использовалась специально обученная генеративная модель вознаграждения — Qwen3-Nemotron-235B-A22B-GenRM-2603, созданная на базе Qwen3-235B-A22B-Thinking-2507 и специально обученная оценивать качество ответов. Это позволило тонко настроить поведение модели, улучшив ее "полезность" и способность следовать инструкциям.

По результатам тестирования Nemotron-3-Super демонстрирует выдающиеся результаты. Модель занимает лидирующие позиции в бенчмарках на математические рассуждения (AIME25, HMMT), где она обходит более крупные модели. В задачах на программирование (LiveCodeBench) и агентные способности (SWE-Bench) она значительно превосходит аналоги, такие как GPT-OSS-120B, что подтверждает ее превосходство в решении практических задач. При этом ключевое преимущество модели — скорость инференса (до 2.2x быстрее аналогов) при сохранении конкурентоспособного качества. Особо выделяется ее работа с длинным контекстом: в тесте RULER на 1 млн токенов она достигает 91.75%, существенно опережая конкурентов.

Благодаря эффективной архитектуре и поддержке контекста в 1 млн токенов, модель становится идеальным выбором для разработки автономных AI-агентов, автоматизации технической поддержки (IT ticket automation), написания и ревью кода, а также построения сложных RAG-систем, работающих с огромными массивами неструктурированной информации.

Дата анонса: 10.03.2026
Параметров: 124B
Экспертов: 512
Активно параметров при инференсе: 12B
Контекст: 263K
Слоев: 88, с полным вниманием: 8, без внимания: 40
Тип внимания: Hybrid Attention
Тип Mamba: Mamba 2
Разработчик: NVIDIA
Версия Transformers: 4.57.6
Версия vLLM: 0.17.1
Лицензия: NVIDIA Nemotron Open Model License

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с NVIDIA-Nemotron-3-Super-120B-A12B. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
teslaa2-6.32.128.160 262 144 pipeline	6	147,44 ₽	106 156,80 ₽	1,00	Запустить
teslaa10-4.16.128.160 262 144 tensor	4	156,24 ₽	112 492,80 ₽	3,31	Запустить
rtxa5000-4.16.128.160.nvlink 262 144 tensor	4	209,04 ₽	150 508,80 ₽	3,31	Запустить
rtx3090-4.16.96.320 262 144 tensor	4	264,96 ₽	190 771,20 ₽	3,31	Запустить
rtx4090-4.16.96.320 262 144 tensor	4	328,96 ₽	236 851,20 ₽	3,31	Запустить
teslav100-3.64.256.320 262 144 pipeline	3	347,52 ₽	250 214,40 ₽	4,47	Запустить
h100nvl-1.16.96.160 262 144	1	367,41 ₽	264 535,20 ₽	5,95	Запустить
rtx5090-3.16.96.160 262 144 pipeline	3	387,41 ₽	278 935,20 ₽	4,47	Запустить
teslav100-4.32.96.160 262 144 tensor	4	388,21 ₽	279 511,20 ₽	16,65	Запустить
teslaa100-2.24.96.160.nvlink 262 144 tensor	2	411,81 ₽	296 503,20 ₽	32,31	Запустить
h200-1.16.128.160 262 144	1	423,04 ₽	304 588,80 ₽	25,55	Запустить
rtx5090-4.16.128.160 262 144 tensor	4	513,04 ₽	369 388,80 ₽	16,65	Запустить
h100-2.24.256.160 262 144 tensor	2	699,97 ₽	503 978,40 ₽	32,31	Запустить

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
h200-1.16.128.240 262 144	1	423,81 ₽	305 143,20 ₽	2,25	Запустить
teslaa100-2.24.256.240 262 144 tensor	2	440,74 ₽	317 332,80 ₽	9,02	Запустить
rtx4090-8.44.256.240 262 144 tensor	8	671,74 ₽	483 652,80 ₽	15,41	Запустить
h100-2.24.256.240 262 144 tensor	2	700,74 ₽	504 532,80 ₽	9,02	Запустить
h100nvl-2.24.192.240 262 144 tensor	2	729,47 ₽	525 218,40 ₽	20,69	Запустить
rtx5090-6.44.256.240 262 144 pipeline	6	791,74 ₽	570 052,80 ₽	17,73	Запустить
rtx5090-8.44.256.240 262 144 tensor	8	1 031,74 ₽	742 852,80 ₽	42,09	Запустить

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
teslaa100-4.16.256.480 262 144 tensor	4	818,68 ₽	589 449,60 ₽	22,12	Запустить
h200-2.24.256.320 262 144 tensor	2	841,52 ₽	605 894,40 ₽	8,59	Запустить
h100nvl-3.24.384.480 262 144 pipeline	3	1 105,60 ₽	796 032,00 ₽	7,44	Запустить
h100-4.16.256.480 262 144 tensor	4	1 338,68 ₽	963 849,60 ₽	22,12	Запустить
h100nvl-4.32.384.480 262 144 tensor	4	1 450,00 ₽	1 044 000,00 ₽	45,47	Запустить

Связанные модели

NVIDIA-Nemotron-3-Nano-30B-A3B

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.

NVIDIA-Nemotron-3-Super-120B-A12B

Публичный эндпоинт

Частный сервер

Рекомендуемые конфигурации сервера для хостинга NVIDIA-Nemotron-3-Super-120B-A12B

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Связанные модели

Остались вопросы?