NVIDIA-Nemotron-3-Ultra-550B-A55B

размышляющая
для кодинга

NVIDIA Nemotron 3 Ultra (550B-A55B) — крупнейшая модель в семействе Nemotron 3, предназначенная для решения самых сложных задач в области агентных систем, рассуждений и диалога. Модель содержит 550 млрд параметров, из которых лишь 55 млрд активируются при обработке каждого токена благодаря архитектуре Mixture-of-Experts (MoE), что обеспечивает высокую вычислительную эффективность при сохранении емкости огромной модели. Nemotron 3 Ultra поддерживает контекст длиной до 1 млн токенов, уверенно работает на 10 языках и поддерживает отключаемый режим рассуждений. Модель распространяется под лицензией OpenMDW 1.1 и представлена разработчиками как в полной точности BF16, так и в квантованном варианте NVFP4 для ещё более эффективного развёртывания.

Ключевая особенность Nemotron 3 Ultra — гибридная архитектура Nemotron-H + LatentMoE, сочетающая три типа слоёв (всего 108 слоёв): Mamba-2 (state-space модель – 48 слоев), Latent MoE (латентная смесь экспертов – 48 слоев, внимание в них не вычисляется) и слои с полным внимания (Attention – 12 слоев). Слои Mamba-2 заменяют значительную часть традиционных attention-слоёв, что кардинально снижает стоимость внимания и размер KV-кеша, обеспечивая и ускоренную пропускную способность инференса. Инновация Latent MoE заключается в том, что токены перед маршрутизацией и вычислениями в экспертах проецируются в пространство меньшей размерности (латентный размер 2048), а не работают в исходном пространстве модели, что делает маршрутизацию экспертов более эффективной по сравнению с классическими MoE. В архитектуру также встроена опция Multi-Token Prediction (MTP) которая позволяет предсказывать несколько будущих токенов одновременно, что также увеличивает скорость инференса.

Предобучение проведено на 20 триллионах токенов с использованием данных в формате NVFP4. Пост-обучение включает четыре этапа: SFT, RL с асинхронным GRPO в различных средах, RLHF и, впервые в линейке Nemotron использовано Multi-Domain On-Policy Distillation (MOPD). MOPD — это более десяти специализированных учительских моделей (терминальный агент, поисковый агент, офисный агент, агент безопасности, STEM-учитель, чат-учитель и др.) которые дистиллируются в единую модель-студента. Для стадии RLHF была специально обучена генеративная модель вознаграждения (GenRM) на базе самой Nemotron 3 Ultra, которая оценивает ответы с помощью индивидуальных оценок полезности и ранжирования, а также поддерживает пользовательские принципы оценки.

На бенчмарках Nemotron 3 Ultra достигает точности на уровне лучших открытых моделей мира при многократно более высокой пропускной способности. На ключевых тестах модель демонстрирует: RULER 1M — 94,7 (проверка извлечения информации из контекста длиной 1 млн токенов, 1-е место среди всех сравниваемых моделей); GPQA — 87,0 (градuate-level научные вопросы, требующие экспертных знаний); MMLU-Pro — 86,8 (расширенный тест общих знаний профессионального уровня); LiveCodeBench v6 — 89,0 (соревновательное программирование). Версия NVFP4 сохраняет подавляющее большинство показателей в пределах 1–2 пунктов от BF16.

Nemotron 3 Ultra оптимально подходит для задач, требующих максимальной точности и автономности: многоагентные корпоративные процессы (автоматизация обслуживания клиентов, управление цепочками поставок, ИТ-безопасность), автономные программные агенты (исправление багов в репозиториях, разработка кода, терминальные операции), глубокие исследования с поиском (BrowseComp, многошаговый поиск с управлением контекстом), длинноконтекстный анализ (обработка документов объёмом до 1 млн токенов, RAG с высокой точностью), научные рассуждения и верификация (включая оценку галлюцинаций), а также высоконагруженные чат-системы с мультиязычной поддержкой.


Дата анонса: 03.06.2026
Параметров: 561B
Экспертов: 512
Активно параметров при инференсе: 55B
Контекст: 263K
Слоев: 108, с полным вниманием: 12, без внимания: 48
Тип внимания: Hybrid Attention
Тип Mamba: Mamba 2
Разработчик: NVIDIA
Версия Transformers: 4.57.6
Лицензия: openmdw-1.1

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с NVIDIA-Nemotron-3-Ultra-550B-A55B. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга NVIDIA-Nemotron-3-Ultra-550B-A55B

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-4.32.384.480.nvlink
262 144
tensor
4 850,00 ₽ 1,36 Запустить
teslaa100-4.44.512.480
262 144
tensor
4 879,13 ₽ 1,36 Запустить
h200-3.32.512.480
262 144
pipeline
3 1 282,53 ₽ 20,89 Запустить
h100-4.44.512.480
262 144
tensor
4 1 399,13 ₽ 1,32 Запустить
h100nvl-4.32.384.480
262 144
tensor
4 1 450,00 ₽ 8,89 Запустить
h200-4.32.768.480
262 144
tensor
4 1 717,59 ₽ 34,32 Запустить
h200-4.32.768.480.nvlink
262 144
tensor
4 1 717,59 ₽ 34,32 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
dedicated-h100-8.96.768.5760-1.nvlink
262 144
tensor
8 2,82 Запустить
teslaa100-8.44.704.960.nvlink
262 144
tensor
8 1 677,58 ₽ 2,86 Запустить
h200-6.52.896.640
262 144
pipeline
6 2 532,67 ₽ 22,89 Запустить
h200-8.52.1024.640
262 144
tensor
8 3 335,19 ₽ 35,82 Запустить
h200-8.52.1024.640.nvlink
262 144
tensor
8 3 335,19 ₽ 35,82 Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.