Продукты

Облачные серверы

Облачная платформа с новейшими GPU, быстрым онбоардингом, посекундной тарификацией и иммерсионным охлаждением. Изолированные ресурсы обеспечат максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

H200

H100 NVL

H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

A100

RTX A5000

A10

A2

RTX 2080 Ti^EOL

Tesla T4^EOL

Tesla V100^EOL

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold 2-го, 3-го и 5-го поколений, доступные на 100% процессорного времени.
SSD-серверыдо 75К IOPS NVMe-серверыдо 360К IOPS
Все CPU-серверы

Immers Foundation Models

Самый большой каталог проверенных open-source моделей с автоматическим подбором конфигураций и настройками для быстрого деплоя. Запускайте частные эндпоинты без оплаты за токены или используйте публичные эндпоинты.

GLM-5.2 Kimi-K2.7-Code NVIDIA-Nemotron-3-Ultra-550B-A55B gemma-4-12B-it MiniMax-M3 PaddleOCR-VL-1.6 DeepSeek-V4-Pro DeepSeek-V4-Flash Qwen3.6-27B Qwen3.6-35B-A3B Kimi-K2.6 GLM-5.1 gemma-4-26B-A4B-it gemma-4-31B-it NVIDIA-Nemotron-3-Super-120B-A12B Qwen3.5-122B-A10B Qwen3.5-397B-A17B gpt-oss-120b gpt-oss-20b

Все моделииз каталога

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го, 3-го и 5-го поколений, до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервердо 10 GPU и 2.5M IOPS

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

NVIDIA-Nemotron-3-Ultra-550B-A55B

размышляющая

для кодинга

NVIDIA Nemotron 3 Ultra (550B-A55B) — крупнейшая модель в семействе Nemotron 3, предназначенная для решения самых сложных задач в области агентных систем, рассуждений и диалога. Модель содержит 550 млрд параметров, из которых лишь 55 млрд активируются при обработке каждого токена благодаря архитектуре Mixture-of-Experts (MoE), что обеспечивает высокую вычислительную эффективность при сохранении емкости огромной модели. Nemotron 3 Ultra поддерживает контекст длиной до 1 млн токенов, уверенно работает на 10 языках и поддерживает отключаемый режим рассуждений. Модель распространяется под лицензией OpenMDW 1.1 и представлена разработчиками как в полной точности BF16, так и в квантованном варианте NVFP4 для ещё более эффективного развёртывания.

Ключевая особенность Nemotron 3 Ultra — гибридная архитектура Nemotron-H + LatentMoE, сочетающая три типа слоёв (всего 108 слоёв): Mamba-2 (state-space модель – 48 слоев), Latent MoE (латентная смесь экспертов – 48 слоев, внимание в них не вычисляется) и слои с полным внимания (Attention – 12 слоев). Слои Mamba-2 заменяют значительную часть традиционных attention-слоёв, что кардинально снижает стоимость внимания и размер KV-кеша, обеспечивая и ускоренную пропускную способность инференса. Инновация Latent MoE заключается в том, что токены перед маршрутизацией и вычислениями в экспертах проецируются в пространство меньшей размерности (латентный размер 2048), а не работают в исходном пространстве модели, что делает маршрутизацию экспертов более эффективной по сравнению с классическими MoE. В архитектуру также встроена опция Multi-Token Prediction (MTP) которая позволяет предсказывать несколько будущих токенов одновременно, что также увеличивает скорость инференса.

Предобучение проведено на 20 триллионах токенов с использованием данных в формате NVFP4. Пост-обучение включает четыре этапа: SFT, RL с асинхронным GRPO в различных средах, RLHF и, впервые в линейке Nemotron использовано Multi-Domain On-Policy Distillation (MOPD). MOPD — это более десяти специализированных учительских моделей (терминальный агент, поисковый агент, офисный агент, агент безопасности, STEM-учитель, чат-учитель и др.) которые дистиллируются в единую модель-студента. Для стадии RLHF была специально обучена генеративная модель вознаграждения (GenRM) на базе самой Nemotron 3 Ultra, которая оценивает ответы с помощью индивидуальных оценок полезности и ранжирования, а также поддерживает пользовательские принципы оценки.

На бенчмарках Nemotron 3 Ultra достигает точности на уровне лучших открытых моделей мира при многократно более высокой пропускной способности. На ключевых тестах модель демонстрирует: RULER 1M — 94,7 (проверка извлечения информации из контекста длиной 1 млн токенов, 1-е место среди всех сравниваемых моделей); GPQA — 87,0 (градuate-level научные вопросы, требующие экспертных знаний); MMLU-Pro — 86,8 (расширенный тест общих знаний профессионального уровня); LiveCodeBench v6 — 89,0 (соревновательное программирование). Версия NVFP4 сохраняет подавляющее большинство показателей в пределах 1–2 пунктов от BF16.

Nemotron 3 Ultra оптимально подходит для задач, требующих максимальной точности и автономности: многоагентные корпоративные процессы (автоматизация обслуживания клиентов, управление цепочками поставок, ИТ-безопасность), автономные программные агенты (исправление багов в репозиториях, разработка кода, терминальные операции), глубокие исследования с поиском (BrowseComp, многошаговый поиск с управлением контекстом), длинноконтекстный анализ (обработка документов объёмом до 1 млн токенов, RAG с высокой точностью), научные рассуждения и верификация (включая оценку галлюцинаций), а также высоконагруженные чат-системы с мультиязычной поддержкой.

Дата анонса: 03.06.2026
Параметров: 561B
Экспертов: 512
Активно параметров при инференсе: 55B
Контекст: 263K
Слоев: 108, с полным вниманием: 12, без внимания: 48
Тип внимания: Hybrid Attention
Тип Mamba: Mamba 2
Разработчик: NVIDIA
Версия Transformers: 4.57.6
Лицензия: openmdw-1.1

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с NVIDIA-Nemotron-3-Ultra-550B-A55B. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
teslaa100-6.44.512.480.nvlink 262 144 pipeline	6	1 259,13 ₽	906 573,60 ₽	42,96	Запустить
h200-3.32.512.480 262 144 pipeline	3	1 282,53 ₽	923 421,60 ₽	30,62	Запустить
h100nvl-4.32.384.480 262 144 tensor	4	1 450,00 ₽	1 044 000,00 ₽	8,42	Запустить
teslaa100-8.44.512.480.nvlink 262 144 tensor	8	1 639,13 ₽	1 180 173,60 ₽	21,04	Запустить
h200-4.32.768.480 262 144 tensor	4	1 717,59 ₽	1 236 664,80 ₽	33,85	Запустить
h200-4.32.768.480.nvlink 262 144 tensor	4	1 717,59 ₽	1 236 664,80 ₽	33,85	Запустить
dedicated-h100-8.96.768.5760-1.nvlink 262 144 tensor	8	2 804,12 ₽	2 018 966,40 ₽	21,00	Запустить

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
teslaa100-8.44.704.960.nvlink 262 144 tensor	8	1 677,58 ₽	1 207 857,60 ₽	2,39	Запустить
h200-6.52.896.640 262 144 pipeline	6	2 532,67 ₽	1 823 522,40 ₽	67,25	Запустить
dedicated-h100-8.96.768.5760-1.nvlink 262 144 tensor	8	2 804,12 ₽	2 018 966,40 ₽	2,35	Запустить
h200-8.52.1024.640 262 144 tensor	8	3 335,19 ₽	2 401 336,80 ₽	35,35	Запустить
h200-8.52.1024.640.nvlink 262 144 tensor	8	3 335,19 ₽	2 401 336,80 ₽	35,35	Запустить

Связанные модели

NVIDIA-Nemotron-3-Nano-30B-A3B

NVIDIA-Nemotron-3-Super-120B-A12B

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.

NVIDIA-Nemotron-3-Ultra-550B-A55B

Публичный эндпоинт

Частный сервер

Рекомендуемые конфигурации сервера для хостинга NVIDIA-Nemotron-3-Ultra-550B-A55B

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Связанные модели

Остались вопросы?