NVIDIA Nemotron 3 Ultra (550B-A55B) — крупнейшая модель в семействе Nemotron 3, предназначенная для решения самых сложных задач в области агентных систем, рассуждений и диалога. Модель содержит 550 млрд параметров, из которых лишь 55 млрд активируются при обработке каждого токена благодаря архитектуре Mixture-of-Experts (MoE), что обеспечивает высокую вычислительную эффективность при сохранении емкости огромной модели. Nemotron 3 Ultra поддерживает контекст длиной до 1 млн токенов, уверенно работает на 10 языках и поддерживает отключаемый режим рассуждений. Модель распространяется под лицензией OpenMDW 1.1 и представлена разработчиками как в полной точности BF16, так и в квантованном варианте NVFP4 для ещё более эффективного развёртывания.
Ключевая особенность Nemotron 3 Ultra — гибридная архитектура Nemotron-H + LatentMoE, сочетающая три типа слоёв (всего 108 слоёв): Mamba-2 (state-space модель – 48 слоев), Latent MoE (латентная смесь экспертов – 48 слоев, внимание в них не вычисляется) и слои с полным внимания (Attention – 12 слоев). Слои Mamba-2 заменяют значительную часть традиционных attention-слоёв, что кардинально снижает стоимость внимания и размер KV-кеша, обеспечивая и ускоренную пропускную способность инференса. Инновация Latent MoE заключается в том, что токены перед маршрутизацией и вычислениями в экспертах проецируются в пространство меньшей размерности (латентный размер 2048), а не работают в исходном пространстве модели, что делает маршрутизацию экспертов более эффективной по сравнению с классическими MoE. В архитектуру также встроена опция Multi-Token Prediction (MTP) которая позволяет предсказывать несколько будущих токенов одновременно, что также увеличивает скорость инференса.
Предобучение проведено на 20 триллионах токенов с использованием данных в формате NVFP4. Пост-обучение включает четыре этапа: SFT, RL с асинхронным GRPO в различных средах, RLHF и, впервые в линейке Nemotron использовано Multi-Domain On-Policy Distillation (MOPD). MOPD — это более десяти специализированных учительских моделей (терминальный агент, поисковый агент, офисный агент, агент безопасности, STEM-учитель, чат-учитель и др.) которые дистиллируются в единую модель-студента. Для стадии RLHF была специально обучена генеративная модель вознаграждения (GenRM) на базе самой Nemotron 3 Ultra, которая оценивает ответы с помощью индивидуальных оценок полезности и ранжирования, а также поддерживает пользовательские принципы оценки.
На бенчмарках Nemotron 3 Ultra достигает точности на уровне лучших открытых моделей мира при многократно более высокой пропускной способности. На ключевых тестах модель демонстрирует: RULER 1M — 94,7 (проверка извлечения информации из контекста длиной 1 млн токенов, 1-е место среди всех сравниваемых моделей); GPQA — 87,0 (градuate-level научные вопросы, требующие экспертных знаний); MMLU-Pro — 86,8 (расширенный тест общих знаний профессионального уровня); LiveCodeBench v6 — 89,0 (соревновательное программирование). Версия NVFP4 сохраняет подавляющее большинство показателей в пределах 1–2 пунктов от BF16.
Nemotron 3 Ultra оптимально подходит для задач, требующих максимальной точности и автономности: многоагентные корпоративные процессы (автоматизация обслуживания клиентов, управление цепочками поставок, ИТ-безопасность), автономные программные агенты (исправление багов в репозиториях, разработка кода, терминальные операции), глубокие исследования с поиском (BrowseComp, многошаговый поиск с управлением контекстом), длинноконтекстный анализ (обработка документов объёмом до 1 млн токенов, RAG с высокой точностью), научные рассуждения и верификация (включая оценку галлюцинаций), а также высоконагруженные чат-системы с мультиязычной поддержкой.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
4 | 850,00 ₽ | 1,36 | Запустить | ||
262 144 tensor |
4 | 879,13 ₽ | 1,36 | Запустить | ||
262 144 pipeline |
3 | 1 282,53 ₽ | 20,89 | Запустить | ||
262 144 tensor |
4 | 1 399,13 ₽ | 1,32 | Запустить | ||
262 144 tensor |
4 | 1 450,00 ₽ | 8,89 | Запустить | ||
262 144 tensor |
4 | 1 717,59 ₽ | 34,32 | Запустить | ||
262 144 tensor |
4 | 1 717,59 ₽ | 34,32 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
8 | 2,82 | Запустить | |||
262 144 tensor |
8 | 1 677,58 ₽ | 2,86 | Запустить | ||
262 144 pipeline |
6 | 2 532,67 ₽ | 22,89 | Запустить | ||
262 144 tensor |
8 | 3 335,19 ₽ | 35,82 | Запустить | ||
262 144 tensor |
8 | 3 335,19 ₽ | 35,82 | Запустить | ||
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.