Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

Tesla H200

Tesla H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

Tesla A100

RTX A5000

Tesla A10

RTX 2080 Ti

Tesla A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold второго и третьего поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Собрерите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го и 3-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

Qwen3-Next-80B-A3B-Instruct

русскоязычная

Qwen3-Next-80B-A3B-Instruct первая модель на базе инновационной архитектуры Qwen3-Next, в рамках которой разработчиками внедрено целый ряд технологических новшеств. В основе модели лежит архитектура с гибридной системой внимания, которая в соотношении 3:1 сочетает два механизма: Gated DeltaNet (75% слоев - линейное внимание) обеспечивает линейную вычислительную сложность и эффективную обработку длинных последовательностей, в то время как Gated Attention (25% слоев - полное внимание) гарантирует высокую точность и способность к информационному поиску. Эта архитектура решает фундаментальную проблему традиционного внимания: линейное внимание быстро, но слабо в задачах поиска, а стандартное внимание дорого и медленно при инференсе. А их гибрид показывает более сильные способности к обучению и пониманию контекста по сравнению с такими методами, как Sliding Window Attention или Mamba2.

Модель также внедряет ультра-разреженную MoE архитектуру с 512 экспертами, из которых активируются только 10 направляемых экспертов плюс 1 общий эксперт — всего лишь 3.7% от общего количества параметров. По сравнению с MoE структурой Qwen3 (128 экспертов, 8 активных). Qwen3-Next внедряет несколько критически важных оптимизаций для обеспечения стабильности обучения и высокой производительности: Zero-Centered RMSNorm вместо традиционной QK-Norm, механизм Attention Output Gating для устранения проблемы Attention Sink и Massive Activation, Multi-Token Prediction (MTP) лучшей связности в контексте, повышения скорости и общей производительности.

Qwen3-Next-80B-A3B-Instruct демонстрирует впечатляющие результаты на ключевых бенчмарках, практически сравнявшись с флагманской моделью Qwen3-235B-A22B-Instruct-2507 при значительно меньших вычислительных затратах. На Arena-Hard v2 модель достигает 82.7 баллов, превосходя многие конкурирующие решения, в программировании модель показывает неплохие результаты на LiveCodeBench v6 с 56.6 баллами, опережая даже некоторые более крупные модели. На математическом бенчмарке AIME25 модель достигает 69.5 баллов, демонстрируя сильные способности к сложным рассуждениям. Благодаря своим уникальным архитектурным особенностям и высокой эффективности, Qwen3-Next-80B-A3B-Instruct идеально подходит для широкого спектра применений: обработка сверхдлинных документов, разработка и программирование, агентские приложения, автоматизации бизнес-процессов, и это далеко не полный список.

Дата анонса: 11.09.2025
Параметров: 81.3B
Экспертов: 512
Активно параметров при инференсе: 3B
Контекст: 263K
Слоев: 48, с полным вниманием: 12
Тип внимания: Linear Attention
Потребление памяти: 50.7 ГБ в точности 4 бит
Разработчик: Qwen
Версия Transformers: 4.57.0.dev0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Qwen3-Next-80B-A3B-Instruct. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	TPS	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslat4-4.16.64.160 262 144	16	65536	160	4	85,77 ₽	61 754,40 ₽	Запустить
teslaa2-4.32.128.160 262 144	32	131072	160	4	112,24 ₽	80 812,80 ₽	Запустить
teslaa10-3.16.96.160 262 144	16	98304	160	3	119,81 ₽	86 263,20 ₽	Запустить
teslav100-2.16.64.240 262 144	16	65535	240	2	198,54 ₽	142 948,80 ₽	Запустить
rtxa5000-4.16.128.160.nvlink 262 144	16	131072	160	4	209,04 ₽	150 508,80 ₽	Запустить
rtx3090-3.16.96.160 262 144	16	98304	160	3	218,81 ₽	157 543,20 ₽	Запустить
teslaa100-1.16.64.160 262 144	16	65536	160	1	230,77 ₽	166 154,40 ₽	Запустить
rtx5090-2.16.64.160 262 144	16	65536	160	2	261,77 ₽	188 474,40 ₽	Запустить
rtx4090-3.16.96.160 262 144	16	98304	160	3	288,11 ₽	207 439,20 ₽	Запустить
teslah100-1.16.64.160 262 144	16	65536	160	1	456,27 ₽	328 514,40 ₽	Запустить
h200-1.16.128.160 262 144	16	131072	160	1	623,04 ₽	448 588,80 ₽	Запустить

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
rtxa5000-6.24.192.160.nvlink 262 144	24	196608	160	6	312,70 ₽	225 144,00 ₽	Запустить
teslav100-4.32.96.160 262 144	32	98304	160	4	388,21 ₽	279 511,20 ₽	Запустить
teslaa100-2.24.96.160.nvlink 262 144	24	98304	160	2	449,81 ₽	323 863,20 ₽	Запустить
rtx5090-4.16.128.160 262 144	16	131072	160	4	513,04 ₽	369 388,80 ₽	Запустить
rtx4090-6.44.256.160 262 144	44	262144	160	6	592,37 ₽	426 506,40 ₽	Запустить
h200-1.16.128.160 262 144	16	131072	160	1	623,04 ₽	448 588,80 ₽	Запустить
teslah100-2.24.256.160 262 144	24	262144	160	2	928,97 ₽	668 858,40 ₽	Запустить

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslaa100-3.32.384.240 262 144	32	393216	240	3	714,66 ₽	514 555,20 ₽	Запустить
rtx5090-8.44.256.240 262 144	44	262144	240	8	1 031,74 ₽	742 852,80 ₽	Запустить
h200-2.24.256.240 262 144	24	262144	240	2	1 240,74 ₽	893 332,80 ₽	Запустить
teslah100-3.32.384.240 262 144	32	393216	240	3	1 391,16 ₽	1 001 635,20 ₽	Запустить

Связанные модели

Qwen3-Next-80B-A3B-Thinking

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.

Qwen3-Next-80B-A3B-Instruct

Публичный эндпоинт

Частный сервер

Рекомендуемые конфигурации для хостинга Qwen3-Next-80B-A3B-Instruct

Связанные модели

Остались вопросы?