Qwen3‑Next‑80B‑A3B‑Thinking — представитель нового семейства Qwen3‑Next, в котором стандартное внимание заменено на гибрид из Gated DeltaNet (линейное внимание) и Gated Attention (полное внимание) для эффективного моделирования сверхдлинных контекстов. Так же в модели реализована сверхразреженная архитектура Mixture-of-Experts (MoE), которая из 512 экспертов активирует только 10 плюс 1 общий эксперт на каждый токен. Это обеспечивает коэффициент активации параметров всего в 3,7%, что значительно ниже традиционных MoE-моделей. Технические оптимизации для стабильности обучения включают zero-centered и weight-decayed layernorm, решающие проблемы аномального роста весов в нормализации слоев. Модель также использует Multi-Token Prediction (MTP) для ускорения инференса и улучшения производительности предобучения. Контекстная длина составляет 262,144 токена нативно и может быть расширена до 1,010,000 токенов с использованием техники YaRN.
Qwen3-Next-80B-A3B-Thinking демонстрирует выдающиеся результаты на ключевых бенчмарках, превосходя Gemini-2.5-Flash-Thinking и модели qwen предыдущего поколения. На математическом бенчмарке AIME25, проверяющем способности решения сложных математических задач уровня олимпиад, модель достигает 87.8% против 72.0% у Gemini. В HMMT25, тестирующем математическое мышление высокого уровня, результат составляет 73.9% против 64.2%. На бенчмарке LiveCodeBench v6, оценивающем программирование в реальных условиях, модель показывает 68.7% против 61.2% у конкурента, а в комплексном бенчмарке Arena-Hard v2 модель достигается 62.3% против 56.7%.
Специализация на сложном рассуждении делает Thinking-версию идеальной для задач, требующих глубокого анализа. Модель является отличным выбором для задач с пошаговым выводом и детализированных рассуждений, добавим сюда работу с длинными документами и аналитику с кросс‑ссылками, агентские пайплайны и конечно же математические задачи. Разработчики рекомендуют использовать длину вывода до 32,768 токенов для большинства запросов и до 81,920 токенов для особо сложных задач.
| Наименование модели | Контекст | Тип | GPU | TPS | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
262 144 |
16 | 98304 | 160 | 3 | 119,81 ₽ | Запустить | |
262 144 |
32 | 131072 | 160 | 6 | 147,44 ₽ | Запустить | |
262 144 |
16 | 65535 | 240 | 2 | 198,54 ₽ | Запустить | |
262 144 |
16 | 131072 | 160 | 4 | 209,04 ₽ | Запустить | |
262 144 |
16 | 98304 | 160 | 3 | 218,81 ₽ | Запустить | |
262 144 |
16 | 65536 | 160 | 1 | 230,77 ₽ | Запустить | |
262 144 |
16 | 65536 | 160 | 2 | 261,77 ₽ | Запустить | |
262 144 |
16 | 98304 | 160 | 3 | 288,11 ₽ | Запустить | |
262 144 |
16 | 65536 | 160 | 1 | 456,27 ₽ | Запустить | |
262 144 |
16 | 131072 | 160 | 1 | 623,04 ₽ | Запустить | |
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
262 144 |
24 | 196608 | 160 | 6 | 312,70 ₽ | Запустить | |
262 144 |
32 | 98304 | 160 | 4 | 388,21 ₽ | Запустить | |
262 144 |
24 | 98304 | 160 | 2 | 449,81 ₽ | Запустить | |
262 144 |
16 | 131072 | 160 | 4 | 513,04 ₽ | Запустить | |
262 144 |
44 | 262144 | 160 | 6 | 592,37 ₽ | Запустить | |
262 144 |
16 | 131072 | 160 | 1 | 623,04 ₽ | Запустить | |
262 144 |
24 | 262144 | 160 | 2 | 928,97 ₽ | Запустить | |
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
262 144 |
32 | 393216 | 240 | 3 | 714,66 ₽ | Запустить | |
262 144 |
44 | 262144 | 240 | 8 | 1 031,74 ₽ | Запустить | |
262 144 |
24 | 262144 | 240 | 2 | 1 240,74 ₽ | Запустить | |
262 144 |
32 | 393216 | 240 | 3 | 1 391,16 ₽ | Запустить | |
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.