Qwen3‑Next‑80B‑A3B‑Thinking — представитель нового семейства Qwen3‑Next, в котором стандартное внимание заменено на гибрид из Gated DeltaNet (линейное внимание) и Gated Attention (полное внимание) для эффективного моделирования сверхдлинных контекстов. Так же в модели реализована сверхразреженная архитектура Mixture-of-Experts (MoE), которая из 512 экспертов активирует только 10 плюс 1 общий эксперт на каждый токен. Это обеспечивает коэффициент активации параметров всего в 3,7%, что значительно ниже традиционных MoE-моделей. Технические оптимизации для стабильности обучения включают zero-centered и weight-decayed layernorm, решающие проблемы аномального роста весов в нормализации слоев. Модель также использует Multi-Token Prediction (MTP) для ускорения инференса и улучшения производительности предобучения. Контекстная длина составляет 262,144 токена нативно и может быть расширена до 1,010,000 токенов с использованием техники YaRN.
Qwen3-Next-80B-A3B-Thinking демонстрирует выдающиеся результаты на ключевых бенчмарках, превосходя Gemini-2.5-Flash-Thinking и модели qwen предыдущего поколения. На математическом бенчмарке AIME25, проверяющем способности решения сложных математических задач уровня олимпиад, модель достигает 87.8% против 72.0% у Gemini. В HMMT25, тестирующем математическое мышление высокого уровня, результат составляет 73.9% против 64.2%. На бенчмарке LiveCodeBench v6, оценивающем программирование в реальных условиях, модель показывает 68.7% против 61.2% у конкурента, а в комплексном бенчмарке Arena-Hard v2 модель достигается 62.3% против 56.7%.
Специализация на сложном рассуждении делает Thinking-версию идеальной для задач, требующих глубокого анализа. Модель является отличным выбором для задач с пошаговым выводом и детализированных рассуждений, добавим сюда работу с длинными документами и аналитику с кросс‑ссылками, агентские пайплайны и конечно же математические задачи. Разработчики рекомендуют использовать длину вывода до 32,768 токенов для большинства запросов и до 81,920 токенов для особо сложных задач.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 |
6 | 150,55 ₽ | 4,69 | Запустить | ||
262 144 |
4 | 156,24 ₽ | 5,51 | Запустить | ||
262 144 |
4 | 209,04 ₽ | 5,51 | Запустить | ||
262 144 |
1 | 211,77 ₽ | 4,37 | Запустить | ||
262 144 |
3 | 252,41 ₽ | 2,35 | Запустить | ||
262 144 |
2 | 261,77 ₽ | 1,57 | Запустить | ||
262 144 |
4 | 269,04 ₽ | 5,51 | Запустить | ||
262 144 |
1 | 341,77 ₽ | 4,37 | Запустить | ||
262 144 |
1 | 367,41 ₽ | 6,46 | Запустить | ||
262 144 |
2 | 439,97 ₽ | 15,89 | Запустить | ||
262 144 |
2 | 839,97 ₽ | 34,08 | Запустить | ||
262 144 |
4 | 1 717,59 ₽ | 75,31 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 |
2 | 440,74 ₽ | 9,48 | Запустить | ||
262 144 |
2 | 441,52 ₽ | 9,48 | Запустить | ||
262 144 |
4 | 514,59 ₽ | 3,88 | Запустить | ||
262 144 |
6 | 521,74 ₽ | 5,44 | Запустить | ||
262 144 |
2 | 700,74 ₽ | 9,48 | Запустить | ||
262 144 |
2 | 840,74 ₽ | 27,67 | Запустить | ||
262 144 |
3 | 1 110,26 ₽ | 27,26 | Запустить | ||
262 144 |
4 | 1 717,59 ₽ | 68,90 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 |
3 | 658,44 ₽ | 7,59 | Запустить | ||
262 144 |
2 | 841,52 ₽ | 14,27 | Запустить | ||
262 144 |
8 | 1 034,08 ₽ | 7,91 | Запустить | ||
262 144 |
3 | 1 048,44 ₽ | 7,59 | Запустить | ||
262 144 |
3 | 1 110,26 ₽ | 13,86 | Запустить | ||
262 144 |
6 | 1 257,57 ₽ | 42,14 | Запустить | ||
262 144 |
4 | 1 717,59 ₽ | 55,50 | Запустить | ||
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.