Qwen3-235B-A22B-Thinking-2507

размышляющая
русскоязычная

В обновлении 2507 разработчики отказались от гибридного режима, и флагманская модель серии Qwen3-235B-A22B получила 2 высокооптимизированные версии. Qwen3-235B-A22B-Thinking-2507 — это Thinking-версия, она получила удвоенную длину рассуждений и значительно усиленные алгоритмы chain-of-thought. При этом архитектура модели не изменилась это все та же Mixture-of-Experts с 235 миллиардами общих параметров, 128 экспертами, из которых активируются только 22 миллиарда параметров и 8 экспертов на каждый токен, обеспечивая вычислительную эффективность при сохранении знаний гигантской 235-миллиардной системы. В дополнении разработчики реализовали нативную поддержку контекста в 262144 токена открывая новые возможности для анализа объемных документов, кода и проведения многоэтапных рассуждений. Параллельно с основной версией выпущена FP8-квантизованная модель.

Оценивая возможности Qwen3-235B-A22B-Thinking-2507 необходимо отметить, что она демонстрирует феноменальные улучшения производительности на банчмарках, особенно в агентских задачах, где модель показывает рост до 108% на TAU2-Telecom, 93% на TAU2-Airline и 78% на TAU2-Retail в сравнении с предыдущей версией. В математических состязаниях модель достигает 92.3% на AIME25, уступая только OpenAI o4-mini (92.7%), но уже HMMT25 опережает всех демонстрируя результат в 83.9%. В программировании модель устанавливает новые стандарты с результатом 74.1% на LiveCodeBench v6, аналогично и в научных рассуждениях - 81.1% на GPQA (против 79.6% у Claude Opus 4 Thinking).

Qwen3-235B-A22B-Thinking-2507 идеально подходит для решения комплексных задач, требующих глубокого анализа: математические доказательства и олимпиадные задачи, разработка сложных алгоритмов и архитектурных решений, научные исследования и анализ данных, юридический анализ и составление документов и многих других задач где акцент делается не на скорость ответа, а на его точность и логическую согласованность.  


Дата анонса: 25.07.2025
Параметров: 235B
Экспертов: 128
Активно параметров при инференсе: 22B
Контекст: 263K
Слоев: 94
Тип внимания: Full or Sliding Window Attention
Разработчик: Qwen
Версия Transformers: 4.51.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Qwen3-235B-A22B-Thinking-2507. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга Qwen3-235B-A22B-Thinking-2507

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-3.32.384.240
262 144
pipeline
3 657,66 ₽ 2,11 Запустить
h100nvl-2.24.192.240
262 144
tensor
2 729,47 ₽ 1,17 Запустить
rtx5090-6.44.256.240
262 144
pipeline
6 791,74 ₽ 1,03 Запустить
teslaa100-4.16.256.240
262 144
tensor
4 816,34 ₽ 3,59 Запустить
h200-2.24.256.240
262 144
tensor
2 840,74 ₽ 2,97 Запустить
rtx5090-8.44.256.240
262 144
tensor
8 1 031,74 ₽ 2,15 Запустить
h100-3.32.384.240
262 144
pipeline
3 1 047,66 ₽ 2,11 Запустить
h100-4.16.256.240
262 144
tensor
4 1 336,34 ₽ 3,59 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-6.44.512.320.nvlink
262 144
pipeline
6 1 257,57 ₽ 3,84 Запустить
h200-3.32.512.480
262 144
pipeline
3 1 282,53 ₽ 2,91 Запустить
h100nvl-4.32.384.480
262 144
tensor
4 1 450,00 ₽ 1,96 Запустить
teslaa100-8.44.512.320.nvlink
262 144
tensor
8 1 637,57 ₽ 6,80 Запустить
h200-4.32.768.480
262 144
tensor
4 1 717,59 ₽ 5,56 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-8.44.704.960.nvlink
262 144
tensor
8 1 677,58 ₽ 1,83 Запустить
h200-6.52.896.640
262 144
pipeline
6 2 532,67 ₽ 5,88 Запустить
h200-8.52.1024.640
262 144
tensor
8 3 335,19 ₽ 11,18 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.