Qwen3-235B-A22B-Thinking-2507

размышляющая
русскоязычная

В обновлении 2507 разработчики отказались от гибридного режима, и флагманская модель серии Qwen3-235B-A22B получила 2 высокооптимизированные версии. Qwen3-235B-A22B-Thinking-2507 — это Thinking-версия, она получила удвоенную длину рассуждений и значительно усиленные алгоритмы chain-of-thought. При этом архитектура модели не изменилась это все та же Mixture-of-Experts с 235 миллиардами общих параметров, 128 экспертами, из которых активируются только 22 миллиарда параметров и 8 экспертов на каждый токен, обеспечивая вычислительную эффективность при сохранении знаний гигантской 235-миллиардной системы. В дополнении разработчики реализовали нативную поддержку контекста в 262144 токена открывая новые возможности для анализа объемных документов, кода и проведения многоэтапных рассуждений. Параллельно с основной версией выпущена FP8-квантизованная модель.

Оценивая возможности Qwen3-235B-A22B-Thinking-2507 необходимо отметить, что она демонстрирует феноменальные улучшения производительности на банчмарках, особенно в агентских задачах, где модель показывает рост до 108% на TAU2-Telecom, 93% на TAU2-Airline и 78% на TAU2-Retail в сравнении с предыдущей версией. В математических состязаниях модель достигает 92.3% на AIME25, уступая только OpenAI o4-mini (92.7%), но уже HMMT25 опережает всех демонстрируя результат в 83.9%. В программировании модель устанавливает новые стандарты с результатом 74.1% на LiveCodeBench v6, аналогично и в научных рассуждениях - 81.1% на GPQA (против 79.6% у Claude Opus 4 Thinking).

Qwen3-235B-A22B-Thinking-2507 идеально подходит для решения комплексных задач, требующих глубокого анализа: математические доказательства и олимпиадные задачи, разработка сложных алгоритмов и архитектурных решений, научные исследования и анализ данных, юридический анализ и составление документов и многих других задач где акцент делается не на скорость ответа, а на его точность и логическую согласованность.  


Дата анонса: 25.07.2025
Параметров: 235B
Экспертов: 128
Активно параметров при инференсе: 22B
Контекст: 263K
Тип внимания: Full or Sliding Window Attention
Потребление памяти: 154.3 ГБ в точности 4 бит
Разработчик: Alibaba
Версия Transformers: 4.51.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами для теста инференса и знакомства с Qwen3-235B-A22B-Thinking-2507.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга Qwen3-235B-A22B-Thinking-2507

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-3.32.384.240 32 393216 240 3 714,66 ₽ Запустить
rtx4090-8.44.256.240 44 262144 240 8 766,94 ₽ Запустить
rtx5090-6.44.256.240 44 262144 240 6 791,74 ₽ Запустить
teslah100-3.32.384.240 32 393216 240 3 1 391,16 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-4.44.512.320 44 524288 320 4 953,57 ₽ Запустить
teslah100-4.44.512.320 44 524288 320 4 1 855,57 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.