Qwen3-235B-A22B

размышляющая
русскоязычная

Qwen3-235B-A22B представляет собой флагманскую модель серии Qwen3 и одну из самых масштабных открытых языковых моделей в мире. Общее количество её параметров составляет 235 миллиардов, при этом для каждого токена активируется 22 миллиарда. Это стало возможным благодаря эффективной архитектуре Mixture of Experts (MoE), которая включает 128 экспертов, из которых задействуются только 8 на каждом шаге вычислений. Инновационные решения в области работы механизма внимания обеспечивают высокую точность обработки контекста и возможность работы с последовательностями длиной до 128 тысяч токенов.

Одной из ключевых особенностей Qwen3-235B-A22B является поддержка двух режимов работы: thinking и no-thinking . В режиме thinking модель применяет расширенные логические цепочки и дополнительные вычислительные ресурсы для анализа задачи, что позволяет достигать максимального уровня точности и глубины рассуждений. Режим no-thinking, напротив, оптимизирован для быстрого выполнения простых задач, таких как форматирование текста, перевод или краткие ответы, без лишней нагрузки на вычислительные мощности. Эта функциональность даёт пользователям гибкость в выборе баланса между скоростью и качеством вывода. 

Qwen3-235B-A22B может использоваться в научных исследованиях, разработке программного обеспечения, автоматизации тестирования, обработке технической документации и создании ИИ-агентов. Модель подходит как для академической среды, так и для государственных и корпоративных проектов, где важны высокая точность, масштабируемость и гибкая настройка под задачи пользователя. А поддержка 119 языков делает модель удобной для международного использования.


Дата анонса: 29.04.2025
Параметров: 235B
Экспертов: 128
Активно параметров при инференсе: 22B
Контекст: 131K
Тип внимания: Full or Sliding Window Attention
Потребление памяти: 132.9 ГБ в точности 4 бит
Разработчик: Alibaba
Версия Transformers: 4.51.0
Версия Ollama: 0.6.6
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами для теста инференса и знакомства с Qwen3-235B-A22B.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга Qwen3-235B-A22B

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-2.24.256.240 24 262144 240 2 478,74 ₽ Запустить
teslah100-2.24.256.240 24 262144 240 2 929,74 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-4.44.512.320 44 524288 320 4 953,57 ₽ Запустить
teslah100-4.44.512.320 44 524288 320 4 1 855,57 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.