Qwen3-4B-Thinking-2507

размышляющая
русскоязычная

Qwen3-4B-Thinking-2507 обновление Qwen3-4B. Модель построена на той же базовой архитектуре с 4 миллиардами параметров и 36 слоями, GQA (32 для Q и 8 для K_V), но кардинально отличается специализированным обучением для глубокого анализа вопросов и многоэтапного решения проблем, увеличенной длиной рассуждений, позволяющая модели тщательно проработать каждый аспект задачи перед формулированием финального ответа и нативной поддержкой уже 262K токенов контекста. Модель автоматически генерирует видимый процесс рассуждений в <think></think> блоках, что позволяет пользователям отслеживать логику решения, а для модели значительно повышает качество выводов в сложных задачах.

Модель демонстрирует исключительные результаты там, где требуется глубокого анализ. На математическом олимпиадном бенчмарке AIME25 достигается результата 81.3, что превосходит базовую версию на 15.7 пунктов. На HMMT25 (математические соревнования Harvard-MIT) модель показывает 55.5 баллов, опережая базовую версию на 13.4 пункта. В академических тестах PhD-уровня модель показывает цифры, удивительные для модели с 4 млрд параметров: GPQA (65.8), SuperGPQA (47.8). В агентских задачах модель превосходит многие специализированные решения: BFCL-v3 (71.2), TAU1-Retail (66.1), TAU2-Retail (53.5), подтверждая эффективность в сложном многоэтапном планировании.

Qwen3-4B-Thinking-2507 идеально подходит для повседневных задач, простых, но требующих обдумывания, например для: подготовки обзоров литературы, написания шаблонов статей, исследований динамики статистических показателей. Модель эффективна и в решении более сложных технических проблем, включая отладку и архитектурное проектирование ПО, а также в образовательных сценариях — для создания обучающих материалов и систем автоматической проверки.


Дата анонса: 07.08.2025
Параметров: 5B
Контекст: 263K
Слоев: 36
Тип внимания: Full or Sliding Window Attention
Разработчик: Qwen
Версия Transformers: 4.51.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Qwen3-4B-Thinking-2507. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга Qwen3-4B-Thinking-2507

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa10-1.16.32.160
80 000
1 46,94 ₽ 1,42 Запустить
teslat4-2.16.32.160
80 000
tensor
2 48,14 ₽ 1,85 Запустить
teslaa2-2.16.32.160
80 000
tensor
2 51,34 ₽ 1,85 Запустить
rtx2080ti-2.12.64.160
80 000
tensor
2 61,37 ₽ 1,03 Запустить
rtx3090-1.16.24.160
80 000
1 73,73 ₽ 1,42 Запустить
teslat4-4.16.64.160
262 144
tensor
4 85,77 ₽ 1,22 Запустить
rtx4090-1.16.32.160
80 000
1 91,14 ₽ 1,42 Запустить
teslav100-1.12.64.160
80 000
1 107,57 ₽ 2,07 Запустить
rtxa5000-2.16.64.160.nvlink
80 000
tensor
2 109,77 ₽ 3,16 Запустить
teslaa2-4.32.128.160
262 144
tensor
4 112,24 ₽ 1,22 Запустить
teslaa10-3.16.96.160
262 144
pipeline
3 119,81 ₽ 73,39 1,49 Запустить
rtx3080-3.16.64.160
80 000
pipeline
3 127,37 ₽ 1,46 Запустить
teslaa10-4.12.48.160
262 144
tensor
4 139,96 ₽ 2,02 Запустить
rtx5090-1.16.64.160
80 000
1 141,77 ₽ 2,07 Запустить
rtx3080-4.16.64.160
80 000
tensor
4 162,57 ₽ 2,05 Запустить
teslav100-2.16.64.240
262 144
tensor
2 198,54 ₽ 1,36 Запустить
rtx3090-3.16.96.160
262 144
pipeline
3 204,41 ₽ 100,87 1,49 Запустить
rtxa5000-4.16.128.160.nvlink
262 144
tensor
4 209,04 ₽ 2,02 Запустить
teslaa100-1.16.64.160
262 144
1 211,77 ₽ 113,55 1,83 Запустить
rtx4090-3.16.96.160
262 144
pipeline
3 252,41 ₽ 126,38 1,49 Запустить
rtx3090-4.16.64.160
262 144
tensor
4 257,77 ₽ 2,02 Запустить
rtx5090-2.16.64.160
262 144
tensor
2 261,77 ₽ 1,36 Запустить
rtx4090-4.16.64.160
262 144
tensor
4 321,77 ₽ 2,02 Запустить
h100-1.16.64.160
262 144
1 341,77 ₽ 128,25 1,83 Запустить
h100nvl-1.16.96.160
262 144
1 367,41 ₽ 2,18 Запустить
h200-1.16.128.160
262 144
1 423,04 ₽ 3,36 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa10-1.16.32.160
80 000
1 46,94 ₽ 1,27 Запустить
teslat4-2.16.32.160
80 000
tensor
2 48,14 ₽ 1,69 Запустить
teslaa2-2.16.32.160
80 000
tensor
2 51,34 ₽ 1,69 Запустить
rtx3090-1.16.24.160
80 000
1 73,73 ₽ 1,27 Запустить
rtx2080ti-3.12.24.120
80 000
pipeline
3 74,84 ₽ 1,55 Запустить
teslat4-4.16.64.160
262 144
tensor
4 85,77 ₽ 1,18 Запустить
rtx4090-1.16.32.160
80 000
1 91,14 ₽ 1,27 Запустить
rtx2080ti-4.16.32.160
80 000
tensor
4 99,74 ₽ 2,22 Запустить
teslav100-1.12.64.160
80 000
1 107,57 ₽ 1,92 Запустить
rtxa5000-2.16.64.160.nvlink
80 000
tensor
2 109,77 ₽ 3,00 Запустить
teslaa2-4.32.128.160
262 144
tensor
4 112,24 ₽ 1,18 Запустить
teslaa10-3.16.96.160
262 144
pipeline
3 119,81 ₽ 75,24 1,45 Запустить
rtx3080-3.16.64.160
80 000
pipeline
3 127,37 ₽ 1,30 Запустить
teslaa10-4.12.48.160
262 144
tensor
4 139,96 ₽ 1,98 Запустить
rtx5090-1.16.64.160
80 000
1 141,77 ₽ 1,92 Запустить
rtx3080-4.16.64.160
80 000
tensor
4 162,57 ₽ 1,89 Запустить
teslav100-2.16.64.240
262 144
tensor
2 198,54 ₽ 1,32 Запустить
rtx3090-3.16.96.160
262 144
pipeline
3 204,41 ₽ 105,53 1,45 Запустить
rtxa5000-4.16.128.160.nvlink
262 144
tensor
4 209,04 ₽ 1,98 Запустить
teslaa100-1.16.64.160
262 144
1 211,77 ₽ 149,15 1,79 Запустить
rtx4090-3.16.96.160
262 144
pipeline
3 252,41 ₽ 67,99 1,45 Запустить
rtx3090-4.16.64.160
262 144
tensor
4 257,77 ₽ 1,98 Запустить
rtx5090-2.16.64.160
262 144
tensor
2 261,77 ₽ 1,32 Запустить
rtx4090-4.16.64.160
262 144
tensor
4 321,77 ₽ 1,98 Запустить
h100-1.16.64.160
262 144
1 341,77 ₽ 152,15 1,79 Запустить
h100nvl-1.16.96.160
262 144
1 367,41 ₽ 2,14 Запустить
h200-1.16.128.160
262 144
1 423,04 ₽ 3,31 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa10-1.16.32.160
80 000
1 46,94 ₽ 1,01 Запустить
teslat4-2.16.32.160
80 000
tensor
2 48,14 ₽ 1,43 Запустить
teslaa2-2.16.32.160
80 000
tensor
2 51,34 ₽ 1,43 Запустить
rtx3090-1.16.24.160
80 000
1 73,73 ₽ 1,01 Запустить
rtx2080ti-3.12.24.120
80 000
pipeline
3 74,84 ₽ 1,29 Запустить
teslat4-4.16.64.160
262 144
tensor
4 85,77 ₽ 1,10 Запустить
rtx4090-1.16.32.160
80 000
1 91,14 ₽ 1,01 Запустить
rtx2080ti-4.16.32.160
80 000
tensor
4 99,74 ₽ 1,96 Запустить
teslav100-1.12.64.160
80 000
1 107,57 ₽ 1,66 Запустить
rtxa5000-2.16.64.160.nvlink
80 000
tensor
2 109,77 ₽ 2,74 Запустить
teslaa2-4.32.128.160
262 144
tensor
4 112,24 ₽ 1,10 Запустить
teslaa10-3.16.96.160
262 144
pipeline
3 119,81 ₽ 45,67 1,37 Запустить
rtx3080-3.16.64.160
80 000
pipeline
3 127,37 ₽ 1,04 Запустить
teslaa10-4.12.48.160
262 144
tensor
4 139,96 ₽ 1,90 Запустить
rtx5090-1.16.64.160
80 000
1 141,77 ₽ 1,66 Запустить
rtx3080-4.16.64.160
80 000
tensor
4 162,57 ₽ 1,63 Запустить
teslav100-2.16.64.240
262 144
tensor
2 198,54 ₽ 1,24 Запустить
rtx3090-3.16.96.160
262 144
pipeline
3 204,41 ₽ 53,62 1,37 Запустить
rtxa5000-4.16.128.160.nvlink
262 144
tensor
4 209,04 ₽ 1,90 Запустить
teslaa100-1.16.64.160
262 144
1 211,77 ₽ 94,97 1,71 Запустить
rtx4090-3.16.96.160
262 144
pipeline
3 252,41 ₽ 63,41 1,37 Запустить
rtx3090-4.16.64.160
262 144
tensor
4 257,77 ₽ 1,90 Запустить
rtx5090-2.16.64.160
262 144
tensor
2 261,77 ₽ 1,24 Запустить
rtx4090-4.16.64.160
262 144
tensor
4 321,77 ₽ 1,90 Запустить
h100-1.16.64.160
262 144
1 341,77 ₽ 124,57 1,71 Запустить
h100nvl-1.16.96.160
262 144
1 367,41 ₽ 178,90 2,06 Запустить
h200-1.16.128.160
262 144
1 423,04 ₽ 3,23 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.