Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

Tesla H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

Tesla A100

RTX A5000

Tesla A10

RTX 2080 Ti

Tesla A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold второго и третьего поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Собрерите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го и 3-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

Qwen3-4B-Thinking-2507

размышляющая

русскоязычная

Qwen3-4B-Thinking-2507 обновление Qwen3-4B. Модель построена на той же базовой архитектуре с 4 миллиардами параметров и 36 слоями, GQA (32 для Q и 8 для K_V), но кардинально отличается специализированным обучением для глубокого анализа вопросов и многоэтапного решения проблем, увеличенной длиной рассуждений, позволяющая модели тщательно проработать каждый аспект задачи перед формулированием финального ответа и нативной поддержкой уже 262K токенов контекста. Модель автоматически генерирует видимый процесс рассуждений в <think></think> блоках, что позволяет пользователям отслеживать логику решения, а для модели значительно повышает качество выводов в сложных задачах.

Модель демонстрирует исключительные результаты там, где требуется глубокого анализ. На математическом олимпиадном бенчмарке AIME25 достигается результата 81.3, что превосходит базовую версию на 15.7 пунктов. На HMMT25 (математические соревнования Harvard-MIT) модель показывает 55.5 баллов, опережая базовую версию на 13.4 пункта. В академических тестах PhD-уровня модель показывает цифры, удивительные для модели с 4 млрд параметров: GPQA (65.8), SuperGPQA (47.8). В агентских задачах модель превосходит многие специализированные решения: BFCL-v3 (71.2), TAU1-Retail (66.1), TAU2-Retail (53.5), подтверждая эффективность в сложном многоэтапном планировании.

Qwen3-4B-Thinking-2507 идеально подходит для повседневных задач, простых, но требующих обдумывания, например для: подготовки обзоров литературы, написания шаблонов статей, исследований динамики статистических показателей. Модель эффективна и в решении более сложных технических проблем, включая отладку и архитектурное проектирование ПО, а также в образовательных сценариях — для создания обучающих материалов и систем автоматической проверки.

Дата анонса: 07.08.2025
Параметров: 4.02B
Контекст: 263K
Тип внимания: Full or Sliding Window Attention
Потребление памяти: 36.2 ГБ в точности 4 бит
Разработчик: Alibaba
Версия Transformers: 4.51.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами для теста инференса и знакомства с Qwen3-4B-Thinking-2507.

Наименование модели	Контекст	Тип	GPU	TPS	Статус	Ссылка


            Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslaa10-2.16.64.160	16	65536	160	2	83,37 ₽	60 026,40 ₽	Запустить
rtx2080ti-4.16.64.160	16	65536	160	4	105,37 ₽	75 866,40 ₽	Запустить
teslat4-4.16.64.160	16	65536	160	4	131,77 ₽	94 874,40 ₽	Запустить
rtx3090-2.16.64.160	16	65536	160	2	149,37 ₽	107 546,40 ₽	Запустить
rtx3080-4.16.64.160	16	65536	160	4	162,57 ₽	117 050,40 ₽	Запустить
rtx4090-2.16.64.160	16	65536	160	2	195,57 ₽	140 810,40 ₽	Запустить
teslaa100-1.16.64.160	16	65536	160	1	230,77 ₽	166 154,40 ₽	Запустить
rtx5090-2.16.64.160	16	65536	160	2	261,77 ₽	188 474,40 ₽	Запустить
teslah100-1.16.64.160	16	65536	160	1	456,27 ₽	328 514,40 ₽	Запустить

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslaa10-2.16.64.160	16	65536	160	2	83,37 ₽	60 026,40 ₽	Запустить
rtx2080ti-4.16.64.160	16	65536	160	4	105,37 ₽	75 866,40 ₽	Запустить
teslat4-4.16.64.160	16	65536	160	4	131,77 ₽	94 874,40 ₽	Запустить
rtx3090-2.16.64.160	16	65536	160	2	149,37 ₽	107 546,40 ₽	Запустить
rtx4090-2.16.64.160	16	65536	160	2	195,57 ₽	140 810,40 ₽	Запустить
teslaa100-1.16.64.160	16	65536	160	1	230,77 ₽	166 154,40 ₽	Запустить
rtx5090-2.16.64.160	16	65536	160	2	261,77 ₽	188 474,40 ₽	Запустить
teslah100-1.16.64.160	16	65536	160	1	456,27 ₽	328 514,40 ₽	Запустить

Наименование	vCPU	ОЗУ, МБ	Диск, ГБ	GPU	Цена, час	Цена, месяц
teslaa10-2.16.64.160	16	65536	160	2	83,37 ₽	60 026,40 ₽	Запустить
teslat4-4.16.64.160	16	65536	160	4	131,77 ₽	94 874,40 ₽	Запустить
rtx3090-2.16.64.160	16	65536	160	2	149,37 ₽	107 546,40 ₽	Запустить
rtx4090-2.16.64.160	16	65536	160	2	195,57 ₽	140 810,40 ₽	Запустить
teslaa100-1.16.64.160	16	65536	160	1	230,77 ₽	166 154,40 ₽	Запустить
rtx5090-2.16.64.160	16	65536	160	2	261,77 ₽	188 474,40 ₽	Запустить
teslah100-1.16.64.160	16	65536	160	1	456,27 ₽	328 514,40 ₽	Запустить

Связанные модели

Qwen3-30B-A3B

Qwen3-235B-A22B

Qwen3-0.6B

Qwen3-1.7B

Qwen3-4B

Qwen3-8B

Qwen3-14B

Qwen3-32B

DeepSeek-R1-0528-Qwen3-8B

T-pro-2.0

Qwen3-235B-A22B-Instruct-2507

Qwen3-235B-A22B-Thinking-2507

Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder-30B-A3B-Instruct

Qwen3-30B-A3B-Thinking-2507

Qwen3-4B-Instruct-2507

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.

Qwen3-4B-Thinking-2507

Публичный эндпоинт

Частный сервер

Рекомендуемые конфигурации для хостинга Qwen3-4B-Thinking-2507

Связанные модели

Остались вопросы?