Qwen3.5-35B-A3B — это средне-размерная MoE-модель с 35 миллиардами общих параметров и активацией лишь 3-х миллиардов на токен. Модель содержит 40 слоёв с размером скрытого представления 2048 и использует токенизацию с довольно большим vocab size равным 248 320. Гибридная архитектура внимания сочетает слои Gated DeltaNet (линейное внимание) для быстрой обработки длинных последовательностей и слои Gated Attention (полное внимание) для точного контекстуального понимания. Это позволяет модели поддерживать нативное контекстное окно в 262 144 токена без деградации качества. Визуально-языковые возможности встроены через early-fusion обучение, что обеспечивает лучшее понимание изображений по сравнению с серией Qwen3-VL. Модель поддерживает два режима работы: Thinking для глубоких рассуждений (математика, логика, код) и No-thinking для быстрых ответов на простые запросы. Инференс максимально оптимизирован, для развёртывания в квантованном формате на GPU требуется примерно 22–24 ГБ памяти.
Модель демонстрирует впечатляющие результаты на бенчмарках, лишь незначительно уступая флагманским версиям серии. В языковых тестах, таких как MMLU-Pro (85.3) и SuperGPQA (63.4), она обходит более крупные модели предыдущего поколения. Особо выделяются ее агентные способности: результат TAU2-Bench (81.2) является лучшим в семействе, что говорит о великолепной способности планировать и выполнять многошаговые задачи с использованием инструментов. В мультимодальном анализе она показывает результаты, близкие к топовым: MathVision (83.9), MMMU-Pro (75.1), OCRBench (91.0). Важно отметить, что именно эта модель лежит в основе сервиса Qwen3.5-Flash.
Уникальность модели — в ее универсальности и экономичности, плюс она выгодно отличается от предыдущих версий значительным скачком в производительности агентов и мультимодальном понимании. Этот вариант может стать отличным выбором для компаний, разрабатывающих сложных ассистентов, системы обработки заказов, интеллектуальные RAG-системы с огромными базами знаний, и в целом для любых сценариев, где нужно высокое качество понимания контекста и генерации при контролируемых разумных затратах на инфраструктуру.
| Наименование модели | Контекст | Тип | GPU | TPS | Tooling | Статус | Ссылка |
|---|---|---|---|---|---|---|---|
| Qwen/Qwen3.5-35B-A3B-GPTQ-Int4 | 262 144 | Публичный | — | 149.67 | да | доступен | чат |
curl https://chat.immers.cloud/v1/endpoints/qwen3.5-35b-a3b/generate/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer USER_API_KEY" \
-d '{"model": "qwen3.5-35b-a3b", "messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"}
], "temperature": 0, "max_tokens": 150}'
$response = Invoke-WebRequest https://chat.immers.cloud/v1/endpoints/qwen3.5-35b-a3b/generate/chat/completions `
-Method POST `
-Headers @{
"Authorization" = "Bearer USER_API_KEY"
"Content-Type" = "application/json"
} `
-Body (@{
model = "qwen3.5-35b-a3b"
messages = @(
@{ role = "system"; content = "You are a helpful assistant." },
@{ role = "user"; content = "Say this is a test" }
)
} | ConvertTo-Json)
($response.Content | ConvertFrom-Json).choices[0].message.content
#!pip install OpenAI --upgrade
from openai import OpenAI
client = OpenAI(
api_key="USER_API_KEY",
base_url="https://chat.immers.cloud/v1/endpoints/qwen3.5-35b-a3b/generate/",
)
chat_response = client.chat.completions.create(
model="qwen3.5-35b-a3b",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Say this is a test"},
]
)
print(chat_response.choices[0].message.content)
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 pipeline |
3 | 78,57 ₽ | 3,16 | Запустить | ||
262 144 tensor |
2 | 83,37 ₽ | 3,66 | Запустить | ||
262 144 tensor |
4 | 85,77 ₽ | 5,51 | Запустить | ||
262 144 pipeline |
3 | 94,64 ₽ | 3,16 | Запустить | ||
262 144 tensor |
4 | 99,74 ₽ | 1,96 | Запустить | ||
262 144 tensor |
2 | 109,77 ₽ | 3,66 | Запустить | ||
262 144 tensor |
4 | 112,24 ₽ | 5,51 | Запустить | ||
262 144 tensor |
2 | 139,77 ₽ | 3,66 | Запустить | ||
262 144 |
1 | 141,77 ₽ | 1,30 | Запустить | ||
262 144 tensor |
4 | 162,57 ₽ | 1,24 | Запустить | ||
262 144 tensor |
2 | 171,77 ₽ | 3,66 | Запустить | ||
262 144 |
1 | 211,77 ₽ | 9,84 | Запустить | ||
262 144 |
1 | 341,77 ₽ | 152,27 | 9,84 | Запустить | |
262 144 |
1 | 367,41 ₽ | 12,33 | Запустить | ||
262 144 tensor |
2 | 411,81 ₽ | 23,58 | Запустить | ||
262 144 |
1 | 423,04 ₽ | 20,70 | Запустить | ||
262 144 tensor |
2 | 839,97 ₽ | 45,29 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
4 | 85,77 ₽ | 2,51 | Запустить | ||
262 144 tensor |
4 | 112,24 ₽ | 2,51 | Запустить | ||
262 144 pipeline |
3 | 119,81 ₽ | 4,43 | Запустить | ||
262 144 tensor |
4 | 139,96 ₽ | 8,21 | Запустить | ||
262 144 pipeline |
3 | 204,41 ₽ | 4,43 | Запустить | ||
262 144 tensor |
4 | 209,04 ₽ | 8,21 | Запустить | ||
262 144 |
1 | 211,77 ₽ | 6,84 | Запустить | ||
262 144 pipeline |
3 | 252,41 ₽ | 4,43 | Запустить | ||
262 144 tensor |
4 | 257,77 ₽ | 8,21 | Запустить | ||
262 144 tensor |
2 | 261,77 ₽ | 3,50 | Запустить | ||
262 144 tensor |
4 | 321,77 ₽ | 8,21 | Запустить | ||
262 144 |
1 | 341,77 ₽ | 6,84 | Запустить | ||
262 144 |
1 | 367,41 ₽ | 9,33 | Запустить | ||
262 144 tensor |
2 | 411,81 ₽ | 20,58 | Запустить | ||
262 144 |
1 | 423,04 ₽ | 17,69 | Запустить | ||
262 144 tensor |
2 | 839,97 ₽ | 42,29 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
4 | 157,01 ₽ | 1,87 | Запустить | ||
262 144 tensor |
4 | 264,96 ₽ | 1,87 | Запустить | ||
262 144 tensor |
4 | 328,96 ₽ | 1,87 | Запустить | ||
262 144 |
1 | 368,18 ₽ | 2,99 | Запустить | ||
262 144 pipeline |
3 | 388,18 ₽ | 2,36 | Запустить | ||
262 144 |
1 | 423,81 ₽ | 11,35 | Запустить | ||
262 144 tensor |
2 | 440,74 ₽ | 14,24 | Запустить | ||
262 144 tensor |
2 | 441,52 ₽ | 14,24 | Запустить | ||
262 144 tensor |
4 | 514,59 ₽ | 7,56 | Запустить | ||
262 144 tensor |
2 | 700,74 ₽ | 14,24 | Запустить | ||
262 144 tensor |
2 | 840,74 ₽ | 35,95 | Запустить | ||
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.