Qwen3.5-35B-A3B — это средне-размерная MoE-модель с 35 миллиардами общих параметров и активацией лишь 3-х миллиардов на токен. Модель содержит 40 слоёв с размером скрытого представления 2048 и использует токенизацию с довольно большим vocab size равным 248 320. Гибридная архитектура внимания сочетает слои Gated DeltaNet (линейное внимание) для быстрой обработки длинных последовательностей и слои Gated Attention (полное внимание) для точного контекстуального понимания. Это позволяет модели поддерживать нативное контекстное окно в 262 144 токена без деградации качества. Визуально-языковые возможности встроены через early-fusion обучение, что обеспечивает лучшее понимание изображений по сравнению с серией Qwen3-VL. Модель поддерживает два режима работы: Thinking для глубоких рассуждений (математика, логика, код) и No-thinking для быстрых ответов на простые запросы. Инференс максимально оптимизирован, для развёртывания в квантованном формате на GPU требуется примерно 22–24 ГБ памяти.
Модель демонстрирует впечатляющие результаты на бенчмарках, лишь незначительно уступая флагманским версиям серии. В языковых тестах, таких как MMLU-Pro (85.3) и SuperGPQA (63.4), она обходит более крупные модели предыдущего поколения. Особо выделяются ее агентные способности: результат TAU2-Bench (81.2) является лучшим в семействе, что говорит о великолепной способности планировать и выполнять многошаговые задачи с использованием инструментов. В мультимодальном анализе она показывает результаты, близкие к топовым: MathVision (83.9), MMMU-Pro (75.1), OCRBench (91.0). Важно отметить, что именно эта модель лежит в основе сервиса Qwen3.5-Flash.
Уникальность модели — в ее универсальности и экономичности, плюс она выгодно отличается от предыдущих версий значительным скачком в производительности агентов и мультимодальном понимании. Этот вариант может стать отличным выбором для компаний, разрабатывающих сложных ассистентов, системы обработки заказов, интеллектуальные RAG-системы с огромными базами знаний, и в целом для любых сценариев, где нужно высокое качество понимания контекста и генерации при контролируемых разумных затратах на инфраструктуру.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 pipeline |
3 | 78,57 ₽ | 3,16 | Запустить | ||
262 144 tensor |
2 | 83,37 ₽ | 3,65 | Запустить | ||
262 144 tensor |
4 | 85,77 ₽ | 5,51 | Запустить | ||
262 144 pipeline |
3 | 94,64 ₽ | 3,16 | Запустить | ||
262 144 tensor |
4 | 99,74 ₽ | 1,96 | Запустить | ||
262 144 |
1 | 107,57 ₽ | 1,30 | Запустить | ||
262 144 tensor |
2 | 109,77 ₽ | 3,65 | Запустить | ||
262 144 tensor |
4 | 112,24 ₽ | 5,51 | Запустить | ||
262 144 tensor |
2 | 139,77 ₽ | 3,65 | Запустить | ||
262 144 |
1 | 141,77 ₽ | 1,30 | Запустить | ||
262 144 tensor |
4 | 162,57 ₽ | 1,24 | Запустить | ||
262 144 tensor |
2 | 171,77 ₽ | 3,65 | Запустить | ||
262 144 |
1 | 211,77 ₽ | 9,84 | Запустить | ||
262 144 |
1 | 341,77 ₽ | 9,84 | Запустить | ||
262 144 |
1 | 367,41 ₽ | 12,33 | Запустить | ||
262 144 |
1 | 423,04 ₽ | 20,69 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
4 | 85,77 ₽ | 2,51 | Запустить | ||
262 144 tensor |
4 | 112,24 ₽ | 2,51 | Запустить | ||
262 144 pipeline |
3 | 119,81 ₽ | 4,43 | Запустить | ||
262 144 tensor |
4 | 139,96 ₽ | 8,20 | Запустить | ||
262 144 tensor |
2 | 198,54 ₽ | 3,50 | Запустить | ||
262 144 pipeline |
3 | 204,41 ₽ | 4,43 | Запустить | ||
262 144 tensor |
4 | 209,04 ₽ | 8,20 | Запустить | ||
262 144 |
1 | 211,77 ₽ | 6,84 | Запустить | ||
262 144 pipeline |
3 | 252,41 ₽ | 4,43 | Запустить | ||
262 144 tensor |
4 | 257,77 ₽ | 8,20 | Запустить | ||
262 144 tensor |
2 | 261,77 ₽ | 3,50 | Запустить | ||
262 144 tensor |
4 | 321,77 ₽ | 8,20 | Запустить | ||
262 144 |
1 | 341,77 ₽ | 6,84 | Запустить | ||
262 144 |
1 | 367,41 ₽ | 9,33 | Запустить | ||
262 144 |
1 | 423,04 ₽ | 17,69 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
262 144 tensor |
4 | 156,24 ₽ | 1,86 | Запустить | ||
262 144 tensor |
4 | 209,04 ₽ | 1,86 | Запустить | ||
262 144 tensor |
4 | 264,96 ₽ | 1,86 | Запустить | ||
262 144 tensor |
4 | 328,96 ₽ | 1,86 | Запустить | ||
262 144 pipeline |
3 | 347,52 ₽ | 2,36 | Запустить | ||
262 144 |
1 | 367,41 ₽ | 2,99 | Запустить | ||
262 144 pipeline |
3 | 387,41 ₽ | 2,36 | Запустить | ||
262 144 tensor |
4 | 388,21 ₽ | 7,56 | Запустить | ||
262 144 tensor |
2 | 411,81 ₽ | 14,23 | Запустить | ||
262 144 |
1 | 423,04 ₽ | 11,35 | Запустить | ||
262 144 tensor |
4 | 513,04 ₽ | 7,56 | Запустить | ||
262 144 tensor |
2 | 699,97 ₽ | 14,23 | Запустить | ||
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.