Qwen3.5-0.8B

размышляющая
мультимодальная
русскоязычная

Модель Qwen3.5-0.8B ультракомпактная – и самая маленькая в линейке qwen 3.5, но при этом они сохраняет все технические новеллы и преимущества серии. Ее архитектура построена на гибридном подходе, объединяющем два ключевых механизма: Gated DeltaNet и Gated Attention, расположенных в 24 слоях по схеме 6 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN)). Это позволяет модели эффективно сжимать и обрабатывать длинные последовательности с меньшими вычислительными затратами по сравнению с традиционным Transformer'ом. Она поддерживает предсказание нескольких токенов (MTP) и поставляется с готовой интеграцией для популярных фреймворков инференса, таких как vLLM, SGLang и Transformers.

Уникальность Qwen3.5-0.8B заключается в ее способности быть по-настоящему мультимодальной, сохраняя при этом экстремально малый размер (0.8B параметров). В отличие от предыдущей версии Qwen3-0.6B, которая была чисто текстовой, новая модель интегрирует vision-энкодер и обучена на ранней стадии на смешанных мультимодальных данных. Это позволяет ей не просто читать текст на изображениях, но и понимать сложные визуальные сцены, диаграммы и даже видео. Модель поддерживает 201 языка, режим рассуждений (thinking mode), улучшенное следование инструкциям и нативный контекст в 262 144 токена, что является рекордным показателем для моделей такого размера.

Благодаря своей архитектуре и производительности, Qwen3.5-0.8B открывает широкий спектр возможностей для разработчиков и исследователей. Быстрое прототипирование и Research - идеальная "песочница" для тестирования идей, промпт-инжиниринга и экспериментов с длинным контекстом без необходимости в дорогостоящем оборудовании.


Дата анонса: 28.02.2026
Параметров: 874M
Контекст: 263K
Слоев: 24, с полным вниманием: 6
Тип внимания: Linear Attention
Разработчик: Qwen
Версия Transformers: 4.57.0.dev0
Версия vLLM: 0.17.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Qwen3.5-0.8B. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга Qwen3.5-0.8B

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslat4-1.16.16.160
262 144
1 29,33 ₽ 3,59 Запустить
rtx2080ti-1.10.16.500
262 144
1 34,23 ₽ 2,10 Запустить
teslaa2-1.16.32.160
262 144
1 33,74 ₽ 3,59 Запустить
teslaa10-1.16.32.160
262 144
1 46,94 ₽ 5,98 Запустить
rtx3080-1.16.32.160
262 144
1 51,34 ₽ 1,81 Запустить
rtx3090-1.16.24.160
262 144
1 73,73 ₽ 5,98 Запустить
rtx4090-1.16.32.160
262 144
1 91,14 ₽ 5,98 Запустить
teslav100-1.12.64.160
262 144
1 107,57 ₽ 8,36 Запустить
rtxa5000-2.16.64.160.nvlink
262 144
tensor
2 109,77 ₽ 12,31 Запустить
rtx5090-1.16.64.160
262 144
1 141,77 ₽ 8,36 Запустить
teslaa100-1.16.64.160
262 144
1 211,77 ₽ 22,68 Запустить
h100-1.16.64.160
262 144
1 341,77 ₽ 22,68 Запустить
h100nvl-1.16.96.160
262 144
1 367,41 ₽ 26,85 Запустить
h200-1.16.128.160
262 144
1 423,04 ₽ 40,86 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslat4-1.16.16.160
262 144
1 29,33 ₽ 3,67 Запустить
rtx2080ti-1.10.16.500
262 144
1 34,23 ₽ 2,18 Запустить
teslaa2-1.16.32.160
262 144
1 33,74 ₽ 3,67 Запустить
teslaa10-1.16.32.160
262 144
1 46,94 ₽ 6,06 Запустить
rtx3080-1.16.32.160
262 144
1 51,34 ₽ 1,88 Запустить
rtx3090-1.16.24.160
262 144
1 73,73 ₽ 6,06 Запустить
rtx4090-1.16.32.160
262 144
1 91,14 ₽ 6,06 Запустить
teslav100-1.12.64.160
262 144
1 107,57 ₽ 8,44 Запустить
rtxa5000-2.16.64.160.nvlink
262 144
tensor
2 109,77 ₽ 12,39 Запустить
rtx5090-1.16.64.160
262 144
1 141,77 ₽ 8,44 Запустить
teslaa100-1.16.64.160
262 144
1 211,77 ₽ 22,75 Запустить
h100-1.16.64.160
262 144
1 341,77 ₽ 22,75 Запустить
h100nvl-1.16.96.160
262 144
1 367,41 ₽ 26,93 Запустить
h200-1.16.128.160
262 144
1 423,04 ₽ 40,94 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslat4-1.16.16.160
262 144
1 29,33 ₽ 3,40 Запустить
rtx2080ti-1.10.16.500
262 144
1 34,23 ₽ 1,91 Запустить
teslaa2-1.16.32.160
262 144
1 33,74 ₽ 3,40 Запустить
teslaa10-1.16.32.160
262 144
1 46,94 ₽ 5,79 Запустить
rtx3080-1.16.32.160
262 144
1 51,34 ₽ 1,61 Запустить
rtx3090-1.16.24.160
262 144
1 73,73 ₽ 5,79 Запустить
rtx4090-1.16.32.160
262 144
1 91,14 ₽ 5,79 Запустить
teslav100-1.12.64.160
262 144
1 107,57 ₽ 8,17 Запустить
rtxa5000-2.16.64.160.nvlink
262 144
tensor
2 109,77 ₽ 12,12 Запустить
rtx5090-1.16.64.160
262 144
1 141,77 ₽ 8,17 Запустить
teslaa100-1.16.64.160
262 144
1 211,77 ₽ 22,48 Запустить
h100-1.16.64.160
262 144
1 341,77 ₽ 22,48 Запустить
h100nvl-1.16.96.160
262 144
1 367,41 ₽ 26,66 Запустить
h200-1.16.128.160
262 144
1 423,04 ₽ 40,67 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.