DeepSeek-V3.2-Exp — экспериментальная модель на базе V3.1-Terminus. Архитектурно она построена на той же основе, что V3.1-Terminus: Гибридный режим рассуждений, Mixture-of-Experts (MoE) с 256 экспертами, из которых активируются только 8 на каждый токен. Модель использует контекстное окно до 163,840 токенов и технологию внимания Multi-Latent Attention (MLA). Ключевое отличие данной экспериментальной модели заключается в механизме DeepSeek Sparse Attention (DSA) — принципиально новом подходе к работе с вниманием в трансформерах. DSA состоит из двух основных компонентов: lightning-индексатора и механизма точечного выбора токенов. Lightning-индексатор быстро вычисляет индексные оценки между query-токеном и предшествующими токенами, определяя наиболее релевантные элементы для внимания и выбирает только 2048 наиболее подходящих токенов для каждого query-токена. Механизм точечного выбора извлекает только ключевые пары ключ-значение, соответствующие топ-k индексным оценкам, что существенно сокращает вычислительную сложность/
Версия V3.2 была выпущена всего через месяц после V3.1-Terminus. По словам разработчиков эта модель - промежуточный шаг к архитектуре следующего поколения. Модель демонстрирует отличные и стабилные результаты на ведущих бенчмарках: AIME 2025 (89.3% точности) — международная олимпиада по математике, Codeforces (рейтинг 2121) — платформа соревновательного программирования, комплексная оценка знаний MMLU-Pro (85.0%), агентные задачи BrowseComp (40.1%), для веб-навигации и SimpleQA (97.1%). Однако по ряду показателей экспериментальная модель, пусть незначительно, но уступает базовой версии V3.1-Terminus.
DeepSeek-V3.2-Exp экспериментальная версия, тем нее менее именно она используется в официальном чат-инференсе и приложении deepseek, а значит и открытая версия, распространяемая по лицензии MIT, отлично подойдет для решения широкого круга задач, требующих максимально подробной и последовательной цепочки рассуждений и запаса знаний, имеющегося у языковой модели такого внушительного размера.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
163 840 tensor |
8 | 3,91 | Запустить | |||
163 840 pipeline |
6 | 1 259,13 ₽ | 1,31 | Запустить | ||
163 840 pipeline |
3 | 1 282,53 ₽ | 39,93 | 1,35 | Запустить | |
163 840 tensor |
8 | 1 639,13 ₽ | 3,92 | Запустить | ||
163 840 tensor |
4 | 1 717,59 ₽ | 5,78 | Запустить | ||
163 840 tensor |
4 | 1 717,59 ₽ | 5,78 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
163 840 pipeline |
6 | 2 535,78 ₽ | 1,44 | Запустить | ||
163 840 tensor |
8 | 3 338,30 ₽ | 6,38 | Запустить | ||
163 840 tensor |
8 | 3 338,30 ₽ | 6,38 | Запустить | ||
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.