DeepSeek-V3.2-Exp

размышляющая
русскоязычная

DeepSeek-V3.2-Exp — экспериментальная модель на базе V3.1-Terminus. Архитектурно она построена на той же основе, что V3.1-Terminus: Гибридный режим рассуждений, Mixture-of-Experts (MoE) с 256 экспертами, из которых активируются только 8 на каждый токен. Модель использует контекстное окно до 163,840 токенов и технологию внимания Multi-Latent Attention (MLA). Ключевое отличие данной экспериментальной модели заключается в механизме DeepSeek Sparse Attention (DSA) — принципиально новом подходе к работе с вниманием в трансформерах. DSA состоит из двух основных компонентов: lightning-индексатора и механизма точечного выбора токенов. Lightning-индексатор быстро вычисляет индексные оценки между query-токеном и предшествующими токенами, определяя наиболее релевантные элементы для внимания и выбирает только 2048 наиболее подходящих токенов для каждого query-токена. Механизм точечного выбора извлекает только ключевые пары ключ-значение, соответствующие топ-k индексным оценкам, что существенно сокращает вычислительную сложность/

Версия V3.2 была выпущена всего через месяц после V3.1-Terminus. По словам разработчиков эта модель - промежуточный шаг к архитектуре следующего поколения. Модель демонстрирует отличные и стабилные результаты на ведущих бенчмарках: AIME 2025 (89.3% точности) — международная олимпиада по математике, Codeforces (рейтинг 2121) — платформа соревновательного программирования, комплексная оценка знаний MMLU-Pro (85.0%), агентные задачи BrowseComp (40.1%), для веб-навигации и SimpleQA (97.1%). Однако по ряду показателей экспериментальная модель, пусть незначительно, но уступает базовой версии V3.1-Terminus.

DeepSeek-V3.2-Exp экспериментальная версия, тем нее менее именно она используется в официальном чат-инференсе и приложении deepseek, а значит и открытая версия, распространяемая по лицензии MIT, отлично подойдет для решения широкого круга задач, требующих максимально подробной и последовательной цепочки рассуждений и запаса знаний, имеющегося у языковой модели такого внушительного размера.


Дата анонса: 29.09.2025
Параметров: 685B
Экспертов: 256
Активно параметров при инференсе: 37B
Контекст: 164K
Слоев: 61
Тип внимания: DeepSeek Sparse Attention
Потребление памяти: 334.6 ГБ в точности 4 бит
Разработчик: DeepSeek
Версия Transformers: 4.44.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с DeepSeek-V3.2-Exp. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга DeepSeek-V3.2-Exp

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-6.44.512.480.nvlink
163 840
44 524288 480 6 1 373,13 ₽ Запустить
h200-3.32.512.480
163 840
32 524288 480 3 1 882,53 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
h200-6.52.896.960
163 840
52 917504 960 6 3 735,78 ₽ Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.