DeepSeek-V3.2

размышляющая
русскоязычная

DeepSeek-V3.2 построена на базе DeepSeek-V3.1-Terminus с единственным архитектурным изменением — внедрением механизма DeepSeek Sparse Attention (DSA). DSA состоит из двух ключевых компонентов: lightning indexer (быстрый индексатор) и fine-grained token selection (детальный механизм отбора токенов). Индексатор вычисляет оценки важности между текущим токеном запроса и предыдущими токенами, после чего механизм отбора извлекает только top-k ключевых токенов (2048 из всей последовательности). DSA реализован поверх архитектуры Multi-head Latent Attention (MLA) и решает проблему потери информации о релевантности отдельных токенов, а в совокупности эти два метода позволяют снизить вычислительную сложность и эффективно работать с длинными контекстами экономя память, выделяемую под KV-кэш.

Ключевой инновацией DeepSeek-V3.2 является способность выполнять рассуждения непосредственно внутри процесса вызова инструментов. Модель использует специальную систему управления контекстом: исторический процесс рассуждений сохраняется между вызовами инструментов и удаляется только при поступлении нового сообщения от пользователя, что предотвращает избыточное повторное рассуждение над одной и той же проблемой. Для обучения этой возможности был разработан крупномасштабный набор данных с агентскими задачами.

DeepSeek-V3.2 демонстрирует производительность, сопоставимую с GPT-5, превосходя открытые модели на ключевых бенчмарках. На AIME 2025 (математическая олимпиада) модель достигла 93.1% точности, на HMMT February 2025 (математический турнир MIT-Harvard) — 92.5%, что близко к результатам GPT-5 и опережает Kimi-K2-Thinking. По рейтингу Codeforces (соревновательное программирование) модель достигла 2386, превосходя Claude 4.5 Sonnet (1480). В агентских задачах DeepSeek-V3.2 показала результаты на уровне лучших проприетарных проектов при этом значительно превосходя другие открытые модели: на SWE-Verified (реальные задачи по исправлению кода) — 73.1% решённых задач. На бенчмарках Tool-Decathlon (разнообразные инструменты) модель достигла 35.2% против 17.6% у Kimi-K2 и 16.0% у MiniMax-M2.

DeepSeek-V3.2 оптимальна для задач, требующих сложных рассуждений и работы с инструментами: разработка и отладка кода в реальных репозиториях, создание агентов для поиска информации с верификацией фактов через веб-поиск, интерпретация данных через код, автоматизация задач через MCP (Model Context Protocol) и работа в RAG-системами.


Дата анонса: 01.12.2025
Параметров: 685B
Экспертов: 256
Активно параметров при инференсе: 37B
Контекст: 164K
Слоев: 61
Тип внимания: DeepSeek Sparse Attention
Потребление памяти: 328.7 ГБ в точности 4 бит
Разработчик: DeepSeek
Версия Transformers: 4.44.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с DeepSeek-V3.2. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга DeepSeek-V3.2

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslaa100-6.44.512.480.nvlink
163 840
pipeline
44 524288 480 6 1 259,13 ₽ Запустить
h200-3.32.512.480
163 840
pipeline
32 524288 480 3 1 282,53 ₽ Запустить
teslaa100-8.44.512.480.nvlink
163 840
tensor
44 524288 480 8 1 639,13 ₽ Запустить
h200-4.32.768.480
163 840
tensor
32 786432 480 4 1 717,59 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
h200-6.52.896.960
163 840
pipeline
52 917504 960 6 2 535,78 ₽ Запустить
h200-8.52.1024.960
163 840
tensor
52 1048576 960 8 3 338,30 ₽ Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.