DeepSeek-V3.2 построена на базе DeepSeek-V3.1-Terminus с единственным архитектурным изменением — внедрением механизма DeepSeek Sparse Attention (DSA). DSA состоит из двух ключевых компонентов: lightning indexer (быстрый индексатор) и fine-grained token selection (детальный механизм отбора токенов). Индексатор вычисляет оценки важности между текущим токеном запроса и предыдущими токенами, после чего механизм отбора извлекает только top-k ключевых токенов (2048 из всей последовательности). DSA реализован поверх архитектуры Multi-head Latent Attention (MLA) и решает проблему потери информации о релевантности отдельных токенов, а в совокупности эти два метода позволяют снизить вычислительную сложность и эффективно работать с длинными контекстами экономя память, выделяемую под KV-кэш.
Ключевой инновацией DeepSeek-V3.2 является способность выполнять рассуждения непосредственно внутри процесса вызова инструментов. Модель использует специальную систему управления контекстом: исторический процесс рассуждений сохраняется между вызовами инструментов и удаляется только при поступлении нового сообщения от пользователя, что предотвращает избыточное повторное рассуждение над одной и той же проблемой. Для обучения этой возможности был разработан крупномасштабный набор данных с агентскими задачами.
DeepSeek-V3.2 демонстрирует производительность, сопоставимую с GPT-5, превосходя открытые модели на ключевых бенчмарках. На AIME 2025 (математическая олимпиада) модель достигла 93.1% точности, на HMMT February 2025 (математический турнир MIT-Harvard) — 92.5%, что близко к результатам GPT-5 и опережает Kimi-K2-Thinking. По рейтингу Codeforces (соревновательное программирование) модель достигла 2386, превосходя Claude 4.5 Sonnet (1480). В агентских задачах DeepSeek-V3.2 показала результаты на уровне лучших проприетарных проектов при этом значительно превосходя другие открытые модели: на SWE-Verified (реальные задачи по исправлению кода) — 73.1% решённых задач. На бенчмарках Tool-Decathlon (разнообразные инструменты) модель достигла 35.2% против 17.6% у Kimi-K2 и 16.0% у MiniMax-M2.
DeepSeek-V3.2 оптимальна для задач, требующих сложных рассуждений и работы с инструментами: разработка и отладка кода в реальных репозиториях, создание агентов для поиска информации с верификацией фактов через веб-поиск, интерпретация данных через код, автоматизация задач через MCP (Model Context Protocol) и работа в RAG-системами.
| Наименование модели | Контекст | Тип | GPU | TPS | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
163 840 pipeline |
44 | 524288 | 480 | 6 | 1 259,13 ₽ | Запустить | |
163 840 pipeline |
32 | 524288 | 480 | 3 | 1 282,53 ₽ | Запустить | |
163 840 tensor |
44 | 524288 | 480 | 8 | 1 639,13 ₽ | Запустить | |
163 840 tensor |
32 | 786432 | 480 | 4 | 1 717,59 ₽ | Запустить | |
| Наименование | vCPU | ОЗУ, МБ | Диск, ГБ | GPU | |||
|---|---|---|---|---|---|---|---|
163 840 pipeline |
52 | 917504 | 960 | 6 | 2 535,78 ₽ | Запустить | |
163 840 tensor |
52 | 1048576 | 960 | 8 | 3 338,30 ₽ | Запустить | |
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.