DeepSeek-V3.2 построена на базе DeepSeek-V3.1-Terminus с единственным архитектурным изменением — внедрением механизма DeepSeek Sparse Attention (DSA). DSA состоит из двух ключевых компонентов: lightning indexer (быстрый индексатор) и fine-grained token selection (детальный механизм отбора токенов). Индексатор вычисляет оценки важности между текущим токеном запроса и предыдущими токенами, после чего механизм отбора извлекает только top-k ключевых токенов (2048 из всей последовательности). DSA реализован поверх архитектуры Multi-head Latent Attention (MLA) и решает проблему потери информации о релевантности отдельных токенов, а в совокупности эти два метода позволяют снизить вычислительную сложность и эффективно работать с длинными контекстами экономя память, выделяемую под KV-кэш.
Ключевой инновацией DeepSeek-V3.2 является способность выполнять рассуждения непосредственно внутри процесса вызова инструментов. Модель использует специальную систему управления контекстом: исторический процесс рассуждений сохраняется между вызовами инструментов и удаляется только при поступлении нового сообщения от пользователя, что предотвращает избыточное повторное рассуждение над одной и той же проблемой. Для обучения этой возможности был разработан крупномасштабный набор данных с агентскими задачами.
DeepSeek-V3.2 демонстрирует производительность, сопоставимую с GPT-5, превосходя открытые модели на ключевых бенчмарках. На AIME 2025 (математическая олимпиада) модель достигла 93.1% точности, на HMMT February 2025 (математический турнир MIT-Harvard) — 92.5%, что близко к результатам GPT-5 и опережает Kimi-K2-Thinking. По рейтингу Codeforces (соревновательное программирование) модель достигла 2386, превосходя Claude 4.5 Sonnet (1480). В агентских задачах DeepSeek-V3.2 показала результаты на уровне лучших проприетарных проектов при этом значительно превосходя другие открытые модели: на SWE-Verified (реальные задачи по исправлению кода) — 73.1% решённых задач. На бенчмарках Tool-Decathlon (разнообразные инструменты) модель достигла 35.2% против 17.6% у Kimi-K2 и 16.0% у MiniMax-M2.
DeepSeek-V3.2 оптимальна для задач, требующих сложных рассуждений и работы с инструментами: разработка и отладка кода в реальных репозиториях, создание агентов для поиска информации с верификацией фактов через веб-поиск, интерпретация данных через код, автоматизация задач через MCP (Model Context Protocol) и работа в RAG-системами.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
163 840 tensor |
8 | 3,95 | Запустить | |||
163 840 pipeline |
6 | 1 259,13 ₽ | 2,04 | Запустить | ||
163 840 pipeline |
3 | 1 282,53 ₽ | 2,05 | Запустить | ||
163 840 tensor |
8 | 1 639,13 ₽ | 3,95 | Запустить | ||
163 840 tensor |
4 | 1 717,59 ₽ | 5,87 | Запустить | ||
163 840 tensor |
4 | 1 717,59 ₽ | 5,87 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
163 840 pipeline |
6 | 2 535,78 ₽ | 2,42 | Запустить | ||
163 840 tensor |
8 | 3 338,30 ₽ | 6,14 | Запустить | ||
163 840 tensor |
8 | 3 338,30 ₽ | 6,14 | Запустить | ||
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.