DeepSeek-V3.1

размышляющая
русскоязычная

DeepSeek-V3.1 - крупное обновление в линейке моделей DeepSeek-AI по словам разработчиков: «Это шаг к эре агентов». Ключевой особенностью DeepSeek-V3.1 является использование гибридной системы мышления, которая позволяет модели переключаться между двумя режимами: thinking mode (режим размышления с цепочкой рассуждений) и non-thinking mode (прямой режим генерации ответов). Модель построена на основе архитектуры Mixture-of-Experts (MoE) с 671 миллиардами общих параметров, но на инференсе активируется лишь 37 миллиардов параметров на каждый токен, что обеспечивает оптимальное соотношение производительности и затрат на вывод.

Модель прошла интенсивное двухфазное дополнительно обучение для работы с длинным контекстом. Это обучение на 630 миллиардах токенов в первой фазе (длинна контекста - 32K) — что в 10 раз больше, чем у V3, и 209 миллиардах токенов во второй фазе (длинна контекста - 128K) — в 3.3 раза больше предшественника. Поэтому разработчики рекомендуют использовать контекстное окно в 128К, хотя технически модель может работать и более длинной последовательностью. Стоит также отметить, что модель обучалась на данных в формате FP8, поэтому она отлично оптимизирована для решений, использующих такой формат квантизации.

На ключевых бенчмарках новая модель уверенно лучше предыдущих версий: DeepSeek V3.1-NonThinking превосходит DeepSeek V3 0324, а DeepSeek V3.1-Thinking показывает результаты на 1-2 % пункта выше, чем DeepSeek R1 0528. При этом DeepSeek-V3.1 демонстрирует кардинальное улучшение в области использования инструментов и агентских задач особенно в режиме без рассуждения, а что касается эффективности мышления то DeepSeek-V3.1-Think генерирует цепочки рассуждений значительно быстрее чем его предшественник DeepSeek-R1-0528.

Модели от DeepSeek-AI уже прочно обосновались на рынке как незаменимые и всезнающие диалоговые ассистенты. DeepSeek-V3.1 перенимает эстафету и открывает новые возможности к контексте агентских систем. В области разработки программного обеспечения модель позволяет не только генерировать качественный код, но и позволяет реализовывать отладку и рефакторинг с поддержкой агентских фреймворков. Для научных исследований модель предлагает помощь в анализе исследовательских работ, интерпретации данных и незаменима при формировании и проверке гипотез. Бизнес-аналитика получает мощный инструмент для сложного анализа данных и генерации отчетов с практическими рекомендациями. И этот список сценариев и отраслей применения новой модели можно продолжать и продолжать.


Дата анонса: 21.08.2025
Параметров: 685B
Экспертов: 256
Активно параметров при инференсе: 37B
Контекст: 164K
Тип внимания: Multi-head Latent Attention
Потребление памяти: 329.7 ГБ в точности 4 бит
Разработчик: DeepSeek
Версия Transformers: 4.44.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами для теста инференса и знакомства с DeepSeek-V3.1.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга DeepSeek-V3.1

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.