Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

Tesla H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

Tesla A100

RTX A5000

Tesla A10

RTX 2080 Ti

Tesla A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold второго и третьего поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Собрерите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го и 3-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

DeepSeek-V3.1

размышляющая

русскоязычная

DeepSeek-V3.1 - крупное обновление в линейке моделей DeepSeek-AI по словам разработчиков: «Это шаг к эре агентов». Ключевой особенностью DeepSeek-V3.1 является использование гибридной системы мышления, которая позволяет модели переключаться между двумя режимами: thinking mode (режим размышления с цепочкой рассуждений) и non-thinking mode (прямой режим генерации ответов). Модель построена на основе архитектуры Mixture-of-Experts (MoE) с 671 миллиардами общих параметров, но на инференсе активируется лишь 37 миллиардов параметров на каждый токен, что обеспечивает оптимальное соотношение производительности и затрат на вывод.

Модель прошла интенсивное двухфазное дополнительно обучение для работы с длинным контекстом. Это обучение на 630 миллиардах токенов в первой фазе (длинна контекста - 32K) — что в 10 раз больше, чем у V3, и 209 миллиардах токенов во второй фазе (длинна контекста - 128K) — в 3.3 раза больше предшественника. Поэтому разработчики рекомендуют использовать контекстное окно в 128К, хотя технически модель может работать и более длинной последовательностью. Стоит также отметить, что модель обучалась на данных в формате FP8, поэтому она отлично оптимизирована для решений, использующих такой формат квантизации.

На ключевых бенчмарках новая модель уверенно лучше предыдущих версий: DeepSeek V3.1-NonThinking превосходит DeepSeek V3 0324, а DeepSeek V3.1-Thinking показывает результаты на 1-2 % пункта выше, чем DeepSeek R1 0528. При этом DeepSeek-V3.1 демонстрирует кардинальное улучшение в области использования инструментов и агентских задач особенно в режиме без рассуждения, а что касается эффективности мышления то DeepSeek-V3.1-Think генерирует цепочки рассуждений значительно быстрее чем его предшественник DeepSeek-R1-0528.

Модели от DeepSeek-AI уже прочно обосновались на рынке как незаменимые и всезнающие диалоговые ассистенты. DeepSeek-V3.1 перенимает эстафету и открывает новые возможности к контексте агентских систем. В области разработки программного обеспечения модель позволяет не только генерировать качественный код, но и позволяет реализовывать отладку и рефакторинг с поддержкой агентских фреймворков. Для научных исследований модель предлагает помощь в анализе исследовательских работ, интерпретации данных и незаменима при формировании и проверке гипотез. Бизнес-аналитика получает мощный инструмент для сложного анализа данных и генерации отчетов с практическими рекомендациями. И этот список сценариев и отраслей применения новой модели можно продолжать и продолжать.

Дата анонса: 21.08.2025
Параметров: 685B
Экспертов: 256
Активно параметров при инференсе: 37B
Контекст: 164K
Тип внимания: Multi-head Latent Attention
Потребление памяти: 329.7 ГБ в точности 4 бит
Разработчик: DeepSeek
Версия Transformers: 4.44.2
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами для теста инференса и знакомства с DeepSeek-V3.1.

Наименование модели	Контекст	Тип	GPU	TPS	Статус	Ссылка


            Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Связанные модели

DeepSeek-V3-0324

DeepSeek-V3

DeepSeek-R1

DeepSeek-R1-0528

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.

DeepSeek-V3.1

Публичный эндпоинт

Частный сервер

Рекомендуемые конфигурации для хостинга DeepSeek-V3.1

Связанные модели

Остались вопросы?