Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

H200

H100 NVL

H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

A100

RTX A5000

A10

RTX 2080 Ti

A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold 2-го, 3-го и 5-го поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го, 3-го и 5-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

DeepSeek-V4-Pro

размышляющая

русскоязычная

для кодинга

DeepSeek-V4-Pro представляет собой фундаментальный шаг вперед в проектировании открытых больших языковых моделей (LLM), предлагая беспрецедентную эффективность работы с огромными объемами данных — вплоть до 1 миллиона токенов контекста. Построенная на архитектуре Mixture-of-Experts (MoE), модель насчитывает 1.6 триллиона общих параметров, однако при генерации каждого токена активируется лишь 49 миллиардов. Главная новелла и преимущество V4-Pro перед предыдущими версиями (включая DeepSeek-V3.2) и конкурирующими решениями заключается в радикальном снижении стоимости вычислений, что делает применение сверхдлинного контекста возможным и экономически целесообразным.

В основе вычислительной эффективности V4-Pro лежит отказ от однородного применения механизма сжатия контекста в пользу инновационного «гибридного внимания». Разные группы слоев в модели задействуют два новых механизма: Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA). В режиме CSA модель сжимает KV-кэш, упаковывая 4 исходных токена в 1 вектор, после чего легковесный индексатор DSA (Lightning Indexer) отбирает только наиболее релевантные блоки из всей истории для вычислений. В режиме HCA применяется экстремальная компрессия с коэффициентом 1:128. Благодаря такой плотной упаковке данных модель может позволить себе выполнять полноценное (не разреженное) глобальное внимание сразу по всем токенам истории. Важно, что в обоих случаях параллельно работает механизм локального скользящего окна (Sliding Window). Он без сжатия обрабатывает ближайшие предшествующие токены, гарантируя, что модель никогда не теряет точной связи с текущим контекстом.

Обучение DeepSeek-V4-Pro потребовало внедрения ряда передовых инженерных практик. Модель предварительно обучена на более чем 32 триллионах высококачественных токенов с использованием оптимизатора Muon, обеспечивающего повышенную стабильность на таких масштабах. Чтобы сигнал не затухал при прохождении через сотни слоев, была внедрена технология mHC (Manifold-Constrained Hyper-Connections) для усиления остаточных связей. Модель использует смешанную точность вычислений: веса экспертов хранятся в сверхкомпактном формате FP4, а остальные параметры — в FP8, что несколько снижает требования к оборудованию.

На ключевых тестах DeepSeek-V4-Pro уверенно держится в числе лидеров как среди открытых, так и закрытых моделей, а по ряду бенчмарков и обходит проприетарные флагманы.

Модель предоставляет три режима работы: «Non-think» для молниеносных ответов, «Think High» для стандартной логики и «Think Max» для рекурсивного разбора сложнейших задач.

Сценарии использования DeepSeek-V4-Pro охватывают анализ и синтез информации из сверхдлинных документов (юридический, обзор научной литературы, финансовые отчёты, техническая документация), разработку программного обеспечения (автодополнение, рефакторинг, генерация сложных алгоритмов), а также агентные рабочие процессы, требующие хранения истории вызовов инструментов и многошаговых цепочек рассуждений. Помимо этого, V4-Pro позиционируется как идеальный инструмент научных исследований как в области ИИ, техники, математики, и других направлениях.

Дата анонса: 22.04.2026
Параметров: 2T
Экспертов: 385
Активно параметров при инференсе: 49B
Контекст: 1049K
Слоев: 61
Тип внимания: DeepSeek Sparse Attention
Разработчик: DeepSeek
Версия Transformers: 4.57.1
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с DeepSeek-V4-Pro. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Наименование	GPU	Цена, тариф	Цена, час	Цена, месяц	TPS	Параллельность (макс.)
h200-8.52.1024.960 1 048 576 tensor	8		3 338,30 ₽	2 403 576,00 ₽		3,07	Запустить
h200-8.52.1024.960.nvlink 1 048 576 tensor	8		3 338,30 ₽	2 403 576,00 ₽		3,07	Запустить

Наименование	GPU	Цена, тариф	Цена, час	Цена, месяц	TPS	Параллельность (макс.)
h200-8.52.1024.960 1 048 576 tensor	8		3 338,30 ₽	2 403 576,00 ₽		2,33	Запустить
h200-8.52.1024.960.nvlink 1 048 576 tensor	8		3 338,30 ₽	2 403 576,00 ₽		2,33	Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.