DeepSeek-V4-Pro

размышляющая
русскоязычная
для кодинга

DeepSeek-V4-Pro представляет собой фундаментальный шаг вперед в проектировании открытых больших языковых моделей (LLM), предлагая беспрецедентную эффективность работы с огромными объемами данных — вплоть до 1 миллиона токенов контекста. Построенная на архитектуре Mixture-of-Experts (MoE), модель насчитывает 1.6 триллиона общих параметров, однако при генерации каждого токена активируется лишь 49 миллиардов. Главная новелла и преимущество V4-Pro перед предыдущими версиями (включая DeepSeek-V3.2) и конкурирующими решениями заключается в радикальном снижении стоимости вычислений, что делает применение сверхдлинного контекста возможным и экономически целесообразным.

В основе вычислительной эффективности V4-Pro лежит отказ от однородного применения механизма сжатия контекста в пользу инновационного «гибридного внимания». Разные группы слоев в модели задействуют два новых механизма: Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA). В режиме CSA модель сжимает KV-кэш, упаковывая 4 исходных токена в 1 вектор, после чего легковесный индексатор DSA (Lightning Indexer) отбирает только наиболее релевантные блоки из всей истории для вычислений. В режиме HCA применяется экстремальная компрессия с коэффициентом 1:128. Благодаря такой плотной упаковке данных модель может позволить себе выполнять полноценное (не разреженное) глобальное внимание сразу по всем токенам истории. Важно, что в обоих случаях параллельно работает механизм локального скользящего окна (Sliding Window). Он без сжатия обрабатывает ближайшие предшествующие токены, гарантируя, что модель никогда не теряет точной связи с текущим контекстом.

Обучение DeepSeek-V4-Pro потребовало внедрения ряда передовых инженерных практик. Модель предварительно обучена на более чем 32 триллионах высококачественных токенов с использованием оптимизатора Muon, обеспечивающего повышенную стабильность на таких масштабах. Чтобы сигнал не затухал при прохождении через сотни слоев, была внедрена технология mHC (Manifold-Constrained Hyper-Connections) для усиления остаточных связей. Модель использует смешанную точность вычислений: веса экспертов хранятся в сверхкомпактном формате FP4, а остальные параметры — в FP8, что несколько снижает требования к оборудованию.

На ключевых тестах DeepSeek-V4-Pro уверенно держится в числе лидеров как среди открытых, так и закрытых моделей, а по ряду бенчмарков и обходит проприетарные флагманы.

Модель предоставляет три режима работы: «Non-think» для молниеносных ответов, «Think High» для стандартной логики и «Think Max» для рекурсивного разбора сложнейших задач.

Сценарии использования DeepSeek-V4-Pro охватывают анализ и синтез информации из сверхдлинных документов (юридический, обзор научной литературы, финансовые отчёты, техническая документация), разработку программного обеспечения (автодополнение, рефакторинг, генерация сложных алгоритмов), а также агентные рабочие процессы, требующие хранения истории вызовов инструментов и многошаговых цепочек рассуждений. Помимо этого, V4-Pro позиционируется как идеальный инструмент научных исследований как в области ИИ, техники, математики, и других направлениях.


Дата анонса: 22.04.2026
Параметров: 2T
Экспертов: 385
Активно параметров при инференсе: 49B
Контекст: 1049K
Слоев: 61
Тип внимания: DeepSeek Sparse Attention
Разработчик: DeepSeek
Версия Transformers: 4.57.1
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с DeepSeek-V4-Pro. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга DeepSeek-V4-Pro

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-8.52.1024.960
1 048 576
tensor
8 3 338,30 ₽ 3,07 Запустить
h200-8.52.1024.960.nvlink
1 048 576
tensor
8 3 338,30 ₽ 3,07 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-8.52.1024.960
1 048 576
tensor
8 3 338,30 ₽ 2,33 Запустить
h200-8.52.1024.960.nvlink
1 048 576
tensor
8 3 338,30 ₽ 2,33 Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.