DeepSeek-V4-Flash

размышляющая
русскоязычная
для кодинга

DeepSeek-V4-Flash — это сравнительно компактная, но высокопроизводительная модель в семействе DeepSeek-V4, построенная по архитектуре Mixture-of-Experts с 284 миллиардами общих параметров, из которых на каждый токен активируется лишь 13 миллиардов. Она поддерживает контекст длиной до одного миллиона токенов и при этом требует для развёртывания значительно меньше ресурсов, чем версия Pro. Модель обучена на более чем 32 триллионах токенов и прошла двухэтапное пост-обучение, а лицензия MIT делает её полностью открытой для коммерческого и исследовательского использования.

Главная инженерная инновация V4 — гибридный механизм внимания, который радикально меняет подход к длинному контексту. В отличие от предыдущих версий, где MLA применялся однородно, в V4 разные слои используют два режима: Compressed Sparse Attention и Heavily Compressed Attention. CSA сжимает токены контекста в компактный вектор в пропорции 1:4, после чего индексатор Lightning Indexer отбирает лишь наиболее релевантные сжатые блоки для вычисления внимания. HCA применяет экстремальное сжатие 1:128 и выполняет полное глобальное внимание над сверхкомпактными представлениями всей истории, не используя разреженную выборку. Параллельно в каждом слое скользящее окно из 128 токенов обрабатывает ближайший контекст без сжатия, сохраняя детальную локальную осведомлённость. Такая комбинация позволяет на миллионном контексте почти в десять рах сократить затраты памяти на KV-кэш.

Модель поддерживает три режима рассуждений: Non-Think для быстрых повседневных ответов, Think High для осознанного логического анализа и Think Max для решения наиболее сложных задач. По качеству решения задач Flash в режиме максимальных рассуждений — демонстрирует результаты, близкие к Pro-Max, несмотря на втрое меньшее число активируемых параметров. На Codeforces модель набирает 3052 балла, сравниваясь с Gemini-3.1-Pro-High. На LiveCodeBench она достигает 91.6% при прохождении с первой попытки, а на Apex Shortlist — 85.7%, что подтверждает сильные способности в программировании и математике. Даже в базовом режиме без размышлений модель держит высокую планку: MMLU-Pro составляет 83.0%, что отражает прочный фундамент общих знаний о мире.

Модель подходит для сценариев, где критичны одновременно длина контекста и экономичность развёртывания. К ним относятся анализ и суммаризация больших документов, юридических досье или научных статей, поиск по обширным корпоративным базам знаний, многошаговая работа агентов с длинными сессиями и большим числом инструментов, а также задачи программирования и математического моделирования, где важны как точность рассуждений, так и способность удерживать в поле зрения объёмный код или спецификации. Разработчики могут использовать её как мощный и доступный по ресурсам аналог закрытых флагманов для построения чат-ботов, систем автоматической генерации кода, интеллектуальных ассистентов для работы с документами и research-агентов, оперирующих контекстами внушительных размеров.


Дата анонса: 22.04.2026
Параметров: 293B
Экспертов: 256
Активно параметров при инференсе: 13B
Контекст: 1049K
Слоев: 43
Тип внимания: DeepSeek Sparse Attention
Разработчик: DeepSeek
Версия Transformers: 4.57.1
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с DeepSeek-V4-Flash. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга DeepSeek-V4-Flash

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-3.32.384.240
1 048 576
pipeline
3 657,66 ₽ 3,31 Запустить
h100nvl-2.24.192.240
1 048 576
tensor
2 729,47 ₽ 1,93 Запустить
teslaa100-4.16.256.240
1 048 576
tensor
4 816,34 ₽ 4,87 Запустить
h200-2.24.256.240
1 048 576
tensor
2 840,74 ₽ 7,73 Запустить
h200-2.24.256.240.nvlink
1 048 576
tensor
2 840,74 ₽ 7,73 Запустить
teslaa100-4.32.384.320.nvlink
1 048 576
tensor
4 848,44 ₽ 4,87 Запустить
rtx5090-8.44.256.240
1 048 576
tensor
8 1 031,74 ₽ 1,27 Запустить
h100-3.32.384.240
1 048 576
pipeline
3 1 047,66 ₽ 3,31 Запустить
h100-4.16.256.240
1 048 576
tensor
4 1 336,34 ₽ 4,87 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
dedicated-h100-8.96.768.5760-1
1 048 576
tensor
8 4,87 Запустить
teslaa100-6.44.512.480.nvlink
1 048 576
pipeline
6 1 259,13 ₽ 3,31 Запустить
h200-3.32.512.480
1 048 576
pipeline
3 1 282,53 ₽ 4,62 Запустить
h100nvl-4.32.384.480
1 048 576
tensor
4 1 450,00 ₽ 1,93 Запустить
teslaa100-8.44.512.480.nvlink
1 048 576
tensor
8 1 639,13 ₽ 4,87 Запустить
h200-4.32.768.480
1 048 576
tensor
4 1 717,59 ₽ 7,73 Запустить
h200-4.32.768.480.nvlink
1 048 576
tensor
4 1 717,59 ₽ 7,73 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-6.52.896.960
1 048 576
pipeline
6 2 535,78 ₽ 4,62 Запустить
h200-8.52.1024.960
1 048 576
tensor
8 3 338,30 ₽ 7,73 Запустить
h200-8.52.1024.960.nvlink
1 048 576
tensor
8 3 338,30 ₽ 7,73 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.