DeepSeek-V4-Flash

размышляющая
русскоязычная
для кодинга

DeepSeek-V4-Flash — это сравнительно компактная, но высокопроизводительная модель в семействе DeepSeek-V4, построенная по архитектуре Mixture-of-Experts с 284 миллиардами общих параметров, из которых на каждый токен активируется лишь 13 миллиардов. Она поддерживает контекст длиной до одного миллиона токенов и при этом требует для развёртывания значительно меньше ресурсов, чем версия Pro. Модель обучена на более чем 32 триллионах токенов и прошла двухэтапное пост-обучение, а лицензия MIT делает её полностью открытой для коммерческого и исследовательского использования.

Главная инженерная инновация V4 — гибридный механизм внимания, который радикально меняет подход к длинному контексту. В отличие от предыдущих версий, где MLA применялся однородно, в V4 разные слои используют два режима: Compressed Sparse Attention и Heavily Compressed Attention. CSA сжимает токены контекста в компактный вектор в пропорции 1:4, после чего индексатор Lightning Indexer отбирает лишь наиболее релевантные сжатые блоки для вычисления внимания. HCA применяет экстремальное сжатие 1:128 и выполняет полное глобальное внимание над сверхкомпактными представлениями всей истории, не используя разреженную выборку. Параллельно в каждом слое скользящее окно из 128 токенов обрабатывает ближайший контекст без сжатия, сохраняя детальную локальную осведомлённость. Такая комбинация позволяет на миллионном контексте почти в десять рах сократить затраты памяти на KV-кэш.

Модель поддерживает три режима рассуждений: Non-Think для быстрых повседневных ответов, Think High для осознанного логического анализа и Think Max для решения наиболее сложных задач. По качеству решения задач Flash в режиме максимальных рассуждений — демонстрирует результаты, близкие к Pro-Max, несмотря на втрое меньшее число активируемых параметров. На Codeforces модель набирает 3052 балла, сравниваясь с Gemini-3.1-Pro-High. На LiveCodeBench она достигает 91.6% при прохождении с первой попытки, а на Apex Shortlist — 85.7%, что подтверждает сильные способности в программировании и математике. Даже в базовом режиме без размышлений модель держит высокую планку: MMLU-Pro составляет 83.0%, что отражает прочный фундамент общих знаний о мире.

Модель подходит для сценариев, где критичны одновременно длина контекста и экономичность развёртывания. К ним относятся анализ и суммаризация больших документов, юридических досье или научных статей, поиск по обширным корпоративным базам знаний, многошаговая работа агентов с длинными сессиями и большим числом инструментов, а также задачи программирования и математического моделирования, где важны как точность рассуждений, так и способность удерживать в поле зрения объёмный код или спецификации. Разработчики могут использовать её как мощный и доступный по ресурсам аналог закрытых флагманов для построения чат-ботов, систем автоматической генерации кода, интеллектуальных ассистентов для работы с документами и research-агентов, оперирующих контекстами внушительных размеров.


Дата анонса: 22.04.2026
Параметров: 293B
Экспертов: 256
Активно параметров при инференсе: 13B
Контекст: 1049K
Слоев: 43
Тип внимания: DeepSeek Sparse Attention
Разработчик: DeepSeek
Версия Transformers: 4.57.1
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с DeepSeek-V4-Flash. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга DeepSeek-V4-Flash

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-3.32.384.320
1 048 576
pipeline
3 658,44 ₽ 3,02 Запустить
h100nvl-2.24.192.480
1 048 576
tensor
2 731,81 ₽ 1,49 Запустить
teslaa100-4.16.256.480
1 048 576
tensor
4 818,68 ₽ 4,64 Запустить
h200-2.24.256.320
1 048 576
tensor
2 841,52 ₽ 7,29 Запустить
h200-2.24.256.320.nvlink
1 048 576
tensor
2 841,52 ₽ 7,29 Запустить
teslaa100-4.32.384.320.nvlink
1 048 576
tensor
4 848,44 ₽ 4,64 Запустить
rtx5090-8.44.256.480
1 048 576
tensor
8 1 034,08 ₽ 1,16 Запустить
h100-3.32.384.320
1 048 576
pipeline
3 1 048,44 ₽ 3,02 Запустить
h100-4.16.256.480
1 048 576
tensor
4 1 338,68 ₽ 4,64 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-3.32.384.320
1 048 576
pipeline
3 658,44 ₽ 2,73 Запустить
h100nvl-2.24.192.480
1 048 576
tensor
2 731,81 ₽ 1,07 Запустить
teslaa100-4.16.256.480
1 048 576
tensor
4 818,68 ₽ 4,43 Запустить
h200-2.24.256.320
1 048 576
tensor
2 841,52 ₽ 6,86 Запустить
h200-2.24.256.320.nvlink
1 048 576
tensor
2 841,52 ₽ 6,86 Запустить
teslaa100-4.32.384.320.nvlink
1 048 576
tensor
4 848,44 ₽ 4,43 Запустить
rtx5090-8.44.256.480
1 048 576
tensor
8 1 034,08 ₽ 1,06 Запустить
h100-3.32.384.320
1 048 576
pipeline
3 1 048,44 ₽ 2,73 Запустить
h100-4.16.256.480
1 048 576
tensor
4 1 338,68 ₽ 4,43 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-6.52.896.640
1 048 576
pipeline
6 2 532,67 ₽ 4,95 Запустить
h200-8.52.1024.640
1 048 576
tensor
8 3 335,19 ₽ 7,97 Запустить
h200-8.52.1024.640.nvlink
1 048 576
tensor
8 3 335,19 ₽ 7,97 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.