DeepSeek-V4-Flash — это сравнительно компактная, но высокопроизводительная модель в семействе DeepSeek-V4, построенная по архитектуре Mixture-of-Experts с 284 миллиардами общих параметров, из которых на каждый токен активируется лишь 13 миллиардов. Она поддерживает контекст длиной до одного миллиона токенов и при этом требует для развёртывания значительно меньше ресурсов, чем версия Pro. Модель обучена на более чем 32 триллионах токенов и прошла двухэтапное пост-обучение, а лицензия MIT делает её полностью открытой для коммерческого и исследовательского использования.
Главная инженерная инновация V4 — гибридный механизм внимания, который радикально меняет подход к длинному контексту. В отличие от предыдущих версий, где MLA применялся однородно, в V4 разные слои используют два режима: Compressed Sparse Attention и Heavily Compressed Attention. CSA сжимает токены контекста в компактный вектор в пропорции 1:4, после чего индексатор Lightning Indexer отбирает лишь наиболее релевантные сжатые блоки для вычисления внимания. HCA применяет экстремальное сжатие 1:128 и выполняет полное глобальное внимание над сверхкомпактными представлениями всей истории, не используя разреженную выборку. Параллельно в каждом слое скользящее окно из 128 токенов обрабатывает ближайший контекст без сжатия, сохраняя детальную локальную осведомлённость. Такая комбинация позволяет на миллионном контексте почти в десять рах сократить затраты памяти на KV-кэш.
Модель поддерживает три режима рассуждений: Non-Think для быстрых повседневных ответов, Think High для осознанного логического анализа и Think Max для решения наиболее сложных задач. По качеству решения задач Flash в режиме максимальных рассуждений — демонстрирует результаты, близкие к Pro-Max, несмотря на втрое меньшее число активируемых параметров. На Codeforces модель набирает 3052 балла, сравниваясь с Gemini-3.1-Pro-High. На LiveCodeBench она достигает 91.6% при прохождении с первой попытки, а на Apex Shortlist — 85.7%, что подтверждает сильные способности в программировании и математике. Даже в базовом режиме без размышлений модель держит высокую планку: MMLU-Pro составляет 83.0%, что отражает прочный фундамент общих знаний о мире.
Модель подходит для сценариев, где критичны одновременно длина контекста и экономичность развёртывания. К ним относятся анализ и суммаризация больших документов, юридических досье или научных статей, поиск по обширным корпоративным базам знаний, многошаговая работа агентов с длинными сессиями и большим числом инструментов, а также задачи программирования и математического моделирования, где важны как точность рассуждений, так и способность удерживать в поле зрения объёмный код или спецификации. Разработчики могут использовать её как мощный и доступный по ресурсам аналог закрытых флагманов для построения чат-ботов, систем автоматической генерации кода, интеллектуальных ассистентов для работы с документами и research-агентов, оперирующих контекстами внушительных размеров.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
1 048 576 pipeline |
3 | 657,66 ₽ | 3,31 | Запустить | ||
1 048 576 tensor |
2 | 729,47 ₽ | 1,93 | Запустить | ||
1 048 576 tensor |
4 | 816,34 ₽ | 4,87 | Запустить | ||
1 048 576 tensor |
2 | 840,74 ₽ | 7,73 | Запустить | ||
1 048 576 tensor |
2 | 840,74 ₽ | 7,73 | Запустить | ||
1 048 576 tensor |
4 | 848,44 ₽ | 4,87 | Запустить | ||
1 048 576 tensor |
8 | 1 031,74 ₽ | 1,27 | Запустить | ||
1 048 576 pipeline |
3 | 1 047,66 ₽ | 3,31 | Запустить | ||
1 048 576 tensor |
4 | 1 336,34 ₽ | 4,87 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
1 048 576 tensor |
8 | 4,87 | Запустить | |||
1 048 576 pipeline |
6 | 1 259,13 ₽ | 3,31 | Запустить | ||
1 048 576 pipeline |
3 | 1 282,53 ₽ | 4,62 | Запустить | ||
1 048 576 tensor |
4 | 1 450,00 ₽ | 1,93 | Запустить | ||
1 048 576 tensor |
8 | 1 639,13 ₽ | 4,87 | Запустить | ||
1 048 576 tensor |
4 | 1 717,59 ₽ | 7,73 | Запустить | ||
1 048 576 tensor |
4 | 1 717,59 ₽ | 7,73 | Запустить | ||
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.