Krea Realtime 14B

Модель Krea Realtime 14B представляет собой дистилляцию модели Wan 2.1 14B (разработанной Wan-AI) для задач генерации видео на основе текста. Она была преобразована в автокорректирующуюся (autoregressive) модель с помощью метода Self-Forcing, что позволило достичь скорости инференса 11 кадров в секунду при использовании 4 шагов вывода на одном GPU NVIDIA B200. 

Технологии для стабилизации генерации:

  • KV Cache Recomputation и KV Cache Attention Bias — методы для снижения накопления ошибок в процессе генерации.
  • Оптимизации памяти, специфичные для автокорректирующихся моделей, что упрощает обучение крупных архитектур.

Возможности в реальном времени:

  • Генерация видео с временем до первого кадра менее 1 секунды.
  • Возможность модификации промптов во время генерации и динамического изменения стиля видео (restyle).
  • Поддержка video-to-video:
  • обработка входных видео, потоков с вебкамеры или канваса для управляемой синтеза и редактирования.
  • Текст-в-видео (text-to-video) в потоковом режиме.

Технические детали:

  • Размер модели: превышает размер существующих моделей реального времени более чем в 10 раз.
  • Инференс: реализован с помощью библиотеки Diffusers (модуль Modular Diffusers). Для работы требуются компоненты из репозитория Wan-AI/Wan2.1-T2V-1.3B и специфичные настройки (например, использование `torch.bfloat16` для оптимизации памяти).
  • Инфраструктура: поддерживает работу с `CUDA` и требует установки зависимостей, включая `ffmpeg` и `flash_attn`.
  • Использование: 
    • Запуск через веб-интерфейс (нужно клонировать репозиторий `krea-ai/realtime-video` и выполнить указанные шаги установки).
    • Интеграция с библиотекой **Diffusers** для генерации видео через API, включая настройку параметров (количество блоков, кадров, seed и др.).
    • Модель доступна на платформе Hugging Face, а код инференса и дополнительные инструкции размещены в репозитории GitHub.

Дата анонса: 20.10.2025
Параметров: 14B
Контекст: 512
Потребление памяти: 10.0 ГБ в точности 4 бит, 20.0 ГБ в точности 8 бит, 40.0 ГБ в точности 16 бит
Разработчик: krea
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с Krea Realtime 14B. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU TPS Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации для хостинга Krea Realtime 14B

Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslat4-1.16.16.160
512
16 16384 160 1 29,33 ₽ Запустить
rtx2080ti-1.10.16.500
512
10 16384 500 1 34,23 ₽ Запустить
teslaa2-1.16.32.160
512
16 32768 160 1 33,74 ₽ Запустить
teslaa10-1.16.32.160
512
16 32768 160 1 46,94 ₽ Запустить
rtx3080-1.16.32.160
512
16 32768 160 1 51,34 ₽ Запустить
rtx3090-1.16.24.160
512
16 24576 160 1 78,53 ₽ Запустить
rtx4090-1.16.32.160
512
16 32768 160 1 103,04 ₽ Запустить
teslav100-1.12.64.160
512
12 65536 160 1 107,57 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
512
16 65536 160 2 109,77 ₽ Запустить
rtx5090-1.16.64.160
512
16 65536 160 1 141,77 ₽ Запустить
teslaa100-1.16.64.160
512
16 65536 160 1 230,77 ₽ Запустить
teslah100-1.16.64.160
512
16 65536 160 1 456,27 ₽ Запустить
h200-1.16.128.160
512
16 131072 160 1 623,04 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslat4-1.16.16.160
512
16 16384 160 1 29,33 ₽ Запустить
teslaa2-1.16.32.160
512
16 32768 160 1 33,74 ₽ Запустить
teslaa10-1.16.32.160
512
16 32768 160 1 46,94 ₽ Запустить
rtx2080ti-2.12.64.160
512
12 65536 160 2 61,37 ₽ Запустить
rtx3090-1.16.24.160
512
16 24576 160 1 78,53 ₽ Запустить
rtx3080-2.16.32.160
512
16 32762 160 2 86,54 ₽ Запустить
rtx4090-1.16.32.160
512
16 32768 160 1 103,04 ₽ Запустить
teslav100-1.12.64.160
512
12 65536 160 1 107,57 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
512
16 65536 160 2 109,77 ₽ Запустить
rtx5090-1.16.64.160
512
16 65536 160 1 141,77 ₽ Запустить
teslaa100-1.16.64.160
512
16 65536 160 1 230,77 ₽ Запустить
teslah100-1.16.64.160
512
16 65536 160 1 456,27 ₽ Запустить
h200-1.16.128.160
512
16 131072 160 1 623,04 ₽ Запустить
Цены:
Наименование vCPU ОЗУ, МБ Диск, ГБ GPU Цена, час
teslat4-2.16.32.160
512
16 32768 160 2 48,14 ₽ Запустить
teslaa2-2.16.32.160
512
16 32768 160 2 51,34 ₽ Запустить
teslaa10-2.16.64.160
512
16 65536 160 2 83,37 ₽ Запустить
rtx2080ti-3.16.64.160
512
16 65536 160 3 84,47 ₽ Запустить
teslav100-1.12.64.160
512
12 65536 160 1 107,57 ₽ Запустить
rtxa5000-2.16.64.160.nvlink
512
16 65536 160 2 109,77 ₽ Запустить
rtx5090-1.16.64.160
512
16 65536 160 1 141,77 ₽ Запустить
rtx3090-2.16.64.160
512
16 65536 160 2 149,37 ₽ Запустить
rtx3080-4.16.64.160
512
16 65536 160 4 162,57 ₽ Запустить
rtx4090-2.16.64.160
512
16 65536 160 2 195,57 ₽ Запустить
teslaa100-1.16.64.160
512
16 65536 160 1 230,77 ₽ Запустить
teslah100-1.16.64.160
512
16 65536 160 1 456,27 ₽ Запустить
h200-1.16.128.160
512
16 131072 160 1 623,04 ₽ Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.