это аудиовизуальная базовая модель на базе архитектуры DiT, разработанная для синхронной генерации видео и аудио в рамках единой модели. Она объединяет ключевые компоненты современных систем генерации видео, включая открытые веса и оптимизацию для локального использования.
Основные характеристики:
Модель является составной частью пайплайна генерации видео, состоящего из:
Всего: ~34B параметров
Для локального запуска специалисты nvidia советуют использовать для генерации 4 секундного видео в разрешении 720p24 (с 20 шагами) GPU с 24GB+ видеопамятью.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.