Открытая модель для синхронной генерации видео и аудио, разработанная для преодоления ограничений проприетарных систем (например, Sora 2, Veo 3). Она предназначена для задач Image-to-Video-Audio (IT2VA) и Text-to-Video-Audio (T2VA), обеспечивая одновременное создание высококачественного видео и соответствующего ему аудио без ошибок, связанных с каскадными подходами (когда аудио генерируется отдельно).
Ключевые особенности:
Модель является составной частью пайплайна генерации видео, состоящего из:
Всего: ~38.8B параметров
Для локального запуска авторы советуют использовать для генерации 8 секундного видео в разрешении 360p GPU как минимум с 24GB видеопамятью (при условии использования offloading).
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.