MOVA-360p

Открытая модель для синхронной генерации видео и аудио, разработанная для преодоления ограничений проприетарных систем (например, Sora 2, Veo 3). Она предназначена для задач Image-to-Video-Audio (IT2VA) и Text-to-Video-Audio (T2VA), обеспечивая одновременное создание высококачественного видео и соответствующего ему аудио без ошибок, связанных с каскадными подходами (когда аудио генерируется отдельно).  

Ключевые особенности:  

  • Нативная бимодальная генерация: Видео и аудио создаются в одном этапе инференса, что гарантирует идеальную синхронизацию и избегает накопления ошибок.  
  • Точная синхронизация губ и звуковых эффектов: Модель демонстрирует передовые результаты в мультиязычной синхронизации речи и генерации звуковых эффектов, учитывающих контекст среды.  
  • Полностью открытый исходный код: Публикуются веса модели, код инференса, pipeline обучения и скрипты для fine-tuning (LoRA), что делает модель доступной для исследований и доработок.  
  • Архитектура Mixture-of-Experts (MoE): Общее количество параметров — 32B (активно используется 18B во время инференса), что позволяет сочетать качество с эффективностью.  
  • Resolution: 360p

Модель является составной частью пайплайна генерации видео, состоящего из:

  • Text encoder: ~5.7B параметров,
  • audio VAE: ~372M параметров, 
  • audio DiT: ~1.4B параметров, 
  • video DiT: ~28.6B параметров, 
  • video VAE: ~127M параметров, 
  • dual-tower bridge: ~2.7B параметров,

Всего: ~38.8B параметров


Для локального запуска авторы советуют использовать для генерации 8 секундного видео в разрешении 360p GPU как минимум с 24GB видеопамятью (при условии использования offloading).


Дата анонса: 29.01.2026
Параметров: 32B
Разработчик: OpenMOSS
Версия Diffusers: 0.36.0
Лицензия: Apache 2.0

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с MOVA-360p. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга MOVA-360p

Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.