MOVA:开源音视频同步生成基础模型,原生双模态同生与高精度唇形对齐

发布时间:2026-02-05 00:33

音频设备噪音消除模式:针对不同环境设置静音、降噪模式。 #生活技巧# #数码产品使用技巧# #音频设备调试#

一、MOVA是什么

MOVA全称为MOSS Video and Audio,是上海创智学院联合模思智能、OpenMOSS团队打造的开源高保真音视频同步生成基础模型型,,核心解决传统开源视频生成“有画无声、音画不同步”的行业痛点,摒弃级联式生成流水线,实现视频与音频单次推理原生同步输出。模型采用非对称双塔架构与双向交叉注意力融合机制,具备多语言精准唇形对齐、场景化环境音效生成、人物对话语音还原等能力,提供360p与720p两种预训练版本。

MOVA从底层架构设计上重构生成逻辑,以原生双模态同步生成为核心,将视频帧与音频波形纳入统一生成流程,无需后期音画对齐处理,从根源解决同步误差。模型面向文本到音视频(Text-to-Video-Audio,TI2VA)、图像到音视频(Image-to-Video-Audio)两大核心任务,支持最长8秒、最高720p分辨率的视听片段生成,兼顾视觉画质与音频保真度,同时实现全链路开源,覆盖模型权重、推理代码、训练配置、LoRA微调脚本等全部核心资源,降低技术使用与二次研发门槛,是当前开源生态中少数具备电影级音画同步效果的基础模型。

该项目基于Wan2.2、HunyuanVideo-Foley等优秀开源项目优化演进,采用32B MoE稀疏架构,实际激活参数约18B,在兼顾生成质量的同时优化算力消耗,支持消费级与企业级硬件部署,适配深度学习开发者、影视创作者、教育从业者、AI研究人员等多类用户群体。

二、功能特色

(一)原生双模态同步生成,根除级联误差

区别于传统“视频生成+音频后处理”的拆分流程,MOVA实现单轮推理同步输出视频与音频,无需多阶段模型衔接,彻底消除时序偏移、唇形不匹配、音效滞后等级联生成的固有缺陷,生成内容的音画一致性达到工业可用标准。

(二)多语言高精度唇形同步

针对人物对话场景,模型在多语言唇形同步任务上实现领先性能,基于Verse-Bench基准测试,MOVA-720p的唇形同步误差(LSE-D、LSE-C)与语音识别准确率(cpCER)均优于同类开源模型,可精准匹配中文、英文等多语种发音的唇部动作,适配数字人播报、影视配音、虚拟访谈等场景。

(三)全场景音效智能生成

模型可识别画面中的场景、动作、物体信息,自动生成匹配的环境音、动作音效、氛围音乐,例如自然场景的海浪/篝火声、交通工具的马达声、人物动作的脚步声等,音效与画面视觉元素高度契合,提升内容沉浸感。

(四)全栈开源无壁垒

在Sora 2、Veo 3等顶尖音视频模型闭源的行业背景下,MOVA完整开放模型权重、推理代码、训练流水线、LoRA微调脚本、配置文件,支持研究与商用场景的二次开发、定制化微调,无隐藏功能与付费限制,推动开源音视频生成技术的生态共建。

(五)多硬件兼容与低资源适配

原生支持NVIDIA RTX 4090、H100等GPU,同时适配昇腾NPU硬件,提供多种显存卸载策略,可根据硬件配置调整资源占用,兼顾高端算力与中低端设备的部署需求,降低使用门槛。

(六)灵活的LoRA微调能力

提供低资源单卡微调、加速微调、FSDP多卡微调三种模式,支持用户基于自定义数据集做风格化、人物专属、场景专属微调,快速生成符合特定需求的定制化音视频内容,拓展模型适用边界。

MOVA:开源音视频同步生成基础模型,原生双模态同生与高精度唇形对齐

三、技术细节

(一)核心架构:非对称双塔融合架构

MOVA采用非对称视频塔+音频塔的双骨干架构,分别复用预训练的视频生成模型与音频生成模型权重,通过双向交叉注意力机制实现双模态信息交互。视频塔负责视觉特征提取与帧序列生成,音频塔负责音频波形特征建模与声音合成,双向注意力模块实时传递画面时序、语义、空间信息与音频频率、节奏信息,实现音画特征的深度对齐。

(二)模型规模与稀疏激活设计

模型采用32B MoE(混合专家)稀疏架构,推理时仅激活18B参数,在保证生成质量与模型容量的同时,减少算力与显存消耗,提升推理速度,平衡性能与部署成本。

(三)生成范式与核心任务

核心支持TI2VA(文本到音视频) 任务,用户输入文本提示词(包含画面描述、语音内容、场景音效要求)与参考图像,模型即可生成连续视频帧与同步音频;同时支持基于参考图像的人物肖像锁定,保证生成视频中人物样貌的一致性。

(四)性能优化策略

提供组件级显存卸载、层组级精细化卸载两种策略,可根据硬件配置降低显存占用,例如在RTX 4090上通过层组卸载可将显存占用降至12GB,适配中低端显卡部署;同时支持SGLang集成,优化大批次推理效率。

(五)训练与微调机制

基于大规模音视频对齐数据集训练,支持LoRA低秩适配微调,用户可通过修改配置文件调整微调参数,无需全参数训练,大幅降低微调的算力与数据成本,三种微调模式可适配单卡消费级设备与多卡集群环境。

(六)模型版本与参数规格

MOVA提供两种官方预训练版本,具体规格如下表:

模型版本分辨率核心任务适用场景下载渠道MOVA-360p360pTI2VA文本/图像到音视频测试体验、低资源设备、快速原型开发Hugging FaceMOVA-720p720pTI2VA文本/图像到音视频正式内容创作、商用落地、高精度唇形同步Hugging Face

(七)推理性能基准

以8秒360p视频生成为测试标准,不同卸载策略的硬件性能表现如下:
组件级卸载在RTX 4090显卡上显存占用48GB,单步耗时37.5秒;在H100显卡上单步耗时降至9.0秒。层组级卸载可进一步将RTX 4090显存占用压缩至12GB,单步耗时42.3秒,H100显卡上单步耗时22.8秒,用户可根据硬件条件与时间需求选择适配策略。

四、应用场景

(一)影视与短视频创作

用于生成电影级短片、剧情片段、创意短视频,自动完成画面、人物对话、环境音效的同步制作,缩短影视后期制作周期,降低独立创作者的设备与人力成本。

(二)数字人与虚拟播报

生成虚拟主播、数字人讲解视频,精准匹配多语种唇形与语音,适用于新闻播报、知识科普、企业宣传等场景,实现24小时无人值守内容产出。

(三)教育与培训内容生产

制作课程讲解、技能演示、情景化教学视频,同步生成教师语音、操作音效与画面演示,打造沉浸式教学素材,适配线上教育、职业培训等场景。

(四)广告与营销素材制作

快速生成产品宣传视频、品牌短片,根据文案自动生成画面、配音与背景音效,满足短视频平台、社交媒体的高频素材需求,提升营销内容生产效率。

(五)AI研究与技术开发

作为音视频多模态生成的研究底座,供科研人员测试新算法、优化同步机制、探索生成模型架构;开发者可基于开源代码二次开发,搭建定制化音视频生成工具、集成到现有产品中。

(六)娱乐与创意内容创作

生成动漫片段、游戏剧情演示、个人创意Vlog等内容,支持自定义风格与音效,为普通用户提供低门槛的AI创作工具。

五、使用方法

(一)环境搭建

创建独立Conda环境,指定Python 3.13版本:conda create -n mova python=3.13 -y

激活环境:conda activate mova

安装项目依赖:pip install -e .

如需训练与微调,额外安装训练依赖:pip install -e ".[train]"

(二)模型下载

通过Hugging Face官方仓库下载预训练权重,使用hf下载工具执行命令:

360p版本:hf download OpenMOSS-Team/MOVA-360p --local-dir /本地存储路径

720p版本:hf download OpenMOSS-Team/MOVA-720p --local-dir /本地存储路径

(三)单人语音视频推理

设置环境变量,指定并行数与模型路径:export CP_SIZE=1、export CKPT_PATH=/模型权重路径

执行推理命令,填入提示词、参考图路径、输出路径等参数,通过torchrun启动脚本,支持调整分辨率、随机种子、显存卸载模式等参数。

(四)多人交互视频推理

复用单人推理脚本,更换参考图像与包含多人对话的文本提示词,其余参数配置保持一致,即可生成多人物对话、动作交互的音视频内容,模型自动适配多说话人唇形与语音切换。

(五)LoRA微调

准备自定义音视频对齐数据集,配置数据路径与预处理参数

选择微调配置文件(低资源单卡、加速单卡、8卡FSDP)

执行对应训练脚本,调整LoRA秩、alpha值、优化器参数,完成定制化微调

微调后权重替换原权重路径,按推理流程生成定制化内容

(六)NPU部署

昇腾NPU用户可参考项目专属文档,配置NPU环境与推理/训练参数,实现国产化硬件的兼容运行。

六、常见问题解答

MOVA支持的最大视频时长和分辨率是多少

官方预训练模型支持最长8秒的视频生成,提供360p和720p两种分辨率,更高分辨率与更长时长的支持在项目规划中,当前版本不建议手动修改参数超出官方规格,易导致生成失败或质量下降。

部署MOVA最低需要什么硬件配置

推理最低推荐RTX 4090显卡,通过层组级显存卸载可将显存占用降至12GB;消费级中低端显卡可运行360p版本,但推理速度会显著变慢。训练微调建议使用H100等高端显卡,或降低分辨率至240p减少资源消耗。

生成内容出现唇形不同步、音效错位怎么办

优先使用720p版本模型,该版本唇形同步精度更高;检查文本提示词是否清晰描述语音内容与画面动作,避免模糊表述;关闭不必要的显存卸载策略,保证模型推理稳定性;使用官方推荐的随机种子与推理步数。

MOVA是否支持商用,有无授权限制

项目遵循开源许可证协议,模型权重与代码均开放商用与研究使用,用户可直接用于商业项目、二次开发产品,无需额外授权,具体条款可参考项目根目录的LICENSE文件。

如何解决模型加载时的显存不足问题

启用--offload cpu组件级卸载或--offload group层组级卸载参数,将部分模型组件加载至内存,降低显存占用;选择360p低分辨率模型;减少视频帧数量与分辨率;使用量化版本权重(后续更新支持)。

能否微调生成特定人物、特定风格的内容

可以通过LoRA微调实现,准备包含目标人物、风格的音视频对齐数据集,使用项目提供的低资源微调脚本,单张RTX 4090即可完成小规模微调,快速锁定人物样貌、语音风格与画面色调。

生成的音频支持什么格式,能否单独导出

模型默认输出MP4封装的音视频合并文件,音频采用标准AAC编码;用户可通过FFmpeg工具分离视频与音频轨道,提取纯音频文件。

七、相关链接

GitHub项目仓库:https://github.com/OpenMOSS/MOVA

MOVA-360p模型Hugging Face地址:https://huggingface.co/OpenMOSS-Team/MOVA-360p

MOVA-720p模型Hugging Face地址:https://huggingface.co/OpenMOSS-Team/MOVA-720p

八、总结

MOVA作为OpenMOSS团队推出的全开源音视频同步生成基础模型,以原生双模态同步生成技术解决了开源视频生成的音画错位、无同步音频的核心痛点,凭借非对称双塔架构、稀疏MoE设计、高精度唇形同步与全场景音效生成能力,实现了电影级的视听生成效果,同时通过全栈开源、多硬件兼容、低资源LoRA微调等设计,大幅降低了AI音视频生成技术的使用与研发门槛,既可为影视、教育、广告等行业提供高效的内容生产工具,也能为AI多模态研究与开发者生态提供开放的技术底座,是当前开源音视频生成领域兼具实用性、创新性与开放性的标杆项目。

版权及免责申明:本文由@97ai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。

如若转载,请注明出处:https://www.aipuzi.cn/ai-news/mova.html

THE END

网址:MOVA:开源音视频同步生成基础模型,原生双模态同生与高精度唇形对齐 https://c.klqsh.com/news/view/332893

相关内容

揭秘口型同步算法:破解影视后期制作的“声音与画面”完美对接技巧
快手发布多模态大模型Keye
站在DeepSeek肩膀上,小红书开源首款多模态模型:看懂表情包与数学题,一手实测
MOVA NutriPal 10 Ultra智能保健喂食器重磅上市:重新定义精致养宠新标准
一种基于大模型的多模态情感分析与交互调适方法及系统与流程
电视与网络视频节目形态解析
揭秘影视写实生物角色制作:从概念建模到视觉开发的流程展示【英音中字】
高三学生如何面对高考:策略与心态双管齐下
我国首次提出大规模类脑线性基础模型架构,“瞬悉1.0”发布
研究生暑期学校|《多模态视频理解与生成》专题讲座圆满举行

随便看看