MOVA：开源音视频同步生成基础模型，原生双模态同生与高精度唇形对齐

音频设备噪音消除模式：针对不同环境设置静音、降噪模式。 #生活技巧# #数码产品使用技巧# #音频设备调试#

一、MOVA是什么

MOVA全称为MOSS Video and Audio，是上海创智学院联合模思智能、OpenMOSS团队打造的开源高保真音视频同步生成基础模型型，，核心解决传统开源视频生成“有画无声、音画不同步”的行业痛点，摒弃级联式生成流水线，实现视频与音频单次推理原生同步输出。模型采用非对称双塔架构与双向交叉注意力融合机制，具备多语言精准唇形对齐、场景化环境音效生成、人物对话语音还原等能力，提供360p与720p两种预训练版本。

MOVA从底层架构设计上重构生成逻辑，以原生双模态同步生成为核心，将视频帧与音频波形纳入统一生成流程，无需后期音画对齐处理，从根源解决同步误差。模型面向文本到音视频（Text-to-Video-Audio，TI2VA）、图像到音视频（Image-to-Video-Audio）两大核心任务，支持最长8秒、最高720p分辨率的视听片段生成，兼顾视觉画质与音频保真度，同时实现全链路开源，覆盖模型权重、推理代码、训练配置、LoRA微调脚本等全部核心资源，降低技术使用与二次研发门槛，是当前开源生态中少数具备电影级音画同步效果的基础模型。

该项目基于Wan2.2、HunyuanVideo-Foley等优秀开源项目优化演进，采用32B MoE稀疏架构，实际激活参数约18B，在兼顾生成质量的同时优化算力消耗，支持消费级与企业级硬件部署，适配深度学习开发者、影视创作者、教育从业者、AI研究人员等多类用户群体。

二、功能特色

（一）原生双模态同步生成，根除级联误差

区别于传统“视频生成+音频后处理”的拆分流程，MOVA实现单轮推理同步输出视频与音频，无需多阶段模型衔接，彻底消除时序偏移、唇形不匹配、音效滞后等级联生成的固有缺陷，生成内容的音画一致性达到工业可用标准。

（二）多语言高精度唇形同步

针对人物对话场景，模型在多语言唇形同步任务上实现领先性能，基于Verse-Bench基准测试，MOVA-720p的唇形同步误差（LSE-D、LSE-C）与语音识别准确率（cpCER）均优于同类开源模型，可精准匹配中文、英文等多语种发音的唇部动作，适配数字人播报、影视配音、虚拟访谈等场景。

（三）全场景音效智能生成

模型可识别画面中的场景、动作、物体信息，自动生成匹配的环境音、动作音效、氛围音乐，例如自然场景的海浪/篝火声、交通工具的马达声、人物动作的脚步声等，音效与画面视觉元素高度契合，提升内容沉浸感。

（四）全栈开源无壁垒

在Sora 2、Veo 3等顶尖音视频模型闭源的行业背景下，MOVA完整开放模型权重、推理代码、训练流水线、LoRA微调脚本、配置文件，支持研究与商用场景的二次开发、定制化微调，无隐藏功能与付费限制，推动开源音视频生成技术的生态共建。

（五）多硬件兼容与低资源适配

原生支持NVIDIA RTX 4090、H100等GPU，同时适配昇腾NPU硬件，提供多种显存卸载策略，可根据硬件配置调整资源占用，兼顾高端算力与中低端设备的部署需求，降低使用门槛。

（六）灵活的LoRA微调能力

提供低资源单卡微调、加速微调、FSDP多卡微调三种模式，支持用户基于自定义数据集做风格化、人物专属、场景专属微调，快速生成符合特定需求的定制化音视频内容，拓展模型适用边界。

MOVA：开源音视频同步生成基础模型，原生双模态同生与高精度唇形对齐

三、技术细节

（一）核心架构：非对称双塔融合架构

MOVA采用非对称视频塔+音频塔的双骨干架构，分别复用预训练的视频生成模型与音频生成模型权重，通过双向交叉注意力机制实现双模态信息交互。视频塔负责视觉特征提取与帧序列生成，音频塔负责音频波形特征建模与声音合成，双向注意力模块实时传递画面时序、语义、空间信息与音频频率、节奏信息，实现音画特征的深度对齐。

（二）模型规模与稀疏激活设计

模型采用32B MoE（混合专家）稀疏架构，推理时仅激活18B参数，在保证生成质量与模型容量的同时，减少算力与显存消耗，提升推理速度，平衡性能与部署成本。

（三）生成范式与核心任务

核心支持TI2VA（文本到音视频） 任务，用户输入文本提示词（包含画面描述、语音内容、场景音效要求）与参考图像，模型即可生成连续视频帧与同步音频；同时支持基于参考图像的人物肖像锁定，保证生成视频中人物样貌的一致性。

（四）性能优化策略

提供组件级显存卸载、层组级精细化卸载两种策略，可根据硬件配置降低显存占用，例如在RTX 4090上通过层组卸载可将显存占用降至12GB，适配中低端显卡部署；同时支持SGLang集成，优化大批次推理效率。

（五）训练与微调机制

基于大规模音视频对齐数据集训练，支持LoRA低秩适配微调，用户可通过修改配置文件调整微调参数，无需全参数训练，大幅降低微调的算力与数据成本，三种微调模式可适配单卡消费级设备与多卡集群环境。

（六）模型版本与参数规格

MOVA提供两种官方预训练版本，具体规格如下表：

模型版本分辨率核心任务适用场景下载渠道MOVA-360p360pTI2VA文本/图像到音视频测试体验、低资源设备、快速原型开发Hugging FaceMOVA-720p720pTI2VA文本/图像到音视频正式内容创作、商用落地、高精度唇形同步Hugging Face

（七）推理性能基准

以8秒360p视频生成为测试标准，不同卸载策略的硬件性能表现如下：
组件级卸载在RTX 4090显卡上显存占用48GB，单步耗时37.5秒；在H100显卡上单步耗时降至9.0秒。层组级卸载可进一步将RTX 4090显存占用压缩至12GB，单步耗时42.3秒，H100显卡上单步耗时22.8秒，用户可根据硬件条件与时间需求选择适配策略。

四、应用场景

（一）影视与短视频创作

用于生成电影级短片、剧情片段、创意短视频，自动完成画面、人物对话、环境音效的同步制作，缩短影视后期制作周期，降低独立创作者的设备与人力成本。

（二）数字人与虚拟播报

生成虚拟主播、数字人讲解视频，精准匹配多语种唇形与语音，适用于新闻播报、知识科普、企业宣传等场景，实现24小时无人值守内容产出。

（三）教育与培训内容生产

制作课程讲解、技能演示、情景化教学视频，同步生成教师语音、操作音效与画面演示，打造沉浸式教学素材，适配线上教育、职业培训等场景。

（四）广告与营销素材制作

快速生成产品宣传视频、品牌短片，根据文案自动生成画面、配音与背景音效，满足短视频平台、社交媒体的高频素材需求，提升营销内容生产效率。

（五）AI研究与技术开发

作为音视频多模态生成的研究底座，供科研人员测试新算法、优化同步机制、探索生成模型架构；开发者可基于开源代码二次开发，搭建定制化音视频生成工具、集成到现有产品中。

（六）娱乐与创意内容创作

生成动漫片段、游戏剧情演示、个人创意Vlog等内容，支持自定义风格与音效，为普通用户提供低门槛的AI创作工具。

五、使用方法

（一）环境搭建

创建独立Conda环境，指定Python 3.13版本：conda create -n mova python=3.13 -y

激活环境：conda activate mova

安装项目依赖：pip install -e .

如需训练与微调，额外安装训练依赖：pip install -e ".[train]"

（二）模型下载

通过Hugging Face官方仓库下载预训练权重，使用hf下载工具执行命令：

360p版本：hf download OpenMOSS-Team/MOVA-360p --local-dir /本地存储路径

720p版本：hf download OpenMOSS-Team/MOVA-720p --local-dir /本地存储路径

（三）单人语音视频推理

设置环境变量，指定并行数与模型路径：export CP_SIZE=1、export CKPT_PATH=/模型权重路径

执行推理命令，填入提示词、参考图路径、输出路径等参数，通过torchrun启动脚本，支持调整分辨率、随机种子、显存卸载模式等参数。

（四）多人交互视频推理

复用单人推理脚本，更换参考图像与包含多人对话的文本提示词，其余参数配置保持一致，即可生成多人物对话、动作交互的音视频内容，模型自动适配多说话人唇形与语音切换。

（五）LoRA微调

准备自定义音视频对齐数据集，配置数据路径与预处理参数

选择微调配置文件（低资源单卡、加速单卡、8卡FSDP）

执行对应训练脚本，调整LoRA秩、alpha值、优化器参数，完成定制化微调

微调后权重替换原权重路径，按推理流程生成定制化内容

（六）NPU部署

昇腾NPU用户可参考项目专属文档，配置NPU环境与推理/训练参数，实现国产化硬件的兼容运行。

六、常见问题解答

MOVA支持的最大视频时长和分辨率是多少

官方预训练模型支持最长8秒的视频生成，提供360p和720p两种分辨率，更高分辨率与更长时长的支持在项目规划中，当前版本不建议手动修改参数超出官方规格，易导致生成失败或质量下降。

部署MOVA最低需要什么硬件配置

推理最低推荐RTX 4090显卡，通过层组级显存卸载可将显存占用降至12GB；消费级中低端显卡可运行360p版本，但推理速度会显著变慢。训练微调建议使用H100等高端显卡，或降低分辨率至240p减少资源消耗。

生成内容出现唇形不同步、音效错位怎么办

优先使用720p版本模型，该版本唇形同步精度更高；检查文本提示词是否清晰描述语音内容与画面动作，避免模糊表述；关闭不必要的显存卸载策略，保证模型推理稳定性；使用官方推荐的随机种子与推理步数。

MOVA是否支持商用，有无授权限制

项目遵循开源许可证协议，模型权重与代码均开放商用与研究使用，用户可直接用于商业项目、二次开发产品，无需额外授权，具体条款可参考项目根目录的LICENSE文件。

如何解决模型加载时的显存不足问题

启用--offload cpu组件级卸载或--offload group层组级卸载参数，将部分模型组件加载至内存，降低显存占用；选择360p低分辨率模型；减少视频帧数量与分辨率；使用量化版本权重（后续更新支持）。

能否微调生成特定人物、特定风格的内容

可以通过LoRA微调实现，准备包含目标人物、风格的音视频对齐数据集，使用项目提供的低资源微调脚本，单张RTX 4090即可完成小规模微调，快速锁定人物样貌、语音风格与画面色调。

生成的音频支持什么格式，能否单独导出

模型默认输出MP4封装的音视频合并文件，音频采用标准AAC编码；用户可通过FFmpeg工具分离视频与音频轨道，提取纯音频文件。

七、相关链接

GitHub项目仓库：https://github.com/OpenMOSS/MOVA

MOVA-360p模型Hugging Face地址：https://huggingface.co/OpenMOSS-Team/MOVA-360p

MOVA-720p模型Hugging Face地址：https://huggingface.co/OpenMOSS-Team/MOVA-720p

八、总结

MOVA作为OpenMOSS团队推出的全开源音视频同步生成基础模型，以原生双模态同步生成技术解决了开源视频生成的音画错位、无同步音频的核心痛点，凭借非对称双塔架构、稀疏MoE设计、高精度唇形同步与全场景音效生成能力，实现了电影级的视听生成效果，同时通过全栈开源、多硬件兼容、低资源LoRA微调等设计，大幅降低了AI音视频生成技术的使用与研发门槛，既可为影视、教育、广告等行业提供高效的内容生产工具，也能为AI多模态研究与开发者生态提供开放的技术底座，是当前开源音视频生成领域兼具实用性、创新性与开放性的标杆项目。

版权及免责申明：本文由@97ai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/mova.html

THE END

MOVA：开源音视频同步生成基础模型，原生双模态同生与高精度唇形对齐

一、MOVA是什么

二、功能特色

（一）原生双模态同步生成，根除级联误差

（二）多语言高精度唇形同步

（三）全场景音效智能生成

（四）全栈开源无壁垒

（五）多硬件兼容与低资源适配

（六）灵活的LoRA微调能力

三、技术细节

（一）核心架构：非对称双塔融合架构

（二）模型规模与稀疏激活设计

（三）生成范式与核心任务

（四）性能优化策略

（五）训练与微调机制

（六）模型版本与参数规格

（七）推理性能基准

四、应用场景

（一）影视与短视频创作

（二）数字人与虚拟播报

（三）教育与培训内容生产

（四）广告与营销素材制作

（五）AI研究与技术开发

（六）娱乐与创意内容创作

五、使用方法

（一）环境搭建

（二）模型下载

（三）单人语音视频推理

（四）多人交互视频推理

（五）LoRA微调

（六）NPU部署

六、常见问题解答

七、相关链接

八、总结

相关内容

随便看看

最新乐趣

热点乐趣

专题

推荐乐趣