国内首个开源高质量音视频同步生成模型亮相,新版本预计3月底推出

复现工业级音画,MOVA有何不同?

来源:解放日报 作者:黄海华 日期:2026-02-28
本报记者 黄海华

不久前,上海创智学院联合模思智能发布国内首个开源高质量音视频同步生成模型MOVA,填补了国内开源大模型在音视频同步生成基础模型领域的空白。

相比于商用化的Seedance2.0,偏“学院派”的MOVA有何特色?MOVA项目负责人、上海创智学院全时导师、复旦大学计算与智能创新学院教授邱锡鹏接受本报记者独家专访,解读两大模型的差异与行业发展。

“完全开源”

当下,音视频生成技术已成为全球新一轮科技竞争焦点。MOVA与Seedance2.0均实现了画面与声音的同步输出,实现了真正意义上的音画一体生成。不过从单段生成效果来看,二者仍存在一定差距:MOVA支持最长8秒、720P分辨率的视频生成,而Seedance2.0生成视频则可达到15秒时长与2K高清分辨率。

“完全开源是MOVA最大的不同。”邱锡鹏表示,选择开源是为了技术普惠,唯有开源才能吸引更多人参与研究,既推动技术快速进步,也助力国内开源生态建设。

正是基于这一理念,MOVA不仅完整开源360P、720P的两个基础模型,还开源了微调、推理、生成工作流在内的全链路组件,具备高质量端到端音视频生成能力,支持二次开发、本地部署和学术研究。不管是做动漫还是游戏,都能以MOVA为“底座”,按自己的需求和风格进一步优化,适合中小团队、垂直场景的低成本落地。

一个挑战者

“我们把自己定位成一个挑战者的角色,毕竟Seedance2.0是商用导向和工业级投入,而MOVA是开源生态导向,目标是构建开放社区。”邱锡鹏坦言。

相比于文本模型,音视频模型的开发难度更大,核心原因在于其数据规模远超文本模型,且训练所需的底层基础设施尚不完善。

“做这件事非常难,在过去的学术界几乎是不太可能完成的任务。”邱锡鹏感慨,算法层面几乎没有可借鉴的内容,而数据工程能力也并非高校和科研机构的强项。

所幸的是,上海创智学院倡导“研创学”融合的育人文化,为学生提供深度参与重大项目的机会,使之在实战中快速成长。即便学生原本不具备人工智能相关基础,经过半年的锻炼与实践打磨,也展现出了优秀的创新能力。而学院孵化的模思智能,则依托企业天然优势,攻克了数据工程领域的关键难题。

MOVA1.5将启

据透露,MOVA1.5预计在3月底推出,性能会有更大的提升。“我们把MOVA开源,相当于第一个公开完整的音视频同步生成模型技术路线,包括数据合成、模型训练和模型推理等关键步骤,给大家作一个参考,复现出近似工业级的音画效果。”邱锡鹏说。

邱锡鹏认为,音视频生成赛道才刚刚开启。他心中理想的视频智能模型,应能像人类一样通过理解视频感知世界,让视频成为模型获取智能的第二个核心来源。这与他和团队提出的“视频思考”新范式高度契合,即借助视频生成模型整合动态推理与多模态融合,贴合人类认知逻辑,挖掘视频模态的智能潜力。

“视频生成本身只是一项基础任务,其核心价值在于通过这一任务赋能模型,推动模型向更高层次智能演进。”邱锡鹏表示。