我的位置：上观号 > 浦东观察 > 文章详情

音视频AI多模态融合正引爆产业变革，浦东这场论坛关注具身智能的“听”与“看”

转自：浦东观察 2025-07-04 20:03:09

7月4日，浦东新区第十六届学术年会分会场“先进音视频技术发展论坛”在浦东张江举行，来自多所知名高校的专家学者和超过70家企业齐聚一堂，围绕“音视频技术与具身智能”这一热点主题，探讨声音与音乐技术的最新进展、挑战与机遇。

记者从论坛上了解到，大模型已深度融入音视频产业。同时，面对具身智能的大爆发，音视频创新技术也正赋予机器人更多“听”与“看”的交互能力。

AI大模型的进步正在推动机器人不断逼近“具身智能”的理想状态。比如业界发布的空间智能模型，使AI可以通过一张图像还原三维世界，引发科研领域对“物理AI”的强烈期待。

“算力发展为更大的模型正提供支撑，”复旦大学教授陈涛表示，“业界也提出了众多‘提效’方法，比如我们就与知名企业合作推出了基于动作驱动的数字人生成等，并加入了音乐等环境因素，在此基础上，我们正把数字人技术‘融入’机器人驱动中。”

随着AI技术的发展，音视频技术与具身智能的结合成为新的热点。比如在智能家居中，通过集成先进的音视频处理技术和机器学习算法，设备可以更加智能化地响应用户需求；在制造业中，具身智能则有助于提高生产效率和安全性。当技术创新与行业需求点深度咬合，数字化价值释放才真正开始。

当天，同济大学特聘研究员、XAI实验室主任王昊奋、西湖大学人工智能系副主任王东林教授等多位嘉宾分别就音视频技术与具身智能等前沿领域发表了精彩演讲。

上海交通大学计算机学院教授、博导钱彦旻认为听觉智能是人工智能领域不可或缺的部分，“今年4月我们团队就发布了全球首个纯学术自研口语对话情感大模型，随着deepseek等大模型的诞生，技术提速还是很明显的。”

与会专家表示，当前正处于一个技术创新快速迭代的时代，音视频技术与具身智能的融合不仅为传统行业带来了变革的契机，也为新兴产业的发展注入了新动力。面对这一趋势，企业应当积极拥抱变化，加大研发投入，推动技术转化，共同构建开放共赢的数字生态系统。

人类之所以能够实现高效的感知与自然交互，根源在于人拥有复杂而协调的多模态感知系统，例如视觉、听觉、触觉等，这也正是具身智能研究的核心挑战之一。因此，多模态技术的集成与突破已成为发展具身智能机器人的关键路径。在浦东，具身智能产业链条完整、创新要素集聚的优势日益凸显，这也为技术突破提供了丰沛的试验土壤。

现场，不少企业提出，具身智能的应用场景极其广泛，涉及多种模态、不同格式、规模各异的数据，这使得具身智能的数据生态十分重要。

据悉，在浦东已有多家企业开源并着手建立高质量具身智能数据集。比如国家地方共建的人形机器人创新中心打造Openloong开源社区等。在音视频产业端，浦东企业也在加速音视频AI多模态融合，助力智能交互新时代。

中国电子音响行业协会副秘书长、上海市浦东新区先进音视频技术协会秘书长张晓亮介绍，在浦东，已经集聚了众多音频产业链上下游企业。特别在硬件领域，一大批音频集成电路企业已经占张江集成电路产业三成左右。

“产业链集聚效应显现，音频行业也迎来了加速发展的新机遇。比如中国电子音响行业协会‘专家服务中心’落地浦东后已开创了产学研合作新模式。近期我们也在针对音视频产业如何更好结合具身智能，去实现技术难题突破，我们正组织专家团攻关，帮助企业提升科研水平能力。”张晓亮表示。

用户名：
密码：
验证码：	看不清

	忘记密码？