我的位置：上观号 > 上海科技 > 文章详情

“AI孙燕姿”是怎样炼成的 | 科技时刻Moments

转自：上海科技 2023-05-22 08:43:22

上海科技在近期推出

「科技时刻Moments」系列

关注报道科技人在科技圈

探索与创新的“硬核时刻”。

最近，视频网站音乐区up主掀了“AI孙燕姿”的风潮。这种使用AI技术提取某位歌手的音色，再用其替换另一位歌手音色的方式，可以实现接近歌手本人翻唱的逼真效果。除孙燕姿外，面对周杰伦、陶喆、陈奕迅、王菲等众多具有独特嗓音的歌手，歌迷纷纷奔向“AI点唱机”——这个可以生成任何希望被翻唱歌曲的“神器”，让众多粉丝一偿“直接点歌偶像”的心愿。

除了天王天后的“跨次元碰撞”

令网友激动，

AI歌手背后的“神秘”技术

同样激起了大家的好奇。

日前，上海科技专访威盛电子(上海)有限公司研发总监刘恕，从技术的角度解读和探讨AI歌手的训练原理和“翻唱”特点。

威盛电子(上海)有限公司研发总监刘恕

（受访者供图）

「科技时刻 moments」

“AI破圈的时刻终于来了。”大约三周前，第一次在微信里听到朋友转发的“AI孙燕姿”音频时，刘恕隐隐感觉少了一丝惊喜，更多的是激动。他深耕AI领域多年，与普通网友初次感受到这种“黑科技”时的新鲜感完全不同。

这个平静又激动的时刻

构成了属于刘恕的

“科技时刻”。

AI歌手是怎样炼成的

虚拟歌手并不新鲜。最早的虚拟歌手是2007年面世的初音未来，由Crypton Future Media以雅马哈的 Vocaloid 系列语音合成程序为基础开发。随后，哔哩哔哩虚拟偶像洛天依、《英雄联盟》衍生虚拟乐队K/DA女团等也采用了类似的“二次元形象+语音合成引擎”方式。

然而，这些过去的AI歌手并没有引起太大的反响。其中一个原因是，它们通常有着鲜明的虚拟形象和电子歌喉，使得人们很清楚，这只是一种娱乐产品，不会“以假乱真”。相比之下，如今的AI歌手更接近现实生活中的歌手，声音和风格与真人极为相似，有时候甚至很难分辨出哪个是真正的歌手。

AI歌手是“训练”出来的，“训练”是为了无限地拟真。刘恕将其概括为：把一个音色替换成另一个音色，与此同时保留下歌手的语气唱腔等细节，达到AI歌手的逼真效果。

AI歌手教学视频

在“训练”AI歌手的教学视频中，大部分UP主使用的“AI点唱神器”是基于VITS的开源项目So-vits-svc（以下简称Sovits）。VITS（Variational Inference with Adversarial Learning for End-to-nd Text-to-Speech）是一种结合变分推理（Variational Inference）、标准化流（Normalizing Flows）和对抗训练的高表现力语音合成模型。根据代码托管平台GitHub上的介绍，Sovits目前已经迭代到了4.0版本，仅凭数段音频的数据集就可训练出用户想要的音色模型。

“

“不管是正常说话还是唱歌，能模仿别人的关键是采集到数据，所以‘喂’给模型的语料得足够多。”刘恕说。

”

他用“AI孙燕姿”演唱的《爱在西元前》举例，首先需要采集大量高品质的孙燕姿演唱歌曲、采访和直播素材；接着，要对素材进行一系列复杂的技术处理，比如去除呼吸声，以优化音频效果，提升语音合成的质量；然后，利用机器学习和深度神经网络等技术，对这些素材进行训练和优化，不断调整参数和模型。“一定是把周杰伦原唱做了很多标注，以生成最符合孙燕姿声音和风格的语音合成引擎。”

刘恕进一步解释说，这里提到的数据标注是对未经处理的语音等元数据进行加工处理，将其转换为机器可识别信息的过程，标记好的数据将用于训练机器学习的模型。最终，经过多轮训练和调试，即可得到“AI孙燕姿”。

“AI孙燕姿”翻唱的《爱在西元前》弹幕

另外，Sovits对音频有一些特殊要求。训练用的数据集必须是“干声”，“干声”指的是去除了乐器、伴奏、混响和和声等元素后，剩下的原始声音。“周杰伦唱出来的歌和孙燕姿唱出来的歌，唯一的差别是两个人歌唱发音的技巧，配乐是完全一样的，没有必要针对一样的东西去做人工智能训练方面的处理。”刘恕将纯净人声之外的声音称为“噪音”，这些“噪音”会影响数据的识别和生成的质量，“甚至会导致唱歌跑掉”。

普通创作者很难独立达到这个特殊的“干声”需求。许多网友分享了自己整合的歌手“干声”素材，并上传到网上供其他感兴趣的网友下载和使用——利用这些整合包快速训练出“AI孙燕姿”声音模型后，将该模型应用于原始歌曲的“干声”即可，这大幅降低了Sovits的使用门槛。

刘恕形容这是一个“取巧”的方式，“把大模型和小模型混合起来，用少量的数据，基于原来大家做的大量的模型语料，就能重新做一个。”

为什么是孙燕姿

如今，“AI孙燕姿”从诸多AI歌手中成功出圈，被歌迷评为“华语乐坛2023年最勤奋歌手”。除了“AI孙燕姿”，不少up主还做过“AI周杰伦”、“AI陶喆”、“AI王心凌”等视频，但呈现效果都远不如“AI孙燕姿”。

网友震惊于AI孙燕姿的效果

刘恕坦言，AI歌手生成的效果因人而异。“你会发现有些人转换出来的并不太像……归根到底是看后台的算法要怎么样侧重。”“AI孙燕姿”能成为AI歌手中的顶流，不仅有技术上的原因，还与孙燕姿本人声音特点的独特性密切相关。刘恕介绍，孙燕姿吐字清晰、音色带有颗粒感、气息运用风格独特，这些特质比较容易训练出稳定、清晰且具有个人标识的音色模型。与此同时，“AI孙燕姿”通过自身独特的音色与唱腔、标识明显的咬字和尾声等特征，弥补了传统歌手录音时的一些缺陷，其表现力、情感和个性也广受欢迎。

“AI歌手的表现肯定不完美，可能有点粗糙，需要修音。”刘恕补充。生成的音频后期要手动做一些修正，让AI歌手的唱腔更接近歌手本人。“当然，这是技术层面之外的，是音乐和审美领域的问题了。”刘恕笑说。

全民AI还在路上

因为对这种声音训练模型的专业了解，刘恕对“AI孙燕姿”独特音色的惊人复现没有过多惊喜。但当十余年来的专业研究突然“破圈”，刘恕还是难掩激动。“我们目前主要关注人工智能在教育领域的应用，我非常想把这些好玩的东西引入中小学生的编程课，这些有趣的声音会吸引孩子们。”他认为，这些技术的门槛不高，难度也不大，无论是普通网友还是中小学生，都可以通过视频自学或简单的教学轻松入门。

与Sovits可以使用“干声”整合包类似，中小学生的编程可使用一些已经编写好的代码段落。刘恕将这种“半成品”比喻成“积木 ”。“coding（编码）部分你都不用去管，可以把细化的代码打包成一个大的积木块”。

现实世界中，歌手想要公开翻唱其他人的歌曲往往面临复杂的授权和法律问题。AI技术可以迅速实现网友的翻唱需求，同时还能自动生成高质量的音乐作品和声音样本。但随之而来的是对于AI歌手版权的争议，“这可能存在法律和伦理上的问题”，刘恕不无担心。

不可否认，

AI并不完美，

且存在的争议诸多，

但可以确定的是，

随着音色模型不断训练完善，

AI歌手可以实现

无限接近完美的演唱。

一切才刚刚开始。

文中配图来源于网络

用户名：
密码：
验证码：	看不清

	忘记密码？