
随着以ChatGPT为代表的大模型飞速发展,越来越多的人开始关注人工智能的安全治理。图灵奖得主、中国科学院院士姚期智在2024世界人工智能大会人工智能前沿技术的治理挑战与应对论坛上呼吁:“人工智能安全治理日趋重要,超大型大模型的治理,需要尽快研发出规范。”

“大模型会记得一些训练时用过的隐私数据。用户问它一个训练时完全没用过的问题,它的回答中可能会出现它训练里用过的数据。”姚期智介绍道,此前有学者对GPT-2设计了一个攻击方法,让GPT-2产生20万个文本,用算法从其中选出1800个文本,使用了6种算法,发现平均33.5%的文本是在训练中使用过的。“在不久的将来,随着AI越来越多的出现在实际生活中,我们还需要面对物理智能、生物智能的风险。”姚期智谈道。
“通用人工智能的能力快速增长,人类是否还有能力管控它?”在姚期智看来,尽管现在已陆续出现针对人工智能安全治理的研究,但这些研究大多都十分零碎,“很初级,就很像40年前,大家刚刚发现网络安全问题,想要解决的时候——我发现一个问题,并提出几个方案;另一个人提出如何反驳我的解决方案……相对之下,较成熟的密码学多年来已发展了一组核心技术,例如秘密分享、零知识证明、多方安全计算等。”
“如何让大模型数据安全发展出一组核心技术,使得研究更有效率、更系统化?”在报告中,姚期智介绍了两个系统性的AI安全治理方向:Beneficial AGI(有益的通用人工智能)、可证明的安全AGI,前者由博弈学角度出发,让AI与人类利益对齐,强调机器人应该以人的利益为本,并与人保持交流、时刻多了解人的需求;后者则是用proof checkers来设计数学上绝对安全的AGI系统,让人类只和可证明安全的“白盒子”交流,“在未来,机器很可能比最油嘴滑舌的人还要厉害,能够学习到所有人能想到的招数。”姚期智谈道,因此,如果机器在未来真的发展到非常强大的地步,我们必须严格限制机器,只通过外面经过验证的“白盒子”和它交流。
企业及专家观点不代表官方立场
↓分享
↓点赞
↓在看