AI幻觉很严重，怎么破

不断优化算法和构建可控信源，能有效降低负面影响

来源：解放日报作者：查睿日期：2025-07-28

本报记者查睿

2025世界人工智能大会各大论坛的议题中，“安全治理”几乎是绕不开的话题。记者在采访中发现，“AI确定性”也常常被人提及。

特别是DeepSeek-R1模型的横空出世，给业界带来震撼的同时，也引发了隐忧：推理能力越强，AI幻觉越严重。在AI加速商业化落地的浪潮中，降低AI幻觉、提升输出的确定性已成为业界面临的一道必答题。

所谓的AI幻觉，就是大模型在“一本正经地胡说八道”。中文通用大模型综合性测评基准SuperCLUE的测评结果显示，DeepSeek-R1模型幻觉率高达21.02%，远远高于豆包大模型的4.11%，也高于DeepSeek另一款大语言模型V3的13.83%。该测评结果还显示，推理模型的幻觉比非推理模型更严重，推理模型平均幻觉率为22.95%，非推理模型的平均幻觉率为13.52%。

AI幻觉，本质上源于大模型的双重技术局限：一是推理时编造内容，二是训练数据不全。大模型只能靠训练数据来理解世界，如果训练数据漏掉了关键信息，或者有错误内容，大模型输出的结果就容易出错。

遗憾的是，“爱编故事”是大模型的天生缺陷。抛开那些复杂的技术原理，大模型生成的内容，主要就靠“猜”——遇到没学过的内容，会根据概率猜一个最有可能的答案来补全，尤其是在回答开放性问题时，大模型常会编细节让答案看起来更完整，即便这是一个错误的答案。

既然AI幻觉无法彻底消除，那么尽可能减少幻觉概率，成了大模型落地应用必须跨越的门槛。实践证明，不断优化算法和构建可控信源，能有效降低AI幻觉的负面影响。例如，阶跃星辰为大模型增加了“深入核查”的功能，保证模型输出结果的可信性。

阶跃AI产品负责人陈男群告诉记者，“深入核查”能调用大模型自身的四种能力：强大的信息获取引擎、交叉信源核查、信源权威性评估和提供引用来源。

“阶跃AI融合了各类搜索源和网页信息解析工具，实时获取互联网上大量信息，以弥补信源不足的短板。同时还能追踪事实陈述、数据引用等关键信息的来源，通过不同信息源进行交叉验证。更关键的是，我们会尽可能找到一手的、具备权威性的专业信源，并让模型理解不同信源渠道的可信度差异。”陈男群介绍，阶跃AI在输出内容的同时还提供多个引用来源、原始网页、发布时间等详细信息，为用户提供“二次核查”的依据。