沪产大模型何以后劲足
——上海AI生存法则观察(上)
起于2023年的“百模大战”,到2025年,九成没了声响。曾被热捧的“AI六小龙”,半数或缩减业务,或战略转向。抱有AGI(通用人工智能)信仰、仍在持续锤炼模型的玩家仅剩10余家。其中,沪产大模型居多,且近期表现不俗,后劲甚足。
2021年已在香港上市的商汤科技,其最新的日日新V6.5模型在国内率先突破图文交错思维链技术,以75.35的总分位列SuperCLUE(中文通用大模型基准)多模态评测国内第一;
上月登陆港股的MiniMax,截至2月3日收盘,市值已超过1800亿港元;
阶跃星辰新近完成的50亿元B+轮融资一鸣惊人,刷新过去12个月中国大模型单笔最高融资纪录;
依托于基础模型Qwen,上海AI应用“千问”去年11月发布后,仅用时2个月就实现月活破亿。
沪产大模型,何以“剩者为王”?
自主研发,大力出奇迹
两个月前,商汤科技首席科学家林达华现身一场AI论坛,回顾ChatGPT爆火后人工智能界“烈火烹油”般的三年。
他说,最初,业界深信尺度定律,认为必须堆砌算力和数据。但2024年后,受困于模型迭代滞缓、能力提升微弱、投入回报递减等瓶颈,行业陷入迷茫。直到OpenAI o1和DeepSeek-R1出现,展示了通过长思维链、推理扩展等技术手段实现模型能力突破的可能。
这让林达华愈发意识到,“我们需要回归实验室,探索下一次技术范式的原始创新”。
于是,从日日新模型、空间智能模型到世界模型,从架构创新、打通数据壁垒到训练范式革新,商汤科技沉下心来,大力自主研发,果然出现奇迹。如商汤重构视觉与语言的融合机制,近期发布并开源的NEO多模态架构,仅用十分之一的数据就达到同量级多模态模型最佳水平。
坚持研发不放弃,是上海大模型的共同基因。MiniMax公司首席运营官贠烨祎近期在与记者交流时反复强调,MiniMax始终专注于做好模型本身,因为模型即产品。“尤其未来智能体(Agent)的更多落地将放大模型能力差距。智能体需要做长距离、多步骤推理,如果模型好5%—10%,领先效果将被放大很多倍。”
在“做好模型”的指挥棒下,MiniMax率先钻研混合专家MoE架构,更成为全球第一家敢于投时间、人力、算力去验证“线性注意力机制”的创业公司。手握这两大杀手锏,MiniMax仅用OpenAI不到1%的花销,就实现了语音、视频、文本全模态模型布局。
场景为王,“一人剧组”成真
沪产大模型之所以后劲足,有一个重要共性——它们普遍关注能否深入高价值场景并实现规模化落地,而非单纯拼参数或霸榜炫技。
阶跃星辰立志成为最懂终端的大模型厂商。截至去年底,阶跃星辰终端智能体的接口调用量连续三个季度每季都增长近170%。在手机领域,国内60%的头部手机品牌已和阶跃达成合作,模型装机量超过4200万台,日均服务近2000万人次。在汽车领域,阶跃与千里科技、吉利达成深度合作,共推业内首个搭载端到端语音模型的AgentOS智能座舱,量产车型吉利银河M9上市3个月销量接近4万辆,并已进军海外市场。
千问的迅速爆火,在于会聊天、能办事。凭借A2A(从智能体到智能体)的技术路线,千问由系统级AI理解用户意图后,再将任务分发给各业务的专用智能体,从而成为真正能闭环办事的AI助手。 下转 4版(上接第1版)比如“一句话点外卖”功能,大模型识别外卖意图后调用淘宝闪购智能体,结合用户定位、描述等信息,直接帮用户作出决策。
大模型竞争的下半场,成本极其重要。过去,用视频生成模型做短剧,每生成1分钟高质量视频,需要1小时八卡的英伟达最新GPU计算,成本高企。时长同样是痛点,传统开源模型或商用模型,每小时能生成的视频从20秒到80秒不等。而今,相同质量的视频,商汤最新进阶的SekoTalk,一小时可生成1280秒。针对对话场景进一步优化后,若不用英伟达最新GPU而用消费级5090显卡,1小时计算生成视频更可长达4500秒。跨过规模化红线的背后,是商汤在算法、系统、模型、架构多层面的联合创新,从而实现64倍的速度优化。
Seko2.0让短剧、漫剧行业“一人剧组”变成可能,目前已聚集超30万创作者,并孵化出一系列爆款剧集。其中,短剧《婉心计》强势登顶抖音AI短剧榜。
模芯抱团,构建自主闭环
上海“国模”,还在主动联手“国芯”。
继去年7月阶跃星辰联合华为昇腾、沐曦、壁仞科技等十家中国芯片及平台厂商发起成立“模芯生态创新联盟”之后,去年底,阶跃星辰又与壁仞科技、上海仪电智算服务签署战略合作协议,围绕“芯—模—云”协同开展联合技术攻关,构建从底层硬件到上层应用的国产自主可控产业闭环。
基础模型Qwen就“跑”在了国产芯片——平头哥高端AI芯片“真武”上。今年1月29日,“真武”正式现身,从关键参数来看,其性能超过英伟达A800和国产主流GPU芯片,与英伟达专为中国市场设计的H20性能相当。除大规模应用于Qwen大模型的训练和推理外,“真武”芯片结合阿里云完整的AI软件栈,已服务国内400多家客户。
商汤2018年就开始布局SenseCore大装置,目前总算力规模达3.2万PFLOPS(每秒千万亿次浮点运算),商汤临港AIDC获全国首个5A级智算中心认证。2025世界人工智能大会大模型论坛上,商汤联合华为、库帕思、海光、寒武纪、曦望Sunrise、壁仞科技、麒麟软件、摩尔线程等10余家国产生态伙伴,共同发布“商汤大装置算力Mall”,旨在通过算法、数据和算力的协同优化,将技术沉淀为如水电煤般的基础设施。
全球知名风投公司红杉资本判断,大模型竞赛决赛圈,美国入围选手只有5家,分别是OpenAI、Anthropic、谷歌、Meta以及xAI。中国大模型也将进一步收敛,或在2028年前形成由个位数巨头主导的格局。基于此,即便在国内有暂时领先优势,上海大模型企业仍有清醒认知——大模型发展是一场长跑,“行业巨变”随时可能发生,必须保持敬畏,力争在真正决赛时依旧留在牌桌上。