沪产大模型何以后劲足

——上海AI生存法则观察（上）

来源：解放日报作者：李晔/查睿日期：2026-02-07

本报记者李晔查睿

起于2023年的“百模大战”，到2025年，九成没了声响。曾被热捧的“AI六小龙”，半数或缩减业务，或战略转向。抱有AGI（通用人工智能）信仰、仍在持续锤炼模型的玩家仅剩10余家。其中，沪产大模型居多，且近期表现不俗，后劲甚足。

2021年已在香港上市的商汤科技，其最新的日日新V6.5模型在国内率先突破图文交错思维链技术，以75.35的总分位列SuperCLUE（中文通用大模型基准）多模态评测国内第一；

上月登陆港股的MiniMax，截至2月3日收盘，市值已超过1800亿港元；

阶跃星辰新近完成的50亿元B+轮融资一鸣惊人，刷新过去12个月中国大模型单笔最高融资纪录；

依托于基础模型Qwen，上海AI应用“千问”去年11月发布后，仅用时2个月就实现月活破亿。

沪产大模型，何以“剩者为王”？

自主研发，大力出奇迹

两个月前，商汤科技首席科学家林达华现身一场AI论坛，回顾ChatGPT爆火后人工智能界“烈火烹油”般的三年。

他说，最初，业界深信尺度定律，认为必须堆砌算力和数据。但2024年后，受困于模型迭代滞缓、能力提升微弱、投入回报递减等瓶颈，行业陷入迷茫。直到OpenAI o1和DeepSeek-R1出现，展示了通过长思维链、推理扩展等技术手段实现模型能力突破的可能。

这让林达华愈发意识到，“我们需要回归实验室，探索下一次技术范式的原始创新”。

于是，从日日新模型、空间智能模型到世界模型，从架构创新、打通数据壁垒到训练范式革新，商汤科技沉下心来，大力自主研发，果然出现奇迹。如商汤重构视觉与语言的融合机制，近期发布并开源的NEO多模态架构，仅用十分之一的数据就达到同量级多模态模型最佳水平。

坚持研发不放弃，是上海大模型的共同基因。MiniMax公司首席运营官贠烨祎近期在与记者交流时反复强调，MiniMax始终专注于做好模型本身，因为模型即产品。“尤其未来智能体（Agent）的更多落地将放大模型能力差距。智能体需要做长距离、多步骤推理，如果模型好5%—10%，领先效果将被放大很多倍。”

在“做好模型”的指挥棒下，MiniMax率先钻研混合专家MoE架构，更成为全球第一家敢于投时间、人力、算力去验证“线性注意力机制”的创业公司。手握这两大杀手锏，MiniMax仅用OpenAI不到1%的花销，就实现了语音、视频、文本全模态模型布局。

场景为王，“一人剧组”成真

沪产大模型之所以后劲足，有一个重要共性——它们普遍关注能否深入高价值场景并实现规模化落地，而非单纯拼参数或霸榜炫技。

阶跃星辰立志成为最懂终端的大模型厂商。截至去年底，阶跃星辰终端智能体的接口调用量连续三个季度每季都增长近170%。在手机领域，国内60%的头部手机品牌已和阶跃达成合作，模型装机量超过4200万台，日均服务近2000万人次。在汽车领域，阶跃与千里科技、吉利达成深度合作，共推业内首个搭载端到端语音模型的AgentOS智能座舱，量产车型吉利银河M9上市3个月销量接近4万辆，并已进军海外市场。

千问的迅速爆火，在于会聊天、能办事。凭借A2A（从智能体到智能体）的技术路线，千问由系统级AI理解用户意图后，再将任务分发给各业务的专用智能体，从而成为真正能闭环办事的AI助手。下转 4版（上接第1版）比如“一句话点外卖”功能，大模型识别外卖意图后调用淘宝闪购智能体，结合用户定位、描述等信息，直接帮用户作出决策。

大模型竞争的下半场，成本极其重要。过去，用视频生成模型做短剧，每生成1分钟高质量视频，需要1小时八卡的英伟达最新GPU计算，成本高企。时长同样是痛点，传统开源模型或商用模型，每小时能生成的视频从20秒到80秒不等。而今，相同质量的视频，商汤最新进阶的SekoTalk，一小时可生成1280秒。针对对话场景进一步优化后，若不用英伟达最新GPU而用消费级5090显卡，1小时计算生成视频更可长达4500秒。跨过规模化红线的背后，是商汤在算法、系统、模型、架构多层面的联合创新，从而实现64倍的速度优化。

Seko2.0让短剧、漫剧行业“一人剧组”变成可能，目前已聚集超30万创作者，并孵化出一系列爆款剧集。其中，短剧《婉心计》强势登顶抖音AI短剧榜。

模芯抱团，构建自主闭环

上海“国模”，还在主动联手“国芯”。

继去年7月阶跃星辰联合华为昇腾、沐曦、壁仞科技等十家中国芯片及平台厂商发起成立“模芯生态创新联盟”之后，去年底，阶跃星辰又与壁仞科技、上海仪电智算服务签署战略合作协议，围绕“芯—模—云”协同开展联合技术攻关，构建从底层硬件到上层应用的国产自主可控产业闭环。

基础模型Qwen就“跑”在了国产芯片——平头哥高端AI芯片“真武”上。今年1月29日，“真武”正式现身，从关键参数来看，其性能超过英伟达A800和国产主流GPU芯片，与英伟达专为中国市场设计的H20性能相当。除大规模应用于Qwen大模型的训练和推理外，“真武”芯片结合阿里云完整的AI软件栈，已服务国内400多家客户。

商汤2018年就开始布局SenseCore大装置，目前总算力规模达3.2万PFLOPS（每秒千万亿次浮点运算），商汤临港AIDC获全国首个5A级智算中心认证。2025世界人工智能大会大模型论坛上，商汤联合华为、库帕思、海光、寒武纪、曦望Sunrise、壁仞科技、麒麟软件、摩尔线程等10余家国产生态伙伴，共同发布“商汤大装置算力Mall”，旨在通过算法、数据和算力的协同优化，将技术沉淀为如水电煤般的基础设施。

全球知名风投公司红杉资本判断，大模型竞赛决赛圈，美国入围选手只有5家，分别是OpenAI、Anthropic、谷歌、Meta以及xAI。中国大模型也将进一步收敛，或在2028年前形成由个位数巨头主导的格局。基于此，即便在国内有暂时领先优势，上海大模型企业仍有清醒认知——大模型发展是一场长跑，“行业巨变”随时可能发生，必须保持敬畏，力争在真正决赛时依旧留在牌桌上。