AI视频生成应用持续霸榜全球第一,稀宇科技的目标却始终是留在“牌桌”上

每年强大十倍,蓄力长跑决胜时刻

来源:解放日报 作者:李晔 日期:2025-07-03
本报记者 李晔

今年6月17日,上海AI独角兽企业MiniMax稀宇科技发布全球首个开源大规模混合架构推理模型——MiniMax-M1。该模型在权威评测榜单中已位列全球开源模型第二,仅次于DeepSeek-R1-0528。这天,MiniMax创始人兼CEO闫俊杰在朋友圈写下:第一次感觉到大山不是不能翻越。

M1发布之后的4个工作日,MiniMax又连续发布视频生成模型Hailuo 02、通用智能体MiniMax Agent、视频创作智能体Hailuo Video Agent,以及音色设计工具Voice Design,保持日更且个个有声响。

MiniMax究竟啥来头?梳理其脉络可发现,它在ChatGPT爆红前就已投身AGI(通用人工智能),并且是在国内率先放弃大模型主流稠密架构和传统注意力机制的创业公司。不跟随,是其成长的典型特征。

细分项形成碾压级优势

M1甫一登场,即在权威评测榜单中位列全球开源模型第二,仅次于5月28日发布的DeepSeek-R1-0528。不过从细分项来看,M1在长文本处理、工具调用等方面形成碾压级优势。

比如M1支持100万token(AI处理文本的最小基本单位)的上下文输入,足以一次性容纳英文版《三体》全文,能力是DeepSeek同类模型的8倍,可媲美谷歌最新闭源模型Gemini2.5Pro。在输出长度上,M1的8万token高于Gemini2.5Pro的6.4万token,对于需生成长篇技术文档、小说剧本等场景,这一优势极具含金量。

M1在保持性能的同时,其性价比让友商有些坐不住了。在用8万token深度推理时,M1所需算力仅为DeepSeek的30%。M1推理模型在强化学习阶段的成本仅53.5万美元,比MiniMax自己预估的少了一个数量级,更别提跟其他友商相比了。

文本大模型M1只是开胃菜。MiniMax的视频生成大模型Hailuo 02,直接叫板谷歌第三代视频生成模型Veo3。

体操、杂技等复杂运动,一直被作为AI视频模型的图灵测试。但过往AI视频里,常出现运动主体肢体错乱(如三条腿)、五官扭曲等“翻车”状况。

Hailuo 02实现了对物理世界规律的极致理解。以“一只猫在奥运会从10米高跳板上进行跳水表演,翻腾旋转,动作优美”为提示词,让谷歌Veo3和Hailuo 02各自生成视频。前者的视频中,猫咪翻转动作含糊,几乎直扑入水;后者则在空中完整翻转三周半后优雅入水,动作全程均符合逻辑。

该视频在Instagram发布后一周内,即获3亿现象级流量。一夜之间,长颈鹿、羊、河马等动物都“学会”了跳水、打乒乓等,“动物奥运会”这一AI视频新品类被Hailuo 02开创出来。

破解AI视频“不可能三角”

殊不知,为锤炼Hailuo 02,MiniMax打造一支导演、编剧、美术复合团队班底,与技术团队一同打磨。

MiniMax的AI艺术总监郑晓东坦言,他天天同算法工程师们开会,跟听天书一般。但他依旧理直气壮提要求:一要有电影质感,把大片最高审美带给用户;二要挑战高动态、超复杂、大幅度动作;三是结果导向,AI生成的片段切入电影或短剧的比例,第一步要达到5%。 下转 4版

(上接第1版)“我就代表用户提意见。如果不能将高动态美学的能力给到用户,还不如不做。”郑晓东从未质疑过自己要求的合理性。

过去一年,AI视频技术团队经历了无数抓狂时刻。明明架构、算法不断优化,效果却背道而驰。

但唯有高质量的数据、创新的算法,以及打磨每一道训练环节以避免“差之毫厘,谬以千里”,最终成就了Hailuo 02的一鸣惊人。

关键在于,AI视频生成领域曾陷入效果、效率、成本的“不可能三角”,即追求极致生成效果,往往拖慢效率,且需要海量的计算资源、高昂的训推成本。Hailuo 02却以创新的NCR架构,在将模型参数和训练数据量分别提升3倍和4倍的同时,效率还实现了2.5倍的飞跃。

郑晓东认为,团队敢讲真话、有自己的原则和坚持、一切只为模型效果负责,这些尤为关键。

记者采访时,MiniMax公司多名员工提及“做好模型本身”。他们说,闫俊杰反复强调:好模型的本质是技术驱动,而模型是产品出现的驱动力。

言下之意,技术好、模型好,自有产品力。MiniMax视频生成应用Hailuo AI,自去年下半年起持续霸榜全球第一,力压海外的Sora、Runway等产品。同时,MiniMax开放平台快速成长,已有全球超过5万名企业客户和开发者注册,Hailuo AI已帮助来自200个国家和地区的创作者生成了超过3.7亿个视频。

“逆行”大投入成就“唯一”

从某种意义上说,MiniMax如今的高光时刻,是用“逆行”换来的。

去年以来,迫于内部成本与外部竞争,国内外大模型公司多在加速收敛。如去年7月时,美国前六的AI创业公司只剩OpenAI和Anthropic,若加上面临被收购的xAI公司,最多2.5个。

在国内,当初的“百模大战”参与者很快收缩为个位数,曾经的大模型“六小虎”,不少转而押注行业落地。MiniMax成了为数不多仍在坚持基座模型研发的创业公司。

MiniMax的沉着,在于迷雾中的清醒与果敢。

2023年下半年,国内同行多坚信大模型稠密架构,MiniMax却率先投入资源研究MoE架构。MoE架构将模型分成多个专家子网络,视情动态激活“专家”进行计算,节省计算开销。早在去年初,MiniMax就已上线国内首个基于MoE架构的大模型,今年年初爆火的DeepSeek-R1使用的就是MoE架构。如今,MoE架构几乎取代稠密架构成为行业主流。

此次M1的成功不仅在于沿用MoE架构,核心秘籍还在于使用了线性注意力机制。模型传统的注意力机制中,token长度与算力消耗呈平方关系,token增长百倍,算力消耗就增长万倍。线性注意力机制是在token长度增加后,努力让算力消耗呈线性增长。事实上,这一理论2019年就有海外学者提出,但敢于投时间、人力、算力资源验证其可行性,并最终用于大规模商业化部署的,全球范围却仅有MiniMax一家。

大模型发展是一场长跑,决胜时刻远未到来。面对平均每三个月就能带来“行业一震”,MiniMax保持敬畏,其目标始终就一个——留在“牌桌”上。

去年世界人工智能大会上,闫俊杰在接受记者采访时谈及“生存”。他认为,技术上能快速进步、商业上能较好循环,唯有符合这两点的公司才能留下来。他还补充道:“在等待市场出现千万级乃至亿级AI应用过程中,大模型公司该做的,就是具备每年提升10倍的能力。我们成立迄今,正是按这个速度来的。”

去年年底,上海印发《关于人工智能“模塑申城”的实施方案》,力争到2025年底建成世界级人工智能产业生态。目前,MiniMax与上海人工智能实验室书生·浦语大模型,以及商汤、阶跃星辰等四大基座模型,已构成大模型“上海队”。