转载自:上海徐汇
4月28日,商汤科技正式发布并全面开源日日新SenseNova U1系列原生理解生成统一模型,以原创NEO-unify统一架构,实现多模态理解、推理、生成在单一模型上原生融合,标志着多模态技术迈入理解生成统一的新阶段,也为人工智能从数字内容生成走向理解真实世界提供了关键技术路径,徐汇人工智能产业再添标杆级创新成果。
不同于传统多模态模型普遍采用的“图像编码—语言翻译—生成输出”分段拼接模式,SenseNova U1彻底摒弃独立视觉编码器与中间转换环节,将语言与视觉作为统一信息直接建模,显著降低信息损耗、响应更迅捷、效果更稳定,以更小参数规模即可跑出接近商用大模型的综合能力,兼顾效率与效果。

在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中,SenseNova U1 Lite均达到同量级开源模型SOTA水平,为统一多模态理解与生成树立了新的标杆
本次率先开源的SenseNova U1 Lite轻量版,包含8B稠密与A3B混合专家两款规格,在图像理解、内容生成、智能编辑、视觉推理等权威测试中,全面达到同量级开源模型SOTA水平;复杂信息图表、图文排版、长图文创作、多轮逻辑生成等高难场景,均可稳定输出商业级品质内容。
依托原生统一架构优势,U1在业内首次实现单次调用、连续图文创作输出,步骤流程图、信息长图、教程长图、版式设计等场景风格高度统一、逻辑连贯,语义丰富度与像素级视觉保真度同步拉满,可广泛落地办公、教育、设计、文旅、融媒体等行业场景,大幅提升内容生产效率与标准化水平。


SenseNova U1 Lite对复杂信息图的排版和文字有很强的控制力
同时,模型在逻辑推理与空间智能方向表现突出,能够深度理解物理世界中的复杂结构与关系。这一能力意味着模型不再局限于数字内容生成,而是开始具备连接现实世界的认知基础,被视为迈向“物理智能”的重要一步,有望推动数字世界与物理世界之间的进一步融合。
目前,SenseNova U1 Lite已在GitHub、Hugging Face两大平台全面开源,全球开发者可免费下载、快速部署、二次创新,相关技术论文与应用手册将陆续发布,以开源生态加速多模态AI普惠落地。

欢迎转发,但请注明出处“上海经信委”
觉得不错请点赞!