我的位置: 上观号 > 上海经信委 > 文章详情

阶跃星辰正式发布视频生成模型 Step-Video V2版本|产业创新动态

转自:上海经信委 2025-01-23 12:20:08


转载自:阶跃星辰

更新不停!

阶跃星辰正式发布视频生成模型 Step-Video V2版本

Prompt:低角度旋转镜头围绕着一个鼓手和他的架子鼓。鼓手穿着深色T恤和浅色裤子,戴着帽子,手臂上有纹身。他坐在鼓凳上,双手握着鼓槌,充满激情地击打着架子鼓。鼓的低音鼓面上印有“FONZIE”字样。周围环境昏暗,地面为深灰色,背景中可见部分绿幕和一些黑色的隔板。一个大型柔光箱提供明亮的光源,金属梯子靠墙放置,几个音箱位于房间的角落。摄影机持续旋转拍摄,捕捉鼓手演奏的动态画面和周围环境。
相比去年发布的 Step-Video V1,V2 版本模型参数量更多语义理解指令遵循能力都有大幅提升,在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入镜头语言等方面具备更强的生成能力。这些提升,源于我们在 VAE 模型、DiT架构与强化学习、以及多模态大模型与视频知识库应用上的持续积累和创新。目前,Step-Video V2 版本已支持在跃问网页端(https://yuewen.cn/videos)申请试用。
三大核心技术升级
Step-Video 从V1 到 V2 版本,在 VAE 模型、DiT 架构与强化学习的融合,以及多模态大模型应用三方面持续升级。
  1. VAE 模型:Step-Video V2 采用压缩比更高的 VAE 模型,将空间压缩 16x16 倍,时间压缩 8 倍,在保证重构质量的前提下,有效降低模型计算复杂度,显著提升生成同等帧数下模型的训练和生成效率。

  2. DiT 架构与强化学习:Step-Video V2 针对 DiT 模型进行了深度系统优化,包括超参优化、算法优化、并行优化等,从系统层面保证了模型训练的高效性和稳定性。另外,通过引入针对视频生成的强化学习优化算法,进一步提升了视频生成质量,强化了生成视频合理性和稳定性,让视频中的运动更流畅自然,细节更丰富细腻。

  3. 多模态大模型与视频知识库:Step-Video V2采用自研多模态理解大模型,能够对视频内容、镜头语言和文字实体进行精准描述。同时结合视频自建结构化知识库,持续为视频生成训练提供高质量多样化的视频数据。这些努力让模型能够更深入地理解视频内容,生成的视频更加符合语义,在细节上贴近真实世界。

话不多说,一起来看看效果!

复杂运动,流畅自如

无论是高雅优美的芭蕾舞、对抗激烈的空手道、紧张刺激的羽毛球,还是高速翻转的跳水,Step-Video V2 都展现出对复杂运动场景的优异把控能力。

Prompt:舞台灯光为蓝色,背景幕布描绘了湖水和山峦的景象。一位身穿白色芭蕾舞裙的芭蕾舞演员在舞台中央翩翩起舞。固定镜头,平视拍摄,演员旋转,挥舞手臂,踮起脚尖。镜头拉远,平视拍摄,展示出更多芭蕾舞演员,她们身穿白色芭蕾舞裙,在舞台上整齐地排列,跟随主角的舞步,一同挥舞手臂,踮起脚尖。镜头缓慢推近,平视拍摄,聚焦于主角,她优雅地跳跃、旋转。固定镜头,平视拍摄,主角和芭蕾舞团的演员们在舞台上继续表演,她们的动作协调一致,展现出优美的舞姿。

Prompt:室内羽毛球场,平视视角,固定镜头记录了一段男子打羽毛球的场景。一名身穿红色短袖、黑色短裤的男子,手持羽毛球拍,站在绿色的羽毛球场地中央。球网横跨场地,将场地分为两部分。男子挥拍击球,将羽毛球击向对面。光线明亮均匀,画面清晰。

人物表情,细腻传神

无论是真实人物还是虚构角色,无论是表情细节还是光影效果,统统拿捏。

无论是燃放仙女棒的小女孩、实验室中沉思的爱因斯坦、享受泡泡浴的美丽女子,还是台前梳妆的林黛玉,Step-Video V2 都能精准捕捉人物神韵,细腻呈现每一处细节。

Prompt:除夕夜里,一位小女孩站在四合院的院子中间,手持点燃的仙女棒,火花闪烁照亮她充满期待的脸庞,背后是贴满春联的大门和高高挂起的红灯笼,暖黄色灯光透过窗户洒在地上,营造出温馨的氛围。

Prompt:在一座现代科技感十足的实验室里,爱因斯坦正在进行实验。镜头以特写拍摄他思考的面容,白色的头发和胡须略显凌乱。周围的设备充满未来感,背景略有模糊。随着他停下笔,露出微笑,似乎解开了一个重大难题。

Prompt:视频中,林黛玉身穿一袭淡雅的汉服,她正坐在梳妆台前,专注地整理着妆容。

镜头运动,丰富多样

Step-Video V2 进一步拓展了镜头语言的丰富度,支持推、拉、摇、移、旋转、跟随等多种镜头运动方式,以及不同景别之间的切换。

Prompt:一位身穿浅色纱质服饰的女子,头戴精致的头饰,面带微笑。镜头以特写展现她姣好的面容和温婉的气质。随后,镜头切换到一位男子,他戴着透明面纱,眼神凝视着前方。平视镜头特写展现了面纱的质感和男子若有所思的神情。场景再次切换,男子身穿黑色长袍,衣襟和袖口处有暗纹装饰,神情严肃地站在一个类似庭院的环境中。中景镜头展现了人物的全身以及周围环境,营造出一种神秘的氛围。

Prompt:视频中,乐高哈利波特魔法城的全景特写展示了一个由乐高积木构建的魔法世界。一个乐高小人在城堡前走来走去。画面中,城堡的每一个细节都被清晰地呈现,从尖塔到窗户,都展现了乐高积木的独特魅力。城堡的周围环绕着浓郁的魔法氛围,让人仿佛置身于哈利波特的故事中。整个画面采用环绕拍摄,镜头稳定,给人一种安静而专注的感觉。

Prompt:一位滑雪者在雪山上滑雪,画面采用第一人称视角,由自拍杆拍摄。滑雪者身穿深色滑雪服,戴着滑雪镜和浅色头盔,手持自拍杆。他从山坡上滑下,身后扬起大量雪花。背景是晴朗的蓝色天空和一座雪山。阳光强烈,在画面中形成星芒效果。滑雪者面部表情兴奋,张着嘴,并腾出一只手向镜头挥手致意。整个视频画面充满动感,展现了滑雪的刺激和乐趣。

基础文字,精准生成

除了视频效果提升以外,这次 Step-Video V2 新增支持视频内基础文字的精准生成与自然融入,生成效果显著优于前代模型

Prompt:一名宇航员在月球上发现一块石碑,上面印有“stepfun”字样,闪闪发光。

Prompt:视频中,一个身披红色披风的机器人骑在一匹黑色骏马上,举着大旗,在海面上飞奔。机器人身穿银白色的盔甲,在阳光下闪闪发光,大旗上写着2025,随风飘扬。背景是广袤的海洋,天空湛蓝。视频采用跟拍方式,镜头紧跟机器人,展示其威武的身姿和飘逸的大旗。随后,镜头切换到大旗上2025的特写,透露出一种神秘和力量的气息。

Prompt:采用 3D 动画风格,视频中,慢慢显现出了“Year of Snake, 2025”的字样,天空中绽放出绚烂的烟花。2025字样晶莹剔透泛着金光,地板上反射着它的倒影,背景是黑色的地板。一条卡通蛇戴着一副酷炫的黑色墨镜不断扭动身体,镜片上反射着舞台的灯光。画面采用固定机头,动画风格,展现了蛇年过年喜庆热闹的氛围。

Prompt:视频中,一棵挂满“福”字的树在华丽的舞台上展现。树上的“福”字颜色鲜艳,红彤彤的一片。突然,一阵风吹来,许多“福”字从树上飘落,在空中画出一道道优美的弧线。整个场景采用固定镜头拍摄,画面清晰,具有3D动画风格,展现了过年的喜庆气氛。

抢先体验

目前,Step-Video V2 已支持在跃问网页端 ( https://yuewen.cn/videos ) 申请试用,欢迎大家体验并提出宝贵意见。

欢迎转发,但请注明出处“上海经信委”

觉得不错请点赞!