4月27日,又一支AI视频短片在AI圈爆火
生数科技联合清华大学推出了中国首个长时长、高一致性、高动态性视频大模型——Vidu
据官方介绍,Vidu可以生成长达16s,分辨率高达1080P的高清视频内容
Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点,简单来说就是对标Sora
| 视频生成效果
Sora一个让人印象深刻的视频镜头是一艘船在咖啡杯中飘荡
Vidu则在演示中将这个场景进行了类似场景复现
从整体视频的呈现效果来看,二者都将船在经历海浪的物理情况做了模拟,符合基础的物理认知和现实规律
海浪的效果也比较一致,但从船本身的运动形态来看,Vidu的效果还是略差一些,Sora中船只有比较明显的运动效果,而Vidu的船只形态相对固定
场景的真实效果展示,一只可爱的小狗在水底游泳,看起来十分生动
角色的一致性方面,展示了一只带着珍珠项链的猫,通过镜头的旋转,展示了超高强度的角色一致性
同时,视频中也着重展示了镜头切换的效果,演示了从屋内,船边再到湖面三个不同的镜头切换
切换的过程十分流畅,同时保证了周围环境的一致性
此外,还能够生成转场,追焦以及长镜头等影视级别的镜头效果,可以说是相当的哇塞了!
同时,Vidu在中,也重点呈现了一些特有的中国元素,如熊猫抱着吉他弹唱
以及龙和中国古代建筑的元素
| 原理和技术层面
Vidu模型采用的是团队原创的Diffusion与Transformer融合的架构U-ViT
该架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构
2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT架构的大规模可扩展性验证
| 生数科技
最后简单聊一聊生数科技
生数科技的团队核心成员来自清华大学人工智能研究院,主要是朱军带领的课题组,该课题组致力于贝叶斯机器学习的基础理论和高效算法研究,是国际上最早研究深度概率生成模型的团队之一
2024年3月12日,生数科技刚刚完成新一轮数亿元融资。由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投,华兴资本担任独家财务顾问。
| 内测申请
目前基于Vidu大模型的AI视频生成功能已经在旗下网站PixWeaver开始内测申请
申请地址:https://shengshu.feishu.cn/share/base/form/shrcnWhu2dSaGw4ZYYd7nNGzTZd
官网:https://pw.shengshu-ai.com/
| 结语
对于产品本身,还未上手暂不做过多的评价,期待申请试用后结果再做评测
AI之路很长,我们和国外的差距还很大,期待我们能有更多的AI产品出现,希望有一天国产AI视频之光也能照亮世界!
已经看到这里了,如果这篇文章对你有帮助,求个点赞,分享,转发,谢谢你的阅读!
暂无评论内容