【看中国2024年2月23日讯】2月16日,OpenAI发布视频生成模型Sora,极大拓展AI在视频内容生成方面能力。Sora在关键指标上大幅领先之前的一些视频生成类模型,用它生成视频,会发现其对物理世界的空间模拟能力甚至达到了逼近真实的水平。
Sora之所以是AI里程碑,是因为它再一次突破了AIGC用AI驱动内容创作的上限。此前大家已经开始使用ChatGPT等文本类辅助内容创作,辅助插图和画面生成,用虚拟人做短视频。而Sora是视频生成类大模型,通过输入文本或图片可生成、连接、扩展等多种方式编辑视频,属于多模态大模型范畴,该类模型是在GPT这类语言类大模型上进一步延伸、拓展。Sora通过一种类似于GPT-4对文本令牌进行操作的方式来处理视频“补丁”。该模型的关键创新在于将视频帧视为补丁序列,类似于语言模型中的单词令牌,使其能够有效地管理各种视频。这种方法与文本条件生成相结合,使Sora能够根据文本提示生成上下文相关且视觉上连贯的视频。
从年初苹果发布Vision Pro头戴式显示设备、到各家PC大厂接连发布AIPC,再到这次的OpenAI发布Sora,全世界对于人工智能的创新在加速,迭代的越来越快。
今后,用AI自动创作生成的内容会影响很多的行业领域,对于热点话题的“时效性覆盖”将主要是AI的任务,比拼的主要是AIGC的效率,比拼的是大家能够驾驭AI的能力,比拼的是谁能够驾驭类似于Sora这种强势能的AI生产工具。以后“扔一部小说、出一部大片”不是不可能了,Sora可以生成长达1分钟的视频,视频可以一镜到底,多角度镜头切换,并且对象始终不变。Sora视频,更可以运用景物、表情和色彩等镜头语言,表达出如孤独、繁华、呆萌等情感色彩。总之,如果未来出现更多的Sora、或者这些生成视频大模型从以上所述的几个角度进行更多的改良滞后,未来的AI视频效果,或许几乎和人工拍摄不相上下。
多模态模型的应用在2024将迎来黎明,影响影视、直播、媒体、广告、动漫、艺术设计等数个行业。在当下的短视频时代,Sora“一个人”就全包了短视频的摄影、导演、剪辑等任务。未来,Sora生成的各种不同用途的视频,对于现在的短视频、直播、影视、动漫、广告等行业都会产生深远影响。
比如,在短视频创作领域,Sora 有望极大降低短剧制作的综合成本,解决“重制作而轻创作”的共性问题,短剧制作的重心未来有望回归高质量的剧本内容创作,考验的是优秀创作者的构思能力。Sora有望真正为相关行业的企业降本增效,广告制作公司通过Sora模型生成符合品牌的广告视频,显著减少拍摄和后期制作成本;游戏与动画公司使用Sora直接生成游戏场景和角色动画,减少了3D模型和动画制作成本。企业节省下来的成本可以用于提高产品、服务质量或者技术创新,推动生产力进一步提升。
如果说2023年是全球AI大模型大爆发,是图文生成元年的话,那2024年行业会进入AI视频生成和多模态大模型元年。从ChatGPT到Sora,AI对每个个人、每个行业的现实影响与改变正在逐步发生。