OpenAI再出大招，Sora模型厉害在哪？

2024-02-19 14:05

2月16日凌晨，OpenAI发布旗下首个AI视频生成模型——Sora模型，并公布技术报告。

这一重磅发布事先并无预兆，也正因如此才足够让人好奇。根据OpenAI官网信息，Sora人工智能模型能够通过文本提示，生成逼真且富有想象力的视频。OpenAI也在官网详细介绍了Sora模型的参数、应用及不足之处。

从多个参数来看，该模型都远超行业指标，重新定义了AI文生视频在现阶段的技术极限，应用之广更是引爆科技圈，激起众多讨论。

Sora模型的到来同样引发了巨大的市场反响，直接推高了OpenAI的估值。根据券商中国援引外媒的最新消息，据称OpenAI已经完成了一笔交易，这家人工智能公司的估值已达800亿美元。

在不到10个月的时间里，其估值增长了近两倍，仅次于字节跳动和SpaceX，成为全球第三高估值的科技初创公司。此时ChatGPT横空出世才不到两年，此前OpenAI估值已经多次创新高。

生成式AI发展速度之快，让人咋舌的同时也让不少行业从业者感到担心。替代性工作的风险是否就在眼前？未来生成式AI还会在哪些方面影响整个世界？这两天大家正在反复讨论这些内容。

科技的狂欢

看清楚Sora模型的优势，才能了解其价值。为方便理解，本文不欲讨论模型架构等技术层面参数，而是着眼于Sora模型的应用价值及未来发展，希望能在评论区激起更多讨论。

跟之前明星创业公司追求几秒的高精度视频相比，Sora模型文生视频功能强大，通过文本提示最高能生成1分钟的1080P高清视频，直接刷新行业标准。

这里需要明白一个概念，AI视频不仅包括文生视频，还包括图生视频、视频生视频。其中，文生视频可以说是最难的，它要求模型能够从文字解码出视频逻辑，需要视频画面中所有物体的运动、变化都符合现实世界的规律。相较文生视频而言，图生视频、视频生视频因为都有真实的画面来源，则相对简单一些。

这正是Sora模型的价值所在。

援引华泰证券，Sora模型通过文本或图片生成长达60s的视频，远超此前Runway（18秒）、Pika（起步3秒+增加4秒）、Stable Video Diffusion（4秒）等AI视频应用生成时长，且在视频效果及稳定性等指标上也更加优异。同时，Sora模型支持视频向前向后扩展、以及视频编辑，这是此前竞品很难做到的方面。而Sora模型之所以能刷新行业标准，跟其训练逻辑相关。

比如，传统的视频和图像生成，通常将视频素材裁剪或修剪为标准大小，相当于生成后进行二次处理，而Sora模型以原生大小对数据进行训练，比如分辨率为256X256的4秒视频，Sora模型可以直接以原生宽高比为不同设备创建内容。

这种方式带来了灵活性及优化的取景和构图，效率更高，且原生视频的质量也更高。

除了在视频时长、语义理解程度、视频效果和稳定性等方面超出竞品，让行业更关注也更具突破性的，恐怕还是Sora模型展现出了对物理世界超强的仿真能力，这背后是Sora模型在理解和模拟物理世界方面的巨大突破。

模拟世界，即训练人工智能去理解和模拟现实的物理世界，让机器能够尽力像人类一样，对世界有一个全面而准确的认知，最终帮助人类解决跟现实世界交互的问题。

视频语言毕竟不同于文本和图像，对于现实世界有所理解并进行真实模拟，生成的视频才可能没有逻辑错误，才能贴合现实，才能更加真实。Sora模型作为一个扩散模型，采用的是Transformer架构，由此也具备了一定世界模型的特质。

西部证券就总结其优点，称其除了生成的视频在能保持超强的一致性等优点之外，更像“物理世界的模拟器”，具体体现在“3D一致性、长期连贯性和物体连续性、与世界互动、模拟数字世界”。

这一点看似容易，实则在文生视频领域并不容易做到。市面上竞品多停留在几秒或十几秒时长，超出这个范围，生成的视频逻辑经不起推敲，画面很难做到连贯，质量及可控性自然是大大下降。

因为上述种种优势，Sora模型一经出世就震惊行业，不仅大家热议的影视行业将发生巨变，包括游戏、短视频等领域均将受到影响，并将直接促进内容消费市场的繁荣发展。

且根据上述世界模型的特质，Sora模型还将对自动驾驶、智慧城市等领域产生深刻影响，VR虚拟现实也将成为受益产业，AI视频将为虚拟现实提供更充足的内容。

直面恐惧

虽然Sora模型在某些参数上已经吊打同行，但目前来看，Sora模型更像是GPT刚推出的模样，不够成熟，也暂未开放使用。

根据OpenAI官网的描述，Sora模型在模拟复杂场景时仍会出错，并不总能准确呈现物体状态的改变。比如，它不能准确地模拟许多日常的基本物理过程，像是玻璃破碎过程、吃食物后表面没有咬痕、凭空生成并不需要的重复或变形画面等等。

更重要的是，文本生成视频可能会产生错误信息，这些错误信息一旦通过视频呈现给大众，会更加直观地影响用户对于世界的某些认知。

OpenAI官网也称，Sora模型可能难以准确模拟复杂场景的物理特性，并且可能无法理解因果关系。Sora模型的安全性、对于有害内容的把控、对于偏见和歧视内容的筛查，目前仍处于摸索当中。

Sora模型或许会带来新一轮内容创作产业革命，但与此同时，其中问题也会暴露和呈现得更加直观和粗暴，影响更加深刻和广泛。

目前Sora模型已向部分专家开放以评估潜在风险，同时也正在向部分设计师、电影制作人、视觉艺术家等授予访问权限，以获得使用反馈。

不过，OpenAI一再强调Sora模型是能够理解和模拟现实世界模型的基础，这一功能将成为实现通用人工智能（AGI）的重要里程碑。

Meta首席人工智能科学家、图灵奖得主杨立昆（Yann LeCun）本人，就认为，AI只有真正理解物理世界，才具备真正的价值，并断言GPT模型活不过五年。

这些说法不无道理，不同于市面上其他竞品，Sora模型的初衷就是渲染出一个更加真实的世界，或许会对上述提到的种种问题，有一个更好的解决方案。

目前Sora模型暂未对外开放使用，仅OpenAI的CEO Sam Altman在X平台上与评论互动生成视频，一方面固然是因为模型还不够成熟，另一方面，算力限制或许是重要因素。

大模型需要大算力，Sora模型作为定位“模拟世界的视频生成模型”，跟文本和图像生成不同。世界模型会让AI视频生成更流畅、更符合逻辑，降低视频模型的训练成本，提升训练效率，但同时也需要更强的算力，更高阶的硬件支持。

随着AIGC技术在影视剧集、宣传视频、自媒体、游戏等领域逐步渗透，视频创作效率或迎来显著提升，但同时视频相对于文字、图像的交互数据量级也将有巨大提升，或对应算力需求的高速扩张。

肉眼可见的是，未来的算力需求会更大，AI发展带来的行业利好明显。全球范围内大模型领域的竞争依然白热化，这将持续拔升大模型的整体能力水平。

尾声

就在Sora模型模型发布的前一天，也就是2月15日，谷歌推出一个中型大小的多模态模型Gemini 1.5 Pro，支持长达100万个token，远超当前其他基础模型，可以一次性处理大量信息，如1小时的视频、11小时的音频、超过3万行代码或超过70万个单词。

大模型的竞争正在加剧。

行业人士大多认为Sora模型比起此前其他的文生视频模型，已经实现跨越式发展，有望成为实用生产力工具，1分钟长度有望大规模应用在短视频领域。而其扩展视频的能力，也有望在长视频领域提供更加高效的辅助加成作用。

不过，OpenAI虽然遥遥领先，却也不是全完没有压力。在Sora模型的文生视频模型发布之前，明星创业公司Runway、Pika已经在AI生成视频方面做的相当不错。

随着Sora模型、Pika等应用的陆续出圈，AI视频应用的竞争或将更加剧烈。

AI的世界，日新月异。

来源：财经早餐作者：三林2022

版权与免责：以上作品（包括文、图、音视频）版权归发布者【三林2022】所有。本App为发布者提供信息发布平台服务，不代表经观的观点和构成投资等建议

热新闻

视频推荐

总编对话｜从中国走向世界——对话松下电器中国东北亚公司总裁CEO木下步

聚焦主业提升品牌：恒安集团接班人的长期主义理想

希捷科技全球执行副总裁暨首席商务官郑万成：未来五年，中国将成为全球生成数据最多的市场

电子刊物

点击进入

用户名登录/手机号登录 还没有账号？免费注册

OpenAI再出大招，Sora模型厉害在哪？

热新闻

视频推荐

电子刊物

用户名登录/手机号登录

还没有账号？免费注册