随着OpenAI的视频生成模型Sora的亮相,它迅速成为全球社交媒体的焦点,以其惊人的细节逼真度、流畅的视频动态以及对文本描述的精确还原引发广泛讨论。
Sora的推出不仅让Runway、Pika、Stability.ai等在此领域深耕的头部企业相形见绌,甚至有潜力彻底革新整个影视产业。
如果你对Sora还不是太了解,那么以下10个问题你必须知道!
1. Sora模型是什么?
Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐步生成清晰的视频画面。
这项技术不仅能够从零开始创造出完整的视频作品,还能对已有视频进行扩展,增加其长度。
通过让模型能够预见多帧内容,Sora开发团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。
Sora借鉴了GPT模型的Transformer技术,实现了视频生成领域的突破性进展。
OpenAI将视频和图片拆分成更细小的单元——「patches」,这些「patches」在Sora中的角色,就如同GPT模型中的「token」一样重要。
这样的数据处理方式为Transformer基础的扩散模型训练提供了新的可能性,使其能够处理各种时长、分辨率和纵横比的视觉内容。
借助于DALL·E和GPT的研究成果,Sora利用DALL·E3的先进技术,通过生成具有丰富描述的标题来为视觉数据标注,从而使得模型能够更准确地根据用户的文本指令生成视频。
除了根据文本指令创造出视频,Sora还能将静止的图像转换成充满活力的动画,或是对已有视频进行扩展和缺帧补全。
Sora的开发标志着我们在模拟现实世界方面迈出了重要一步,OpenAI视其为朝向通用人工智能(AGI)迈进的关键里程碑。
2. 为什么人们对它的评价如此之高?
首先,它的样片展现出惊人的真实感——不仅人物面部细节避开了令人不适的“恐怖谷”效应,物体的运动轨迹流畅自然,整个画面的清晰度和流畅度都让人感觉就像是用我们手中的设备亲自拍摄的一样:
这种效果让人联想到使用 GoPro 手持拍摄的画面
与同类产品相比,Sora 简直是“灭霸”。以往的 AI 生成视频通常只有 4 到 16 秒,并且画面卡顿不流畅,而 Sora 则一举将视频时长延长至 60 秒。其画面表现已经可以媲美专业的视频素材库,完全可以作为视频中的空镜使用。
这种进步让人们感到惊讶,只能感叹技术发展的脚步虽然可追溯,但技术的突破时刻却总是让人难以预料。
3. Sora还有什么令人称奇的新功能?
多镜头展示:
自然融合两种完全不相干的场景:
视频的灵活性得到了进一步的提升,可以向前或向后延伸;如果对视频的某个部分(例如背景)感到不满意,可以轻松进行替换。
Sora 的能力不止于此,它还能够将文本直接转化为图像,甚至将静态图片转换为动态视频,而且呈现的效果远超目前流行的“小动物跳舞”式的简单动画:
4. 能否利用Sora把《三体》这样复杂的小说制作成电影?
就目前 Sora 展示的能力而言,尽管它具备多机位效果,但仅限于单一情节和单一镜头的呈现。
《三体》是一部具有多重视角和复杂叙事结构的小说,单靠 AI 生成整部影片似乎并不切实际。根据一些影视行业从业者的说法,目前 AI 生成虽然效率较高,但在可控性方面尚有不足,主要应用在 demo 制作、概念设计、分镜编排等初期环节。
5. Sora已经公测了吗?国内能用吗?
但,目前OpenAI 正在对 Sora 潜在的被滥用风险进行评估,因此它还未对大众开放。只有一小部分在防止误导信息、仇恨言论和偏见等领域的专家,以及一些创意工作者提供使用权限。
Sora开放后,国内是可以用的,但需要配置好上网环境(如果不懂,可以加我微信:18960460)。
6. 面对Sora的技术革新,我们应该如何应对?
关键是要记住,那些散播焦虑情绪的人,往往是出于利益驱动。现在Sora 还未正式对外公测,已经有人开始兜售相关的付费教程了。
AI 技术的发展速度太快,你可能刚刚在 Pika 平台上掌握了如何撰写提示词的技巧,突然“霸主”Sora 横空出世,让之前积累的工具经验瞬间失效……既然这样,不妨暂时放下对工具的过度迷恋,转而专注于提升底层创作能力也许才是更好的选择。
7. 以后难以区分现实和 AI 生成?
目前有人利用 Gemini 1.5 对以下这个由 Sora 生成的视频进行观察和分析,Gemini 提出了几点观察:
- 樱花通常在春季盛开,那个时候一般不会下雪;
- 视频中的雪下得过于均匀;
- 尽管是在下雪的天气,视频中的人物穿着却显得过于单薄。
基于这些观点,AI 判断这段视频并非真实影像。看来,还得用魔法来战胜魔法!
8. 为什么就 OpenAI 做出来了?
OpenAI 之所以能够创造出 Sora,很大程度上得益于他们在 GPT 和 DALL·E 等项目上的成功经验。他们在现有技术基础上进行创新,不仅能理解用户在提示中的要求,还能把这些要求在物理世界中的表现形式进行理解。
Sora 能够产生如此出色的视频效果,是因为它能更准确地理解用户给出的提示词。OpenAI 通过利用 DALL·E 3 的 re-captioning 功能,为训练视频素材添加高质量的文本描述,从而提高最终视频的质量。此外,当用户给出简短的描述时,AI 会进一步扩展这些描述,然后交由 Sora 进行视频生成。
最关键的是,Sora 基于 Diffusion Transformer 架构,而 Transformers 在语言建模、计算机视觉和图像生成等领域都已被证明具有卓越的性能。
9. “世界模型”提前实现了吗?
"世界模型"这个概念试图让机器像人类一样,全面而准确地理解真实的物理世界。近期,OpenAI发布的Sora研究报告和Meta的联合嵌入预测架构(V-JEPA),以及其他AI视频生成公司如Pika和Runway的工作,都在探索如何利用大型AI模型模拟物理世界。
不过,这些尝试是否意味着"世界模型"已经实现,还存在争议。技术巨头和学术界的一些声音,如图灵奖得主杨立昆,认为仅通过生成逼真视频,不能算是真正理解了物理世界的因果关系。
尽管如此,Sora的出现和其他AI视频生成技术的进步,显示了AI领域在模拟和理解物理世界方面取得的显著进展。Sora采用了先进的Transformer架构,通过AI“缩尺律”提高样本质量,试图在一定程度上捕捉到真实世界的物理影响和因果关系。
Meta的V-JEPA模型则采用了一种不同的方法,强调在可学习的潜在空间中进行预测。这些进展虽然令人印象深刻,但是否足以说"世界模型"已经实现,还需时间来验证。
10. Sora有哪些局限性?
当然,作为一个模拟器,Sora目前还存在不少的局限。
据OpenAI所述,Sora虽然对自然语言具有深刻理解,能够精准捕捉到给定提示的精髓,创造出含义丰富的视觉内容,同时保持多个镜头之间的角色和风格连贯性,但它在模拟复杂环境下的物理互动及理解特定因果逻辑方面,仍显不足。
例如,Sora可能难以精确再现复杂场景中的物理效应,或者无法正确理解某些具体因果关系,如“一个人咬了一口饼干,但饼干表面可能看不出任何咬痕”。
此外,模型在处理空间细节,如区分左右方向时可能出现混淆,或者在表达随时间变化的事件,如遵循一条特定的摄影轨迹时,也可能遇到挑战。
最后
Sora的问世代表了人工智能在视频生成领域的一大飞跃。它不仅为创意行业开辟了新天地,也激发了对它可能带来的影响的广泛讨论。随着Sora技术的持续进化和普及,我们可以期待视频制作变得更加自动化和效率化,同时为创作者带来更多创作灵感。
微信公众号『王牌客栈』
第一时间了解最新网络动态
扫码关注不迷路~