您现在的位置是:首页 > 科技 >正文

对话视频从业者:Sora变革年,我们更该了解什么是不变的

发布时间:2024-03-20 15:54单于贞星来源:

导读3月14日,OpenAI首席技术官米拉·穆拉蒂对外公开表示,公司旗下的文生视频模型Sora计划在“今年晚些时候”正式面向公众发布。就在短短一个...


3月14日,OpenAI首席技术官米拉·穆拉蒂对外公开表示,公司旗下的文生视频模型Sora计划在“今年晚些时候”正式面向公众发布。

就在短短一个月前,这款文生视频工具初次亮相,凭借拔群的效果引发了市场的大面积惊叹。有关“视频行业要被颠覆了”的积极或消极预判,在互联网上喧嚣一时,相关市场赛道也拥抱了新的资本热点。

旧的话题还未有定论,日历上就已设下了新的倒计时。

身处“大模型纪元”,某种程度上,我们已经习惯于陷入一轮轮的技术“狂欢”。

然而,即便赢得了普遍的关注,技术将为市场带来什么样的改变?这仍是个模糊不清的问题。

为了看清潜藏于水面下的市场脉络,我们与音视频生产协作平台“分秒帧”的创始人兼CEO、前资深媒体人程刚进行了独家对谈。

从2000年开始,程刚本人曾先后供职于中国青年报、腾讯、搜狐、WiFi万能钥匙等媒体、社交媒体和移动新媒体平台。

2019年,看准音视频云端生产协作的蓝海市场,程刚与合伙人一起创办了分秒帧,至今已深耕音视频行业5年时间。

01、“Sora的发布,让很多旧工具失去了价值”

市界:据说你很关注Sora,春节后不断在参与讨论。为什么是在这个时间点?为什么是Sora?

程刚:是的,Sora发布时(2月16日,大年初七)春节假期还没过完,我们马上就开始做动作,在公司内部开会讨论,同事也和业界很多创业者朋友、做算法的朋友、做AIGC的朋友密集讨论了一圈。

在过去的一年多时间里,无论是ChatGPT的发布和迭代,还是Runway、Pika等文生视频工具的出现,我们的态度一直都停留在“关注、观望、研究”的层面。对于在产品中引入AI的能力,我们还是比较克制的,没有马上做动作。

但Sora的发布带给我们的震动还是比较大的。技术的超越已经有很多分析,我们看的更多的是行业应用层面,相比Runway Gen-2、Pika、Stable Video duffion,Sora明显可用性更强。

之前的Runway Gen-2、Pika、Stable Video duffion等工具生成的素材,后续还需要花大量的时间加工才能成片,生成的视频时长也很短。我们认为,这些工具更多提供的是锦上添花的价值,而不是雪中送炭的价值。

很多人是抱着尝鲜的态度去试用这些工具,所以你就会发现Pika这些工具的留存率比较差。这反映出它们创造的价值不够。其实GPT本身也面临月活走低的问题。

市界:除了刚刚提到的时长问题,你指出Pika、Runway这类工具的可用性较差,“可用性”究竟指的是什么?

程刚:最近有很多Sora与其他工具生成的视频对比。从最终的效果来看,你会发现Runway、Pika等工具生成的部分所谓视频,其实更像GIF图。

比如生成的视频里有的人物不动背景动,有的是背景不动人物动。这显然不是对真实物理世界的模拟。

从这些角度来看,可以说Sora相对Runway Gen-2、Pika这些工具,是有代差优势的。

在过去的一年时间里,有些AIGC公司还属于众所关注的“明星公司”,但当Sora出现之后,某种意义上是直接把这些工具cover掉了。

市界:所以说在AIGC赛道内创业是一场十分残酷的游戏,你认可这个观点吗?

程刚:举个例子,硅谷的一家叫做Jasper AI的公司,很早就接入了ChatGPT的一些能力,能帮助用户来生成营销文案。它一度也受到市场的强烈追捧,2022年上半年就已经有4000万美元的营收,2022年10月获得由Insight Partners领投的1.25亿美元A轮融资、估值也涨到15亿美元等等。

但是等到GPT-4正式发布,Jasper AI的价值就大打折扣,开始裁员、下调营收预期。

市界:所以这几天一直有人说Sora发布,突然就懂抖音的张楠为什么要聚焦剪映了。

程刚:对,剪映如果在AIGC方面,不能推出自己的大模型并且建立起相应的能力,未来某天它可能就会被Sora给干掉了。

剪映面对Sora带来的威胁,和Sora发布当天Adobe的股价下跌百分之七点多,其实是同一个逻辑。

所谓颠覆,往往不是拥有类似解决方案的竞争对手带来的,而是一个新物种以高维打低维带来的。也就是通常我们所说的,干掉相机的不是相机,而是手机。

02、“估计开放使用半年,Sora的一些技术问题就能得到改进”

市界:回到Sora,如果说Sora把Runway等工具远远甩在了后头,那么Sora现在又处在一个什么样的位置?它距离所谓的“颠覆行业”或者真正商用,还有多远距离?

程刚:我觉得分几个层面来说。

具体场景下,从放出的 Demo来看,相对于Runway Gen-2、Pika这些过往的工具,Sora生成的视频已经大幅提高了可用性。但你是用Sora来生成可修改可使用的成片,还是生成可修改可使用的素材呢?这两种场景是不一样的。

基于目前大家的讨论和预判,Sora至少在生成素材方面能够提供非常大的帮助。从这些demo来看,有些视效用传统的计算机来建模、贴图、渲染,工作量会非常大,实现的成本会非常高。但是对Sora来讲,就变成了输入一串prompt的问题。

当然,要具体看它能够解决什么问题、提高了多少效率、节省了多少成本。尤其重要的是,它的使用成本怎么样。这要等它真正开放后,再具体分析和做进一步判断。

总体而言,我比较倾向于认为Sora在视频生成方面的突破,堪比工业革命和信息革命的这样的革命性的变化:第一是新的生产工具,第二是新的生产方式,第三是带来的生产关系的变革。

市界:你怎么评价AI工具发展的速度? 2023年下半年,有人还预计文生视频要能确保对象的一致性、连续性,可能需要一两年的时间。但是Sora的出现,显然打破了这个预期。

程刚:Sora的突破速度这么快,出乎了我和身边绝大多数朋友的预料。我也很关心Sora接下来优化迭代的速度会有多快。

我们目前看到的它存在幻觉问题、精准度问题、对物理世界的理解和模拟不准确所带来的逻辑问题、版权溯源和版权保护问题,以及有人滥用工具去生成虚假内容的问题等等。这些问题当然会影响Sora在商业场景中的使用。

但我们分开来看,对于技术层面的幻觉问题、精准度问题、对物理世界的理解和模拟不准确所带来的逻辑问题,我相信OpenAI会持续地投入,去优化,我们也相信Sora会保持比较快的优化迭代速度。

解决这类问题的迭代速度也和Sora什么时候能放出来供用户使用有关。因为用户使用的过程中会给OpenAI大量的反馈,OpenAI可以基于这些反馈不断优化和迭代。

Sora迭代的速度,基本可以参照ChatGPT的迭代速度。Sora对现实模拟不准确的问题,比如手有六指,应该半年左右就能得到比较大的优化。

至于说版权溯源和版权保护问题,包括滥用Sora去生成虚假内容等等,因为这些是人类在AI技术冲击下面临的治理和监管问题,更多需要在法律和道德自律的层面去讨论和解决。

它不会像技术问题那么容易解决,当然它也不会妨碍AI技术的发展和Sora等等工具的快速应用。 这是我们的研判。

市界:感觉你个人对于Sora和它所代表的AIGC浪潮的态度是很积极的。在你和行业的沟通中,大家的态度都是这么积极吗?有没有人会有焦虑?

程刚:积极和焦虑本身不矛盾,我身边的多数朋友,都看好Sora的革命性突破和将带来的巨大价值,普遍感到很兴奋,但是不妨碍他们焦虑。面对Sora和ChatGPT的冲击,很多人和组织都是人心惶惶的一个状态,担心会被AIGC替代,担心会在竞争中处于不利地位。但更重要的是,当一个大的革命性时代到来,我们怎么去抓住已经成为共识的趋势性的机会?

这个时候反而各位需要冷静下来,回到一些底层的问题上去做深度的思考和讨论。

从ChatGPT发布一年多以来,我们认为,最重要的是一定要去把握住在冲击和变革下,什么会发生变化,什么不会发生变化。

我发现市面上绝大多数的讨论,都都围绕着ChatGPT、Sora会改变什么?只有极少的人在思考在这种冲击下什么不会发生变化。

03、“小分工会被AI压缩替代,但行业的大分工不会变”

市界:在音视频行业,变和不变是什么?

程刚:音视频创作的过程,最初是头脑中的一个创意和灵感,通过多人协作生成音视频内容的过程,本质上是创作者的创意和审美的一种呈现。从经济学的角度讲,存有专业分工,在效率上一定是大大优于个人一条龙创意、策划和制作实现的。

从分工的维度来看,一些小的分工会被大幅压缩或替代。比如说拍摄、剪辑、特效、调色,像这类更细分的工作,有可能会大范围、大规模地被AIGC工具替代或者压缩掉。因为基于prompt生成文案、图片、素材或者视频成片的新机制,在相当程度上抹平了一些传统角色分工在专业能力上的差距。

但是行业的大分工不会变,也就是需求方和需求实现方,或者叫甲乙双方的大分工不会变。需求方懂产品懂用户,也可以去学习如何使用Sora这样的工具,但是创意和审美能力不是一天两天能够学会的,有些需要依赖天赋。Sora虽然可以降低视频制作的门槛,简化创意落地过程,却无法抹平人们在创意和审美能力上的差距。

另外,我们还需要回到具体的工作流(workflow)去观察。前两天Sora的开发团队在接受媒体采访中也表示,他们正在听取艺术家的意见,看Sora怎么在工作流发光发热,从而指引研究路线。

而从工作流的角度判断,小的流程会被大幅压缩,但是大流程不会变。大流程是什么?第一,需求方要提出需求;第二,需求方提出需求后,跟实践方沟通需求;第三,需求实现;第四是审看、沟通、修改;第五,需求方确认。

不论AI技术如何发展,技术怎么演进,只要甲乙两方存在,在这两端之间就会有反复沟通的需求。甚至而言,沟通需求还会成千上万地增加。

举个例子,比如说国内2023年生产的视频数量可能是500亿条。但在创作者熟练使用各类AI工具之后,可能市场中的视频数量会达到5000亿条、1万亿。相应地,需要去审看、修改、确认的工作量也会增加。

所以说类似分秒帧、飞书、Figma(海外设计工具,强调即时协作)这样的协作工具,始终都会有生存的空间。

按照这个逻辑,分秒帧是要去解决AI和人之间的交叉口的问题,

市界:你刚刚提到视频量会越来越大,审看需求相应会变多。如果这个市场是一个蓝海市场,会不会有越来越多的竞争者,包括抖音剪映这样的大厂加入进来?怎么面对竞争?

程刚:我们总体来讲并不是很担心,把自己的事情做好就ok了。

以剪映为例,它的缘起和发展中相当长的时间,主要是ToC的。但近一年多,我们的确观察到越来越多B端的企业客户开始使用剪映专业版。这些B端客户有经营抖音账号矩阵的需求,做短视频用剪映的确比较方便。

分秒帧目前服务的客户4000家左右,以B端客户为主。在过去一年,有不少客户提出来说,希望分秒帧能够跟剪映打通,形成从剪辑制作到审看修改的闭环工作流程。这样他们能够在剪映上把片子做完后,用分秒帧来快速共享预览、提出修改意见、完成确认交付。

虽然剪映现在也提供协同协作的能力,但试用一下就知道,他们在这方面的投入还是远远不够的。据我所知,眼下和未来一段时间,剪映的重心会在AIGC和出海上。

总之,我不是很担心大厂的竞争,而且相反说不定将来我们跟剪映还有一些合作的机会。

市界:一个比较务虚的问题,如果你当初没有创业,但在2024年的当下,你会愿意做一家分秒帧这样的公司吗?

程刚:当然愿意。原因正如我刚才说的,做分秒帧的大逻辑仍然存在。

不管是2019年的时间节点看,还是此时此刻看,我认为行业有几点没有发生变化:需求场景没有变、用户的最大痛点没有变。所以,即便已经有了AIGC、有了Sora,我仍然看好云端音视频生产协同的市场机会。

作者|董温淑

编辑|董雨晴

标签:

上一篇
下一篇

最新文章