‌·
分享到:

Sora加剧AI焦虑?专家表示将引发能源、芯片行业竞争

图文短剧行业首先面临颠覆 全球九成显卡算力或被吞噬

来源:南方都市报     2024年03月02日        版次:GA15    作者:汪陈晨 林文琪

  浙江大学计算机科学与技术学院副教授金小刚。

  英国谢菲尔德大学博士彭煦潭。

  一览科技创始人兼CEO罗江春。

  硅基智能创始人、董事长、CEO司马华鹏。

  在文生视频的浪潮下,Sora在制造AI焦虑吗?会带来哪些行业竞争?

  在此基础上,南方都市报“上岗了!AI”课题组2月24日邀请到硅基智能创始人、董事长、CEO司马华鹏,一览科技创始人兼CEO罗江春,浙江大学计算机科学与技术学院副教授金小刚,以及英国谢菲尔德大学博士彭煦潭参加线上沙龙,探讨中外大模型产品的差距是否拉大、国内企业如何布局应对。有专家表示,AI竞争的背后,本质上是显卡的竞争,Sora可能会引发内容行业变革、算力之争、芯片之争。

  1

  Sora是“世界模拟器”吗

  视频行业颠覆者?今年专家各执一词

  相较于去年的ChatGPT,Sora带来的震撼和冲击似乎更为剧烈,这主要在于其模拟逼真场景的强大能力,被视为“颠覆性”的存在。OpenAI甚至将Sora称为“世界模拟器”(world simulators),“视频生成模型是构建通用物理世界模拟器的一条有前景的道路,这种能力将成为实现人工通用智能(AGI)的重要里程碑。”OpenAI想强调,Sora不是单纯的视频生成模型,不只是视频行业颠覆者,而是打开了一条通往模拟物理世界的有效路径。

  但对于这一观点,有不少AI领域的专家提出了反对意见。首先就是图灵奖获得者、Meta首席AI科学家杨立昆,他在社交媒体上发文称,通过生成像素来对世界进行建模是一种浪费,并且注定会失败,就像基本上被放弃的“综合分析”的想法一样。

  杨立昆指出,根据提示生成看起来最真实的视频并不表明系统理解物理世界,生成与世界模型的因果预测有很大不同。真实视频的合理连续空间要小得多,生成其中的代表性块是一项更加困难的任务,特别是在以动作为条件时。此外,生成这些延续不仅成本高昂,而且完全没有意义。  

  Sora对精确推理场景未必有效  

  Sora到底算不算“世界模拟器”?在南都的线上沙龙中,与会专家也各执一词,进行了激烈的观点交锋。金小刚认同杨立昆的观点,认为并不足以称之为“世界模拟器”,“Sora本质上是一个用数据喂出来的产品,用自回归的方式获得的统计意义上的结果,是‘大数据、大模型、大算力’的暴力计算得出的。这样的大模型不可能真正理解真实的世界。因为统计归纳方法本身是有很大缺点的。真实世界的复杂性远远高于模型的复杂性,用现有的知识归纳出来的东西,是远远不足以对付复杂世界的。所以这个‘世界模型’的说法显然是有问题的。”

  金小刚认为,“对于打造通用系统,从研究的角度需要鼓励探索,但是不要放大了说这一个系统可以解决所有问题。目前这样的系统,并不能理解真实世界,在一些对精度、可信度要求不高的场景无疑是有价值的,因为作为建模工具获得了效率的提升,这样的场景如游戏、电影视频中的场景打造,但在一些需要精确推理的场景未必有效。”  

  输出差还不能真正当成物理引擎  

  专注自然语言处理研究的彭煦潭博士从另一个角度解释了这一观点。彭煦潭向南都记者解释称,论文和技术报告比较大的区别在于,论文更偏学术,而技术报告类似商业白皮书,在用词、陈述上可能存在噱头。

  “所谓的‘世界模拟器’,可以理解为物理引擎。它在解决‘已知的已知’和‘已知的未知’这两个类型的问题上,处理是非常精准和可靠的,因为这些东西有预定义。从目前Sora生成的视频可以看到,它在生成一些特定场景时,会出现非常差的输出。因为输入分布与之前训练过程当中见过的分布有比较大的差异,正好打到了它的盲区。但是其实这样的事情对于真正的可靠的物理引擎来说,是不会出现的。所以大家也不能依赖它,把它真正当成一个物理引擎,或者世界模拟器来用。它还是有很多的缺陷的。”彭煦潭进一步解释称。  

  呈现视频已达“世界模型”程度 

  从AI视频行业创业者的角度,罗江春则是提出了不同的看法。他认为,Sora提出的“世界模拟器”核心指的是如何在视频场景里模拟真实的世界,而Sora展现出的技术已经解决了其他同行仍在困扰的问题,“其他大模型生成视频,是通过一秒钟24张图片连贯播放做到的,但是Sora发布的视频有镜头概念。我认为它的核心是建了一个虚拟的视频素材的世界模型,然后用这里面的东西去推导,比如高速的转弯,小狗往前跑怎么转换场景,它模拟的狗的眼睛也好,人的眼睛也好,视觉摄像头也好,怎么来进行事物的转换。”

  对于Sora体现的技术,罗江春指出,文生视频一定要还原最关键的三个环节,分别是脚本、素材和剪辑。脚本包括创意、情节和场景,这些都需要通过大模型描述清楚,而且要拆成镜头;接着通过这些镜头,进行画图、建模,形成素材;第三步则是根据素材库进行后期剪辑、特效,“这都是在Sora整个模型里完成的,它肯定没有使用图片,肯定有镜头才会看起来这么真实,这后面实际上算力的使用是很庞大的”。

  司马华鹏也认为,Sora呈现的视频达到了“世界模型”的程度,“从各个角度来看,它的一致性,它的仿真,对物理、流体力学等定律的遵守,包括镜头的切换等都是非常好的。所以它一定是一个世界模型,而且这个世界模型是目前所有的公司和组织都难望其项背的,当然也是我们奋起直追的目标。”

  2

  国内企业如何应对

  OpenAI领跑全球 国内企业寻求细分赛道弯道超车

  在AI视频领域,罗江春也认为国内和国际头部企业的差距在加大,“之前ChatGPT刚出来的时候很多国内公司说很快就能赶上3.5,结果OpenAI很快就推出了4.0、GPTs,再到现在的Sora。就感觉好像人家研究一天,我们又搞了一年,速度完全跟不上。关键还得有天才的团队、天才的idea以及有大量的资金投入,实实在在去做才会有一个像样的东西出来。我是学AI出身的,1997-2000年在美国莱斯大学计算机系读Artificial Intelligence。我觉得面对(国内外)差距越拉越大,我们得奋起直追,需要不计成本、不计代价,要不然的话又会像芯片一样被人卡住。”

  对于国内外的差距,彭煦潭认为,并不是国内企业和国外企业存在差距,而是世界上全部的其他企业都和OpenAI存在差距,“去年硅谷有很多人以大模型为框架做创业,包括多模态的或者纯视觉的大模型,但大家的性能其实相对于OpenAI来说都有很大的差距”。彭煦潭指出,差距主要在于技术和资源,OpenAI在资源上同时拥有最好的数据和最强的算力,这都是其他企业很难拥有的优势。

  司马华鹏则认为,在正视差距的同时,也要有追赶的信心,“我们在海外的团队也在追踪这件事,大家都在不断地探索这块的原理和对应的实现方法。如果国内大厂、很多创业公司都参与的话,我觉得在半年里也应该会有一些能达到他们大概七八成的产品出来。”

  硅基智能在数字人领域深耕了6年,司马华鹏表示在这一细分赛道上硅基智能已经领先很多国外同行,“我们肯定要正视差距,但有一线的机会我们都会做。我们也都在各自领域找到了一些弯道超车的赛道在做”。

  3

  会引发哪些竞争

  会引发内容行业变革、算力之争、芯片之争

  随着Sora的爆火,其可能对行业、对内容创作者带来的影响也引发关注。罗江春引用了克莱顿·克里斯坦森的《创新者的窘境》理论,“一个革命性的新技术出现的时候,先被取代的是不被注意的低端产品。”  

  影视企业必然会受到冲击  

  罗江春认为,先被颠覆的是图文行业,随后是短视频、短剧,接下来则是影视行业。“我相信很快就会有AI驱动的影视剧公司出现了。一到三年之内,出现一个纯AI的爆款电影,这是有可能的。没有明星,没有导演,就是一帮人想了一个idea,拍摄方式完全就颠覆了。”

  罗江春透露,现在有很多创作者,使用一览科技的AIGC全域工作流,生产大量的图文,“很多时候你在头条上看到的文章,都不知道是人写的还是AI写的,很难判断。然后侵蚀到短视频、短剧、影视剧。我觉得它会从低端到高端,逐渐重塑整个产业。”

  司马华鹏也认为,影视企业必然会受到冲击,传统的内容平台也会被颠覆,“如果生成一个优质视频的成本降到了几毛钱,那这些平台上的人怎么办?”  

  能源、芯片行业将受到巨大影响  

  除了对应的内容产业外,司马华鹏还指出,能源和芯片行业都会受到巨大影响,Sora可能会吞噬掉世界上九成以上的显卡,“这是很可怕的,大家表面上看到冲击的是这些视频生成所影响的产业,但如果它生成的视频大规模地充斥世界,它背后所能够聚拢的显卡资源会越来越多。今天在所有的创业公司里,训练大模型对应的显卡的资源已经是非常的不均衡分布了。”

  据了解,此前,有媒体报道称,OpenAI创始人山姆·奥特曼(Sam Altman)正从中东地区筹集总计高达7万亿美元的资金,以支持OpenAI的一项半导体计划,并与英伟达展开竞争。山姆·奥特曼并未就这一爆料回应,但他在近日公开表示,“我们认为世界需要在AI计算(芯片)领域投入大量资金。”

  对此,司马华鹏认为,“我们最终会因为没有芯片可用,没有这样的算力可用(而输掉竞争)。AI竞争的背后,本质上是显卡的竞争,算力的竞争,芯片的竞争。”司马华鹏强调称,在前端的算法上,国内企业可能半年到一年就能追上,但在算力上的追赶则是很难的,“当你达到同等的效果的时候,对方的市场规模,以及对方在市场上的品牌认知、用户量都锁死之后,再追上是非常难的了。”

  有媒体曾报道称,OpenAI现在每天生成大约1000亿个单词,而地球上所有人每天总共产生大约100万亿个单词,也就是说OpenAI生成的单词数量占据地球总数的千分之一。“这家公司每天生产的单词数超过了人类大部分的组织个体和企业,当它生产的视频也达到这样的量的时候,这个冲击是非常大的。可能全世界的电量及算力的部分百分比,都被它占据了。”司马华鹏指出。

  对于算力之争,罗江春表示,国内已经有企业在显卡上布局,在算力上也可能有所突破。但罗江春也对OpenAI目前吸引的大量资源表达了忧虑,“它已经虹吸了很多内容创作者、资金、算力在这个平台上。要追赶的话,只可能demo跟它差不多,但是实际产品的水平会越差越远。很多时候我们在做AI、做大模型的时候,不知道哪条路是对的。最可怕的是时间,当它(OpenAI)吸引了太多能量的时候,再追赶就很难。”

  A10-15版

  统筹:甄芹 马宁宁 田爱丽

  执行/采写:南都、N视频记者 汪陈晨 林文琪

  南都记者 吕虹 实习生 陈奕帆

  直播统筹:N视频记者 陈蓓蕾

  整合:陈欣 图片由受访者提供 综合科技日报、新闻联播微信公众号、新京报

手机看报
返回奥一网 意见反馈