‌·

中国工程院院士、阿里云创始人王坚:

Sora能创造视频 也就能创造世界

来源:南方都市报     2024年03月22日        版次:GA14    作者:杨博雯 樊文扬 刘嫚

  中国工程院院士、阿里云创始人王坚。

  作为中国工程院院士,云计算技术专家、阿里云创始人王坚早年曾专攻心理学专业并从事相关大学教育,后来才转至互联网领域。2008年,他加入阿里巴巴主导开展云计算项目,彼时这一概念在国内尚不清晰。经过数年耕耘,随着云计算系统“飞天”的诞生,王坚也成为科技圈无数人的偶像。

  去年是王坚首次当选全国政协委员,今年是他履职的第二年。他和南都记者围绕人工智能(AI)、云计算等展开了一场深入的对话。他表示,当前国产大模型和GPT-4及其下一代技术的差距仍然很大,建议通过开源方式,依靠技术社区的力量找到发展路径,由市场来检验其水平。此外,Sora模型问世的意义极大,远不只会对短视频、影视等行业带来冲击,它解决了非常复杂的一件事——视觉问题,甚至直言“如果能创造视频,它也就能创造世界。”

  谈商业化之路

  当前大模型的市场价值大于商业价值

  南都:2024年被认为是AI大模型应用的浪潮年。在大模型产品的商业化或市场化方面,有哪些思考可以分享?

  王坚:在我看来,商业化和市场化不完全是一个意思。商业化是要一手交钱一手交货的,而市场化的重点在于要产生市场价值。

  以搜索这一服务项目为例,它的用户量巨大,可以算作已经“市场化”了。不过,从来没有人为使用搜索服务付钱,而是为搜索页面上的广告付费。所以从这个角度讲,搜索本身并没有实现商业化,但是它完成了市场化,有人便进而想出加广告的模式对其进行商业化。我认为,市场化是商业化的基础,商业化是市场价值的重要体现。

  南都:那你认为目前大模型的商业化之路进展如何?

  王坚:当今全球范围里,所谓的大模型商业化还是在探索过程中。不过,目前事实已经证明,它有用户基础,也就是可以“市场化”的,那就有可能产生商业价值——这一点其实很重要,一个产品如果没有用户基础,就算实现商业化了,也是小本生意。对于一场技术革命来说,它不可能以小本生意为目标,肯定能产生更广泛的影响。整体来讲,我认为当前的大模型还处于市场价值大于商业价值的阶段。

  南都:这个发展的过程你觉得会慢还是快?

  王坚:那就得看你技术力量有多强、算力支撑有多大、投资有多少了,这些要素缺一不可,甚至没有办法讲其中哪个因素是核心的。当你缺哪个要素的时候,哪个要素就是最重要的。现在国内200多个大模型我觉得没有问题,大家都在一点点往上爬完成必不可少的技术积累,但肯定不是最后200个都能爬上来了,大部分中间被淘汰掉了,但总之该活的一定会活下来的。

  短期来看,我认为现在整个发展过程还和市场没有直接的关系,因为这个领域的天花板还远远没有碰到。大家现在已经在讲万亿参数的模型了,行业都觉得很兴奋,你可以想想从一个模型的参数从数10亿到万亿的差别。

  因此,这个赛道在国内外都还远没有到需要收敛的程度,OpenAI那么出名,但还会有它的挑战者出现,大家仍然在做不同的有创造性的探索。

  谈AI竞争

  AI领域并非只剩下中美两个头号玩家

  南都:你刚才也提到,我国10亿参数规模以上的大模型已超过200个,怎么看待这场“百模大战”?

  王坚:10亿参数其实不是一个大数字,目前我们主要讲的都是百亿级的。不过大小也都是相对的,就像刚改革开放时“万元户”意味着富裕,现在肯定不算了。这种参数规模和事物的发展周期有关系。

  再说到200多个的数量,我觉得这不算多,为什么——你不可能一夜暴富,凭空就做出500亿参数的大模型吧?人的钱是要一分一分挣的,要把一个大模型建好,也是要一点一点积累经验的。

  可能有观点认为,国产大模型的水平已经接近GPT-4或者差一点点,但其实肯定不是差一点点,是差很多的。我想更好的办法是由市场来证明大模型的能力,比如把模型开源出去,放到国际上去,让市场去检验产品。

  南都:当下全球AI竞争不断升温,你认为在技术迭代或人才储备等方面,中美两个“头号”玩家存在哪些差距?

  王坚:现在美国还是有很明显的大模型玩家的,而在中国并不明显。所以最大的变量是我们这200个10亿参数的大模型,什么时候能变成20个2000亿的模型。在这个过程中,底层技术的演进迭代、资金投入都是非常重要的事。从宏观来看,国家地区之间的竞争其实是综合科技实力的竞争,而非单项技术的竞争。至于“综合”到什么程度?比如算力、AI、工程能力、理论研究等等,都会有所涉及。像谷歌的Gemini模型,官方发布了一篇白皮书,里面有名有姓分工署名的人就有接近800人,所以这种综合因素的影响其实是很复杂的。

  另外,我想补充的是,很多观点都在说“现在人工智能全球只剩下中美两个玩家”了,但事实上ChatGPT出来之后大约一年,欧洲又有一家名叫Mistral AI的初创公司异军突起,其大模型技术也很突出。因此,全国只剩中美两个“头号玩家”的观点其实不是那么准确。

  谈Sora模型

  Sora意义非凡,只谈对短视频行业影响是羞辱它

  南都:上个月OpenAI又发布了视频合成模型Sora,有观点认为它可能会引发短视频、广告、游戏等行业格局的重塑。你怎么看?

  王坚:如果谈到Sora,只说它可能会影响短视频等行业,那我觉得是对它极大的羞辱,它的意义远超这种事情。就像是原子弹刚刚爆炸时一样,没有人能想到这个东西后来可以作为核电站来发电,可以实现小型化,还有很多别的用处。如果只是把原子能技术当作原子弹用,那就是大大低估了这个技术的重要性。

  值得关注的是,Sora事实在解决世界上最复杂的一件事——真实世界的视觉问题,视频是它的表现手段。它真正的意义在于靠技术已经能够生成像这个自然界一样复杂、有细节的视频或者图像。如果能创造视频,它也就能创造世界。

  南都:那这种超强的伪造能力会不会引发大家对于虚假信息的一些担忧?

  王坚:其实“伪造”这个词不对。什么叫伪造?你拿了一个假的东西告诉别人这是真的,这就叫伪造,而通过技术生成一段逼真的视频,如果符合真实世界的规律,它就不是伪造。我们也不说技术是不是中立的,只是说技术有了这样一种能力,只有用这种技术能力去行骗,才是真正的造假。

  而现在我们面临的主要问题是,技术到了这个程度,却不知道拿它来干什么。

  谈云计算

  GPU大规模使用,云计算提供的算力会有百万倍增长

  南都:在高算力需求的大模型时代,怎么看待云计算?

  王坚:我们在AI时代常说使用几万张显卡训练一个大模型,当有这么大规模的时候,其实就是云计算,只不过是看你这个云计算是想做一个有体系的、可以真正提供大规模服务的,还是自己搞搞。就在月初,美国商务部也表示不允许中国的企业用美国的云服务做大模型训练,种种情况都说明云计算服务在AI时代,或者说大模型在AI时代就是非常重要的。

  南都:那么云计算是否有望解决当前的算力困境?

  王坚:这其实是个很复杂的事情。GPT-3时期的时候OpenAI公布说,大概用了1万块英伟达A100(一种AI芯片)进行训练。但像亚马逊这样的云服务运营商,除了A100还用了H800的卡,总共大概有3000E(1E约等于1000PFlops-day)的算力。在过去的三个月里,按照官方的预测,每个季度会增加1000E的算力。与我们现有的算力对比一下,GPU的大规模使用,让云计算提供的算力会有百万倍的增长。到了GPT-4,就已经不公开其所需的算力了。不过,行业里大家都会有一个共识,就是只要做到这个规模就能猜出个大概。比如通义千问开源的是720亿参数的模型,那大家就都能猜到这背后有多少算力在支撑。

  采写:南都记者 杨博雯 樊文扬 刘嫚 受访者供图

手机看报
分享到:
返回奥一网 意见反馈