“互联网和网络科学的快速发展使人产生了一个具有误导性的印象,即社会网络悬浮在空间内,似乎不再被重力和物理世界所累。”和阿里云智能总裁张建锋(花名:行癫)的沟通,很快让我脑子里想起了杰弗里·韦斯特在他的奇书《规模:复杂世界的简单法则》中的这句话。因为他的谈话,焦点都集中于如何用最小的计算和能源消耗,去更高效管理迅速膨胀的数据中心规模——截止到目前为止,阿里云在四大洲的27个国家和地区、84个可用区、2800个网络节点,运营着上百万台服务器,服务着全球400多万客户。他非常清楚,这个发展迅速的巨量规模的服务器集群,会带来超乎想象的管理难度和成本。同时,巨量的规模也带给阿里云利好的消息。5月26日,阿里发布了2022财年的业绩报表,云业务同比增长23%,全年收入在抵销跨分部交易前和抵销后分别为1001.8亿元和745.68亿元,并且实现11.46亿的盈利数据。这是成立13年来首次实现年度盈利,实现了历史性突破。“规模。”张建锋对于盈利的解释非常简短,因为只有足够大的规模才能摊销掉庞大的研发成本。所以对阿里云来说,不断投入研发,用先进的技术手段对抗、消解云计算规模扩张带来的挑战和成本,就是赢得竞争的不二法门。“过去我们从分布式到资源池化,都是以CPU为中心的云时代,事实上也完成了非常多的一些创新,特别是像资源池化等等。但是随着数据的增长、随着规模的变大、随着延迟的要求越来越高,需要呼唤一个全新的一个技术体系去满足下一阶段的要求。”张建锋说,为此他给2022年的云峰会上提了一个新的主题——Back to Basic。如果最近出差的话,会看到机场上阿里云的广告,也回归了最初的版本——为了无法计算的价值。在云峰会上,阿里云发布了下一代的云计算的基础设施核心CIPU。CIPU的说法直接映射于PC时代的CPU,意为云时代的IDC内部的处理核心。在这个全新的架构下,计算、存储和网络接入CIPU,资源即可被高效的云化管理。通过CIPU的硬件加速,实现超高的性能。他举了一个例子,使用阿里云的盘古存储协同CIPU、盘古高密存储服务器和洛神Solar-RDMA网络,可以让延迟降低到30微秒,这意味着访问存储在远端的数据,延迟比访问本地的硬盘还低。3年前张建锋刚刚接手阿里云的时候,我们第一次见面,他提出阿里云要“被集成”,这个说法的核心就是推动阿里云从提供资源向提供能力转换。但是那时对于如何被集成、如何定义可以被封装的能力,还有很多模糊的地方。3年之后,他提出Back to Basic,再次把技术放在了首要战略位置,也再次把向用户提供能力作为努力的方向。但这一次,用户和阿里云对于能力的定义,都清晰了很多。某种意义上讲,这也是阿里云以及整个中国云计算市场的螺旋式上升。“云计算越来越接近进入下一个时代了——全新的架构定义,全新的软件界面,硬件加速。我们错过了PC时代,但云这个时代大家起步是一样的。大家在重新定义云的结构的窗口期,如果我们定义好了,中国就可以在下一代的技术时代有自己的一席之地。”张建锋认为,新一代的技术架构,会催生新一代的云原生应用,也是中国软件和企业数字化的巨大机会。所以,阿里云一方面会向下深耕技术,另一方面,也会加大气力推动生态的建设。在云峰会之前,张建锋和钛媒体联合创始人刘湘明就云计算的发展以及生态建立的话题,做了一次深入交流。
下文为对话实录,有删节。
云计算的下一个时代
张建锋:其实我们要做的东西,本来就是更底层一点,但为了客户能用起来,我们已经自己用业务翻译了一层,搞各种数字化的项目,结果这个越搞越厚了,离云越来越远。钛媒体:其实大家都面临同样的问题,现在提这个真的挺好,正好市场大环境大家都在减速,原来都捆在战车上,谁也不能慢下来。现在真是可以回头看看,很多原来来不及思考的本质。对于过去的云计算,你觉得有哪些判断是有点失真的,偏离了它的本质?张建锋:云本身在发展,特别是这两年发展的非常快。最基础的层面,客户用了云,肯定要比原来的传统IT更灵活,更安全更高性价比,这是个基本的要素。如今的云计算我们认为面临着几大挑战:第一是计算和网络传输的时延大。以前可能不明显,但是随着我们的体系结构越来越分布式了之后,那意味着我们的一个大型的应用会分散在多个子系统去部署,这些系统之间需要高速地去互联、需要非常低的延时;第二,因为随着大数据应用的不断的增长,使得IDC内部的东西向流量越来越大,所以我们需要来满足这个流量增大之后的网络的一些新的要求;第三,我们现在的系统规模越来越大、越来越复杂,所以我们需要解决超大规模基础设施的复杂管理问题,也需要解决在云内部的超大应用、复杂应用的管理问题。从数据中心角度来讲,不是简单从软件上做一些创新,而慢慢变成整个体系结构性的创新了。在这个逻辑下,就是也为了云的数据中心,需要有一个中心控制节点。现在这个领域,国际上的玩家很多,比如英伟达就倾注了无限的热情,三年的路线图都规划好了。对阿里云来讲,我们现在有自己的CIPU。大家应该都是同样的思路来看待这个问题,总结一下,就是对于整个云来讲,肯定是软件来定义整个基础设施。软件定义具备了灵活性,必然是牺牲了性能。但是如果有CIPU后,实际上又在灵活的基础上大幅度提升了性能,也就是软件定义,硬件加速。结果是什么?到目前为止,我们访问远端的集中式存储,速度比访问本机的硬盘更快,就是因为体系结构变了——访问更快,又不消耗主机的CPU资源。我们有了CIPU,中间还有个网络的协议。今天阿里云基本上网络协议都是eRDMA,非常低的延迟、非常高的带宽。最近评选的全球十大计算机网络研究机构,中国只有我们入选。我们定义了云计算时代的网络协议,而且工业标准化了。所以云计算越来越接近进入下一个时代了——全新的架构定义,全新的软件界面,硬件加速。以后集中做的基地型的IDC一定是未来,而且是30万台规模起步。我们在张北有很大规模的机房,以后成都也会重点投入。另外一个问题是IDC互联,中国目前和国外的模式不一样。但东数西算可能还会有考虑——这么多数据搬过去,如果按照传统的方式,成本是很高的。如果这个突破的话,云计算可能还有下一轮爆发。钛媒体:今天我们谈的起点都不一样,真是在从云的规模去考虑问题的,原来我们的思考还受到很多PC时代的影响。张建锋:我们现在就是面临一个非常关键的节点,我们错过了PC时代,但云这个时代大家起步是一样的。大家在重新定义云的结构的窗口期,如果我们定义好了,中国就可以在下一代的技术时代有自己的一席之地。比如为什么我们要有无影?家里有一台电脑,要的是一个屏幕一个键盘,今天的带宽、算力,把主机挪到云上去是一样的,没有影响,不需要去买一个物理的主机。大家现在都在琢磨要把办公电脑的主机国产化,但如果以后没有主机了,就不存在把那个东西国产化的必要了——而且这个国产化的成本很高。钛媒体:因为那条发展的道路,你要重走一遍。张建锋:是的。所以国产化的问题,要面向下一代技术发展趋势去考虑解决方案。无影现在在很多地方用的很好,我们有些客户做渲染,要用非常高的算力,云计算的模式节省很多成本,而且数据都在云上,上面全加密的,又有熔断,又有保护,也很安全。这样面向下一代的架构,大家都在同一条起跑线上,中国是有优势的。钛媒体:刚才咱们在谈到从CPU、IPU、DPU、CIPU,真正的变化其实是把原来整个计算架构的中心化打破了,慢慢的所有的功能都有不同的核心去完成。传统的这套计算架构,它的真正的核心是什么?是指令,所以CPU的一个指令去控制所有东西。现在计算架构的核心就变成数据流,所以才会有这么大的变化。张建锋:对,以前处理任务,现在处理数据,要有新的结构。钛媒体:原来我们一直在谈整个云生态的设计,但是在这个架构里面谁去做什么事儿一直都是模模糊糊的,比如阿里云有段时间差不多做成SAP、埃森哲的样子,冲在数字化的最前线。现在谈Back to Basic,各自的角色其实就清晰了很多,阿里云还是要做成云计算架构里面Intel这样的公司,是往回退一些。张建锋:做英特尔也要做Windows,因为云计算本身要操作系统,我们就是CIPU+飞天操作系统。
新时代的云计算生态机会
钛媒体:之前听到Back to Basic,当时就觉得有些共鸣。其实过去这几年云计算的发展,大家都觉得有些地方不对劲,但是也来不及去想这个。张建锋:其实大家都在做数字化转型的部分。这个工作当然用了云之后,可以更好的,天然打破了部门墙或者系统墙,因为数据都在同一个底座,所以你要去分析数据、利用数据变得更容易了。例如我们去做冬奥会,冬奥会上有几十上百个系统,有计分的,有赛场管理,用了云其实还是非常大的区别的。原来要开一次奥运会的时候,奥组委有个技术部,要先找个地方把IDC建起来,从选址到合作伙伴,采购空调之类的,从头干起,还要采购服务器。建好之后,上面跑的很多系统都不互通,要开放接口,要做开发,运维过程中要测试运维,中间出了问题,也不知道网络有问题,或者服务器有问题,要找无数的供应商来解决。最后还有一件很复杂的事情,原来奥运会结束了之后,还要花很多时间处理资产,现在他退出就可以了。所以云的出现极大改变了以前整个信息系统的构建方法。很多企业一样面临一样的问题。钛媒体:所以过去很多企业基本上把数字化跟云计算画等于号了。张建锋:当然很大的互联网公司,还是云计算的主力消费者。他们很清楚软件本来就是自己做的,云服务厂商只要提供资源就可以了。其实在我看来,云上面的数据库中间件也好,大数据计算也好,都不是云最核心的。这些都是云原生的一些系统,云原生跟云不原生还是有很大的区别的。中国的客户,还是买资源,不是买的你的能力。但像Snowflake,用户购买的不是资源,他们买的是能力。我们的数据库现在慢慢的也在从资源到能力。我们不希望你想我买了多少台服务器,我买了多少台内存,这个跟你没关系。你是要有可以处理,要处理多少QPS(QPS:Queries Per Second,“每秒查询率”,是一台服务器每秒能够响应的查询次数)才是你关心的。实际上这个商业模式有个很高大上的名字,也不叫SAAS了,他们把这个东西叫Serverless,就是说最终你也不用关心这个硬件了。例如要做一个翻译,你只要把文档输进去,那个文档拿出来就可以了,不见得要去注入两台服务器,然后把文档这个软件布上去,然后再去干这个事情。钛媒体:最近也见了很多大平台的人,有一个特别明显的感觉,就是所有大平台都在做从工具到能力的转化。平台大到亿级用户的规模,其实触达很多天花板。但是一旦转成能力,就是古人所说的大象无形,跟客户,跟生态全混在一起了,做的再大了,外界也是看不到,但它其实变得越来越强。咱们第一次见面,在讲被集成,后来在谈云钉一体、低代码,现在兜兜转转Back to Basic,这三年完成了一个周期。我记得一开始咱们在谈被集成的时候,我就在问怎么把这些东西变成能力封装起来。经过了这三年,思路变得很清楚了。三年前大概方向是知道的,但是到底封装什么东西,包括生态怎么去建设,也不是那么清晰。张建锋:按照你的逻辑,卖盒子是最容易的——我把服务器卖给你,你怎么装我不管。后来就是云上卖资源,那就要调度了,现在资源我也不卖了,我就卖能力了。商业模式越来越贴近用户的本质需求,但是对于下面的技术要求就会越来越高。你要管理好,才有利润。钛媒体:对阿里云来说挑战还是挺大的。按照我的理解,阿里云变成了两线作战,一个往下——重新要把这些能力做深度研发,做重新的封装;另一条战线往上,如何在新的商业逻辑上把生态建立好。以前大家觉得阿里云无所不能,你就要把这个界限分开,重新在你的基础上一层一层的把生态搭建起来。张建锋:这里面一个很重要的标准,就是能够做云原生的那些人。就像Snowflake,这些人来自于哪里呢?一方面是原来一些传统供应商的转型,比如说奥运会开一次,但是上面的很多软件供应商都转型了。所以你是买License,还买SaaS,那是商业模式的一个选择。但是从技术上肯定不可能回来了,肯定是云的,这是个必然的一个趋势。钛媒体:回到刚才说两线作战,阿里云的资源,包括你自己的精力去怎么分配。张建锋:这个也不存在两线。我们第一把基础设施做好,刚才我还没有解释,我们上面其实形成了两个平台,因为我们还是要看客户的需求,客户的需求还是数字化转型,这个是核心需求,所以实际上我们在数字化转型上面,我们会继续做。一个平台提供大数据分析、AI等能力。我们现在也会选择一些数据密集型的行业作为重点,这方面我们也有一些新的集群在构建,主要客户也是类似像汽车行业自动驾驶,他们的数据非常密集。另外一条线就是终端客户。我们希望客户的整个数字化解决方案中用户触达的一个平面,是在钉钉上。因为首先钉钉提供了一个统一入口,第二,我们提供了非常多的一些工序,可以更快速地开发。因为它有一些基础的功能已经建立了,包括什么样的通讯录,组织架构已经建立了,权限控制,基本的能力,也有沟通等等,包括文档,办公。应用系统我们仍然觉得有成本,所以我们现在搞低代码。低代码其实也不是只有阿里有个低代码,还有两家比较大的外部的低代码平台。因为低代码平台其实对某些行业还是有一点点关系的。这个才是一个大的图——云端的核心产品上再建两个平台,一个是做数字化的计算、算力、AI等等,另一个是基于钉钉的入口。钛媒体:怎么能给这个生态更好的红利?未来其实大家都是生态之争了。张建锋:往上的层面,从整机到部件,是一个逐渐分化的过程。阿里是没有做整机的,我们还是高度依赖于合作伙伴,不管转换器、路由器、服务器都是这样的。这个生态怎么构建呢?这个生态可以更透明,包括用一个什么样的交换机。现在交换机其实变得很薄了,因为它不需要处理太复杂的协议。这对产业发展已经带来了非常大的推动了。交换机里面需要很多芯片,我们有几个大的类目,不仅需要GPU、CPU,很类似的controller去控制硬盘的芯片等,一方面自己也在做,一方面也可以用其他供应商。我们总的策略是一云多芯,这样话才真正给生态更大的可能性。阿里云如果不支持多种CPU的话,那么新的CPU是没有机会被客户购买的。实际上因为有云了,之后才能支持多个芯片,包括很多国产的CPU。以前你还是只能卖单机,这种方式肯定不符合未来的发展趋势。今天阿里云已经变成全世界支持CPU最多的一家云厂商。其实中国原来的CPU不能发展,最大的一个问题是没办法形成生态。自己单独去构建整套软件栈是非常困难的,有云之后,它很好的一个机会,下面CPU的差异性都由我来处理。钛媒体:这次提的创新,它其实是一个体系性的工程。张建锋:我总觉得这几年应该是云计算最关键的时候。以前是分布的系统,慢慢构建一个可弹性售卖的系统。本质上它的核心是分布式系统,有能力做分布式系统的,号称自然都能做云。今天云是一个新的结构的引进,这个时代不知道是VMware+英伟达,还是微软自己的一套体系,还是AWS一套体系。云计算里面不可能像以前Windows+英特尔,有这么一个大一统的生态。但这几家的近战还是很白热化的。但中国今天真正在做这方面的工作,我认为是没有的,人家做的云计算跟我们做的云计算,不是一回事情。钛媒体:如果做这么大的调整,对阿里云整个团队来说,会有什么新的能力的要求?张建锋:我们对底层的技术——做芯片、做FPGA、做网络的,做存储的,做自己Controller的,应该是阿里云最主要的一个方向。钛媒体:你其实是一个技术特别强的CEO,在这个思路下的创新,可能真是找到了属于你的战场。在这样一个结构性的变革在里面,大家都有机会。怎么让更多的人能够看到机会,能够让他们觉得有机会,能够加入进来?张建锋:刚才我们讲云原生,我们希望更多的一些软件,能够基于一个云上的构建。中国今天最牛的云原生应用,还是比较少。但美国是有一长串的,中国还没有这方面的东西,有一个很大的沟要填。钛媒体:生态建设里面很重要的一件事儿,就是怎么去扶持这些新的在云上做云原生开发ISV。张建锋:今年阿里云有很多出去创业的,对我们来说,应该是个很好的开始。因为他们不可能去做云,但他们是最熟悉阿里云的,他们会去做云原生的一些东西。他们要做细分市场,那其实非常好。