通算时代,是二元模式:云计算公司提供算力,企业客户使用算力。
近几年,随着智算兴起,一方面云计算相关技术、产品和业务模式已经非常成熟,另一方面智算的投入非常巨大。于是,行业开始了分工,云计算公司业务一分为二:算力建设业务版块,变成了专业的智算中心类企业;算力销售运营业务版块,则变成了算力(运营)网,或称为轻量的云计算公司。
智算行业,正从二元模式向三元模式转变。但目前还没有形成成熟的业务模式,大家对三元模式下算力三方的理解和定位,均有所不同。
今天抛砖引玉,谈谈我们的看法。
1 标准化和差异化
企业给客户提供的产品,足够标准化,就可以快速地扩大规模,降低成本,兼容性好,客户使用方便快捷。而提供差异化的的产品,可以给客户提供不一样的价值,帮助客户解决特殊问题,增强客户的满意度,增强客户业务对企业产品的粘性。
标准化和差异化,既是矛盾的,也是统一的。整个软硬件系统,是一个堆栈。从IaaS、PaaS到SaaS的各类算力服务,就是算力服务商不断接管软硬件堆栈的过程。而使用算力服务的客户,只需要聚焦业务创新。
整个软硬件堆栈,又是一个倒金字塔型的堆栈:越靠下的部分,越通用确定,此类算力服务应尽可能标准;越靠上的部分,越灵活多样,此类算力服务应尽可能提供差异化,来满足不同客户的不同需求;更往上的部分,更加灵活多样,算力服务商鞭长莫及,只能交给客户自己搞定。
再具体一些,一般来说:
- 硬件门槛非常高,应尽可能的标准化。在标准化的硬件基础之上,构建满足不同用户需求的差异化的软件产品和服务。软件服务的标准化和差异化,应遵循二八定律。约20%的服务是标准化的,满足绝大部分客户的常规需求(覆盖所有客户的约80%的算力用量);80%的服务是差异化的,满足不同客户的不同需求(差异化服务整体覆盖所有客户,但不同服务覆盖不同用户,整体的算力需求较少,仅占约20%)。差异化服务的核心价值,在于构建平台跟客户业务之间的粘性。
2 智算中心的挑战和重心
智算中心投入巨大,并且几乎都是跟硬件打交道的事情。因此,智算中心业务的一个核心定位就是标准化。但标准化不意味着仅提供底层产品服务,智算中心还可以提供非常多的更高层次的产品服务。
常规智算中心的业务包括:
- IDC机房或机架租赁。即传统IDC的业务。行业内有非常多的成功的IDC公司,也因此,此模式是一个非常不错的业务模式。智算服务器租赁:随着大模型的流行,智算行业逐渐兴起。仅有IDC业务还不够,还需要为客户提供智算设备。当然,智算设备可以找一些专业的公司代为提供,但最终仍需要给买单的算力客户,打包成可远程访问的智算服务器租赁的方式。
而增强的智算中心业务,简单来说,就是把硬件封装成IaaS(也包括CaaS)服务,提供给客户的是算力服务,而不是裸硬件。
抛砖引玉,在传统业务之外,增强型智算中心可提供的算力服务包括:
- 裸金属主机服务。传统的服务器租赁,通常是手动的。第一步,肯定是把服务器封装成可自动化下单的服务,使之成为货架产品,而不需要线下繁琐的交易流程。第二步,则是由于传统裸机的问题(无法高可用、无法硬件运维等),裸机需要进一步升级成支持高可用的、可以硬件运维的裸金属机服务(需要DPU和底层软件的加持)。
- 虚拟云主机服务。虚拟化能够实现更高的资源弹性,以及更高的算力利用率,可以进一步优化成本。可以给客户提供从1/N卡到8卡的足够弹性的虚拟主机实例,对一些算力需求较低、成本敏感的客户业务和场景,会更友好。容器主机服务。虚拟化是面向硬件资源,容器是面向业务应用。因此,对客户来说,容器化对业务更友好,不需要关注太多裸机或虚拟机的底层细节。
- 容器化服务,一般来说,会有两种模式提供:有服务器实例型和无服务器实例型(Serverless)。 训练集群服务。主机,是集群的节点;但集群不止关心节点,还关心互联。因此,需要给客户提供足够弹性的训练集群服务(集群规模通常是从8卡到成千上万卡)。推理集群服务。推理,理论上可以不需要集群。但推理集群的价值在于,不同架构的多元异构算力整合。多元异构推理集群跟上层的计算框架和模型有一定的关联性,也跟集群算力调度有关联性,技术挑战相对较大。但其广泛落地后的价值也非常的多,比如,最极致的成本、国产算力规模化使用、降低对国外产品的依赖等等。其他配套的算力服务。智算不仅仅是智算,围绕着智算,还有通算、存储、安全、网络等服务(统称为算力服务)需要提供。
3 算力(运营)网的挑战和重心
算力(运营)网,这块的业务模式,目前行业仍有不同的看法。上一篇文章,我们也对此进行了深入分析。这里我们主要谈总结。算力(运营)网,不应只是算力电商。传统的商品,一般价格较低(一万以内),没有必要也无法直接去源头的厂家购买,因此需要线下的商店和线上的电商平台。
但算力交易:大客户通常交易金额较大,一定会找到源头的智算中心;而长尾的交易金额小的客户,虽可以有一个平台来提供算力,但这和智算中心提供的IaaS级服务区别又在哪里?如何和源头的智算中心算力(运营)网的价值在哪里?本质来说,企业需要提供价值,才能存活。
算力(运营)网的业务形式的确应该存在,但其业务形态需要增强,应该提供更高层次的能力。智算中心提供的是IaaS和CaaS,那么算力(运营)网则需要提供PaaS+MaaS+解决方案。也就是算力(运营)网需要重点关注行业和场景,关注赋能客户,关注业务场景落地。
4 (使用算力的)企业的挑战和重心
大家都在聚焦智算建设,也在建设宏观范畴的算力调度体系,还在逐渐丰富智算相关上层服务,但这些都是从供给侧出发。非常少有人和公司从最终的需求侧出发,以(使用算力的)企业业务的视角,来统筹算力使用。
站在企业侧视角,我们觉得,需要解决如下几方面的问题:
- 第一个,不同算力资源的统筹。对企业来说,有自建的算力资源,有公有云的算力资源,还有从算力网络获取的资源,这些资源需要统筹起来。此外,有的企业,自建算力资源可能存在闲置情况,这些算力资源也需要拿出来共享,获取一些收益。
- 第二个,多元异构算力的统筹。从技术角度来说,这跟云端的多元异构算力统筹是一个问题。但企业侧此问题有一些新的特点:算力类型极度多样、规模较小、不同企业的算力差异性巨大,等等。
- 第三个,企业自有或代管的终端的纳管。随着智能汽车、具身智能等领域的发展,跟传统PC机、平板电脑、智能手机相比较,这些新兴的终端,有两个显著的特点,一个是大模型+,一个是业务场景算力需求巨大但终端自有算力远远无法满足。
- 第四个,是云边端算力资源的统筹。终端算力不够,需要从云端和边缘端借算力,同时终端业务无感,这些算力就像在终端本地一样。此外,需要统一的云边端开发和运行环境,既能帮助终端客户解决共性的基础的计算问题,又能提供统一的云边端融合的开发运行环境。其他未尽事宜。包括但不限于上述这些问题,仍有很多问题需要解决。
总之,需要站在企业的视角,以企业业务需求为中心,来统筹算力资源,为企业所用。企业的业务落地了,发展了,就会有更多的新的算力需求。
5 智算行业三元模式总结
从二元到三元,主要有两方面原因。一是云计算行业发展近20年,产业和技术都比较成熟,于是行业分工开始出现。二是智算的资金投入巨大(是传统通算的50-100倍),非常重资产,而算力的生命周期又非常的短(约5年),投资风险巨大。于是,三元业务模式开始逐渐增多。甚至一些公有云公司,新增算力也是这种方式(即从外部租赁算力,而不是自建)。
我们总结一下算力行业的业务模式。(按照我们理解,)主要有这三种模式:
- 传统公有云的二元模式。这在通算时代,为算力公司的主流业务方式。新型的电商三元模式。自己是平台方,没有额外的增值价值。我们认为,在算力行业,这种模式没有太多存在的价值。新型的算力流转三元模式。这是一个相对健康合理的算力链,每个环节有自己的定位和核心竞争力,大家形成繁荣的算力产业生态体系。
最后,我们总结一下三者的核心价值定位,用三个字总结就是“建、落、用”,详细说明:
- 智算中心,主“建”。核心竞争力在于建设超大规模、超低价格的算力。算力(运营)网,主“落”。需要比客户更懂场景,帮助客户业务从0到1。算力企业,主“用”。(从算力视角,)企业重心在于从1到100快速复制。企业需要开拓市场,需要快速做大做强。企业只有业务规模化,才能产生更多新的算力需求。
(正文完)