智算行业巨变:从二元模式进化到三元模式

  • 14小时前

 

通算时代,是二元模式:云计算公司提供算力,企业客户使用算力。

近几年,随着智算兴起,一方面云计算相关技术、产品和业务模式已经非常成熟,另一方面智算的投入非常巨大。于是,行业开始了分工,云计算公司业务一分为二:算力建设业务版块,变成了专业的智算中心类企业;算力销售运营业务版块,则变成了算力(运营)网,或称为轻量的云计算公司。

智算行业,正从二元模式向三元模式转变。但目前还没有形成成熟的业务模式,大家对三元模式下算力三方的理解和定位,均有所不同。

今天抛砖引玉,谈谈我们的看法。

1 标准化和差异化

企业给客户提供的产品,足够标准化,就可以快速地扩大规模,降低成本,兼容性好,客户使用方便快捷。而提供差异化的的产品,可以给客户提供不一样的价值,帮助客户解决特殊问题,增强客户的满意度,增强客户业务对企业产品的粘性。

标准化和差异化,既是矛盾的,也是统一的。整个软硬件系统,是一个堆栈。从IaaS、PaaSSaaS的各类算力服务,就是算力服务商不断接管软硬件堆栈的过程。而使用算力服务的客户,只需要聚焦业务创新。

整个软硬件堆栈,又是一个倒金字塔型的堆栈:越靠下的部分,越通用确定,此类算力服务应尽可能标准;越靠上的部分,越灵活多样,此类算力服务应尽可能提供差异化,来满足不同客户的不同需求;更往上的部分,更加灵活多样,算力服务商鞭长莫及,只能交给客户自己搞定。

再具体一些,一般来说:

    硬件门槛非常高,应尽可能的标准化。在标准化的硬件基础之上,构建满足不同用户需求的差异化的软件产品和服务。软件服务的标准化和差异化,应遵循二八定律。约20%的服务是标准化的,满足绝大部分客户的常规需求(覆盖所有客户的约80%的算力用量);80%的服务是差异化的,满足不同客户的不同需求(差异化服务整体覆盖所有客户,但不同服务覆盖不同用户,整体的算力需求较少,仅占约20%)。差异化服务的核心价值,在于构建平台跟客户业务之间的粘性。

2 智算中心的挑战和重心

智算中心投入巨大,并且几乎都是跟硬件打交道的事情。因此,智算中心业务的一个核心定位就是标准化。但标准化不意味着仅提供底层产品服务,智算中心还可以提供非常多的更高层次的产品服务。

常规智算中心的业务包括:

    IDC机房或机架租赁。即传统IDC的业务。行业内有非常多的成功的IDC公司,也因此,此模式是一个非常不错的业务模式。智算服务器租赁:随着大模型的流行,智算行业逐渐兴起。仅有IDC业务还不够,还需要为客户提供智算设备。当然,智算设备可以找一些专业的公司代为提供,但最终仍需要给买单的算力客户,打包成可远程访问的智算服务器租赁的方式。

而增强的智算中心业务,简单来说,就是把硬件封装成IaaS(也包括CaaS)服务,提供给客户的是算力服务,而不是裸硬件。

抛砖引玉,在传统业务之外,增强型智算中心可提供的算力服务包括:

    裸金属主机服务。传统的服务器租赁,通常是手动的。第一步,肯定是把服务器封装成可自动化下单的服务,使之成为货架产品,而不需要线下繁琐的交易流程。第二步,则是由于传统裸机的问题(无法高可用、无法硬件运维等),裸机需要进一步升级成支持高可用的、可以硬件运维的裸金属机服务(需要DPU和底层软件的加持)。
    虚拟云主机服务。虚拟化能够实现更高的资源弹性,以及更高的算力利用率,可以进一步优化成本。可以给客户提供从1/N卡到8卡的足够弹性的虚拟主机实例,对一些算力需求较低、成本敏感的客户业务和场景,会更友好。容器主机服务。虚拟化是面向硬件资源,容器是面向业务应用。因此,对客户来说,容器化对业务更友好,不需要关注太多裸机或虚拟机的底层细节。
    容器化服务,一般来说,会有两种模式提供:有服务器实例型和无服务器实例型(Serverless)。   训练集群服务。主机,是集群的节点;但集群不止关心节点,还关心互联。因此,需要给客户提供足够弹性的训练集群服务(集群规模通常是从8卡到成千上万卡)。推理集群服务。推理,理论上可以不需要集群。但推理集群的价值在于,不同架构的多元异构算力整合。多元异构推理集群跟上层的计算框架和模型有一定的关联性,也跟集群算力调度有关联性,技术挑战相对较大。但其广泛落地后的价值也非常的多,比如,最极致的成本、国产算力规模化使用、降低对国外产品的依赖等等。其他配套的算力服务。智算不仅仅是智算,围绕着智算,还有通算、存储、安全、网络等服务(统称为算力服务)需要提供。

3 算力(运营)网的挑战和重心

算力(运营)网,这块的业务模式,目前行业仍有不同的看法。上一篇文章,我们也对此进行了深入分析。这里我们主要谈总结。算力(运营)网,不应只是算力电商。传统的商品,一般价格较低(一万以内),没有必要也无法直接去源头的厂家购买,因此需要线下的商店和线上的电商平台。

但算力交易:大客户通常交易金额较大,一定会找到源头的智算中心;而长尾的交易金额小的客户,虽可以有一个平台来提供算力,但这和智算中心提供的IaaS级服务区别又在哪里?如何和源头的智算中心算力(运营)网的价值在哪里?本质来说,企业需要提供价值,才能存活。

算力(运营)网的业务形式的确应该存在,但其业务形态需要增强,应该提供更高层次的能力。智算中心提供的是IaaS和CaaS,那么算力(运营)网则需要提供PaaS+MaaS+解决方案。也就是算力(运营)网需要重点关注行业和场景,关注赋能客户,关注业务场景落地。

4 (使用算力的)企业的挑战和重心

大家都在聚焦智算建设,也在建设宏观范畴的算力调度体系,还在逐渐丰富智算相关上层服务,但这些都是从供给侧出发。非常少有人和公司从最终的需求侧出发,以(使用算力的)企业业务的视角,来统筹算力使用。

站在企业侧视角,我们觉得,需要解决如下几方面的问题:

    第一个,不同算力资源的统筹。对企业来说,有自建的算力资源,有公有云的算力资源,还有从算力网络获取的资源,这些资源需要统筹起来。此外,有的企业,自建算力资源可能存在闲置情况,这些算力资源也需要拿出来共享,获取一些收益。
    第二个,多元异构算力的统筹。从技术角度来说,这跟云端的多元异构算力统筹是一个问题。但企业侧此问题有一些新的特点:算力类型极度多样、规模较小、不同企业的算力差异性巨大,等等。
    第三个,企业自有或代管的终端的纳管。随着智能汽车、具身智能等领域的发展,跟传统PC机、平板电脑智能手机相比较,这些新兴的终端,有两个显著的特点,一个是大模型+,一个是业务场景算力需求巨大但终端自有算力远远无法满足。
    第四个,是云边端算力资源的统筹。终端算力不够,需要从云端和边缘端借算力,同时终端业务无感,这些算力就像在终端本地一样。此外,需要统一的云边端开发和运行环境,既能帮助终端客户解决共性的基础的计算问题,又能提供统一的云边端融合的开发运行环境。其他未尽事宜。包括但不限于上述这些问题,仍有很多问题需要解决。

总之,需要站在企业的视角,以企业业务需求为中心,来统筹算力资源,为企业所用。企业的业务落地了,发展了,就会有更多的新的算力需求。

5 智算行业三元模式总结

从二元到三元,主要有两方面原因。一是云计算行业发展近20年,产业和技术都比较成熟,于是行业分工开始出现。二是智算的资金投入巨大(是传统通算的50-100倍),非常重资产,而算力的生命周期又非常的短(约5年),投资风险巨大。于是,三元业务模式开始逐渐增多。甚至一些公有云公司,新增算力也是这种方式(即从外部租赁算力,而不是自建)。

我们总结一下算力行业的业务模式。(按照我们理解,)主要有这三种模式:

    传统公有云的二元模式。这在通算时代,为算力公司的主流业务方式。新型的电商三元模式。自己是平台方,没有额外的增值价值。我们认为,在算力行业,这种模式没有太多存在的价值。新型的算力流转三元模式。这是一个相对健康合理的算力链,每个环节有自己的定位和核心竞争力,大家形成繁荣的算力产业生态体系。

最后,我们总结一下三者的核心价值定位,用三个字总结就是“建、落、用”,详细说明:

    智算中心,主“建”。核心竞争力在于建设超大规模、超低价格的算力。算力(运营)网,主“落”。需要比客户更懂场景,帮助客户业务从0到1。算力企业,主“用”。(从算力视角,)企业重心在于从1到100快速复制。企业需要开拓市场,需要快速做大做强。企业只有业务规模化,才能产生更多新的算力需求。

(正文完)

人工客服
(售后/吐槽/合作/交友)

相关资讯

  1. 1.
  2. 2.
  3. 3.
  4. 4.
  5. 5.
  6. 6.
  7. 7.
  8. 8.
  9. 9.
  10. 10.
  11. 11.
  12. 12.
  13. 13.
  14. 14.
  15. 15.
  16. 16.
  17. 17.
  18. 18.
  19. 19.
  20. 20.
查看全部20条内容