中科曙光曹振南详述:国内首个算力服务平台诞生的逻辑

冯庆艳2023-03-04 09:28

经济观察报 记者 冯庆艳  北京报道  这两天,外界热议的是,国务院刚发布的《数字中国建设整体规划布局》。《规划》提出,到2025年,基本形成横向打通、纵向贯通、协调有力的一体化推进格局,数字中国建设取得重要进展。

早前国家就提出了东数西算战略,各地都在构建全国性和区域性算力网络、算力平台。

一个新动作是,2月24日,宁夏联合中科曙光、中国电信、北京国际大数据交易所,打造的国内首个一体化算力交易调度平台——东数西算一体化算力服务平台(以下简称“算力服务平台”)正式上线。

作为“算力服务平台”的参建方,近日中科曙光副总裁、曙光智算总经理曹振南,坐到经济观察报记者面前,详谈了该平台诞生逻辑与“东数西算”工程落地亟待突破的难题。

定价标准有待清晰化

经济观察报:作为国内首个一体化算力交易调度平台,这个平台的命名从何而来,背后有着怎样的考量?关于外界热议的定价标准问题该如何化解?

曹振南:无论是算力服务平台,还是算力交易平台,目前来说,市面上没有很成型的标准和参考。各家都在摸着石头过河,往前走,未来做成什么样,可能也有不同的思考。在这方面,我们也面临了很多的问题,跟宁夏,包括其他的合作方,也进行了多次沟通和讨论。

我们这次跟宁夏的合作,包括自己建设的一体化算力服务平台,可以说是蹚了一下路,我个人觉得,是一个很重要的样板。

关于定价的问题,今天算力的定价,确实没有一个很好的标准。包括这次宁夏发布的算力服务平台,名字没有定为算力交易平台。其中有一个原因,就是定价不太好定。目前无论是用户,还是市场而言,都没有一个标准,它不像云那么成熟。

宁夏内部实际上还是希望,它能慢慢变成一个算力交易平台。他们希望能接入多家的算力,包括自己运营的算力,类似于像中科曙光或其他公司,提供的一些算力来对外进行服务。

在第一期的平台上,因为这次还没完全发布,我们自己的想法,还是由算力厂商自己自行定价、用户来选择的模式去做。但我相信过不了多长时间,无论是厂商,还是用户,大家会对定价逐步地清晰和明了化。

这个行业刚开始,需要国家做行业的政策引领。初期算力中心的建设上,国家可能会做一些投入。但是我个人认为,未来在算力行业里,市场化肯定是一个非常重要的作用,能把整个产业很好地转起来。这样的话,从前期建设、运营,到后期用户和收益,就会慢慢正向循环起来。

这个跟以前的云或其他产业是一样的,国家早期制定政策法规,进行行业引领,最主要的问题,通过市场机制来解决。从运营公司来说,我相信不同的资本,不同的企业属性,不同的方式,会呈现百花齐放的模式。

经济观察报:据了解,现在有不少云计算平台,或者云厂商的一些平台,都在往算力这条路上走,算力和云计算之间,背后有着怎样的渊源?

曹振南:算力和云最主要的区别,是应用带来的。计算机发展之初,大概在二十世纪五六十年代,外界定义计算机时把它分成两类,一类偏计算,一类偏事务处理。后来随着时间的推移,它们逐渐合并。计算机的作用,一个是代替算盘,一个是代替账本,它们之间有很多相似性,也有很多区别。

今天云计算的概念比较大,我只能说算力与传统云计算之间的区别。从应用角度来说,今天要做的算网或算力调度,更重要的是,解决大量计算应用所带来的一些问题。传统的云计算,更多是事务型的应用。因为这些特点,算力的服务平台和传统云计算的服务平台,无论从底层技术,还是上层对应用的接口和封装,包括用户使用的模式上来说,会为两者带来很大的区别。

举一个小例子,传统云计算底层以虚拟化技术为主,对于算力来说,虚拟化也比较重要,但光有这些技术是远远不足的。如何解决这些计算应用所需要或者所带来的问题,这是今天算力调度平台或算力服务平台,所需要解决的一些问题。我认为,这是算力和云计算之间最大的区别。

现在很多云计算平台,或者云厂商的一些平台,也在往算力这条路上走。毕竟,算力市场这两年发展的非常快,用户需求比较旺盛,市场规模也比较大。很多云厂商或者云的一些平台,也希望其平台既能解决传统的云计算问题,也能转接算力的问题。

平台与AI大模型

经济观察报:这次宁夏也瞄准近期大火的ChatGPT背后的运算能力,开工建设GPU大算力基地,并且将会接入东数西算一体化算力服务平台,您认为这两者的融合,将给行业带来哪些机会,未来的发展空间和潜力如何?

曹振南:宁夏这一算力服务平台,其中有一个很重大的应用,是AI。尤其是ChatGPT火了以后,大模型也跟着火起来。

我个人看到,之前国内也有很多人在做大模型,但一直心存困惑。这几个困惑主要包括:一是对大模型的技术成熟度或技术方向的困惑;二是对商业价值的困惑;三是了解大模型的人只局限于专业人士的困惑。

ChatGPT火爆,很大程度上打破了这三个困惑。之前很多人做大模型时,担心最后的效果和正确性问题,ChatG-PT的火爆,在这方面创立了一个很好的案例、示范,大家觉得这条路的技术路线还是能走通的。另外,商业价值是之前很多人的最大困扰,如今也被化解掉了。而且现在不只是专业人士了解大模型,大众也了解到了,国内外很多人对大模型都更加重视了。

一个大模型的训练,耗费的计算量或对计算的依赖程度很大。计算是新的生产力代表。无论是科学、工程还是人工智能计算领域,当发展到一个层面时,计算能力往往是决定整个成功里最关键的因素之一。

我们看到,AI大模型对计算能力的需求,或者对计算量的需求,是一个海量的增长。我认为,不管是我们在宁夏建的算力交易平台,或者宁夏未来要建设的各种算力中心,都能很好的满足大模型或AI新的一些需求。我相信,随着国内一些大模型以及其它人工智能市场成功后,会反过来更快速地拉动对计算或算力的需求,从而带动整个计算产业和人工智能产业更好的循环,这也会带动整个国内在人工智能领域的提升。

跨过几道坎

经济观察报:作为首个一体化算力交易调度平台,在筹建过程当中,遇到哪些难题,是如何化解的,这个平台给整个算力领域带来哪些借鉴和参考意义?

曹振南:我们一直希望,用算力能像用水电一样,一开龙头或闸门,就能直接把算力流到需求方。但目前算力与水电之间,还有很大差距。这背后有很多原因,其中有一个是水和电,与算力毕竟是不一样的。水电设备有通用性。但算力要面对很多不同、复杂的应用。

另一方面,各个地方的算力资源,存在分布不均匀,或资源结构、架构不均匀,甚至还有很多的兼容性问题、接口不统一等一系列问题。整个产业还需要花很长时间的努力,才能使得用户用算力更便捷,真正做到像用水电一样。

如何标准化算力接口,是在筹建平台过程中,面临的一个很大难题。

在整个算力平台的方案设计层面,如何定义一个好的框架,好的接口,能保证算力平台上线后,以及在运行很长一段时间里,都能很好地无缝对接,这个工作我们花了很多的时间。这里边情况很复杂,包括平台异构或不同厂商提供的算力,自己的算力,甚至不是很兼容的一些算力平台等等各种情况。

如何能像用水电一样,我们目前的解决方案,是从应用端去着手。用户用算力的原因是在应用程序,在算力之上包了个应用,如何使得算力和应用更紧密地结合,同时又把应用的接口更好地开放给用户。让用户在用算力的时候,它的接口或者你的界面就是应用,做到这部分以后,我觉得就能使得算力像水电一样更好用了。

这一两年,中科曙光在这方面做了很多工作,主要是我们联合合作伙伴,联合应用端,把算力和应用进行封装和打包。目前在这方面还做了一些试点,我们尝试着在某一些应用领域里去做这样的事情。

还有一道坎是,算力调度方面的挑战。由于受到平台异构及其架构原因,甚至部署原因,还可能是网络带宽资源的性价比原因,使得目前整个跨中心之间的应用调度面临很多的挑战,所以我们也提出了调度理念。一要在技术上解决这些问题;二是否调度,资源从这个中心调到那个中心,可能不仅要考虑技术的问题,还需要考虑成本问题、代价问题以及一些商业情况的问题,我们也提出了首先要在技术上解决可调度的问题。在成本优化上,我们要去跟用户协商,或跟用户定制更加经济、更加可行的一个调度方案。

绿色节能也是今天免不了的话题。做好一个数据中心的绿色节能,光有液冷技术远远不够。涉及点非常多,包括系统硬件、软件,包括运维各个层面。

比如即使今天很常规的计算平台,要把平台功耗降下来,还不损失性能,就要做很多工作。包括如何去做各种阀子的定义,如何去做各种设计,如何去做硬件平台的设计,在系统硬件层面,能做的工作相当多。在系统软件层面,包括一体化调度系统里,硬件和应用之间如何做更好的匹配等工作要做。本身的基础设施层面,除了液冷技术,还包括如何去构建整个数据中心或者算力中心的基础架构层面,这里面也有很大量的工作要做。在运维管理层面,有些不仅是技术层面的问题,还涉及公司的体系和管理制度层面。

算力是支撑应用的。如何让算力和应用之间做更好的封装和衔接,依然是我们未来的重心。这是一个算力“傻瓜化”的过程。很多东西只有“傻瓜化”了以后,市场量、需求量才会剧增。

为什么是中科曙光

经济观察报:作为首个一体化算力交易调度平台的合力缔造者之一,中科曙光在其中参与了哪些工作,为平台带来哪些价值?

曹振南:中科曙光在一体化算力服务平台上,起步比较早。3年前,我们就开始了相应的建设。那时也不是从零起步,更早之前已有了技术积累。我们的平台并没有在PPT上,而是已经实际推出来,且已有将近3年,还有大量的用户在用。

宁夏发布平台前,中科曙光和宁夏沟通合作很紧密,参与这些工作时间也比较长。具体来说,合作过程中,中科曙光基本上有四个工作或四个主要身份。此前,我们自己也搞了一体化算力服务平台,已运营了几年。这次宁夏找到我们,我们作为方案提供商,从整体方案设计上等,贡献了一些智慧。

同时,在整个平台的建立和建设上。根据我们相关经验,和宁夏团队以及相应的合作伙伴一起,把平台建立和上线。

我们也是算力的提供者,在这个平台里面,率先接入了几个算力,其中有一个是我们提供的曙光智算。智算这几年在算力积累和算力网络建设上,也做了很多的工作。这个算力直接通过服务平台,就可以为宁夏的用户,包括全国的其他用户,提供相应的算力支持。

还有中科曙光本身在算力中心或算力基础设施上的工作,包括服务器、存储、基础设施等。去年我们提出了5A算力中心的解决方案,我们本身也是算力底座的设备提供方。

版权声明:以上内容为《经济观察报》社原创作品,版权归《经济观察报》社所有。未经《经济观察报》社授权,严禁转载或镜像,否则将依法追究相关行为主体的法律责任。版权合作请致电:【010-60910566-1260】。
TMT新闻部主任
关注TMT(科技/媒体/电信)领域的重大事件。擅长调查、深度及人物报道。