我这人最喜欢聊天。

在我看来,聊天是一个很好的社交方式,也是很好的学习方式。跟不同的人聊天,你能学到许多书本上没有的知识,尤其是与智者聊天,可能短短几句话就能点拨你困扰多年的问题,甚至改变你的价值观。碰巧最近,我就获得了这样一次宝贵的机会。

11月13日,开放计算中国社区技术峰会(第二届OCPChinaDay)在北京举行,也吸引了来自Facebook、Intel、微软、浪潮、百度、腾讯、阿里、NVIDIA、诺基亚、中国移动、希捷、燧原科技等多家企业的多名IT工程师和数据中心从业者参与。就在这次大会上,我获得了成为“第二演播室”主持人的机会,能够近距离接触行业内的各位大咖。

这里我还是有必要解释一下OCP这个组织。OCP的全称叫做OpenComputeProject,即开放计算项目。这是早在年由Facebook联合英特尔等多家企业联合发起的开放硬件组织,其宗旨是以开源开放的方式,重构当前的数据中心硬件,发展面向下一代数据中心的服务器、存储、网络、基础设施等创新硬件。而经过多年的发展,OCP也已经成为了全球三大开放标准组织之一,影响力巨大。

IT技术发展到今天,“硬件开放+软件开源”已经成为整个行业的共识,而在这次与众位专家的交流过程中,我令我感触最深的一个词就是——解耦。我最早听到这个词的时候还是好多年前,那时候我们还在争论小型机与x86的优劣。而现在看来,一切能够提供计算力的设备都可以为我所用,无论它采用了何种形态或者何种架构,解耦的出现让我们有了更多的选择,也更深刻的印证了“计算力就是生产力”这个判断。

这同时也解释了为什么OCP能够成为当下开放数据中心的核心标准。试想一下我们曾经的诺基亚手机,许多人当年买某款手机可能就是为了其中的一项功能,比如与女朋友聊天用的QQ、与网友“开黑”用的贪吃蛇,再比如单纯的为了砸核桃。但是在智能手机出现之后,大家发现这些原本需要购买硬件才能实现的功能如今可以随意的安装在任意一款智能手机中,这就摆脱了硬件的束缚,实现了手机软硬件的“解耦”。

数据中心也是如此。相对于手机的简单应用来说,数据中心对于系统的稳定性与可靠性有极高的要求,同时对于性能的苛刻使得许多数据中心管理者必须或者不得不选择某款平台或者某款软件,这样的情形不要说在关键业务,即便是在被定义为开放的x86平台上也是屡见不鲜。也正因为如此,数据中心“解耦”也是势在必行。

OCPChinaDay大会第二演播室留影

OCP的出现正好满足了这个要求。以“开源开放”为宗旨的它彻底摒除了软硬件紧耦合的概念,组织成员采用同样的标准、共享同样的设计,这样就保证起码在组织内部就能够实现软硬件的任意调动与使用,让用户不再被任何一个方面所束缚。也正因为如此,在推出短短几年后,OCP就已经成为行业领先的标准,如今更成为了开放标准的三巨头之一。

在这次OCPChinaDay大会的访谈中,我采访了来自浪潮、英特尔、百度、阿里巴巴、希捷、燧原科技等一众大咖,大家在采访中无一例外的提到了“解耦”的价值,提到了开源开放对于整个组织乃至整个行业的推动力。这也让我对OCP这个组织有了全新的认识——一个真正为实现开源开放所努力的科技巨头结合体。

异构计算是当下IT产业发展的主流与方向。伴随着AI技术的兴起,越来越多的企业都开启了智能化的脚步,而这种变化也使得整个行业都朝着智能化的时代迈进。看看我们身边,无论是早上叫你起床的智能音响、戴在手腕的智能手表或者智能手环,出门上班时的车联网、智慧交通,办公室里的在线会议等等五一不体现出智能化的无处不在。而推动这种变革的,正是异构计算。

与传统印象中许多人以为的CPU+GPU计算不同,如今的异构计算已经呈现出了多种模式,比如大家耳熟能详的ARM、FPGA、ASIC等等架构产品同样可以加入异构计算的阵营。为了能够让成员们更多感受到异构计算的价值与魅力,OCP成立了名为OAI(OpenAcceleratorInfrastructure)的小组推进开放技术规范。

与许多人印象中的单纯计算不同,OAI小组所负责的范围更大,涵盖结构设计、温度、管理、供电、硬件安全性、可用性等诸多方面,这样就可以从源头层面保证开放与开源,从而建立一整套可兼容各类AI加速器的技术标准,解决AI计算基础设施建设中硬件分裂化和生态割裂化的重大挑战。

“芯片的发展已经进行到了多种形态的新阶段,未来的AI计算将更多以一种解耦的、池化的方式来实现”,浪潮信息主任系统架构师王磊在访谈中表示。在王磊看来,即便是在不同的异构芯片之间,这种解耦依然是存在的。通过将计算力释放形成池化,使得用户不必再纠结于采用何种计算形态或者计算设备,只要在计算尺内选择对应的计算力即可,真正实现了“哪里不会点哪里”。

百度系统架构师黎世勇

百度系统架构师黎世勇则从池化的角度解答了“解耦”的问题,在他看来解耦更多需要底层架构与上层应用的结合,有类似于OAI这样的组织推动,使得包括百度、浪潮等成员能够在统一的标准和方向下进行。而针对不同的计算、存储、互连等需求,解耦之后的资源池也可以根据不同业务的场景需要,提供不同的服务能力。“池化的架构的情况下,我可以局部去优化,针对不同的业务,去分别优化这些子系统”。

百度超级AI计算平台X-MAN4.0

这也是百度在开放计算设计上的终极理念。熟悉百度的朋友可能知道,百度有一款名为X-MAN的计算设备,面向的就是顶尖AI计算。而经过不断的迭代与优化,如今已经升级到了X-MAN4.0版本,在这一代中丰富的IO设计能带来灵活的扩展性,释放出极大的计算性能。同时结合百度自研与生态伙伴的芯片,下一代X-MAN也已积极开展OAI相关的设计。

在黎世勇看来,OAI标准赋予了X-MAN更高的精神内涵,使其不仅仅作为一款AI服务器出现,而是更多成为了践行OAI标准的先行者。“百度目前的方向就是积极推动,OAI(开放计算模型)等类似生态,更好的让大家都在这个生态中发挥异构计算的作用和价值,与此同时百度也希望将自己的标准带入并贡献于OCP组织中,形成合力”。

燧原科技成立于年3月,专注人工智能领域云端算力平台,也是目前业内炙手可热的AI新秀。在本次OCPChinaDay上,燧原科技以OCP社区成员和OAIJDA成员的身份亮相,并介绍了基于OAMspec1.0的云燧T11人工智能训练加速模组。

燧原科技系统架构和设计总监江斌

异构计算这个话题对于燧原科技系统架构和设计总监江斌来说可谓是深有感悟。作为OCP组织的新晋者,他更看重组织成员间的协作与开放包容。“作为OAM的提供商,燧原科技可以促进整个OCP的互补,我们也有很多创新的地方可以开放给OCP,让人工智能以及数据中心在异构计算层面可以获得更快的发展”。

正因为秉承了开放、开源的基因,OCP的成员之间更多呈现出的不是竞争,而是相互之间的协作与交流。也同样是在此次大户上,燧原科技与浪潮携手发布了全新一代的OAI开放标准AI计算系统——浪潮MX1。这款设备搭载国内首款OAM训练模组云燧T11,具备了强大的AI计算能力,更能够引领高性能、高能效开放计算的发展。

对于数据中心内部来说,异构计算已经成为了未来发展的趋势,特别是伴随着AI应用的发展而进一步高歌猛进。但是如果我们将目光放在整个IT产业链来说,最火爆的话题莫过于“云边端”协同发展,在边缘计算出现之后,越来越多的人也将目标从原有的数据中心分散到如何实现边缘计算与数据中心的协同,而在这个问题上,还是绕不开我们刚刚提到的两个字——解耦。

英特尔数据中心平台事业部的高级平台架构师张骏(右一)

与之前我们谈到的软硬件解耦不同,在谈云边协同的时候,我们更



转载请注明地址:http://www.nuojiyaa.com/njyls/11536.html