公有云巨头争夺HPC霸权

每个NDv2节点都有一个100 Gb /秒的ConnectX-5网络接口卡,可以连接到100 Gb /秒的EDR InfiniBand互连,这显然是从Mellanox Technology那里获得的,Nvidia正在收购该公司,Nvidia已经出售了InfiniBand和多年来,以太网已切换到Microsoft的Azure公共云中。

Microsoft Azure能够将实际的Cray XC系列超级计算机和CS Storm集群放入公共云已有两年多了,目前尚不清楚有多少公司委托Cray(现在是Hewlett Packard Enterprise的一部分)来这样做。想要在云上运行HPC和AI工作负载(尤其是GPU加速的工作负载)的客户更有可能将现有实例群集在一起以创建虚拟超级计算机。

但是,微软非常渴望在Azure上建立HPC业务,因此通过在Azure上放置HPC实例来建立差异,从而在外观上和感觉上都像客户可以在自己的数据中心中部署的群集,从而消除了差异。

新的Azure实例已在丹佛的SC19超级计算机会议上宣布,本周将在技术预览中进行演示,它实际上是Microsoft放置在选定区域中的100节点群集的单个节点。(目前尚不清楚,但我们已经提出了要求。)那个名为NDv2的HPC实例显然适合于运行机器学习训练工作负载以及GPU加速工作负载。NDv2基于Tesla“ Volta” V100 GPU加速器的单个HGX托盘,它们全部捆绑在一起以在NVLink上共享数据。(可以认为这是Nvidia DGX-2系统中GPU复杂度的一半,其中抽出了NVSwitch并在这些GPU之间引导NVLink,以便它们可以彼此寻址32 GB HBM2内存块。)此GPU计算中心与基于一对20核“ Skylake” Xeon SP-6168 Platinum处理器的主机CPU系统链接,该处理器运行在2.7 GHz频率下,并安装在Microsoft自己开发的“ Project Olympus”系统中。服务器节点具有672 GB的主内存,这表明某个地方有一个虚拟机管理程序会消耗一些内存。我们猜测是96 GB,并且该计算机在其24个内存插槽中装有64 GB的存储棒。

每个NDv2节点都有一个100 Gb /秒的ConnectX-5网络接口卡,可以连接到100 Gb /秒的EDR InfiniBand互连,这显然是从Mellanox Technology那里获得的,Nvidia正在收购该公司,Nvidia已经出售了InfiniBand和多年来,以太网已切换到Microsoft的Azure公共云中。尚不清楚Microsoft正在使用哪种拓扑将NDv2实例彼此链接,但是我们会猜测,它是HPC和AI工作负载中通常使用的胖树拓扑,而不是超扩展程序和云构建者通常使用的Clos拓扑。 。Nvidia副总裁兼加速计算总经理Ian Buck告诉The Next PlatformNDv2中的机器将以8个服务器的块的形式出售,总共64个GPU,这意味着随着客户扩展NDv2集群,他们正在购买胖树的相邻分支。知道这一点,您可能会认为NDv2的高端Pod是96个节点,带有768个GPU,但是我们被告知实际上是100个节点,总共有800个GPU。去搞清楚。我们的钱说实际上是前者,并且在通讯树中有人收集了数据。

这些系统显然是在运行某些Linux变体的情况下设置的(看起来是CentOS或Ubuntu Server是默认版本,但Red Hat Enterprise Linux和SUSE Linux Enterprise Server一样是一个选项),并且可以通过以下方式获得完整的Nvidia软件堆栈: Nvidia NGC云或Azure市场。微软表示已经安装了Mellanox OFED网络驱动程序(就像有任何其他选择一样),并且支持所有MPI类型和版本。显然,某处有一个虚拟机管理程序,大概是Hyper-V,Microsoft用来构建Azure云。Hyper-V运行时,没有任何性能下降的迹象(如果有的话)。老实说,我们很惊讶这不是一个裸机。

微软尚未正式透露价格,但我们在大街上听说它将达到每台NDv2实例每小时26.44美元。这一定是要设置某种记录,但是要看一下所承受的所有GPU性能和内存带宽。而且,即使客户没有充分利用InfiniBand网络的成本,也必须为此付费。

有趣的是,我们可以花掉这笔钱。如果没有任何数据存储服务,将一个96节点的群集运行满三年将花费6,675万美元,并且该机器将具有5.76 petaflops的总峰值双精度性能。DGX-1V具有八个Tesla V100和两个Xeon处理器,大致类似于Microsoft为NDv2实例组装的节点,当前价格为119,000美元(低于两年前发布时的169,000美元) 。因此,其中96台将花费1140万美元,其中包括相当数量的本地闪存和四倍于现成的网络带宽。该数字不包括电源,冷却,房地产,系统管理或InfiniBand的交换和布线成本,但是如果您将其倒退工作并分四年摊销,那么仅硬件就具有相同的5.76 petaflops的性能,对于DGX-1节点而言,每小时的费用为4.53美元,大致相似。每个人都应自行承担构建一个96节点群集的成本,并了解如何比较它们的负担。或者,相当于ODM和OEM的成本,甚至比Nvidia还要便宜。微软只是为云上的HPC设置了上限。

这里要考虑的另一件事是利用率。出于争论的考虑,假设一个内部DGX-1群集每小时仅需花费10美元,仅用于计算和联网,而无需来自Pure Storage或DataDirect Networks的本地闪存存储阵列,也无需使用Excelero,Vast Data或Lightbits自产实验室软件定义的存储。如果您拥有自己的混合CPU-GPU群集,并且仅在50%的时间内使用它,那么您实际上每小时要支付20美元才能拥有该群集。因此,云与本地之间的差距很快就消除了。但是,您也可以使用ODM或OEM机器来降低成本-浪潮,Supermicro,戴尔和惠普企业将使您看起来像NDv2节点,而价格却要比Nvidia便宜得多。大概少40%。这样可以将总成本降低一些,但可能不会达到您的期望。如果您提高利用率,那么每小时的本地成本也会下降。这里清楚的是利用率是决定因素,而利用率模式可能会驱动您选择在内部部署什么容量以及在云上部署什么容量。

或者,只需管理所有这些,然后将其全部移至云中就可以了。有几名HPC和AI从业者会这样做,因为他们永远不会大规模运作。

除了NDv2实例外,微软还将预览其基于64核“罗马” Epyc 7742处理器的HBv2虚拟机,其中60个内核暴露在Hyper-V虚拟机管理程序之上。基础节点有两个这样的处理器;核心的基本速度为2.25 GHz,最高可提升至3.4 GHz。微软表示,两路HBv2节点可以双精度提供4 teraflops的总峰值浮点性能(显然是单精度的两倍),此外,它已经建立的网络可以使用MPI跨越80,000个核心Azure区域内峰值容量的5.36 petaflops。顺便说一下,这些节点使用Mellanox的200 Gb / sec HDR InfiniBand互连,这是在公共云上首次使用HDR InfiniBand。HBv2实例具有480 GB的可供应用程序使用的主内存,并在两个插槽之间提供350 GB /秒的内存带宽。每小时收费3.96美元。按照Microsoft在HBv2实例上为其HDR网络提供的全部MPI可扩展性限制(我们认为是672个节点),每小时仅需花费2,661美元,即可使用按需实例租用5.36 petaflops云;预留实例尚不可用,这将大大降低价格。

微软希望在Azure 上拥有数据启示的四个主要功能,就像英特尔想要拥有一样,而AMD正在通过合作伙伴关系和自己的芯片来做。(这是CPU,GPU,FPGA和NNP。)为此,微软正在预览其NDv3实例,该实例将具有与一对具有768 GB内存和八个 Skylake Xeon SP-8168 Platinum处理器的基本Olympus服务器节点。Graphcore加速器,每个处理器都带有一对IPU芯片,并提供1,216个IPU磁贴,7,296个线程和300 MB的处理器内存以及惊人的45 TB / sec的内存带宽。Graphcore处理器上的16个IPU核心库组通过专有的IPU-Exchange交叉开关连接,其总带宽为8 TB / sec,并且在NDv3实例中,使用专有的IPU链接将多达八个Graphcore芯片粘合在一起互连。(这大致类似于带有GPU的NVLink。Graphcore芯片通过PCI-Express 4.0 x16插槽连接到CPU结构中。这些实例配备了Graphcore的Poplar软件开发套件。

此外,微软承诺将在Azure上提供NP系列实例,该实例将公开Xilinx的一到四个Alveo U250 FPGA加速器。该服务器将由与上述其他实例相同的基本服务器实例托管,并将预装Xilinx的SDAccel 2019.1运行时环境。

微软尚未发布Graphcore NDv3系列和Xilinx U250 NP系列实例的价格。

在已经出售其F1 FPGA实例并且尚未透露任何NNP实例计划的AWS上,SC19的目的是谈论其新的C5a和C5ad实例,这些实例将以裸机形式与192个虚拟实例一起提供。 CPU(vCPU,是跨激活内核的线程)和384 GB内存。C5a使用网络存储,而C5ad具有7.6 TB的本地NVM-Express闪存存储。对于虚拟化实例,CPU计算的比例将分成八个不同的大小,并且Nitro SmartNIC将处理绝大多数KVM虚拟机管理程序功能以及网络,存储和加速器虚拟化,从而释放那些Skylake核心来做真正的主持工作。在裸机模式下,C5a和C5ad Rome Epyc实例将有一个100 Gb /秒的以太网接口连接到网络,弹性结构适配器将根据CPU计算上下缩放比例。没有透露这些AWS上的Rome CPU实例的价格。

本文来自信息化观察者网,转载请注明出处。

 

扫码加入本站知识星球小密圈,获取1万+行业最新精选报告。

注:本站文章除标明原创外,均来自网友投稿及分享,如有侵权请联系dongxizhiku@163.com删除。

         

发表评论