听老黄谈可组合可加速可编程的未来数据 - 潍坊市

TUhjnbcbe - 2021/7/23 0:22:00

白癜风应用什么药 https://m-mip.39.net/fk/mipso_5661850.html
来源：内容由「网络交换FPGA」编译自「nextplatform」，作者：TimothyPrickettMorgan，谢谢。当世界上做最快计算设备的公司收购了做最快网络传输设备的公司，会发生什么呢？我们一起来听听老*怎么说。英伟达去年3月宣布以69亿美元的价格收购Mellanox的交易终于在全球所有监管机构中脱颖而出，并于今天完成。两家公司的合并带来了许多可能性，在过去的一年中，我们在TheNextPlatform的各处进行了探索。我们都有想法，但最重要的是Nvidia联合创始人兼首席执行官*仁勋（JensenHuang）构思和思考的想法。当然，对于Huang来说，这是忙碌的一天，但是他花了一些时间与我们聊天，讨论Nvidia和Mellanox将如何帮助创建未来的系统架构。这是两个在段落中思考并且热爱系统的人之间的漫长对话，因此请喝杯咖啡。蒂莫西·普里基特·摩根（TimothyPrickettMorgan）：自去年3月以来，我一直非常渴望与您进行对话。很明显，年有人要购买Mellanox。可能是AMD，Intel或IBM。我个人很高兴是Nvidia。我认为，网络业务在合并到英特尔时一直存在困难-这是有礼貌的说法-但BarefootNetworks看起来可能有所不同。我很久以前就提出一个案例，IBM应该做的是将OpenPower联盟整合到一家公司中，并将其全部粘合在一起，以形成一个真正强大的单一竞争对手来抵消市场上的英特尔。那显然没有发生。但是我现在要弄清楚的是：您拥有Mellanox，并且您以我认为非常优惠的价格得到了它。事实证明，它是一家比我们以前见过的要强大得多的公司，这本身就很有趣。而且，您可以部署各种非常好的技术。那么，什么使Mellanox真正适合Nvidia？*仁勋：我们知道的第一件事就是遵守了阿姆达尔定律。如您所知，我们要做的一件事就是加速计算。因此，我们遇到了一个问题，并将其从软件重构到系统再到芯片再到互连。结果，我们将应用程序加快了几个数量级。当我们刚开始这样做时，这几乎是不合逻辑的，某种程度上，表上剩下的性能足以使一家公司有时将应用程序加速几个数量级，在某些情况下，我们提供的速度是10倍，20倍，速度提高了30倍，需要花费数周的时间才能运行，并将其减少到数小时。人们花了十年半的时间才意识到，这种计算模型对难以解决且将长期难以解决的问题具有极大的意义。因此，我们创建了加速计算，虽然花费了很长时间，但是已经超过了临界点。现在，当您遇到一个跨越整个数据中心的大规模问题时，它就无法容纳在任何一台计算机中，并且将其计算部分加速了几个数量级，那么问题将变成其他所有问题。然后我们开始逐步解决所有其他问题。但是，您将永远无法解决的一件事情就是将多台计算机连接在一起。因为我们总是会遇到比一台计算机更大的问题。当问题大于一台计算机时，网络便成为问题，并且需要非常快。因此，这就是我们与Mellanox的关系可以追溯到十年之前，并且我们与他们合作了很长时间的原因。网络问题比仅拥有越来越快的网络要复杂得多。这样做的原因是由于要在此分布式数据中心规模的计算机上传输，同步，收集和减少数据量，并且结构本身的计算很复杂。TPM：这么说是指要嵌入到交换机中的计算，还是要使用SmartNIC？我想谈一谈，因为在我看来，SmartNIC和Mellanox所开发的想法可能比明年我们能获得多少带宽更重要。从不属于该处理器的CPU或GPU上移除东西，对于提高整个系统的计算效率至关重要。*仁勋：是的。因此，例如，您永远不想复制相同的数据两次。理想情况下，您根本不会移动数据。而且，如果要移动数据，最好在压缩之前先压缩它，然后以某种方式缩小它。因此，信息的改组，关于要改组哪些信息，何时改组它以及以什么格式进行改组以及在移动它之前预先进行了什么计算的情报–所有这些都是网络上的计算。我们做一些。我们进行了一些操作，称为NCCL，这是一项突破，使我们能够将RDMA直接用于GPU内存，并使用我们的GPU在网络上进行汇总和精简。它们在网络交换机端执行相同的操作。因此，要点是，当您移动数据时，不仅仅是简单的蛮力地移动大量数据，因为它是太多的数据。而且，当您在大型计算机上移动大量数据时，您想对此保持精明。因此，将其称为SmartNIC的想法非常棒，因为您可以预处理数据，压缩数据或完全避免进行数据处理。将智能放在网络计算--以及网络中的处理--对性能至关重要。而这不仅仅是数据速率的问题。正是如此。因为数据率只能让你走得更远，而且它的移动速度只有摩尔定律--如果那样的话。你想欺骗物理定律，你不想面对它们。TPM：我想我的意思是，对于SmartNIC进行一些GPU卸载工作同样重要。我可以说明一下，如果您保留所有这些网络功能，那么在购买X86处理器时为什么要牺牲三分之一的内核。GPU本身必须进行一些与网络相关的工作，或者您可以在SmartNIC上进行便宜得多的预处理，减轻GPU的负担，并通过它完成更多工作。我不知道这在逻辑上是否正确–这是我想让我的大脑爆炸的事情之一。*仁勋：做到这一点并不是超级逻辑。但是您所说的其他所有内容都是正确的。我的意思是，事实是，我们不想在CPU上运行网络软件–这没有任何意义。很多数据移动是在CPU上完成的。这没有道理。您必须将其卸载到SmartNIC就是数据处理单元或DPU。如今，许多数据中心都保证了传输的每个数据包的安全，因为您希望减少数据中心的攻击面，直到它基本上成为每个事务为止。您无法在CPU上执行此操作。因此，您必须移走网络协议栈。您要移出安全性协议栈，并且要移出数据处理和数据移动协议栈。TPM：在某些情况下，Mellanox正在演示存储，例如，您不需要托管我们所知道的处理器。而且非常精简。他们使用NIC中的“Bluefield”Arm芯片，然后将Ceph或其他东西放在上面，将它们群集在一起，在Fabrics上拥有NVM-Express，并且bam，您有一个分布式存储系统，而且我们没有主机它。没有X86处理器。我可以想象一个世界，在这种世界中，您可以使用这些Bluefield主机为它们做一些整理工作，然后进行分解，然后组成可组合的GPU计算。GPU可能需要一个主机，但是您不一定需要一台功能齐全的服务器。*仁勋：洋葱，芹菜和胡萝卜（您知道计算汤的三位一体）是CPU，GPU和DPU。这三个处理器是计算的基础。而且，如果每个处理器中都装有世界一流的处理器，那么您将拥有一台非常出色的计算机。而您要做的就是在正确的处理器上完成正确的工作。有CPU的地方。实际上，需要三种类型的处理器。首先是CPU。CPU是所有其他地方都无法容纳的东西的全部。拥有它是很好的。如果我不得不下注，那么我总是希望拥有一个CPU。这样做的原因是因为我会想到一个需要CPU的想法，并且这个想法永远存在。但是，一旦确定了要运行的算法，对于Mellanox，当然，数据在计算机之间移动，在存储之间移动–应当通过深度数据包检查来保护穿越网络的位和字节，并且所有这些处理都应在SmartNIC，最终将成为DPU。DPU将是可编程的，它将完成您和我已经讨论过的所有处理，并且它将在传输数据时将数据的移动工作转移到对数据的细化处理中，并使其永不中断。麻烦CPU和GPU，并避免冗余的数据副本。那就是未来的架构。这就是我们对Mellanox如此兴奋的原因。而且，Mellanox和Nvidia的结合是最有意义的，因为我们比其他任何人都将计算推向极限，并且比其他任何人都更深刻，更快地揭示了计算机其他所有元素的弱点。如果我们能够解决问题，我们将为所有人解决。TPM：是的，我明白了。我很少见过像DGX-2这样的服务器，其中有八个Gb/secNIC卡。很快，您将能够将其速度提高一倍，达到Gb/秒，并且从现在开始又可以将其再次提高一倍，达到Gb/秒。*仁勋：即使如此，用于减少内存副本，压缩内存，在完成任何传输之前对其进行预处理的算法的数量也是极端的。在此之上完成的大量软件，我们称为整个层MagnumI/O。MagnumI/O包括NCCL，它在我们的GPU上包括RDMA，在NIC上包括RDMA–在GPU方面，我们称之为NCCL，在交换机方面，他们称之为UCX，以及所有这些软件，以实现高效的复制和高效的传输，数据复制确实是非常复杂的东西，它在我们称为MagnumI/O的层中。因此，硅之上的软件数量确实非常复杂。这就是为什么我们在一起很有意义的原因之一。我认为，第一个战略原因当然是战略原因，是我们现在已经合并了两家专注于高性能计算的公司的力量。我们致力于解决两个最大的问题。一种是计算，另一种是联网。因此，如果可以协调解决这两个问题，我们可以大大提高计算能力。第二个原因-您刚才提到了分解和组合的想法-趋势正在迅速发展。您知道过去二十年来最强大的计算机革命是云计算。而使之成为可能的是使用超融合服务器进行的简单扩展，将所有内容都整合到一个服务器中。您需要更多存储空间，请购买另一台服务器。如果您需要更多的CPU或内存，请购买另一台服务器。那很容易管理，很容易编程，很容易扩展。这就开始了云计算革命。过去十年来发生的事情，尤其现在正在加速，是人工智能的出现和数据的爆炸性增长。超伸缩的缩放方式变得效率很低，因此我们想到了分解和可组合性的想法。如果不是Mellanox与RDMA和存储供应商所做的工作，那么分类实际上是一个不切实际的概念。分解和可组合性的逻辑完美地适用于GPU。因此，当云数据中心开始向AI迈进时，他们需要拥有能够加速AI的服务器，而CPU却不适合于此。而且，与其将GPU安装到每台服务器中，而不是等到数据中心被新的超融合基础架构升级（机器中装有GPU），他们还可以将GPU分解并将GPU服务器放置在任何地方，以及将存储服务器放置在任何地方，并且他们可以使用Kubernetes协调整个事情。因此，在这个微服务和容器的新世界中，我们现在要按照对工作负载非常有意义的形式和大小，由分解的计算元素组成您的数据中心。当您考虑到这一点时，正是这种观念使之成为可能。因此，Mellanox将其从中淘汰了。它们可以进行分类，因此东西向的流量变得非常高。但是数据中心的组成变得更加容易，利用率提高了，吞吐量也提高了，因为现在您可以在任意位置放置GPU之类的加速器。因此，所有这些都组合在一起成为了可分解，可组合和可加速的这种新型数据中心。TPM：我认为他们只是不想在任何地方搁浅产能。我就是反对的。而且，您永远都无法将CPU容量调整为GPU容量调整为FPGA容量-混合工作流中所需的任何东西，以匹配在整个数据中心运行的应用程序。而且这应该可以随时更改，而我们真的还没有。他们在分类方面做得很好。我要说的是，超大规模的可组合性并不是凡人都能玩的东西。我认为他们还不擅长。否则，我们所有人都可以使用公共云上想要的任何组件来创建实例类型，而我们做不到。这就是为什么有实例类型的原因。*仁勋：还有一些遗漏的地方，我急于向您展示我们正在构建的一些技术，这些技术可以简化编写过程。但我要说的是：这些碎片在一起。我认为，Kubernetes构成分解数据中心的基本功能已经存在。网络正在升级。这就是Mellanox表现出色的原因之一-人们正在以最快的速度升级到25Gbps。他们花了很长时间才能超越10Gbps。但是人们现在正以超快的速度前进，其原因是由于这些组成的，精心策划的微服务和容器化应用程序，确实吞噬了许多东西向流量。而且，一旦您升级了交换机并升级了NIC，每个数据中心的吞吐量就会真正提高。而且，额外的好处是，如果您的东西方流量如此之高，那么您可以与位于数据中心中任意位置的GPU服务器联系，并将其纳入您的组合中。一旦将其纳入您的构图中，您的深度学习性能就会发挥作用。因此，必须发生两件事。我们必须更快地升级数据中心，以允许更多的东西向流量，然后将所有Nvidia加速器放置在可用于所有工作负载的数据中心的任何位置。英伟达必须使这些AI加速器变得更好，更擅长在训练和推理之间进行转换，扩展和扩展。它们只是必须更具替代性。如果它们具有更多的可替代性，那么任何工作量都可以使用它们。今天，我们的VoltaGPU确实是为扩展培训而设计的，而我们的TuringGPU是为横向推断而设计的。它们在AI革命的开始就很好。但是，如果您希望数据中心是完全可编程的，那么那里的处理器（包括GPU）确实希望更加灵活。TPM：您如何做到这一点？您如何通过皮下的NVSwitch调和以使内存原子可寻址互连–本质上是NUMAGPU服务器，我的意思是，它是共享内存，共享计算，将其作为一个单元来寻址。您可以在InfiniBand或以太网结构上进行扩展以给出原子吗？你能做到吗？还是由于延迟和其他问题而使它看上去愚蠢？换句话说，您是否总是需要像NVSwitch这样的东西来扩展GPU计算，然后又需要InfiniBand或以太网之类的东西来扩展它，还是同时需要两者？您自己的Saturn-V超级计算机可以同时执行这两个操作，但是“Summit”和“Sierra”都不会，因为在向美国能源部提出投标之时，NVSwitch不可用。*仁勋：那是挑战。向上扩展计算机的架构方式使其无法高效扩展。TPM：但是它更容易编程，因此您可以从中受益。*仁勋：我们想找到一个解决方案。而且，当然，解决方案永远不会同时发生。您没有同时扩展和扩展的虚拟化系统。TPM：这些年来我从未见过。我见过有人这么说，但是底部总是会出现星号–哦，等等，这仅对消息传递应用程序有用，不要在此上运行数据库和SAP应用程序。例如，基于软件的NUMA通常有很多限制。我觉得同样的问题也适用于我们在这里谈论的话题。*仁勋：如果我们在某种程度上限制问题，并且我们不认为它是多租户的，而是认为它是可配置的计算机，则可能可以创建一些东西。我确实认为这是一个可解决的问题。与所有伟大的公司及其产品一样，Mellanox并非在所有方面都具有通用性，但是在它承诺要做的事情中很有用。而且我认为，Mellanox和Kubernetes的结合以及分解的趋势，我们可能能够结合起来，提出一种新型的数据中心，这种数据中心在当今世界可能是不错的选择，但有助于将我们带入一个更具组合性的数据中心。明天的世界。TPM：我需要问您一个家*问题。你如何运行这个东西？我的意思是，您已经与许多竞争对手建立了合作伙伴关系。这是业务的本质。Mellanox也与许多竞争对手建立了合作伙伴关系。知道没有网络就不会出售计算。您是否一臂之力？还是只是将其合并到数据中心组中？到目前为止，IBM对RedHat持放任态度，我认为这对他们是有用的。但是我也不认为在这种情况下也没有必要。您对如何整合Mellanox有什么想法？*仁勋：它将成为一个业务部门，Mellanox将成为我们的网络品牌，以色列将成为我们的网络中心。我们将在云游戏，高性能计算，超大规模，边缘，机器人技术，自动驾驶汽车中使用Mellanox技术。请记住，通过数据处理，高速数据对于与高性能计算和AI相关的所有事物均至关重要。他们在网络，存储和安全方面拥有深厚的专业知识。我的兴奋之处在于全面使用Mellanox。关于与行业合作，我们将继续保持开放。我们与Intel紧密合作，例如制造笔记本电脑。如果您看一下我们的MaxQ笔记本电脑，它很薄，但是它是一台薄型小笔记本电脑中的游戏机。而将RTX放入其中是一个技术奇迹。而且我们与AMD紧密合作。在管理级别和工程级别的关系比人们想象的更加协作。我们给他们是我们最早的样品。我们得到他们最早的样品。我们都非常善于保密。我们有与Intel合作的团队，有与AMD合作的团队，还有与其他公司合作的团队。因此，我们将继续下去。这个行业不能一劳永逸，它可以被所有人所推动。互操作性对于构建计算机非常重要。TPM：我还有最后一个问题，然后我会让你走，这与您刚才所说的精神背道而驰。有点。但是我不得不问，因为我总是很好奇。您拥有GPU计算能力，并且您基本上拥有该市场。是的，随着RadeonInstincts越来越好，您有一些竞争对手从AMD上线，谁知道IntelXe将会是什么，但它即将到来，我们将会看到。想要离开TensorCores的任何一天，您都可以放置一个矩阵数学单元，而不是GPU，并拥有外观和气味类似TPU或某些其他神经网络引擎的东西。您现在已经建立了网络。我一直希望您拥有服务器CPU的时间很长，而丹佛计划的建立让我感到很兴奋。现在，我知道您不需要它。您不必这样做。但是，如果您这样做的话，肯定会很有趣。那么，您认为Nvidia服务器CPU是否有放置空间？您已经为客户端设备制作了TegraArm芯片，因此可以制作Arm服务器处理器。您可以轻松获得ArmNeoverse路线图。您与台积电有着紧密的关系。如果您愿意并且仍然愿意接受所有其他事情，那么您真的可以做所有事情。它没有任何改变。但是问题是，您能否获得市场份额？它赚钱吗？您能比已经在那里的人做得更好吗？我甚至可以看到您正在执行RISC-V。如果您愿意，我可以看到您是第一家可靠的RISC-V服务器芯片供应商。那么，当您考虑CPU时，您会怎么看？*仁勋：这是一个很好的问题。并且有各种各样的方法可以对此进行剖析。但是，实际上，我几乎是在考虑所有问题，所以要用一个镜头来考虑。问题是：我们可以带来什么独特的贡献？我总是从这里开始。您知道，只要与他人的技术合作，我就能轻松完成，我们可以做出使世界前进的独特贡献。Nvidia的电话会议上的人们一直在听我说这句话：我们不必浪费我们不可思议的时间，资源和专业知识，也不要做别人已经拥有的事情，其唯一目的就是分享。占有份额对世界的建设性不如创造新事物。而且，我宁愿不要浪费我们的资源。如果我们处在这样一个状况中，那就是要提高我们的技术水平，唯一的方法就是成为世界级的存储器设计人员，而事实证明，Nvidia作为SRAM设计人员是世界一流的，例如，我们会做到这一点。这样做的原因是因为-人们并不知道这一点-GPU的缓存和带宽分布在GPU上的数量比任何处理器都要多。因此，我们必须学习这一点才能创建新的东西。而且我这样做没有问题或麻烦。但是总的来说，我必须问自己：我们可以做些什么新的事情？现在就Mellanox而言，它使我们能够创造世界所没有的东西。您和我已经花了很多时间谈论它。这是巨大的新架构。现在真正令人兴奋的事情不是构建另一个服务器。对于世界而言，令人兴奋的事情是服务器不再是计算单元。数据中心是计算单元。您将要编程一个数据中心，而不是服务器。TPM：好吧，这是我要退后的地方，如果我个人要您为我做一个CPU，我会说我们需要一个没有严格定义的内存和I/O的处理器。这是秘密。我最近对安培电脑公司的首席执行官雷妮·詹姆斯说了同样的话。停止在芯片上放置PCI-Express控制器，以太网控制器和内存控制器，并开始使用更通用，更快速的SerDes，就像IBM对其Power芯片所做的部分努力一样。IBM是正确的。可以办到。一旦有了这些SerDes，它们就可以成为网络接口，它们可以成为NUMA链接或扩展结构的一部分。现在，我们可以上下拨动服务器内部或服务器之间所需的内存和I/O数量，也可以使其组合。问题是我们有这种旧的CPU制造方法。它需要被打破。从字面上看，我希望CPU从内存中断开。我想要分解的主内存和分解的I/O，而不仅仅是闪存池和GPU池。我认为我们陷入了困境，这就是基础架构不可组合的原因。*仁勋：我想你的梦想会成真，好吗？这是一个伟大的梦想，也是正确的梦想。这不是一个容易实现的梦想。事实证明，构建新CPU可能不是解决方案。实际上，您和我已经在其中盘旋了。要从服务器节点及其CPU中分解出来的最重要的事情之一就是数据处理。当大量不必要的CPU内核在数据中心中运行不必要的软件时，这是一个巨大的挑战。我不知道多少，可能是30％到50％。TPM：我认为你是对的。好吧，应该从CPU上卸下30％的计算周期，并且可能还有20％的任务没有完成，因为时钟周期只是在旋转等待数据。*仁勋：沉迷于在SmartNIC上的DPU上几乎可以无限快地完成的工作。我的态度不是将服务器视为计算机，而是将CPU服务器，GPU服务器，存储服务器和可编程开关视为计算机内部的计算元素，计算机单元现在是数据中心。在那个世界上，联网至关重要。在那个世界上，我们的重点是知道如何端到端构建计算机并认识到软件堆栈的重要性，而软件堆栈的顶部和底部是如此复杂。而且我认为在以数据中心为计算机的新世界中，确实非常令人兴奋，而且我认为我们拥有必不可少的部分。TPM：我想我们都可以退休。[笑声]*仁勋：然后，您知道，我们将继续建造其他产品。TPM：是的，我不会停止工作-那是愚蠢的，那是杀死你的原因。*仁勋：但这就是我们现在看到的巨变。而我们正处于风口浪尖。运行这些数据中心的人很聪明，他们认识到当今数据中心的使用不足。我确实确实认为，当您在SmartNIC上卸载数据处理时，您可以分解聚合服务器时，可以在数据中心中的任意位置放置加速器，然后可以针对此特定工作负载组成和重新配置该数据中心时，这确实是一场革命。THEEND作者:蒂莫西·普里克特·摩根图文排版:祝钊华责任编辑:潘伟涛

我知道你

在看

哦

网络交换FPGA

觉得有用就赞一个吧

潍坊市论坛