新闻
您现在的位置:首页 > 新闻 > Cerebras Systems在Argonne国家实验室部署了“世界上最快的AI计算机”
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

Cerebras Systems在Argonne国家实验室部署了“世界上最快的AI计算机”

发布时间:2019/11/21 新闻 浏览次数:782

 
Cerebras Systems推出了CS-1,它被称为世界上最快的人工智能计算机,并且肯定是最大胆的尝试来创建更好的超级计算机之一。而且它已经获得了美国联邦政府超级计算计划的认可。
CS-1具有整个晶片而不是芯片。通常,硅芯片是从经过处理的12英寸硅晶片上雕刻出来的,一个晶片上有数百个芯片。但是,总部位于加利福尼亚州的Cerebras的Los Altos设计了一种计算机,该计算机具有许多小核心,并且在整个晶圆上都可以重复使用。那个晶片被锯成一个大的矩形,但是上面有很多芯片。 CS-1在今天的Supercomputing 2019活动中宣布。
总而言之,一个晶片上所有核心的晶体管总数超过1.2万亿,而一个典型的处理器可能在一个芯片上拥有100亿个晶体管。但是CS-1超级计算机走得更远:它在一个系统中拥有这些Cerebras晶片之一-每个都称为晶片级引擎。这是一个庞然大物。
Cerebras已向美国能源部的阿贡国家实验室(Argonne National Laboratory)提供了第一架CS-1,这是世界上最大的超级计算机买家之一。它将使用40万个内核来处理大量的AI计算问题,例如研究抗癌药物的相互作用。
该公司表示,通过为AI工作而优化的每个组件,CS-1可以在更小的空间和更低的功耗下提供更高的计算性能。 “该系统本身高达15个机架,” Cerebras首席执行官Andrew Feldman说。 “那是26英寸高。”
8月,Cerebras交付了Wafer Scale Engine(WSE),这是目前唯一的万亿晶体管晶圆级处理器。 Cerebras WSE的体积是最大的GPU的56.7倍,并且包含的​​计算内核比最大的GPU多78倍,为AI处理器树立了新的标准。
CS-1系统设计和Cerebras软件平台相结合,可从WSE上的40万个计算内核和18 GB高性能片上存储器中提取每盎司的处理能力。
在AI计算中,芯片尺寸至关重要。大筹码可以更快地处理信息,从而在更短的时间内产生答案。但是,出色的处理器性能是必要的,但还不够。 WSE之类的高级处理器必须与专用的硬件系统和软件结合在一起才能达到创纪录的性能。因此,Cerebras CS-1系统和Cerebras软件平台的各个方面都为加速AI计算而设计。
费尔德曼在接受VentureBeat采访时说:“这是可以切割出300毫米晶圆的最大正方形。” “即使我们拥有最大,最快的芯片,但我们知道出色的处理器不一定足以提供出色的性能。如果要提供真正快速的性能,则需要构建一个系统。而且,您无法将法拉利发动机放入大众汽车中来获得法拉利性能。如果您想获得1,000倍的性能提升,您要做的就是消除瓶颈。”
Cerebras表示,这是唯一一家承担从头开始构建专用系统的宏伟任务的公司。通过优化芯片设计,系统设计和软件的各个方面,CS-1提供了空前的性能。使用CS-1,如今只需数分钟即可完成如今需要数月的AI工作,而现在只需数秒即可完成数周的工作。
CS-1不仅从根本上减少了训练时间,而且为推理延迟设定了新的标准。对于深度神经网络,单个图像分类可以在几微秒内完成,比其他解决方案快数千倍。
“我们是由40万个专用AI处理器组成的AI机器,” Feldman说。
在阿贡国家实验室,CS-1被用于加速癌症研究中的神经网络,以更好地了解黑洞的性质,并帮助了解和治疗颅脑外伤。 CS-1的绝对性能使其成为解决AI中最大,最复杂问题的出色解决方案。
Tirias Research的首席分析师Kevin Krewell在一份声明中说:“ CS-1是一个单一系统,可以提供比最大的集群更高的性能,而没有集群设置和管理的开销。”通过在单个系统中交付如此多的计算,CS-1不仅可以缩短培训时间,而且可以减少部署时间。总体而言,CS-1可以大大减少总体答复时间,这是提高AI研究生产率的关键指标。”
与GPU集群可能需要数周或数月的设置,需要对现有模型进行大量修改,消耗数十个数据中心机架以及需要复杂的专有InfiniBand进行集群不同,CS-1的建立需要几分钟的时间。
用户只需将基于标准的100Gb以太网链路插入交换机,即可以创纪录的速度启动培训模型。
CS-1易于部署且易于使用。 Cerebras的使命不仅是加快培训时间,而且要缩短研究人员获得新见解所需的端到端时间-从模型定义到培训再到调试再到部署。
Cerebras软件平台旨在允许机器学习(ML)研究人员利用CS-1性能,而无需更改其现有工作流程。用户可以使用行业标准的ML框架(例如TensorFlow和PyTorch)为CS-1定义模型。
强大的图形编译器可自动将这些模型转换为CS-1的优化可执行文件,而丰富的工具集可实现直观的模型调试和性能分析。
费尔德曼说:“我们使用开源,并使其尽可能容易地进行编程。”
该系统既不是基于x86也不基于Linux。
“计算核心是由我们为其自定义核心设计的,” Feldman说。 “软件堆栈可以在网络中任何地方的主机上运行。因此,发生的事情是,您采用了TensorFlow模型,而我们的软件到达了一个容器中。您将软件指向我们的容器,我们的容器抓取您的软件,然后对其进行编译,并生成一个配置文件,并将其发送到我们的机器。”
Cerebras软件平台包含四个主要元素:
与常见的ML框架集成,例如TensorFlow和PyTorch
优化的脑图编辑器(CGC)
灵活的高性能内核库和内核API
用于调试,自省和性能分析的开发工具
脑图编译器
大脑图谱编译器(CGC)将用户指定的神经网络作为输入。为了获得最大的工作流程熟悉性和灵活性,研究人员可以使用现有的ML框架和以其他通用语言(例如C和Python)编写的结构良好的图形算法来为CS-1编程。
通过从源语言提取静态图形表示并将其转换为Cerebras线性代数中间表示(CLAIR),CGC开始将深度学习网络转换为优化的可执行文件。随着ML框架快速发展以适应该领域的需求,这种一致的输入抽象使CGC可以快速支持新的框架和功能,而无需更改基础编译器。
利用对独特WSE体系结构的了解,CGC然后将计算和内存资源分配给图的每个部分,然后将它们映射到计算数组。最后,将每个网络独有的通信路径配置到结构上。
由于WSE的规模巨大,因此神经网络中的每一层都可以立即放置在结构上,并同时并行运行。这种对整个模型进行加速的方法是WSE独有的-没有其他设备具有足够的片上存储器来一次将所有层都保存在单个芯片上,或者只有高带宽和低延迟的通信优势才能实现。硅。
最终结果是CS-1可执行文件,可针对每个神经网络的独特需求进行定制,从而可以最大限度地利用所有400,000个计算内核和18GB片上SRAM来加速深度学习应用程序。
CGC与流行的ML框架的集成意味着开箱即用地支持流行的工具,例如TensorBoard。此外,Cerebras还提供了一套功能齐全的调试和性能分析工具,以使更深入的自省和开发变得容易。
对于ML从业人员,Cerebras提供了一个调试套件,该套件可让您直观地了解编译和培训运行的每个步骤。
对于需要更大灵活性和自定义功能的高级开发人员,Cerebras提供了基于LLVM的内核API和C / C ++编译器,允许用户为CGC编程自定义内核。结合广泛的硬件文档,示例内核和内核开发最佳实践,Cerebras为用户提供了创建新内核以满足独特研究需求所需的工具。
Cerebras WSE是有史以来最大的芯片(如果您可以称晶圆为一个芯片),并且是业界唯一的万亿晶体管处理器。与历史上的任何芯片相比,它包含更多的内核,更多的本地内存和更多的结构带宽。
这样可以以较低的延迟和更少的能量实现快速,灵活的计算。 WSE为46255平方毫米,是最大GPU的56倍。此外,WSE拥有400,000个内核,18GB片上SRAM,每秒9.6 PB的存储带宽和每秒100 PB的互连带宽,从而使WSE的计算内核增加了78倍;高速3,000倍片上存储器; 10,000倍以上的内存带宽;并且其架构带宽是其GPU竞争对手的33,000倍。
费尔德曼(Feldman)承认,像台积电这样的芯片制造商很难制造没有任何缺陷的晶圆。这就是他的团队在系统中内置冗余的原因。一个晶片上有多达6,000个备用核,可容纳400,000多个核。费尔德曼说,如果制造中的杂质弄乱了其中一个核心,那么大脑可以绕开它,并用其中一个替换它。
费尔德曼(Feldman)认为,该系统将是Nvidia竞争对手GPU的激烈竞争。
费尔德曼说:“如果您想带孩子参加足球练习,那么福特F150就是一种可怕的车辆。” “因此,我们要做的是建造一台机器,该机器在各个方面都针对人工智能工作进行了优化。我们做得很好,这就是AI工作。您可以以相同的方式来考虑GPU。我的意思是,GPU是一台非凡的机器。它可以制作出精美的图形。它具有所有的AI功能。图形的作用令人难以置信-但它是为图形设计的,不是为深度学习设计的,我们在各个方面的系统都针对深度学习进行了调整和优化。”
Argonne实验室是一个多学科的科学与工程研究中心。 CS-1将使全球最大的超级计算机站点比现有的AI加速器实现100到1,000倍的改进。
通过将超级计算能力与CS-1的AI处理能力相结合,Argonne现在可以加快深度学习模型的研发,以解决现有系统无法实现的科学问题。
Argonne计算,环境和生命科学副实验室主任Rick Stevens表示:“我们与Cerebras合作已有两年多了,非常高兴将新的AI系统引入Argonne。” “通过部署CS-1,我们大大缩短了整个神经网络的培训时间,使我们的研究人员能够大大提高工作效率,从而在癌症,颅脑外伤以及当今和当今社会重要的许多其他领域的深度学习研究中取得长足进步未来的几年。”
称为深度学习的AI子集允许计算机网络从大量非结构化数据中学习。但是,深度学习模型需要大量的计算能力,并且正在推动当前计算机系统可以处理的极限—直到现在,随着Cerebras CS-1的推出。
Argonne部署了CS-1以增强科学AI模型。它的第一个应用领域是癌症药物反应预测,该项目是能源部(DoE)与美国国家癌症研究所合作的一部分,旨在利用先进的计算和AI解决癌症研究中的巨大挑战问题。 Cerebras CS-1的加入为扩展Argonne在高级计算领域的主要计划提供了支持,这也将利用有望在2021年实现的Aurora百亿亿次级系统的AI功能。
Argonne部署CS-1是DoE和Cerebras Systems之间的多实验室合作伙伴关系的第一部分。 Cerebras还与美国能源部的劳伦斯·利弗莫尔国家实验室(Lawrence Livermore National Laboratory)合作,通过CS-1的机器学习功能来加速其AI计划并进一步增强其仿真优势。
美国能源部人工智能与技术部副部长​​迪米特里·库斯涅佐夫(Dimitri Kusnezov)在一份声明中说:“在能源部,公私合作关系是加速美国AI研究的重要组成部分。” “我们期待与Cerebras建立长期而富有成效的合作伙伴关系,这将有助于定义下一代AI技术并改变DOE运营,业务和使命的格局。”
不难看出为何费尔德曼(Feldman)聘请了一大批员工并筹集了数亿美元。 (他不会说多少。)
费尔德曼说:“我认为我们的职业生涯比我们提前了五年。” “我认为一小群人可以改变世界。我认为这确实是企业家的口头禅。而且您不需要大型公司。您不需要数十亿美元,只需要一小撮非凡的工程师就能真正改变世界。我们相信每一天。”

姓 名:
邮箱
留 言: