新闻
您现在的位置:首页 > 新闻 > 研究人员报告“分布式深度学习”取得突破
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

研究人员报告“分布式深度学习”取得突破

发布时间:2019/12/11 新闻 浏览次数:730

 
在线购物者通常会用几个词来搜索他们想要的产品,但是在拥有数以百万计的产品和购物者的世界中,将那些不明确的词与合适的产品进行匹配的任务是信息检索中的最大挑战之一。
赖斯大学和亚马逊的计算机科学家采用了利用压缩传感功能的分而治之的方法,表明他们可以节省训练计算机进行产品搜索和类似“极端分类问题”所需的时间和计算资源。例如语音翻译和回答一般性问题。
这项研究将于本周在温哥华举行的2019年神经信息处理系统会议(NeurIPS 2019)上发表。结果包括2018年进行的测试,当时莱斯的首席研究员Anshumali Shrivastava和首席作者Tharun Medini都访问了加利福尼亚帕洛阿尔托的Amazon Search。
在包含约7,000万个查询和超过4,900万种产品的Amazon搜索数据集的测试中,Shrivastava,Medini和同事们展示了他们使用“通过散列合并平均分类器”(MACH)的方法,这需要一部分培训资源,一些最先进的商业系统。
“我们的训练时间快了大约7-10倍,并且我们的内存占用量比以前报道的大规模分布式深度学习系统的最佳基准性能要小2-4倍,”计算机科学助理教授Shrivastava说在赖斯。
Medini,博士赖斯大学的一名学生说,产品搜索具有挑战性,部分原因是产品数量众多。 “例如,大约有100万个英语单词,但是在线上有超过1亿个产品。”
赖斯和亚马逊报告“分布式深度学习”取得突破
赖斯大学计算机科学专业的研究生Beidi Chen和Tharun Medini在小组会议中进行了合作。图片来源:杰夫·菲特洛/莱斯大学
也有数百万人以自己的方式购买这些产品。有人问一个问题。其他人使用关键字。而且许多人不确定他们一开始就在寻找什么。但是,由于每天都要进行数百万次的在线搜索,因此亚马逊,谷歌和微软等科技公司拥有大量关于成功和失败搜索的数据。使用此数据进行一种称为深度学习的机器学习是向用户提供更好结果的最有效方法之一。
深度学习系统或神经网络模型是大量数学方程式的集合,这些数学方程式采用一组称为输入向量的数字,并将其转换为一组称为输出向量的数字。网络由具有多个参数的矩阵组成,而最新的分布式深度学习系统包含数十亿个参数,这些参数被分为多个层。在训练期间,数据被馈送到第一层,向量被转换,输出被馈送到下一层,依此类推。
“极端分类问题”是可能产生许多结果的参数,因此有许多参数。用于极端分类的深度学习模型是如此之大,以至于通常必须在有效的超级计算机上进行训练,超级计算机是一套链接的图形处理单元(GPU),其中参数分布并并行运行,通常需要几天。
Medini说:“一个神经网络,它接受搜索输入并从1亿个输出或产品中进行预测,最终通常每个产品约有2000个参数。” “因此,将它们相乘,神经网络的最后一层现在是2000亿个参数。而且我还没有做任何复杂的事情。我说的是一个非常非常非常简单的简单神经网络模型。”
Medini说:“要存储这2000亿个参数,大约需要500 GB的内存。” “但是,如果您看一下当前的训练算法,有一个著名的名为Adam的模型,它为模型中的每个参数又增加了两个参数,因为它需要来自这些参数的统计信息来监视训练过程。所以,现在我们有2000亿次第三,仅存储模型我就需要1.5 TB的工作内存。我什至还没有得到训练数据。那里最好的GPU只有32 GB的内存,因此训练这种模型是非常困难的。 GPU间通信。”
MACH采用了非常不同的方法。 Shrivastava通过思想实验对其进行了描述,该实验将1亿种产品随机分为三类,以桶的形式出现。他说:“比方说,我把带充电器和T恤的iPhone都放在同一个桶中。” “这从1亿急剧减少到3。”
在思想实验中,将一亿种产品随机分为两个不同世界中的三个存储桶,这意味着产品可以在每个世界中的不同存储桶中存放。经过训练的分类器可以将搜索分配给存储桶,而不是分配其中的产品,这意味着分类器只需要将搜索映射到三个产品类别之一即可。
他说:“现在,我向第一个世界中的分类器提供搜索,它显示为第三类,然后向第二世界中的分类器提供了搜索,它为第一类,”他说。他说:“这个人在想什么?最可能的类别是这两个铲斗之间的共同点。如果看一下铲斗的可能相交处,世界上有三个,一在世界上则是三个,在九个可能性之间,”说过。 “因此,我将搜索空间减少到九分之一,而我只支付了创建六个班级的费用。”
增加第三世界,再增加三个铲斗,可能相交的数量增加了三倍。他说:“现在这个人的想法有27种可能性。” “因此,我的搜索空间减少了27倍以上,但我只支付了9堂课的费用。我以线性方式支付了费用,并且得到了指数级的提高。”
在对亚马逊培训数据库进行的实验中,Shrivastava,Medini及其同事将这4900万种产品随机分为10,000个类或桶,并重复了32次。这将模型中的参数数量从大约1000亿减少到64亿。 Medini说,与具有类似参数的模型(包括Google的稀疏门控专家混合模型(MoE)模型)相比,对该模型进行训练所需的时间和内存更少,这是一些报告的最佳训练时间。
他说,MACH的最重要的功能是它不需要并行处理器之间的通信。在思想实验中,这就是分离,独立世界的代表。
梅迪尼说:“他们甚至不必互相交谈。” “原则上,您可以在一个GPU上训练32个中的每个,这是使用非独立方法永远无法做到的。”
Shrivastava说:“总的来说,培训需要跨参数进行通信,这意味着并行运行的所有处理器都必须共享信息。展望未来,通信是分布式深度学习中的一个巨大问题。Google表示希望对a例如1万亿参数网络。目前,MACH不能用于类别数量很少的用例,但是对于极端分类,它实现了零通信的圣杯。”