新闻
您现在的位置:首页 > 新闻 > AI2的语义学者扩展到涵盖所有科学学科的1.75亿篇论文
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

AI2的语义学者扩展到涵盖所有科学学科的1.75亿篇论文

发布时间:2019/10/24 新闻 浏览次数:713

 
那里有很多科学论文,要找到正确的论文或它们之间的正确联系可能非常困难。语义学者使用AI来理解和索引期刊文章,但是直到最近还仅限于少数主题。现在它已经扩展到几乎涵盖了科学的每个分支-约有1.75亿篇论文。
我介绍了Allen AI学院的一个项目Semantic Sc​​holar,该项目于2016年首次启动时,当时它仅对计算机科学和神经科学领域的论文进行了索引。第二年,它增加了涵盖各种子主题的生物医学论文。
他们试图解决的问题仅仅是,有太多信息可供学者解析。尽管他们可能会竭尽全力跟上文献,但关键的见解或相关结果可能隐藏在晦涩的期刊中,而这些期刊仅在引用或评论中得到最模糊的参考。
“我们之所以创建它,是因为科学中的信息过多,”项目负责人道格·雷蒙德(Doug Raymond)在接受采访时解释道。 “团队的重点是,我们如何使科学更易于发现?”
语义学者使用自然语言处理来获取论文的要旨,了解所描述的过程,化学物质或结果,并使该信息易于搜索。它不仅使查找与给定主题相关的文献变得更加容易,而且可以建立模式并找到以前可能不清楚的联系。
例如,有可能使用该平台来识别性别和其他人口统计平衡方面的作者趋势(正在开展工作),或者找到系统地引用自己的坏人。在其他情况下,这种趋势可能更直接相关:肾脏疾病的大多数患者是女性,但研究中使用的大多数是男性。
并不是说该系统本身在进行研究,但是事实和趋势可能会在这种分析下出现,而在其他情况下它们可能仍然处于休眠状态。尤其是由于该系统现在涵盖了大多数科学领域,并且可以在它们之间以及内部建立联系。
从少数几个学科扩展到几乎所有学科都不是一个容易的过程,尽管挑战并不是您可能猜到的。
雷蒙德说:“我们发现我们的大多数模型都能很好地推广到科学的新领域。” “也就是说,总有改进的空间。有些域在编写摘要或布置表格方面有不同的约定。”
他们对他们创建的语言模型SciBERT(BERT的发展,它是更通用的NLP代理)进行了调整,以理解不同类型的表示法等。但是显然,在学习了CS并转向有机化学后,它并没有像我那样窒息。结果的功能足以打包成Supp.ai之类的东西。
雷蒙德说,最大的问题是改善系统基础架构以支持不断增长的数据量时面临的挑战更加平淡。
Raymond解释说:“最难的是,转移到实时且即时的数据管道,而不是批量处理它们。” “一旦规模达到如此之高,再加上论文和合作伙伴的数量,我们就必须重做管道,以在数小时而不是数天内完成工作。”
更多合作伙伴意味着与Elsevier和Nature等主要的科学出版机构合作,在受到SciHub的威胁以及学者们向开放访问模式转变的压力下,与像Semantic Sc​​holar这样的新工作合作时,感觉像棒棒糖一样存在。
实际上,该系统已经吸收了大部分开放获取文献,并且在付费专区后面提供了论文的关键信息-用户将无法不付费就提取完整的文档。另一方面,与Unpaywall的合作关系可以使与开放获取论文的链接保持最新。平台碰巧注意到,开放获取文章在所有文章中所占的比例正在迅速增加:在过去十年中,超过10%的部分增加了一倍多,略低于30%。
现在扩展部分已基本完成,语义学者团队正在研究一些新功能:改进的文章摘要,特定领域的功能和提要视图,例如,可以向细胞生物学家展示最新的和最相关的发现。他们的研究领域而又不会暴露于不断发表的研究成果。

姓 名:
邮箱
留 言: