新闻
您现在的位置:首页 > 新闻 > 亚马逊开放其主题聊天数据集超过470万字
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

亚马逊开放其主题聊天数据集超过470万字

发布时间:2019/09/19 新闻 浏览次数:751

 
早在4月份,亚马逊就宣布有意向年度Alexa Prize Socialbot Grand Challenge竞赛中的团队发布数据集 – 话题聊天数据集 – 众包人类对话。它最终在GitHub上发布了超过235,000个含有超过4,700,000个单词的话语,并且它支持“高质量”和“可重复的”对话系统研究。
“主题聊天的目标是通过解决其他公开数据集无法解决的难题来实现基于知识的神经反应生成系统的创新研究,”亚马逊Alexa AI小组Dilek Hakkani-Tür的高级首席科学家写道。一篇博文。 “我们看到大学在Alexa Prize Socialbot大挑战中开始解决这些挑战,包括以自然方式,知识选择和丰富,以及将事实和意见融入对话中的主题之间的过渡。”
亚马逊主题聊天数据集
上图:为了构建主题聊天数据集,通过Mechanical Turk招募的工作人员参与即时消息对话(右),他们使用从非结构化或松散结构化资源(左)的集合中提取的信息来支持他们的断言。
为了编写语料库,Hakkani-Tür及其同事在与Alexa Prize聊天机器人的对话中经常出现的八个不同主题类别中确定了300个命名实体(即人,地点或事物)。这些实体基于它们在信息源中的共现而被聚类成三个一组,并且对于群集中的每个实体,收集若干额外的信息源并且对应于每个群集进行划分。
然后,这些数据被传递给亚马逊的Mechanical Turk中的众多众包工人,他们有时会收到相同的信息,而其他时候只获得了一部分信息。有时,Alexa AI团队会对数据进行分割,以便配对的工作人员获得补充知识。
根据研究人员的指示,机械土耳其工人进行了关于他们收到的知识集的即时通讯对话。对于他们自己的每条消息,他们被要求指出他们的信息来源并评估消息的整体情绪(例如,快乐,悲伤,好奇,恐惧等),并且对于他们的聊天伙伴的消息,他们被问到评估他们的质量(即,他们是否适合对话)。
接下来通过手动和自动审核相结合的方式对话。
“[我们希望这一点]将使研究人员能够专注于人类在主题,知识选择和丰富,以及将事实和意见融入对话之间的过渡方式。[并支持]出版高质量,可重复的研究, “Hakkani-Tür说。
亚马逊开源数据集可用于训练AI模型识别跨语言和脚本类型的名称,这一周宣布大约发布一周。它被称为“音译多语种命名实体音译系统”,它包含近400,000种语言,如阿拉伯语,英语,希伯来语,日语片假名,以及从维基百科中删除的俄语。

姓 名:
邮箱
留 言: