《一心·一艺》，以专注致敬传承，以匠心诠释永恒

发布时间：2025/11/05

2025年10月18日，在千年文脉与现代时尚交汇之地的杭州，哥本哈根皮草“臻萃之选”年度盛会隆重启幕。全球顶级皮草原料供应商哥本哈根皮草旗下的高端线上零售品牌联盟“臻萃之选”正式揭幕年度活动主题——“The Fur Code...
喜报！中科星图荣获“金牛奖”两项大奖，“创新与投资价值”载誉前行

发布时间：2025/11/02

10月29日，由中国证券报和南通市人民政府联合主办的2025上市公司高质量发展论坛暨第二十七届上市公司金牛奖颁奖典礼在南通市举办。本届评选中，中科星图股份有限公司（以下简称“中科星图”）荣获“2024年度最具投资...
振东制药达霏欣创新推出“内服外治”方案：焕活毛囊新生

发布时间：2025/07/24

近年来，随着生活压力加剧、作息不规律及环境因素影响，脱发、白发问题呈现年轻化趋势，成为困扰现代人的普遍健康难题。面对庞大的市场需求，传统单一治疗手段逐渐显露出局限性。近日，专注毛发健康领域22年的达...
和平精英上线具有长期记忆的AI明星队友

发布时间：2025/07/14

《和平精英》六周年新版本限时模式推出的“绝地指挥”玩法，凭借玩家与AI队友组队的创新体验，收获了如潮好评。如今，“绝地指挥2.0”迎来重磅升级！腾讯游戏首位具有长期记忆能力的明星AI队友——“花傲天”正式登场！7...

第三批专项债六月底发完项目完成审核

发布时间：2020/04/06

财政部副部长许宏才4月3日在新闻发布会上表示，今年以来，根据全国人大常委会授权，财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日，全国各地发行新增专项债券1.08万亿元，占84%，发行...
国美零售转型加速携拼多多“迎战”零售业大考

发布时间：2020/04/06

随着国内疫情初步得到控制，零售消费市场也在逐渐恢复运转。日前，国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出，将千方百计促进消费回补和潜力释放，壮大新型消费和升级消费，扩大...
美新冠疫情蔓延，建霖家居等IPO企业受累

发布时间：2020/04/06

编者按：随着疫情蔓延，全球新冠肺炎确诊病例已突破百万，累计死亡超5万例，其中，美国确诊超过23万例，欧洲确诊超过50万例。作为全球经济重要力量的欧美地区，其疫情将对IPO企业产生什么影响？ “有一天美国将成...
信托代销哪家强?招行去年赚64亿

发布时间：2020/04/04

证券时报记者杨卓卿随着银行年报密集披露，一些行业巨头代销信托产品的情况也浮出水面。证券时报记者注意到，“零售之王”招商银行2019年代销的信托产品规模超过3000亿元，借此实现64.32亿元的手续费及佣金收入...

亚马逊开放其主题聊天数据集超过470万字

发布时间：2019/09/19 新闻 浏览次数：0

早在4月份，亚马逊就宣布有意向年度Alexa Prize Socialbot Grand Challenge竞赛中的团队发布数据集 – 话题聊天数据集 – 众包人类对话。它最终在GitHub上发布了超过235,000个含有超过4,700,000个单词的话语，并且它支持“高质量”和“可重复的”对话系统研究。
“主题聊天的目标是通过解决其他公开数据集无法解决的难题来实现基于知识的神经反应生成系统的创新研究，”亚马逊Alexa AI小组Dilek Hakkani-Tür的高级首席科学家写道。一篇博文。 “我们看到大学在Alexa Prize Socialbot大挑战中开始解决这些挑战，包括以自然方式，知识选择和丰富，以及将事实和意见融入对话中的主题之间的过渡。”
亚马逊主题聊天数据集
上图：为了构建主题聊天数据集，通过Mechanical Turk招募的工作人员参与即时消息对话(右)，他们使用从非结构化或松散结构化资源(左)的集合中提取的信息来支持他们的断言。
为了编写语料库，Hakkani-Tür及其同事在与Alexa Prize聊天机器人的对话中经常出现的八个不同主题类别中确定了300个命名实体(即人，地点或事物)。这些实体基于它们在信息源中的共现而被聚类成三个一组，并且对于群集中的每个实体，收集若干额外的信息源并且对应于每个群集进行划分。
然后，这些数据被传递给亚马逊的Mechanical Turk中的众多众包工人，他们有时会收到相同的信息，而其他时候只获得了一部分信息。有时，Alexa AI团队会对数据进行分割，以便配对的工作人员获得补充知识。
根据研究人员的指示，机械土耳其工人进行了关于他们收到的知识集的即时通讯对话。对于他们自己的每条消息，他们被要求指出他们的信息来源并评估消息的整体情绪(例如，快乐，悲伤，好奇，恐惧等)，并且对于他们的聊天伙伴的消息，他们被问到评估他们的质量(即，他们是否适合对话)。
接下来通过手动和自动审核相结合的方式对话。
“[我们希望这一点]将使研究人员能够专注于人类在主题，知识选择和丰富，以及将事实和意见融入对话之间的过渡方式。[并支持]出版高质量，可重复的研究， “Hakkani-Tür说。
亚马逊开源数据集可用于训练AI模型识别跨语言和脚本类型的名称，这一周宣布大约发布一周。它被称为“音译多语种命名实体音译系统”，它包含近400,000种语言，如阿拉伯语，英语，希伯来语，日语片假名，以及从维基百科中删除的俄语。

上一篇: Glassdoor：2019年美国25个收入最高的工作岗位中，有14个是技术工作岗位

下一篇: 据报道，Facebook将与Luxottica合作，到2025年生产AR眼镜

相关推荐