新闻
您现在的位置:首页 > 新闻 > Oto筹集了530万美元用于提高语调数据的语音识别
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

Oto筹集了530万美元用于提高语调数据的语音识别

发布时间:2019/12/19 新闻 浏览次数:646

 
据估计,美国有五分之一的人每天与智能扬声器互动,最近在该国,通过语音进行的Google搜索所占的份额已超过30%。自动语音识别系统的先进性在一定程度上是其采用的原因,其中最好的自动语音识别系统以与人类相媲美或超越人类的准确性来识别语音。但是,尽管如此,语调分类方面的工作相对较少,从一个方面来看,它可以揭示的信息量是单独单词的5倍。
这就是为什么SRI International的一组科学家可能以孵化Siri(在被Apple收购之前)而闻名,该研究所可能是最著名的孵化Siri(在被Apple收购之前),他们利用行为科学和AI的专业知识来开发一种新颖的语言理解方法。他们辛苦工作的机器学习算法的成果是将声学模态(语气)和词汇模态(单词)联系起来,以促进出色的语音分析。
这种“声学语言处理”技术最终是由Teo Borschberg和前Hyperloop Transportation Technologies AI团队负责人Nicolas Perony衍生出来的,后者在纽约初创公司Oto的旗下将其商业化。 Oto的目标不仅是扰乱价值490亿美元的语音识别市场,为此,它宣布从Firstminute Capital,Fusion Fund,Interlace Ventures,SAP.iO和SRI International筹集了530万美元的资金。
Perony表示,注资将推动产品开发。 “随着…大规模发布声学模型的新深度学习框架的发布,我们现在可以部署与语言无关的模型,这些模型将通过对…标签的监督学习以及对企业数据集中原始人类情感的不受监督的学习而随着时间的推移而进一步改善,”他说。 “通过我们的…平台,企业可以利用OTO向…代理商提供实时指导并自动执行部分质量保证。”
新数据集
据Borschberg称,Oto的对话系统利用词汇信息来理解观点和声音信息,并解释发声的情绪。但是到达这一点绝非易事。
在SRI团队的技术架构的基础上,Oto编制了一组最大的带有情感标签的语音数据-Oto Emotion Dataset,其中包含来自3,000位演讲者的10,000多句话。 (目标是到2020年达到1百万小时。)通过对音色与短语和单词进行建模,在语料库上受过训练的AI分类器了解了口语和口语之间的关系,并使用了Borschberg描述的编码方案作为“有声觉”的嵌入。
他声称,在旨在模拟情绪唤醒(即强度程度)的实验中,该实验可以告知谈话可能采取的方向,Oto的系统比不考虑声学的模型准确度高40% 。随后的测试表明,该模型能够很好地区分生气和悲伤的数据样本,以及幸福和悲伤的数据样本-与仅基于文本的分类器相比,在前者的情况下提高了60%。
强大的平台
数据集和模型是Oto网络托管工具集的基础,该工具集旨在独立于语言并为客户即插即用-主要在客户服务领域。它的套件为呼叫中心代理提供了呼叫中指导,以提高他们的整体绩效,同时通过针对性的呼叫采样和客观指标来优化质量保证流程。
Oto的工具利用了SRI的SenSay Analytics(分析),该分析从语音中进行实时的扬声器状态分类。它可以有效地将口头对话每秒转换成成千上万种声学特性,并建立一个实时的互动关系图,并使系统深入到每秒二分之一的声学结构中。
具体来说,交互式可视化窗口小部件可帮助Oto客户雇用的代理在通话期间保持联系。 (代理商陷入单调状态时,他们会看到诸如“我们注意到能量水平过低-尝试听起来更加投入”之类的消息。)实时仪表板显示实时指标并允许管理人员回放呼叫,并且根本原因和主题建模工具可实现确定关键时刻(例如对购买的兴趣和满意度)并触发自动化。
Borschberg说,到目前为止,Oto已经从客户对话中提取了30亿多个语调测量值,这有助于以不同的语调准确度对各种行为进行建模,准确率高达90%。此外,在一次试点部署中,Oto的教练工具将整体对话参与度提高了19%,从而使“成千上万”入站呼叫的销售转化率提高了5%。 (像ACD Direct这样的客户说,他们看到转化率提高了18%。)
在一次涉及4,000小时入站销售对话且转换率约为50%的评估中,Oto对其模型进行了培训,以捕获成功销售的声学特征,并对其模型从未听说过的录音进行了测试。 Borschberg声称,Oto仅凭其声学效果就能预测出通话结果的准确性达到94%。
“通过释放我们日常交流中发现的行为洞察力,我们正在构建下一代语音技术,以使对话变得人性化,” Borschberg说。 “我们终于从研究阶段中脱颖而出,很高兴在美国和欧盟部署我们的技术,以帮助企业更好地了解人类行为,例如参与度,购买兴趣和满意度。”