科技
您现在的位置:首页 > 科技 > 计算模型通过预测对语音进行解码
  • 振东制药达霏欣创新推出“内服外治”方案:焕活毛囊新生

    振东制药达霏欣创新推出“内服外治”方案:焕活毛囊新生

    发布时间:2025/07/24

    近年来,随着生活压力加剧、作息不规律及环境因素影响,脱发、白发问题呈现年轻化趋势,成为困扰现代人的普遍健康难题。面对庞大的市场需求,传统单一治疗手段逐渐显露出局限性。近日,专注毛发健康领域22年的达...

  • 和平精英上线具有长期记忆的AI明星队友

    和平精英上线具有长期记忆的AI明星队友

    发布时间:2025/07/14

    《和平精英》六周年新版本限时模式推出的“绝地指挥”玩法,凭借玩家与AI队友组队的创新体验,收获了如潮好评。如今,“绝地指挥2.0”迎来重磅升级!腾讯游戏首位具有长期记忆能力的明星AI队友——“花傲天”正式登场!7...

  • 振东集团的”本草革命”:让中药材跳出药罐子,闯出大健康新天地

    振东集团的”本草革命”:让中药材跳出药罐子,闯出大健康新天地

    发布时间:2025/06/10

    红球纷飞传三晋,大爱无边漫九州。5月25日,由中国红十字会总会主办,山西振东健康产业集团赞助的“红气球挑战赛”(晋中站)在山西省高校新区(山西大学城)鸣笛开赛。该赛事汇聚了来自全国各地及山西大学城高校的...

  • 振东集团:32年慈善长跑背后的“共富密码”

    振东集团:32年慈善长跑背后的“共富密码”

    发布时间:2025/06/03

    在商业与公益的天平上,山西振东健康产业集团选择了后者——即便负债也要坚持的”变态慈善”。这家从太行山走出的民营企业,用32年时间构建起一套独特的公益生态系统,累计捐赠超10亿元,将”与民同...

  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

计算模型通过预测对语音进行解码

发布时间:2020/06/29 科技 浏览次数:227

据悉,大脑通过识别音节来分析口语。日内瓦大学(UNIGE)和不断发展的语言国家能力研究中心(NCCR)的科学家设计了一种计算模型,该模型再现了中枢神经系统执行此操作所采用的复杂机制。该模型汇集了两个独立的理论框架,使用等效于大脑活动产生的神经元振动来处理关联语音的连续声音流。

该模型根据称为预测编码的理论起作用,从而大脑通过不断尝试基于候选假设(此模型中的音节)来预测感觉信号来优化感知。结果模型在《自然通讯》杂志上进行了描述,该模型有助于实时识别以自然语言说出的数百个句子中包含的数千个音节。这证实了神经元振动可以用来协调我们听到的音节流与大脑预测的想法。

UNIGE医学院基础神经科学系教授,不断发展的语言NCCR联合主任Anne-LiseGiraud说:“脑部活动会产生可通过脑电图测量的神经元振荡。”这些是电磁波,是由整个神经元网络的相干电活动产生的。有几种类型,根据它们的频率定义。它们被称为α,β,θ,δ或γ波。这些节奏单独或叠加在一起,与不同的认知功能相关,例如感知,记忆,注意力,机敏性等。

但是,神经科学家尚不知道他们是否对这些功能做出积极贡献以及如何发挥作用。在2015年发表的一项较早研究中,Giraud教授的团队表明,theta波(低频)和gamma波(高频)相互配合,对音节中的音流进行排序,并分析其内容,以便对其进行识别。

总部位于日内瓦的科学家根据这些生理节律开发了一种突跳的神经网络计算机模型,该模型在现场(在线)音节排序方面的性能优于传统的自动语音识别系统。

音节的节奏

在他们的第一个模型中,theta波(介于4赫兹与8赫兹之间)使跟随系统感知的音节节奏成为可能。伽马波(大约30赫兹)用于将听​​觉信号切成较小的切片并进行编码。这会产生一个链接到每个声音序列的“音素”配置文件,可以将其与后一个音节进行比较,并与已知音节库进行比较。这种类型的模型的优点之一是,它可以自发地适应语音速度,语音速度可能因人而异。

预测编码

在这篇新文章中,为了更接近生物学现实,Giraud教授和她的团队开发了一种新模型,其中结合了来自另一个理论框架的元素,而与神经元振荡无关:“预测编码”。

“该理论认为,大脑的功能是如此之好,因为它一直在使用外界事件如何产生感官信号的学习模型来不断尝试预测和解释环境中正在发生的事情。就口语而言,它试图找到最有效的方法。根据已学到的,并且正在不断更新的一组心理表征,可能会随着声音的发展而使耳朵感知到的声音的可能原因。”Giraud小组的计算神经科学家ItsasoOlasagasti博士说。模型实施。

“我们开发了一种模拟这种预测编码的计算机模型,”基础神经科学系研究员,该论文的第一作者SevadaHovsepyan解释说。“而且我们通过引入振荡机制来实现它。”

经过2888个音节的测试

进入系统的声音首先由类似于神经元种群产生的θ(慢)波调制。这样就可以发信号通知音节的轮廓。然后,(快速)伽马波序列有助于在音节被感知时对音节进行编码。在此过程中,系统会建议可能的音节,并在必要时更正选择。在两个级别之间来回几次后,它会发现正确的音节。随后,系统在每个音节结束时将其重置为零。

该模型已成功使用220个句子中的2888个不同音节以英语自然语言进行了测试。Giraud教授说:“一方面,我们成功地将两个非常不同的理论框架整合到一个计算机模型中。”“另一方面,我们已经表明,神经元振荡很可能在节奏上使大脑的内源性功能与通过感觉器官从外部传入的信号对齐。如果将其放回预测编码理论中,则意味着这些振荡可能使大脑大脑在正确的时机做出正确的假设。”

姓 名:
邮箱
留 言: