新闻
您现在的位置:首页 > 新闻 > Google提出了新的指标来评估AI生成的音频和视频质量
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

Google提出了新的指标来评估AI生成的音频和视频质量

发布时间:2019/10/24 新闻 浏览次数:680

 
衡量AI模型从整块布料产生的媒体质量的最佳方法是什么?这并不容易。图像最受欢迎的度量标准之一是弗雷谢特起始距离(FID),它可以从目标分布和正在评估的模型中获取照片,并使用AI对象识别系统捕获重要特征并避免相似之处。但是,尽管已经提出了几种用于合成音频和视频的度量标准,但尚未被广泛采用。
这就是为什么来自Google的研究人员称其为Fréchet音频距离(FAD)和Fréchet视频距离(FVD)来称呼的原因,它们分别衡量了合成音频和视频的整体质量。研究人员声称,与峰值信噪比,结构相似性指数或已提出的其他度量标准不同,FVD着眼于整个视频。至于AUD,他们说它是无参考的,可用于任何类型的音频,与时间对齐的地面真实信号(如源失真比(SDR))形成对比。
软件工程师Kevin Kilgour和Thomas Unterthiner在博客中写道:“获得强大的度量标准来评估生成模型对于评估(和取得)音频和视频理解领域的进展至关重要,但目前尚无此类度量标准。” “很明显,下面显示的某些[生成的]视频看起来比其他视频更真实,但是可以量化它们之间的差异吗?”
事实证明:是的。在FAD评估中,评估了两组音频样本(生成的和真实的)的分布之间的间隔。随着失真大小的增加,分布之间的重叠相应减少,这表明合成样本的质量相对较低。
为了评估FAD和FVD跟踪人类判断的紧密程度,Kilgour,Unterthiner及其同事进行了一项涉及人类评估者的大规模研究。在这里,评估人员的任务是检查10,000个视频对和69,000个5秒音频剪辑。特别是对于FAD,要求他们比较两个不同失真对同一音频片段的影响,并且将他们比较的一对失真和它们出现的顺序随机化。然后,使用估计每个参数配置的价值值的模型对收集的成对评估集进行排名。
该团队断言,将价值与FAD进行比较表明FAD将“相当好”与人类判断相关联。
Kilgour和Unterthiner说:“我们目前在生成[AI]模型方面取得了长足的进步。” “ FAD和FVD将帮助我们[保持]可衡量的进步,并有望带领我们改进音频和视频生成的模型。”

姓 名:
邮箱
留 言: