新闻
您现在的位置:首页 > 新闻 > 该AI可以完美地复制印度语言的视频-并正确进行口形同步
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

该AI可以完美地复制印度语言的视频-并正确进行口形同步

发布时间:2020/02/15 新闻 浏览次数:712

 
印度人民在互联网上观看了很多视频。根据《华尔街日报》的一份报告,印度人平均花费超过8.5GB的移动数据,其中大部分用于视频。 YouTube去年表示,超过95%的内容消费是使用区域语言。很自然地,人们对白话视频很感兴趣,但是并不是所有的创作者都知道所有印度语。
一种解决方案是配音。上周,就在Parasite获得了奥斯卡金像奖之后,母亲琼斯声称配音优于翻译字幕。但是让我告诉你,这很糟糕。我看过很多用印地语配音的英语电影,我要么受不了,要么死于笑。口型同步通常不可用,配音似乎很不自然。
现在,来自印度南部城市海得拉巴的国际信息技术学院的研究人员开发了一种新的AI模型,该模型可以将视频从一种语言翻译成语音同步并以另一种语言正确同步。
该小组表示,我们已经拥有从视频中获取翻译的文本或语音输出的技术。但是,配音过程中会丢失视觉转换(如嘴唇移动)。为了解决这个问题,印度研究人员开发了一种名为LipGAN的新型对抗性生成网络(GAN)。虽然它可以匹配原始视频中翻译文本的唇部动作,但它也可以校正配音电影中的唇部动作。
为了翻译视频,该模型使用语音识别来转录视频中的语音。然后,它使用为印度语言训练的专门模型来翻译文本,例如从英语翻译成印地语。然后语音识别模型将其转换为语音。语音到语音翻译再加上LipGAN,构成了整个模型。研究人员指出,他们的翻译模型比Google Translate更准确。
简历教授IIIT-H研发部主任Jawahar表示,这项技术将有助于以地区性语言创建更多内容:
从头开始手动创建本地语言内容,甚至手动翻译和复制现有视频都无法以创建数字内容的速度扩展。这就是为什么我们希望它是全自动的。
麻省理工学院和其他享有盛誉的机构针对各种主题制作了精美的视频,仅因他们无法理解口音而无法为更多的印度观众所用。忘了农村人,即使我也不明白!
团队补充说,该模型仍然在视频中移动或多张面孔方面挣扎。除了解决这些问题外,团队还希望在翻译后改善面部表情。
我们已经看到GAN仅使用一张照片就可以重塑脸部或身体的动作。但是大多数研究是用单一语言进行的。最有可能是英语。这些AI模型经过了几次迭代,才变得令人信服。因此,尽管上述模型有其缺点,但它是使用多语言模型的少数GAN之一。随着时间的推移,它肯定会随着更多数据的改进而改善。
去年,深造假货因其负面用途而广为人知。但是,用于教育或娱乐目的的视频修改AI是该技术的重要用例。这个模型就是一个很好的例子。