商业
您现在的位置:首页 > 商业 > 亚马逊研究人员使用AI改善对弯曲文本的识别
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

亚马逊研究人员使用AI改善对弯曲文本的识别

发布时间:2019/12/27 商业 浏览次数:622

 
光学字符识别(OCR)或将手写或印刷文本的图像转换为机器可读文本的技术,可以追溯到70年代初。但是算法长期以来一直努力找出与水平面不平行的字符,这就是为什么亚马逊的研究人员开发了他们称为TextTubes的原因。它们是自然图像中弯曲文本的检测器,可将所述文本建模为围绕其中间(中间)轴的管状。在描述其工作的论文中,合著者声称,他们的方法在流行的OCR基准上达到了最新的结果。
正如研究人员所解释的那样,场景文本通常分为两个连续的任务:文本检测和文本识别。第一个涉及使用上下文线索来定位字符,单词和行,而第二个目的是转录其内容。两者说起来容易做起来难–野外文本不仅受到变形的影响,还受到视点变化和任意字体的影响。
团队的解决方案是利用文本参考框架的“管状”表示形式来捕获大多数可变性,同时利用目标文本通常是大小相似的字符串联而成的事实。与传统的使用易于重叠且容易产生噪声的矩形和四边形来捕获文本信息的方法相反,它被公式化为一种数学功能,可以训练机器学习场景文本检测器。
研究人员评估了TextTubes在CTW-1500上的性能,该数据集由从自然场景和图像库中收集的1,500张图像,超过10,000个文本实例(每个图像至少一个弯曲实例)组成,并在Total-Text上进行了评估,Total-Text包含大约1,255次训练图像和300个测试图像以及一个或多个弯曲文本实例。他们报告说,他们在CTW-1500上以83.65%的准确度取得了行业领先的结果,而最接近的方法的准确度为75.6%。
该论文的合著者写道:“对实例的中间轴和平均半径进行建模……可以捕获有关实例整体的信息。” “在包含单个单词的数据集(例如Total-Text)上,我们的模型能够实现最新的性能。在具有行级注释的数据集(例如CTW-1500)上,我们的模型能够更好地捕获实例中各个单词的文本信息。”
假设有一天TextTubes投入生产,对于高度依赖OCR开展业务的企业来说,这可能是一个福音。据估计,纸张仍占80%以上的数字流程;大约97%的小企业仍使用纸质支票。根据大观研究公司(Grand View Research)的数据,这也许就是为什么到2025年OCR解决方案市场规模将达到133.8亿美元的原因。