商业
您现在的位置:首页 > 商业 > 扩展高质量AI数据标签的基本技巧
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

扩展高质量AI数据标签的基本技巧

发布时间:2019/06/14 商业 浏览次数:875

 
在每个行业中,工程师和科学家都在竞相清理和构建大量的AI数据。计算机视觉工程师团队使用标记数据来设计和训练自驾车用于识别行人,树木,路牌和其他车辆的深度学习算法。数据科学家正在使用标记数据和自然语言处理(NLP)来自动化法律合同审查,并预测患有慢性疾病风险较高的患者。
这些系统的成功取决于循环中熟练的人,他们为机器学习(ML)标记和构建数据。高质量的数据可以提高模型性能。当数据标签质量低时,ML模型将难以学习。
根据分析公司Cognilytica的报告,大约80%的AI项目时间用于聚合,清理,标记和增加ML模型中使用的数据。 AI项目时间的20%用于算法开发,模型训练和调优以及ML操作。这些任务是人工智能开发的核心,需要战略思考,以及更先进的工程或计算机科学技能。最好将更昂贵的人力资源 – 例如数据科学家和ML工程师 – 部署到需要专业知识,协作和分析技能的任务上。
比较数据贴标机的机器学习
越来越多的组织正在使用这四个选项中的一个或多个为AI项目寻找数据贴标机。每种选择都会带来好处和挑战,具体取决于项目需求。
1.全职和兼职员工可以管理高质量的数据标签,这种方法可以正常工作,直到规模扩大。将会有一些工人流失,现有团队必须加快每个新员工的工作速度,增加成本和管理负担。
承包商和自由职业者是另一种选择。采购和管理合同团队需要时间。如果人力资源不涉及雇用承包商,工人可能不会受到与全职雇员相同的文化和技能评估。在质量标签方面,这可能是一个问题,因此需要额外的时间进行培训和管理。
3.众包使用云将数据任务一次性发送给大量人员。质量是通过共识确定的:几个人完成相同的任务,大多数工人提供的答案被选为正确的。我们过去曾使用此模型进行CloudFactory的数据工作,我们的客户成功团队发现,每个任务的共识模型成本比首次通过时可以满足质量标准的流程高出约200%。人工智能团队负担大规模管理工人数据输出的负担。众包是短期项目的理想选择。
在过去十年中,托管云工作者已成为一种选择。这种方法将训练有素的内部团队的质量与人群的可扩展性相结合。它是高质量数据标签的理想选择,这项任务通常要求工人了解上下文。管理团队中的贴标人随着时间的推移增加了对业务规则,边缘情况和上下文的理解,因此他们可以做出更准确的主观决策,从而获得更高质量的数据。
经过十年的全球组织数据标注,转录和注释,我们了解到在AI项目团队和数据贴标人之间建立一个封闭的反馈循环至关重要。随着开发团队对模型进行培训和调整,任务可能会发生变化,因此标签团队必须能够快速适应并更改工作流程。
按小时而非按任务收费的劳动力解决方案旨在支持这些迭代。 2019年的Hivemind研究表明,按任务支付可以激励工人以牺牲质量为代价快速完成任务。
在寻找数据标签团队时要问的关键问题
我们鼓励组织在比较数据标签人员选项时向员工供应商询问这些问题:
规模:您的标签团队能否根据需求增加或减少他们为我们完成的任务数量?
质量:您能否让我们了解工作质量和员工生产力?
速度:您按时交付数据标签工作的记录是什么?
工具:我们必须使用您的工具还是我们可以自己构建?
敏捷:如果我们的工具或流程发生变化,会发生什么?
合同条款:如果我们需要取消与您的标签团队合作,会发生什么?
要进一步探索如何选择质量,速度和规模的数据标签工作人员,请下载此报告:扩展质量培训数据:优化您的员工并避免人群成本。
Damian Rochman是CloudFactory的产品和平台战略副总裁。

姓 名:
邮箱
留 言: