DefinedCrowd筹集1180万美元为AI模型建立定制数据集
2018年08月01日 由 浅浅 发表
50215
0
收集用于训练机器学习模型的数据并不是简单的工作。算法需要标记良好的高质量源,这就是为什么整理数据集所花费的时间几乎与开发模型一样长,甚至更长。
这是DefinedCrowd旨在解决的问题。这家拥有三年历史的西雅图创业公司将自己描述为“智能”数据策划平台,为客户服务,汽车,零售,医疗保健和其他企业部门的客户提供定制的模型培训服务。今天它宣布它在Evolution Equity Partners,万事达卡,Kibo Ventures和Energias de Portugal(EDP)领导的融资轮融资中募集了1180万美元,并从现有投资者Sony,Portugal Ventures,Amazon和Busy Angels获得额外资金。
DefinedCrowd的首席执行官Daniela Braga在电话采访中表示,“数据需要高质量,如果不是这样,可能会损害品牌。简单地说,我们可以轻松收集和注释模型的高质量训练数据。”
Braga拥有博士学位。在语音技术方面,非常了解数据收集的Sisyphean性质。在创立DefinedCrowd之前,她管理者1400万美元以改善微软的人工智能语音助手小娜,她称这是一场艰苦的战斗。她说,每个产品开发周期大约需要18个月才能获得数据以刷新基础模型。
Braga在众包中找到了出路。DefinedCrowd的新颖方法采用了一个由超过45000名人类贡献者组成的社区(Neevo),他们完成了涉及标签,打字和说出单词和短语的工作。他们每天将超过500000单位的数据上传到填充DefinedCrowd的自然语言处理,语音识别和计算机视觉工具的数据集。
通过API和Web界面,所述工具为DefinedCrowd的客户提供了过滤人口统计数据的自由,他们可以指定贡献成员的年龄,位置和性别,甚至他们对特定语言的熟练程度。该平台支持高达46种语言,约占世界上使用最广泛语言的90%,准确率高达98%。
但它的真正价值主张是它的灵活性,客户使用DefinedCrowd平台不仅可以从头开始训练机器学习模型,还可以使用根据其特定需求量身定制的数据集来扩充现有模型。同时,那些具有更简单要求的人可以利用专门的工作流程,模板和现成的解决方案。
想象一下:亚马逊的Alexa平台上的新闻策划技术拥有大量的国际用户,因此其开发人员需要培养一种在市场上同样准确的语音识别模型。使用DefinedCrowd的工具,他们可以生成多个数据集以提高算法的性能。
DefinedCrowd已经增长了6倍,其中包括宝马,万事达卡,Nuance和雅虎日本等财富500强企业在其冗长的客户名单中名列前茅。其员工超过40人,分布在葡萄牙,西雅图和日本的办事处,并希望在今年年底之前再招聘40名员工。
该公司将利用这笔资金来扩展其产品,发展其开发人员和销售团队,并增加其全球业务。