苹果开发了自动标注数据的人工智能框架

2019年09月25日 由 KING 发表 83178 0

像苹果Siri这样的语音助手通过自然语言命令来完成任务,但是它们的基础组件通常要依靠机器学习算法的支持,这些算法的大量训练数据需要手工注释才可以。为了减少收集这些数据的时间和精力,苹果的研究人员开发了一个框架,利用用户参与信号自动创建数据标签。当完成多任务学习和外部知识库验证等任务时,带注释的数据明显提高了生产深度学习系统的准确性。


苹果的研究人员表示:“我们认为,这是首次利用用户参与信号来帮助大规模生成序列标记任务的训练数据,并可应用于实际设置中,在几乎没有人工注释数据的情况下加快新功能的部署。此外用户参与信号可以帮助我们从数字助理自身的错误中吸取教训,从而确定其需要改进的地方。”研究人员使用了一系列的启发式方法来识别积极或消极的行为。包括点击内容进一步互动(积极回应)、长时间听歌曲(另一个积极回应)、中断智能助理提供的内容以及手动选择不同内容(消极回应)。这些信号被选择性地以一种隐私保护的方式获取,以自动生成基本真相注释,然后与人工注释者提供的粗粒度标签相结合。


为了将粗粒度标签和细粒度标签整合到人工智能模型中,他们设计了一个多任务学习框架,将粗粒度和细粒度实体标签视为两个任务。此外,它们还集成了一个外部知识库验证器,该验证器由实体及其关系组成。验证器将执行对顶级标签备选方案的查找,并将它们发送到一个组件,该组件将重新排列预测并提供出最佳备选方案。在另一个实验中,研究团队尝试能否猜测用户意图来增加系统选择正确操作的可能性。他们采集了大约5000个“播放音乐”命令,其中包含对多个乐队、歌手和歌曲的引用,并通过一个包含其框架的系统将其发送出去,之后,他们要求注释者将系统返回的响应分为“满意”或“不满意”两种结果。研究人员报告说,增强后的系统产生的结果任务错误率比之前降低了24.64%。


此前,有一篇论文描述了苹果的人工智能开发工具Overton,该工具的模型处理了“数十亿”个查询。本次开发的框架在Overton的基础上又向前迈进了一步。

欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消