聊天机器人可自行提取训练数据,以提高会话能力
2019年01月18日 由 浅浅 发表
515378
0
与聊天机器人会话仍然是当前的一大挑战,大多数人对于聊天机器人的注意停留不超过15分钟,但这并不能减少机器人的应用,事实上,Gartner预测,到2020年,聊天机器人将为所有客户服务互动提供85%的支持。
来自Facebook的AI研究和斯坦福大学的科学家们在发表的一篇论文“Learning from Dialogue after Deployment: Feed Yourself, Chatbot!”中,描述了一种聊天机器人,它可以通过从对话中提取训练数据来自我提高。
论文作者解释说:“当谈话似乎进展顺利时,用户的回答将成为模仿的新训练范例。并且当智能体认为它犯了错误时,它会要求反馈。学习预测将给出的反馈进一步改善了聊天机器人的对话能力。这些新的例子改善了智能体的对话能力,同时仅使用来自用户的自然响应,不需要特殊结构,数字反馈或额外的人为干预。”
研究人员认为,这样一个AI系统可以不受人类监督的影响而不断自适应。唯一的问题是,让聊天机器人用自己的对话进行训练,可能会加剧错误,导致荒谬的对话出现。
在研究人员的案例中,解决方案是“令人满意”,也就是说,聊天伙伴对机器人响应的满意度。他们收集了一份“满意”数据集,让人与AI闲聊,并为每个回复的质量指定1到5之间的等级,用于教导系统预测“满意”和“不满意”。
当聊天机器人和人类交流时,前者同时接受两项任务的训练:对话(接下来会说什么)和反馈(其回复的一致性)。对于每一轮,它都要考虑之前的交流,然后用这些交流来生成下一次的回复,以及从0到1的满意分数。当满意度达到一定阈值时,利用前一情境和人的反应提取训练数据。但是如果分数很低,机器人就会用一个问题请求反馈,并使用这个反馈为反馈任务创建一个新的示例。
例如,向聊天机器人问“法国每年这个时候的天气怎么样?”,其中包括“非常美味”等不合理的回答。大多数人都可能跟进:“你在说什么?”从他们的预期,机器人可能会推断出他们不满意,并且正如其设计的那样,它们进行纠正:“哦,我搞砸了,我应该怎么回答?”。一旦给它提供正确答案“也许你应该告诉我天气很冷”,它将提取训练样例以防止它在将来犯同样的错误。
在研究过程中,聊天机器人建立在Transformer上,一个能够在语言翻译任务中胜过最先进模型的神经架构,用来自PersonaChat的公开数据集,超过13万个人与人对话示例进行训练。在测试中,他们发现,在小型训练集中,学习曲线最陡峭,与基线相比,总体准确度提高了31%,性能最佳的模型分别在对话任务和反馈任务中实现了46.3%的准确率和68.4%的准确率。
至于聊天机器人预测用户满意度的能力,它明显优于以前的方法,即使只有1000个训练样例。
研究人员写道:“当人类满意时,通过模仿人类的反应来提高对话能力,或者当他们不满意时,通过寻求反馈来提高对话能力,将其预测为辅助任务。结果证明,对用户满意度进行分类是一项很重要的自学习任务,明显优于模型不确定性的方法。”
论文中描述的数据集,模型和训练代码将通过Facebook的ParlAI平台提供。
论文:
arxiv.org/pdf/1901.05415.pdf