数据集:

McGill-NLP/FaithDial

英文

数据集概述

FaithDial 是一个忠实的知识引导对话基准,包含5649个对话、50761个对话轮次。通过通过Amazon Mechanical Turk进行了问卷调查,要求注解员修改了 Wizard of Wikipedia (WoW) 中的不真实话语。在我们的对话设置中,我们模拟了两个说话者之间的交互:信息搜索者和机器人向导。搜索者较为自由,而机器人向导在其沟通中有一些约束。事实上,机器人必须遵守以下规则:

  • 首先,它应该提供真实可信的信息,这些信息可以归功于源知识 K。
  • 其次,它应该在沟通中提供信息,即使用符合自然语言习惯的 K 的表述方式,通过提问来支持后续讨论,并引导用户发表意见。
  • 第三,它应该在 K 不包含答案的情况下承认自己的无知,并仍然使用 K 推动对话的进行。

语言

英语

数据实例

'train' 的一个例子如下所示:

[
  {
    "utterances": [
      ... // prior utterances, 
      {
        "history": [
          "Have you ever been to a concert? They're so fun!",
          "No I cannot as a bot. However, have you been to Madonna's? Her 10th concert was used to help her 13th album called \"Rebel Heart\".",
          "Yeah I've heard of it but never went or what it was for. Can you tell me more about it?"
        ],
        "speaker": "Wizard",
        "knowledge": "It began on September 9, 2015, in Montreal, Canada, at the Bell Centre and concluded on March 20, 2016, in Sydney, Australia at Allphones Arena.",
        "original_response": "It started in September of 2015 and ran all the way through March of 2016. Can you imagine being on the road that long?",
        "response": "Sure. The concert started in September 9th of 2015 at Montreal, Canada. It continued till 20th of March of 2016, where it ended at Sydney, Australia.",
        "BEGIN": [
          "Hallucination",
          "Entailment"
        ],
        "VRM": [
          "Disclosure",
          "Question"
        ]
      }, 
      ... // more utterances
    ]
  }, 
  ... // more dialogues
]

如果 'original_response' 是空的,意味着回答对源信息忠实,我们将其视为 FaithDial 的回答。WoW 中的忠实回答也会经过轻微的编辑,以解决一些语法问题或错误。

数据字段

  • history:List[string]。对话的历史记录。
  • knowledge:string。机器人向导需要基于的源知识。
  • speaker:string。当前说话者。
  • original response:string。编辑前的 WoW 原始回答。
  • response:string。新的机器人向导回答。
  • BEGIN:List[string]。机器人向导回答的 BEGIN 标签。
  • VRM:List[string]。机器人向导回答的 VRM 标签。

数据划分

  • 训练集:36809个 turn
  • 验证集:6851个 turn
  • 测试集:7101个 turn

验证集包括 WoW 中的 'seen' 和 'unseen' 数据划分。测试集也是如此。我们还包括 FaithDial 验证集和测试集的这些划分。

注释

根据 Sheehan. 2018 中规定的伦理众包指南,我们雇佣了Amazon Mechanical Turk(AMT)工人来编辑在WoW对话中的不忠实回答。为了确保任务定义的清晰,我们为术语提供了详细的示例。此外,我们在几个月的时间内进行了几轮分阶段的任务。

注解员是谁?

要参与任务,工人必须位于美国和加拿大,并且在资格测试中成功回答了20个问题。在启动主要注释任务之前,我们进行了一小轮试点任务(60个HITS),以检查工人的表现。我们向犯错误的工人发送电子邮件,提供示例以帮助他们在未来的任务中纠正错误。

个人和敏感信息

FaithDial 中的搜索者话语可能包含个人和敏感信息。

数据集的社会影响

近年来,对话式人工智能市场出现了各种应用程序的大量增长,这些应用程序由大型预训练语言模型驱动,涵盖了广泛的领域,例如客户支持、教育、电子商务、健康、娱乐等。确保这些系统是可信的,对于在高风险领域的真实应用大规模部署至关重要。FaithDial 有望鼓励信息搜索对话的忠实性,使虚拟助手更加安全可靠。

许可信息

MIT

引用信息

@article{dziri2022faithdial,
  title={FaithDial: A Faithful Benchmark for Information-Seeking Dialogue},
  author={Dziri, Nouha and Kamalloo, Ehsan and Milton, Sivan and Zaiane, Osmar and Yu, Mo and Ponti, Edoardo and Reddy, Siva},
  journal={arXiv preprint, arXiv:2204.10757},
  year={2022},
  url={https://arxiv.org/abs/2204.10757}
}