英文

数据集概要

ProsocialDialogFiltered 是 ProsocialDialog 数据集的筛选版本。

存在多个版本:

  • 在 train_no_casual 中,已经将标签为 "casual" 的行进行了过滤。
  • 在 train_no_possibly 中,已经将含有 "possibly needs caution" 的行进行了过滤。
  • 在 train_no_probably 中,已经将含有 "probably needs caution" 的行进行了过滤,因为我发现这些行大部分是没有意义的,只留下了 "needs caution" 和 "needs intervention"。
  • 在最终的训练数据集中,已经将包含多个短语,如 "You should not" 和 "you should refrain from" 的行进行了过滤。这是为了减少语言模型对用户的拒绝,并创建更好、更开放的模型。

ProsocialDialog 是一个大规模的多轮英文对话数据集,用于教授对话代理人如何回应有问题的内容。

有关源数据集的更多信息,请参考原始的官方文档 huggingface paper

可能的缺点:

  • 有些结束信息被截断了。只有在依赖 'episode_done' 指示器时才需要关注此问题。

语言

英文

其他信息

引用

@inproceedings{kim2022prosocialdialog,
    title={ProsocialDialog: A Prosocial Backbone for Conversational Agents},
    author={Hyunwoo Kim and Youngjae Yu and Liwei Jiang and Ximing Lu and Daniel Khashabi and Gunhee Kim and Yejin Choi and Maarten Sap},
    booktitle={EMNLP},
    year=2022
}