数据集:

conv_ai_2

预印本库:

arxiv:1902.00098

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

计算机处理:

monolingual

大小:

1K<n<10K

子任务:

text-scoring

语言:

en
英文

conv_ai_2 数据集卡片

数据集简介

ConvAI是一个人机对话的数据集,标记了对话的质量。这些数据可用于训练用于评估对话系统的度量标准。此外,它还可用于聊天机器人的开发:它包含了有关话语和整个对话质量的信息,可以指导对话系统寻找更好的回答。

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

{
        "dialog_id": "0x648cc5b7",
        "dialog": [
            {
                "id": 0,
                "sender": "participant2",
                "text": "Hi! How is your day? \ud83d\ude09",
                "sender_class": "Bot"
            },
            {
                "id": 1,
                "sender": "participant1",
                "text": "Hi! Great!",
                "sender_class": "Human"
            },
            {
                "id": 2,
                "sender": "participant2",
                "text": "I am good thanks for asking are you currently in high school?",
                "sender_class": "Bot"
            }
        ],
        "bot_profile": [
            "my current goal is to run a k.",
            "when i grow up i want to be a physical therapist.",
            "i'm currently in high school.",
            "i make straight as in school.",
            "i won homecoming queen this year."
        ],
        "user_profile": [
            "my favorite color is red.",
            "i enjoy listening to classical music.",
            "i'm a christian.",
            "i can drive a tractor."
        ],
        "eval_score": 4,
        "profile_match": 1
    }

数据字段

  • dialog_id:指定对话的唯一ID。
  • dialog:对话的数组。
  • bot_profile:用于评估的机器人注释响应。
  • user_profile:用于评估的用户注释响应。
  • eval_score:(1、2、3、4、5)用户对对话的喜欢程度。缺失值用-1替代。
  • profile_match:(0、1)用户由两个个人资料描述(每个描述4个句子)组成,其中一个是给予它已经对话的机器人的描述,另一个是随机的描述;用户需要选择其中一个。缺失值用-1替代。

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集维护者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@article{DBLP:journals/corr/abs-1902-00098, author = {Emily Dinan and Varvara Logacheva and Valentin Malykh and Alexander H. Miller and Kurt Shuster and Jack Urbanek and Douwe Kiela and Arthur Szlam and Iulian Serban and Ryan Lowe and Shrimai Prabhumoye and Alan W. Black and Alexander I. Rudnicky and Jason Williams and Joelle Pineau and Mikhail S. Burtsev and Jason Weston}, title = {The Second Conversational Intelligence Challenge (ConvAI2)}, journal = {CoRR}, volume = {abs/1902.00098}, year = {2019}, url = { http://arxiv.org/abs/1902.00098} , archivePrefix = {arXiv}, eprint = {1902.00098}, timestamp = {Wed, 07 Oct 2020 11:09:41 +0200}, biburl = { https://dblp.org/rec/journals/corr/abs-1902-00098.bib} , bibsource = {dblp computer science bibliography, https://dblp.org} }

贡献者

感谢 @rkc007 添加了此数据集。